[NLP] 텍스트 전처리 - (9) 데이터의 분리(Splitting Data)

김규리·2022년 6월 22일

NLP

목록 보기

9/33

1. X와 y분리하기

sequences = [['a', 1], ['b', 2], ['c', 3]]
X, y = zip(*sequences)

print('X 데이터 :',X)
print('y 데이터 :',y)
X 데이터 : ('a', 'b', 'c')
y 데이터 : (1, 2, 3)

X = np_array[:, :3]
y = np_array[:,3]

2. 테스트 데이터 분리하기

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size= 0.2, random_state=1234)

num_of_train = int(len(X) * 0.8) # 데이터의 전체 길이의 80%에 해당하는 길이값을 구한다.
num_of_test = int(len(X) - num_of_train) # 전체 길이에서 80%에 해당하는 길이를 뺀다.

connecting the dots