[NLP] 텍스트 전처리 - (9) 데이터의 분리(Splitting Data)

김규리·2022년 6월 22일
0

NLP

목록 보기
9/33
post-thumbnail

1. X와 y분리하기

1) zip 함수를 이용하여 분리하기

  • zip(): 동일한 개수를 가지는 시퀀스 자료형에서 각 순서에 등장하는 원소들끼리 묶어주는 역할
sequences = [['a', 1], ['b', 2], ['c', 3]]
X, y = zip(*sequences)

print('X 데이터 :',X)
print('y 데이터 :',y)
X 데이터 : ('a', 'b', 'c')
y 데이터 : (1, 2, 3)

2) 데이터프레임을 이용하여 분리하기

3) Numpy를 이용하여 분리하기

X = np_array[:, :3]
y = np_array[:,3]

2. 테스트 데이터 분리하기

1) 사이킷 런을 이용하여 분리하기

  • train_test_split()
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size= 0.2, random_state=1234)

2) 수동으로 분리하기

num_of_train = int(len(X) * 0.8) # 데이터의 전체 길이의 80%에 해당하는 길이값을 구한다.
num_of_test = int(len(X) - num_of_train) # 전체 길이에서 80%에 해당하는 길이를 뺀다.
profile
connecting the dots

0개의 댓글