ML (2) - 학습 전 데이터를 나누는 이유, X_train, X_test, Y_train, Y_test

govldbstj·2023년 2월 14일

ML 궁금한 것!

목록 보기

2/2

데이터의 종류 3가지 : train, validation, test

train, validation 데이터를 이용해 학습을 시킨다. (train.csv)
학습을 시키는 중간중간에도 중간 평가를 해야하는데, 이때 평가를 하기 위한 것이 validation data
학습이 완료된 모델에 처음보는 test 데이터를 넣어 성능을 평가한다. (test.csv)
x와 y가 뭘까.
x는 feature, 특징, 독립변수, 예측 대상을 나타내는 특징들
y는 label, 종속변수, 예측 대상!!!!!!
-> y = ax+b, 여러 x에 의해 y가 정해진다.
train.csv를 적절히 train, validation data 로 나누어야 한다.
이때, scikit learn에서 제공하는 train_test_split 메소드를 사용해서 나누면,
X_train, X_test, Y_train, Y_test가 리턴된다.

X_train, X_test, y_train, y_test = train_test_split(
...     X, y, test_size=0.33, random_state=42)

-> x_train, x_test는 예측대상을 제외하고 학습에 적용되는 칼럼만 모아진 집합, y_train, y_test는 예측 대상에 해당하는 칼럼!!
-> train은 train data, test는 validation data.

ajou software 20