seed 값을 42로 맞췄고, train과 test 데이터를 불러왔다. 그런 다음 필요없는 칼럼은 제거하였다.
여기서 feature_selection을 진행한 뒤에 필요없는 칼럼은 마저 제거해야 한다. 또는 PCA를 이용하여 차원 축소를 진행해야 한다. (p가 많기 때문에 시도할 가치가 있다.)
데이터 전처리는 라벨 인코딩을 진행하였다. class와 SNP_01 ~ SNP_15 모두 범주형 데이터에서 수치형 데이터로 변경하였다.
라벨 인코딩뿐 만 아니라 다른 전처리를 할 수 있을지 고민해보기.
랜덤 포레스트를 이용하여 모델을 학습하였다. 하이퍼 파라미터는 모두 기본으로 처리했다.
최신 모델과 가장 좋은 파라미터 찾아보기.
answer_submit.csv로 저장하였다. 이 파일을 계속 제출하면 된다.