[Dacon] 유전체 정보 품종 분류 AI 경진대회 베이스 라인 공부

Tino-Kim·2022년 12월 25일

1. 데이터 가져오기.

seed 값을 42로 맞췄고, train과 test 데이터를 불러왔다. 그런 다음 필요없는 칼럼은 제거하였다.

여기서 feature_selection을 진행한 뒤에 필요없는 칼럼은 마저 제거해야 한다. 또는 PCA를 이용하여 차원 축소를 진행해야 한다. (p가 많기 때문에 시도할 가치가 있다.)

데이터 전처리는 라벨 인코딩을 진행하였다. class와 SNP_01 ~ SNP_15 모두 범주형 데이터에서 수치형 데이터로 변경하였다.

라벨 인코딩뿐 만 아니라 다른 전처리를 할 수 있을지 고민해보기.

랜덤 포레스트를 이용하여 모델을 학습하였다. 하이퍼 파라미터는 모두 기본으로 처리했다.

최신 모델과 가장 좋은 파라미터 찾아보기.

answer_submit.csv로 저장하였다. 이 파일을 계속 제출하면 된다.

알고리즘과 데이터 과학과 웹 개발을 공부하는 대학생