[Dacon] 유전체 정보 품종 분류 AI 경진대회 베이스 라인 공부

Tino-Kim·2022년 12월 25일
0
post-thumbnail

[Dacon] 유전체 정보 품종 분류 AI 경진대회 베이스 라인 공부

1. 데이터 가져오기.

seed 값을 42로 맞췄고, train과 test 데이터를 불러왔다. 그런 다음 필요없는 칼럼은 제거하였다.

  • train_x : id, class, 'mother', 'father', 'gender' 제거한다.
  • train_y : class 제거한다.
  • test_x : id, 'mother', 'father', 'gender' 제거한다.

여기서 feature_selection을 진행한 뒤에 필요없는 칼럼은 마저 제거해야 한다. 또는 PCA를 이용하여 차원 축소를 진행해야 한다. (p가 많기 때문에 시도할 가치가 있다.)

2. 데이터 전처리하기.

데이터 전처리는 라벨 인코딩을 진행하였다. class와 SNP_01 ~ SNP_15 모두 범주형 데이터에서 수치형 데이터로 변경하였다.

라벨 인코딩뿐 만 아니라 다른 전처리를 할 수 있을지 고민해보기.

3. 모델 학습하기.

랜덤 포레스트를 이용하여 모델을 학습하였다. 하이퍼 파라미터는 모두 기본으로 처리했다.

최신 모델과 가장 좋은 파라미터 찾아보기.

4. 모델 예측 후 예측을 csv 파일로 저장하기.

answer_submit.csv로 저장하였다. 이 파일을 계속 제출하면 된다.

profile
알고리즘과 데이터 과학과 웹 개발을 공부하는 대학생

0개의 댓글