[Dacon] 유전체 정보 품종 분류 AI 경진대회 Feature Selection

Tino-Kim·2023년 1월 1일
0
post-thumbnail

[Dacon] 유전체 정보 품종 분류 AI 경진대회 Feature Selection

1. corr를 이용한 상관관계 기반 Feature Selection

corr를 이용하여 heatmap을 그린 다음 class와의 상관계수가 0.5 미만인 feature는 모두 지워버렸다. 9개의 칼럼으로 모델을 학습하고 예측해보니 0.92라는 결과가 나왔다. 성능이 저하되었다.

2. 불순물 평균 감소 기반 Feature Selection

그래서 다른 Feature Selection을 찾아보기 위하여 구글링을 하였다.

Sklearn에 랜덤포레스트에서 Feature Selection을 하는 방법이 2가지가 있다. 하나는 불순물 평균 감소 기반의 Feature Selection이고 다른 하나는 기능 순열에 기반한 Feature Selection이다.

불순물 평균 감소 기반의 방식을 이용하여 그래프를 그려보니 다음과 같은 결과가 나왔다.

시도 1. [ 정확도 ] trait ~ SNP_01 까지 사용한 경우 < 모든 Feature 사용한 경우
시도 2. [ 정확도 ] trait ~ SNP_09 까지 사용한 경우 < 모든 Feature 사용한 경우
시도 3. [ 정확도 ] trait ~ SNP_04 까지 사용한 경우 << 모든 Feature 사용한 경우 (이 경우는 위의 2가지 경우보다 확실히 낮아졌다.)

세 가지 시도를 하였으나 16개의 Feature를 사용하는 경우보다 모두 낮았다.

2. 기능 순열 기반 Feature Selection

이러한 그래프가 나왔다. SNP_02 까지 모델을 돌려보고 정확도가 오르지 않는다면 EDA는 잠시 중단하고 모델링 부분을 시도해볼 생각이다.

Feature Selection에 성공하였다. SNP_01 ~ SNP_02 까지 선택하여 모델을 돌려보니, 0.97로 성능이 상승하였다.

profile
알고리즘과 데이터 과학과 웹 개발을 공부하는 대학생

0개의 댓글