데이터 전처리_오버 샘플링

은영·2023년 2월 23일

LG AImers 2기

목록 보기

8/10

LG Aimers 해커톤을 준비할 때 사용한 train데이터가 이게 실제 공정에서 사용된 데이터이다 보니 품질에 적합한 데이터가 훨씬 많고 품질에 부적합한 데이터가 비교적 적게 분포되어있었다. 즉 레이블 분포가 불균형했던 것. 이를 해결할 수 있는 방법을 찾아보다가 알게 된 방식이 바로 오버 샘플링이었다.

오버 샘플링은?

: 낮은 비율을 가진 클래스 데이터 수를 늘려 불균형을 해소하는 아이디어

출처:https://hwi-doc.tistory.com/entry/%EC%96%B8%EB%8D%94-%EC%83%98%ED%94%8C%EB%A7%81Undersampling%EA%B3%BC-%EC%98%A4%EB%B2%84-%EC%83%98%ED%94%8C%EB%A7%81Oversampling

이렇게 데이터 수를 늘리는 거에도 KNN 알고리즘이 활용되어 부족한 데이터를 늘릴 수 있다.

파이썬에서는 SMOTE 패키지를 이용해 사용할 수 있다.

활용 예시 코드 : https://github.com/azzbc7819/test_igaimers/blob/develop/XGBoost_sample.ipynb

은영

이전 포스트

LG AImers 2기 7일차

다음 포스트

데이터 전처리_오버 샘플링

LG AImers 2기

오버 샘플링은?

LG AImers 2기 7일차

머신러닝 모델_랜덤 포레스트

0개의 댓글