🔗 프로젝트 링크
github.com/hayannn/AIFFEL_MAIN_QUEST/secondhandCarByUK.ipynb
-
데이터 불러오기
-
데이터를 합칠 기준 설정하기
-
데이터 표준화하기
- 데이터 병합하기
- 카테고리형 변수를 숫자 형태로 변환하기
- 결측치 처리하기
Service history
의 변수 결측치 : Unknown으로 채우기
- 결측치 변수의 일정 개수에 대한 기준 선정하기
- 상관관계 분석으로 결측치 기준 세워보기
- 결측치 변수가 일정 개수 이상 포함된 데이터를 제거하기(기준은 결측치 행 개수를 살피며 결정)
- (그 과정에서 결과적으로 결측치를 모두 Drop하는 결론을 내리게 된 과정이 있습니다.)
추가1. object형 데이터를 숫자형으로 데이터 타입 변경하기
추가2. 스케일링 전에, unique 값을 최소화할 수 있을까?
추가3. 이상치 파악하기
- 스케일링
- 스케일링 기법을 결정한 이유에 대한 설명 포함
- 기존 데이터의 정보 70% 이상을 가지는 수준에서 최소한의 주성분 추출 (PCA)
- 마지막 추가 실습 : 국가별 총 브랜드 개수, 상관관계가 높은 변수들이 있는지 확인
- 최종 데이터 csv로 저장