Node 04. Data transformation - 영국시장의 중고 자동차 가격 데이터 다루기 [프로젝트]

이하얀·2024년 11월 6일
0
post-thumbnail

🔗 프로젝트 링크

github.com/hayannn/AIFFEL_MAIN_QUEST/secondhandCarByUK.ipynb

Data Transformation 순서


  1. 데이터 불러오기


  2. 데이터를 합칠 기준 설정하기

  3. 데이터 표준화하기


  1. 데이터 병합하기

  1. 카테고리형 변수를 숫자 형태로 변환하기
  • One-Hot Encoding 적용

  1. 결측치 처리하기
  • Service history의 변수 결측치 : Unknown으로 채우기
  • 결측치 변수의 일정 개수에 대한 기준 선정하기
  • 상관관계 분석으로 결측치 기준 세워보기
  • 결측치 변수가 일정 개수 이상 포함된 데이터를 제거하기(기준은 결측치 행 개수를 살피며 결정)
    • (그 과정에서 결과적으로 결측치를 모두 Drop하는 결론을 내리게 된 과정이 있습니다.)

추가1. object형 데이터를 숫자형으로 데이터 타입 변경하기

추가2. 스케일링 전에, unique 값을 최소화할 수 있을까?

추가3. 이상치 파악하기


  1. 스케일링
  • 스케일링 기법을 결정한 이유에 대한 설명 포함

  1. 기존 데이터의 정보 70% 이상을 가지는 수준에서 최소한의 주성분 추출 (PCA)

  • 마지막 추가 실습 : 국가별 총 브랜드 개수, 상관관계가 높은 변수들이 있는지 확인

  1. 최종 데이터 csv로 저장
  • merged_df.csv
  • pca_df.csv
profile
언젠가 내 코드로 세상에 기여할 수 있도록, Data Science&BE 개발 기록 노트☘️

0개의 댓글

관련 채용 정보