Data Preprocessing

concept·2022년 6월 20일
0

Data handling

목록 보기
1/3
post-thumbnail

현실 데이터는 분석 목적에 맞게 정리되어 있지 않아, 데이터 분석 기법을 그대로 적용하기 어려움

  • 노이즈, 결측치, 파편화
  • 파일명, 폴더 등이 정리되어 있지 않거나
  • 시간 정렬이 되어 있지 않는 경우
  • 불필요한 값이 너무 많은 등

데이터 전처리는 왜 중요할까?

전체 분석 시간의 80%를 데이터 전처리에 사용, 전처리 역량이 분석 시간을 줄이는데 가장 중요

전처리 효과

  1. 효율적인 분석
  2. 불필요한 정보를 제거함으로써 인사이트 얻는데 도움
  3. 머신러닝 모델 성능 향상

데이터 전처리를 잘하려면?

  1. 경험
    가장 확실한 방법은 좋은 경험을 많이 쌓는 것
    대다수의 경험은 "이런 방법을 쓰니까 시간만 날리더라. 다른 방법이 제일 좋았다."라는 레퍼런스
  2. 결과를 생각
    전처리의 결과인 전처리된 데이터의 구조를 미리 생각해야 불필요한 피드백 루프를 막을 수 있음
  3. 처리 과정을 생각
    원 데이터를 결과 데이터로 바꾸기 위한 과정을 단계별로 정의해야 함
    예) 물품 목록 가져오기 - 회원별 구매 물품 사전화 - 회원별 구매 물품 벡터화
  4. 검색 능력 쌓기
    구글링!

[source]
https://blog.ldodds.com/2020/01/31/do-data-scientists-spend-80-of-their-time-cleaning-data-turns-out-no/
https://medium.datadriveninvestor.com/data-preprocessing-3cd01eefd438
https://data-flair.training/blogs/python-ml-data-preprocessing/

0개의 댓글