post-thumbnail

Data Preprocessing

현실 데이터는 분석 목적에 맞게 정리되어 있지 않아, 데이터 분석 기법을 그대로 적용하기 어려움 노이즈, 결측치, 파편화 파일명, 폴더 등이 정리되어 있지 않거나 시간 정렬이 되어 있지 않는 경우 불필요한 값이 너무 많은 등 데이터 전처리는 왜 중요할까? 전체 분석 시간의 80%를 데이터 전처리에 사용, 전처리 역량이 분석 시간을 줄이는데 가장 중요 전처리 효과 효율적인 분석 불필요한 정보를 제거함으로써 인사이트 얻는데 도움 머신러닝 모델 성능 향상 데이터 전처리를 잘하려면? 경험 가장 확실한 방법은 좋은 경험을 많이 쌓는 것 대다수의 경험은 "이런 방법을 쓰니까 시간만 날리더라. 다른 방법이 제일 좋았다."라는 레퍼런스 결과를 생각 전처리의 결과인 전처리된 데이터의 구조를 미리 생각해야 불필요한 피드백 루프를 막을 수 있음 처리 과정을

2022년 6월 20일
·
0개의 댓글
·