✨ EDA(탐색적 자료 분석)는 왜 할까?

왜 이 질문에 대해선 고민한 적이 없을까? 그냥 데이터 대충 분포보려고 시각화 찍는다 정도만 알고 있었는데, 사실상 EDA 이전에는 통계적 검정 방식도 있고 여러개가 있는데 왜 나왔을까?에 대해서 알았다면 더 유용하게 사용하지 않았을까 생각이든다 (지금 실무하면서 드는 생각!!)

  • EDA는 왜 탄생하였는가?

기존의 통계학이 정보의 추출에서 가설 검정 등에 치우쳐 자료가 가지고 있는 본연의 의미를 찾는데 어려움이 있어, 이를 보완하고자 주어진 자료만 가지고도 충분히 정보를 찾을 수 있도록 여러 가지 탐색적 자료 분석 방법이 개발되었다! (위키백과 출처)

따라서, 탐색적 자료 분석(EDA)을 통해 자료에 대한 충분한 이해를 한 후에 모형 적합 등의 좀 더 정교한 모형을 개발할 수 있다!

통계적으로 접근해서 가설 검정하고 하는 시간보다, 탐색적으로 자료를 분석함으로써 자료를 충분히 이해하고 본연의 의미를 찾을 수 있다면 얼마나 좋은 방법인가!

  • 핵심

자료 본연의 의미를 파악하기 위함 !

  • 본연의 의미란?

편향적 의견이 개입되지 않은 자료의 순수한 의미...?

✅ 결측치 처리 EDA

missing = df.isnull().sum()
missing = missing[missing > 0]
missing.sort_values(inplace=True)
missing.plot.bar(figsize = (12,6))

------------------------------------------------------------
- 위의 자료형 형태
# Series = Series[Series > 0]
# Series.sort_values(inplace = True)
# Series.plot.bar(figure = (12,6))
  1. Series를 이용해 Series 조건을 적용해서 Filtering 가능
  2. Series의 정렬은 Sort_values 사용
  3. Series.plot.bar ~ 시각화

🌟 Series 자료 구조 공부

profile
장난감이 데이터인 사람

0개의 댓글