왜 이 질문에 대해선 고민한 적이 없을까? 그냥 데이터 대충 분포보려고 시각화 찍는다 정도만 알고 있었는데, 사실상 EDA 이전에는 통계적 검정 방식도 있고 여러개가 있는데 왜 나왔을까?에 대해서 알았다면 더 유용하게 사용하지 않았을까 생각이든다 (지금 실무하면서 드는 생각!!)
기존의 통계학이 정보의 추출에서 가설 검정 등에 치우쳐 자료가 가지고 있는 본연의 의미를 찾는데 어려움이 있어, 이를 보완하고자 주어진 자료만 가지고도 충분히 정보를 찾을 수 있도록 여러 가지 탐색적 자료 분석 방법이 개발되었다! (위키백과 출처)
따라서, 탐색적 자료 분석(EDA)을 통해 자료에 대한 충분한 이해를 한 후에 모형 적합 등의 좀 더 정교한 모형을 개발할 수 있다!
통계적으로 접근해서 가설 검정하고 하는 시간보다, 탐색적으로 자료를 분석함으로써 자료를 충분히 이해하고 본연의 의미를 찾을 수 있다면 얼마나 좋은 방법인가!
자료 본연의 의미를 파악하기 위함 !
편향적 의견이 개입되지 않은 자료의 순수한 의미...?
missing = df.isnull().sum()
missing = missing[missing > 0]
missing.sort_values(inplace=True)
missing.plot.bar(figsize = (12,6))
------------------------------------------------------------
- 위의 자료형 형태
# Series = Series[Series > 0]
# Series.sort_values(inplace = True)
# Series.plot.bar(figure = (12,6))
- Series를 이용해 Series 조건을 적용해서 Filtering 가능
- Series의 정렬은 Sort_values 사용
- Series.plot.bar ~ 시각화
Dictionary와 거의 똑같음
- Key, Value 로 구성 → Index, Values로 구분 !