EDA를 하는 방법은 크게
주피터 노트북에서 df.info(), df.descrieb(), df.isnull() 등으로 한땀한땀 코드를 입력하면서 확인하거나 때로는 태블로에 띄워서 요리조리 확인했었다.
그런데 이에 대한 절충안을 해줄 패키지를 찾았다 +_+
바로 ydata-profiling!!
# Step 1: 패키지 설치
# !pip install ydata-profiling
# Step 2: 샘플 데이터 로드
import pandas as pd
from sklearn.datasets import load_iris
# Iris 데이터 로드
iris = load_iris()
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target
# Step 3: ydata-profiling을 사용한 데이터 프로파일링
from ydata_profiling import ProfileReport
# 데이터 프로파일링 리포트 생성
profile = ProfileReport(df, title="Iris Dataset Profiling Report")
# 리포트를 주피터 노트북에서 직접 표시
profile.to_notebook_iframe()
중복값, NULL값, 메모리, 데이터타입, 컬럼별 상세 EDA,상관관계까지 분석 가능하다.
More detail 클릭하면 기술통계정보도 제공한다.