9. missing

권나영·2020년 11월 4일

seaborn 데이터세트 가져오기

import seaborn as sns

# titanic dataset 불러오기
df = sns.load_dataset('titanic')
df

'

info()

요약 정보 출력

누락 데이터의 개수 구하기

  1. value_counts(dropna=False)
  • dropna=False : 누락데이터 포함 옵션
  1. isnull()
    누락데이터면 True 반환, 유효한 데이터면 False 반환

isnull().sum(axis=0)


axis=0이 결국 행방향의 합 = 각 열의 합을 의미함.
➡ 누락 데이터 개수의 총 합을 알 수 있음

누락 데이터가 많은 행이나 열제거

평균값으로 누락 데이터 대체

fillna로 누락 데이터 모두 평균값으로 대체

mean_age = df['age'].mean() # age의 평균값

df['age'].fillna(mean_age, inplace=True)
df['age'].head(20) # 앞 20개만 보여주기
profile
나영

0개의 댓글