[Pandas] 결측치 비율 확인

최지영·2022년 6월 15일
0

###📌 Pandas 를 이용한 결측치 비율 확인하기

1.컬럼별 결측치 확인


df.isnull().sum()

👀 2.결측치 비율 확인


missing_num = dataset.isnull().sum().sort_values(ascending=False)
missing_percentage = missing_num / dataset.shape[0]
missing_info = pd.concat([missing_num,missing_percentage],axis=1,keys=['missing_number','missing_percentage'])
missing_info

👀 3. 그래프로 확인


import missingno as msno
import matplotlib.pyplot as plt

plt.figure(figsize=(5,5))
msno.matrix(df)
plt.show()

  • 결측치 처리 방법
  1. 해당 튜플 무시
    – 주로 분류 문제에서 클래스 구분 라벨이 빠진 경우
    – 결측치가 자주 발생하는 환경에서는 비효율적
  1. 기준에 따라 자동으로 채우기
    – 결측치에 대한 값을 별도로 정의: 예) "unknown“
    – 통계: 전체 평균값, 같은 클래스에 속한 데이터의 평균값
    – 추정: 베이지안 확률 추론, 결정 트리
  1. 전문가가 직접 값을 채우기
    – 가장 신뢰성 있으나 시간과 노력 크게 소모
    – 비효율적

0개의 댓글