이번 포스팅에선 Missing Data, 즉 결측치를 다루는 법에 대해 알아볼 것이다.
결측치를 처리할 때 데이터마다의 특성을 반영해야하며,
결측치를 처리하는 방법은 크게 2가지가 있다.
isnull()
과 any()
를 써서 null값이 들어간 데이터를 추출할 수 있다.
DataFrame.isnull()
은 데이터마다 결측치 여부를 True, False로 반환.DataFrame.any(axis=1)
는 행마다 하나라도 True가 있으면 True,위 2개를 조합해서,
DataFrame.isnull().any(axis=1)
은 데이터 중 null값이 있는 데이터들만 추출한다.
df.isnull().any(axis=1)
len를 사용해서 결측치를 구하는 방법도 있다.
len(df) - df.count()
DataFrame의 dropna
는 결측치를 삭제한다.
subset
: 특정 컬럼들을 선택한다.how
all
: 선택한 컬럼 전부가 결측치인 행을 삭제한다.any
: 하나라도 결측치인 경우inplace
: 작업한 데이터를 내부에 다시 적용한다.df.dropna(how='all', subset=["지출금액", "수출금액"], inplace=True)