Python Library - Pandas(4)

에이블·2022년 2월 14일
0

파이썬

목록 보기
16/20

본 게시물은 코드프레소의 code.PRESS-UP 체험단 과정을 담은 게시물입니다.

해당 게시물 수강강좌 :

파이썬으로 배우는 데이터 분석 : Pandas

Pandas 라이브러리로 데이터 분석 시작하기

https://www.codepresso.kr/course/56

이번 포스팅에서는 결측치에 대해서 알아보고
Pandas에서는 결측치를 어떻게 처리하고 할 수 있는지에 대해 알아보겠습니다.

1. 결측치란?

Not Available, 결측치라고 하여 값이 표기되지 않는 값을 의미한다.
Missing data 누락값이라고도 이야기를 한다.

Pandas에서는 NaN이라고 많이 표기되며 그외에 Null, None, Na 등 다양하게 표현됨

2. 왜 발생하는가?

데이터 측정과 관리도 결국 사람이 하는 일이다 보니 사건사고가 발생하기 마련이다.

📌 데이터 입력 중 실수로 값을 입력하지 않는경우, 데이터 누락
📌 값을 어떤 이유로든 관찰되지 못한 경우
📌 해당 항목에 적절한 값이 없어 입력되지 않은 경우
📌 데이터를 수집하는데 있어 잘못된 수집값이 기록된 경우

등 등 많은 원인으로 인해 결측값이 발생한다.

Pandas를 다루면서는 데이터 분석을 위한 데이터의 가공시에 결측값이 발생한다.

결측치는 언제 어디서는 생성될 수 있으므로 결측치를 처리하는 방법이 중요하다.
즉, 데이터의 손실을 최소화하는 방향으로 결측치 처리가 필요하다.

3. 결측값 처리 방법

📌 결측값 전체 삭제(List-wise deletion)
결측 값이 하나 이상 포함된 데이터를 모두 제거하는 방법

📌 단일 값 삭제(Pairwise deletion)

📌 단순 대체법(Simple imputation)
해당 변수의 나머지 값들의 대표값(mean, median, mode)으로 대체

📌 예측값 대체법(Predictive Imputation)
통계, 머신러닝 등을 활용한 예측 모델 기반으로 도출한 예측값으로 대체

4. Summary

🏸 데이터 전처리 단계 중 데이터 정제 단계에 해당
🏸 결측치를 무작정 삭제하거나, 임의의 값으로 변경해선 안된다.

  • 데이터가 편향되거나
  • 데이터의 개수가 분석 불가 수준으로 작아지거나

🏸 가능한 결측치 발생 원인을 분석하고 그에 따른 적절한 결측치 처리 기법 선택 필요

결측치란 개념을 두루뭉실하게 알고 있었는데
이번 코드프레소 강의를 통해 확실하게 알게 되었습니다.

다음 포스팅은 결측치를 어떻게 다루는지 자세하게 알아보는 포스팅이 될 것 입니다.
코드프레소 강의를 통해 자세하게 알아봅시다.

profile
꺾이지 않는 마음

0개의 댓글