[데이터 전처리] 분포 통계량

Bpius·2023년 10월 6일
0

데이터 EDA & 전처리

목록 보기
12/46
post-thumbnail

백분위수 / 사분위수

해당 분위의 값이 무엇인지 계산한다.
다음과 같은 값이 있을 때
넘파이를 활용하여 백분위수는 np.percentile()로 사분위수는 np.quantile()로 확인할 수 있다. 이름만 다를 뿐 사실상 같은 형식으로 계산한다.

왜도

왜도(skewness)는 분포의 비대칭도를 나타내는 통계량으로 데이터가 왼쪽으로 혹은 오른쪽으로 쏠려있는지 확인할 때 왜도를 계산한다.
다음과 같이 값이 분포되어 있다.
그레프로 나타내면 다음과 같은데
이 때 왜도를 계산하면 다음과 같다.
왼쪽으로 쏠렸을 경우에는 음수를 오른쪽으로 쏠렸을 때 양수를 나타낸다.

첨도

첨도(kurtosis)는 데이터의 분포가 얼마나 뾰족한지, 즉 첨도가 높을 수록 좁은 범위에 많은 값이 몰려있다고 할 수 있다.
다음과 같은 값이 분포되어 있다.

그래프로 나타내면 다음과 같고
첨도를 계산하면 다음과 같다.
데이터가 좁은 곳에 몰려있을 수록 양수의 값을 가진다.

profile
데이터 굽는 타자기

0개의 댓글

Powered by GraphCDN, the GraphQL CDN