조화 평균
- 분자가 동일한 두 비율이 평균
평균
np.mean(titanic['Fare'])
titanic['Fare'].mean()
중앙값
np.median(titanic['Fare'])
titanic['Fare'].median()
최빈값
titanic['Pclass'].mode()
기초 통계량은 -> describe()
box plot : 사분위수
histogram : 도수분포표
plt.hist(titanic.Fare , bins = 30 , edgecolor = 'gray')
plt.xlabel('Fare')
plt.ylabel('Frequency')
plt.show()
seaborn 의 histogram
sns.histplot(x= 'Fare', data = titanic, bins = 20)
plt.show()
sns.kedplot(titanic['Fare'])
plt.show()
사전에 반드시 NaN 을 제외
vert 옵션 : 횡(False) , 종 (True)
박스 플롯은 box 와 whisker (수염) 으로 구성되어있다.
box는 = 4분위수를 나타낸다.
양 끝에 맨 처음은 min 맨 끝값이 max 이다.
IQR
3사분위수 - 1사분위수 사이 범위를 IQR 이라고 부른다.
1.5 *IQR
- 1.5를 곱한 값의 길이에서 양쪽 수염의 길이를 측정 할수 있다
- 1.5 * IQR 안에서 가장 작은값과 가장 큰값이 수염의 길이이다.
- 수염 밖에 데이터 가 있다면 -> 이상치 라고 한다.
plt.boxplot(temp['Age']) # vert 기본이 True
plt.grid()
plt.show()
plt.boxplot(temp['Age'] , vert = False) # 가로로 누워서 그려라 vert = False
plt.grid()
plt.show()
sns.boxplot(x = titanic['Age'])
plt.grid()
plt.show()
sns.boxplot(y = titanic['Age'])
plt.grid()
plt.show()