- t-test
- x 범주가 2개일 경우 사용하며, 각 범주의 평균 값 차이를 비교한다.
- t 통계량의 절대값이 2보다 큰 경우, 차이가 있다고 판단한다.
- p-value < 0.05인 경우 차이가 있다고 판단한다.
- t 통계량은 두 평균의 차이를 표준오차로 나눈 값
titanic['Age'].value_counts(dropna=False)
temp = titanic.loc[titanic['Age'].notnull()]
died = temp.loc[temp['Survived']==0, 'Age']
survived = temp.loc[temp['Survived']==1, 'Age']
spst.ttest_ind(died, survived)
<출력>
Ttest_indResult(statistic=2.06668694625381, pvalue=0.03912465401348249)
- ANOVA
- x 범주가 3개이상일 경우 사용하며, 전체 평균과 각 범주의 평균 값을 비교한다.
- f 통계량의 값이 대략 3이상인 경우, 차이가 있다고 판단한다.
- p-value < 0.05인 경우 차이가 있다고 판단한다.
- f 통계량 = 집단 간 분산 / 집단 내 분산
- 분산 : 평균과 개별 값의 차이
temp = titanic.loc[titanic['Age'].notnull()]
P_1 = temp.loc[temp.Pclass == 1, 'Age']
P_2 = temp.loc[temp.Pclass == 2, 'Age']
P_3 = temp.loc[temp.Pclass == 3, 'Age']
spst.f_oneway(P_1, P_2, P_3)
<출력>
F_onewayResult(statistic=57.443484340676214, pvalue=7.487984171959904e-24)