이 페이지에 앞으로 통계를 공부하는데 필요한 검정의 기초지식들을 간단하게 정리해보고자 한다.
단측 대립가설: 관련성을 검정할 때, 방향이 미리 어느 한쪽으로 결정되어 있는 경우
양측 대립가설: "차이가 존재하는가?"라는 면에서만 확인하고, 방향성은 고려하지 않음
유의확률: 실제로는 차이가 없는데 '우연히 집단간의 차이가 있는 데이터가 추출되었을 확률'
유의확률 판단기준?
t-검정: 관찰대상 전체에 해당하는 모집단의 관측값을 수집하는것은 거의 불가능하므로 표본을 추출 후, 표본의 평균을 이용해 모집단간 차이를 검정
비교대상이 같은 집단: 대응 이표본 t-검정
비교대상이 다른 집단: 독립 이표본 t-검정
하나의 모집단에서 추출한 표본으로 모수 추정: 일표본 t-검정
우선적으로 t-검정은 두 모집단은 정규분포를 따른다는 전제하에 진행됩니다. 만약 이 가정을 만족하지 못하는 경우에는, Mann-Whitney 검정, Wilcoxon 검정 등을 사용합니다.
예시를 통해 전체 과정을 한번 살펴보자.
사례)신약 효과 판정하기(유의수준 0.05에서 검정)
우선 귀무가설, 대립가설을 세웁니다.
귀무가설: 신약은 효과가 없다.
대립가설: 신약은 효과가 있다.
그리고 어떤 계산을 통해 p-value=0.02가 나왔다고 칩니다. 이 말은 신약을 먹지 않은 사람들 중에 2%는 약을 먹은 효과가 나왔다고 할 수 있습니다. 즉, 약을 복용하지 않아도 관찰할 수 있는 자연스러운 효과라고 보기 어려우므로 희귀 케이스로 분류할 수 있으며, 신약은 효과가 있다고 볼 수 있습니다.
결론적으로 p-value=0.2 < 0.5보다 작으므로 대립가설을 채택합니다.
분산분석(ANOVA): 집단간 차이를 검정하는데 표본의 분산을 활용하는 검정
분산분석은 주로 f-value(분산의 비)를 활용하여 구하는데 식은 아래와 같다.
=
집단내분산이 작으면 각 집단의 값이 퍼짐없이 뭉쳐있다고 볼 수 있고, 집단간 분산이 크면 각 집단들이 멀리 떨어져 있다고 볼 수 있습니다. 즉 f-value가 클수록 집단간의 차이를 관찰하기 용이합니다.
1종오류: 귀무가설을 채택해야 하는데 기각한 경우
2종오류: 대립가설을 채택해야 하는데 기각한 경우