💻이번 포스팅에서는 가설검정절차를 암기하는 것에서 벗어나 가설검정의 논리를 이해하고 검정에 관련된&헷갈리는 개념 정리 및 이를 바탕으로 성공적인 A/B테스트를 위해서는 어떤 점을 유의해야 하는지 정리해보았다!
EX)
1. 새로운 진통제를 개발하고 이 진통제의 지속시간을 측정하니 9시간이었다. 이 진통제의 지속시간이 기존 진통제의 지속시간 분포에서 나왔는지, 그렇지 않으면 기존 진통제와는 다른 분포에서 나왔는지(기존의 진통제보다는 지속시간이 긴지)를 검증하고 싶다.
2. 이 9시간이라는 지표가 평균이 5이고 표준편차가 2인 정규분포를 따르는 기존 진통제 분포에서 나왔다고 가정하자.
3. 이때 진통시간 9시간이 기존의 진통시간 분포인 N(5,2^2)에서 나왔을 확률을 계산할 수 있다.
4. 만약 이 확률이 우리가 기준으로 정한 확률보다 낮으면, 기존의 분포에서 이 자료가 관찰될 확률이 아주 낮으므로 기존 분포에서 나왔다는 가정을 기각한다. 즉, 새로운 진통제의 효과는 기존의 효과와는 다르다고 결론을 내릴 수 있다. 그렇지 않으면 결정을 유보한다.
α=유의수준=P(h0기각|H0이 참)
⭐유의수준=0.05의 의미
= 주어진 검정방법을 계속 시행했을 경우, 귀무가설이 참이라는 전제하에 5%정도 옳지 않다는 판단을 내리게 됨.
- 귀무가설이 참일 때 이를 기각할 확률= 차이가 없을 때 차이가 있다고 결정할 확률
= 표본을 추출해서 나온 검정통계량이 우연히 나타날 확률이 5%미만이다.
*우연에 의한 결과이다 = 유의한 차이가 없다
β=P(h0기각|H0 거짓)
검정력(power) = P(H0기각|H0거짓)=1-β
➡ 신뢰구간이 커질수록 유의수준(α) 낮아진다.
➡ 유의수준(α)을 낮게 설정할수록 귀무가설 기각이 어려워짐.
= probability-value의 줄임말. 어떤 사건이 우연히 발생할 확률을 의미.
p-value=P(Data|H0)=귀무가설이 참일 때 자료가 발생할 확률
= 귀무가설이 참이라는 전제 하에, 관찰된 검정통계량 값이 관찰될 확률
p-value >α 의미: 1종오류를 범할 가능성이 커졌다고 간주.
⭐ p-value<α 의 경우 기존 분포에서 이 자료가 관찰될 확률이 아주 낮음을 의미하므로 H0 기각
⭐"95% 신뢰수준에서 A조건의 클릭율이 B조건의 클릭율보다 유의미하게 높다"의미
≠A조건의 클릭율이 B조건의 클릭율보다 높을 확률이 95%
= A조건의 클릭율이 B조건의 클릭율과 차이가 없다고 가정했을 때 이 분포에서 극단적인 검정통계량이 관찰될 확률(p-value)은 5% 미만⭐ α가 p-value보다 커야 기각이었나? p-value보다 작아야 기각이었나?라고 헷갈린다면?
α가 무슨 의미였는지에 대한 개념을 다시 생각해보자. 가설검증의 전제는 모두 H0가 참이 전제였다. 이에 α는 H0가 참인데 기각해버릴 확률이었다.
⭐귀무가설(H0)과 대립가설(H1)의 원칙.
- 등호가 붙는 가설이 귀무가설이다. H0가 참이라는 가정하에 검정통계량 분포를 구하는 논리로 진행된다.
⭐귀무가설의 특징
- 효과없음, 차이없음의 의미를 내포하는 가설이다.
- 귀무가설은 분포에 대한 정의가 선행되어야 한다.
EX) A제품과 B제품의 만족도점수에 대한 유의미한 차이가 있을까? H0은 무조건 차이가 '없다'로 설정하는 것이 옳음.(선택 사항이 아님)
확률변수 X를 진통제의 지속시간이라고 정의하면 H0: X ~N(5,2^2)이지만
보통 검증하고자 하는 것은 평균에 대한 가설이므로
= P(Z>2)=0.02275
회원번호를 단순 홀/짝으로 나누어 실험집단을 구분한 것을 랜덤샘플링이라고 하기 어려운 이유
- 두 개의 추천알고리즘 중 어떤 것이 더 효과적인지 알아보려고할 때 홀수번호 고객의 여행목적이 '비즈니스'인 경우가 많고 짝수번호 고객의 여행목적이 '휴양'인 경우가 많았다면 이에 대한 결과를 신뢰할 수 있을까?
사회과학을 위한 고급통계학(김청택, 학지사)
그로스해킹(양승화)
이미지) 1종오류,2종오류,검증력