cf) 동질적 연관성 (homogeneous association)
분할표의 조건부 독립성 검정에 CMH를 활용한다.
귀무가설은 조건부 독립을 가정한다. 즉, Z가 1~K일 때 모든 오즈비가 1로 동일하다는 것을 귀무가설로 정의한다.
대립가설은 최소 1개의 오즈비는 1이 아닐 것으로 정의한다.
Z가 1~K일 때 모든 오즈비가 1로 동일하다는 귀무가설 하에서, 첫 번째 셀들은 초기하분포를 따른다.
좌측의 그림과 수식으로 기댓값과 분산의 계산 형태를 쉽게 이해할 수 있다.
Z가 1~K일 때 모든 오즈비가 1로 동일하다는 귀무가설 하에서, CMH 검정통계량은 다음과 같이 계산된다.
이때, 분자는 각 셀별로 관측빈도에서 기대빈도를 뺀 값들의 합이다.
CMH 검정통계량은 표준정규분포를 따른다. 또한, 정규분포의 제곱이 카이제곱분포를 따른다는 법칙에 의해 도 카이제곱 분포를 따른다.
✅ CMH 검정통계량 특징
- 의 부호가 모든 k에 대해 비슷하면 검정통계량이 증가한다. 즉, Z 수준에 따른 각 분할표의 첫 번째 셀의 값과 그 기댓값의 차이의 부호가 모든 분할표에 대해 비슷할 경우를 의미한다.
- 전체 표본수(n)이 크면 CMH 검정통계량은 정규 근사가 가능하다.
- 주변합 중 0인 부분이 있다면 해당 Z=k 분할표는는 CMH 통계량에 반영되지 않는다.
- 오즈비 개념을 사용하기 때문에 전향적, 후향적 연구에 모두 활용할 수 있다.
cf)
앞에서 CMH 방법을 활용해 조건부 독립성에 대한 검정을 진행했다.
부분 분할표에서 모든 오즈비가 1로 동일하다는 조건부 독립성을 만족하지는 못하더라도 오즈비가 유사할 것으로 생각되는 경우 "공통 오즈비 추정" 을 시도해볼 수 있다.
나이브 추정량은 부분 분할표 간 정보의 크기를 반영하지 못한다.
예를 들어, 뉴욕 인구가 텍사스의 2배이므로 0.25라는 추정값은 적절하지 못하다.
백인의 수에 추정값이 끌려갈 수 있기 때문이다.
부분 분할표 간 정보의 크기를 가중평균 개념을 활용해 보정한 추정량이다.
공통 오즈비 추정량을 일반적인 "평균"처럼 계산했을 때, 실제로는 가중치 를 으로 사용한 경우이다.
피의자 인종과 사형 선고 예시에 대해 나이브 추정량과 멘텔 헨젤 추정량을 계산하면 다음과 같다.
이렇게 조건부 독립성을 만족하지 못하지만 유사한 오즈비를 가질 것으로 예상되는 분할표에 대해 공통 오즈비 즉, MH 추정량을 구했다.
이때, 동질적 연관성을 통계적 검정으로 가정할 수 있다면 MH 추정량의 활용도가 더 높다.
에 대한 분할표가 있을 때, 동질적 연관성은 Z 수준에 관계없이 오즈비가 동일한 것을 의미한다.
모든 오즈비가 1로 동일하다는 조건부 독립성 검정에서 을 기각했더라도 모든 오즈비가 동일하다는 조건만 검정하는 "동질적 연관성" 검정이 필요하다.
(동질적 연관성은 조건부 독립성의 완화된 조건이다.)
참고)
# conf.level = default is 0.95
cmh <- mantelhaen.test(penalty, correct = FALSE, conf.level = 0.95)
cmh # Reject H0
## Mantel-Haenszel chi-squared test without continuity correction
##
## data: penalty
## Mantel-Haenszel X-squared = 5.7959, df = 1, p-value = 0.01606
## alternative hypothesis: true common odds ratio is not equal to 1
## 95 percent confidence interval:
## 0.1991173 0.8519141
## sample estimates:
## common odds ratio
## 0.4118627
cmh$p.value
## [1] 0.01606399
cmh$estimate
## common odds ratio
## 0.4118627
cmh$conf.int
## [1] 0.1991173 0.8519141
## attr(,"conf.level")
## [1] 0.95
95% 신뢰구간에 따라 백인이 사형 선고를 받을 오즈비가 0.2~0.85 사이에 위치하고 1미만이므로, 흑인이 사형 선고를 받을 가능성이 더 크다는 것을 의미한다.
mantelhaen.test(penalty, correct = FALSE, alternative = "less")
## Mantel-Haenszel chi-squared test without continuity correction
##
## data: penalty
## Mantel-Haenszel X-squared = 5.7959, df = 1, p-value = 0.008032
## alternative hypothesis: true common odds ratio is less than 1
## 95 percent confidence interval:
## 0.0000000 0.7579643
## sample estimates:
## common odds ratio
## 0.4118627
library(DescTools)
(bd <- BreslowDayTest(penalty))
##
## Breslow-Day test on Homogeneity of Odds Ratios
##
## data: penalty
## X-squared = 0.20376, df = 1, p-value = 0.6517
bd$p.value # 동질적 연관성 가정 가능
## [1] 0.6517023
df=1은 자유도를 의미하고 k=2이므로 2-1이 자유도가 된다.
p-value가 0.65로 유의수준보다 크기 때문에 대립가설을 기각한다. 즉, 모든 오즈비가 동일하다는 귀무가설을 기각하지 않게 되고, 동질적 연관성을 가정할 수 있게 된다.
💡 질문과 피드백은 댓글에 남겨주시기 바랍니다.
❤️ 도움이 되셨다면 공감 부탁드립니다.