1. 분산분석의 기본 개념
t검증과 분산분석
- t검증은 "두 집단의 평균이 같은가?"를 판단할 수 있었음.
- 그런데 만약 집단이 3개로 늘어났다면?
↪ t검증을 여러 번 하면 되지 않나?
↪ NO! 대안으로 '분산'을 활용! (=ANalysis Of VAriance)
Q1. 집단이 3개 이상일 때, t검증을 반복해서 사용하면 안 되는 이유는?
- 즉, 분산분석(ANOVA)은 3개 이상 집단의 평균을 비교할 때 사용함.
"여러 집단들 간에 특정 수치의 차이가 있는가?"
- 독립변수 : 이산형/범주형 (ex. 약 종류 - 신약 or 기존 약 or 플라시보)
- 종속변수 : 연속형 (ex. 간수치)
분산분석의 핵심 논리
- 집단 내 분산이 작고 집단 간 분산이 클수록, 집단 간 평균차이가 크다는 점을 활용!
- 이론적 논리
(적당한 식 변형을 통한) 제곱합의 분할 & 자유도의 분할
⇩
(표집한) 종속변수의 전체 분산을 ‘집단 내 분산’과 ‘집단 간 분산’으로 쪼개서 볼 수 있음
⇩
이 두 분산 추정치의 비율(MSWMSB)에 대한 분포가 바로 F분포!
F분포와 ANOVA 기본 가정
분산분석의 검증통계량은 F값으로, "두 분산의 비율"을 나타낸 값이다.
- F분포
: F값이 이루는 분포로, 분자와 분모에 있는 2개의 자유도로 형태가 결정됨.
: 두 분포의 분산을 비교할 때 주로 사용됨. ("Levene Test에서 본 F가 이 F값입니다^^")
: (분산은 음수일 수 없으니) 양수값을 가지며, 아래처럼 비대칭적인 형태를 띰.
- 분산분석(ANOVA)의 기본 가정
: (두 독립표본 t검증과 매우 유사함)
- 독립성 : 개별 집단은 각각 독립된 표본으로 구성되어야 함.
- 정규성 : 개별 집단의 모집단에서 종속변수가 정규분포를 이뤄야 함.
- 등분산성 : 개별 집단의 모집단에서 종속변수의 분산이 전부 동일해야 함.
2. 일원분산분석
One-way ANOVA는 집단의 수가 3개 이상이고, 그 집단을 나누는 요인이 1개일 때 사용한다.
(= 독립변수가 1개이고, 그 속에 레벨이 3개 이상이라는 말!)
기본 가정 3가지
- 독립성
- 정규성
- 히스토그램, 박스플롯, QQ플롯으로 확인
- 위배 시, 종속변수 재코딩하여 정규성 확보 노력
- 등분산성
- Levene test로 확인 ( H0:(σ1)2=(σ2)2=(σ3)2 )
- 위배 시, Welch F 또는 Brown-Forsythe F 사용
검증 절차 및 사례
- '두 독립표본 t검증'과 동일한 절차로 진행 (t값 대신 F값이라는 차이 말고는 ㅇㅇ)
- ➕ 등분산성 위배하는 사례
Q2. 집단을 나누는 요인이 1개이고, 집단의 수가 2개일 때 사용하는 분석은?
Q3. 일원분산분석에서 영가설이 기각되었다는 건 무슨 의미인가?
3. 사후비교
분산분석은 (H0 기각 시) 구체적으로 어느 집단끼리 평균이 다른지는 알려주지 못한다.
- 그래서 영가설을 기각한 경우에만, 사후비교 실시!
↪ ‘애초에 ANOVA 했던 이유가 FWER 줄이려고 했던 건데, 결국 다시 둘씩 t검증 한다면, 얼마나 엄격하게 해야할까..?’ 에 따라 다양한 방법 존재함.
사후비교 (등분산 가정 충족 시)
- Fisher LSD
: 가장 덜 엄격한 방법.
- Tukey HSD
: 가장 선호되는 방법 중 하나. 집단 수 많을 때 효과적.
- Bonferroni
: 가장 선호되는 방법 중 하나. 집단 수 많아지면 검증력 약해짐.
- Scheffe
: 가장 보수적이고 엄격한 방법.
사후비교 (등분산 가정 위배 시)
- Games-Howell
: Welch F 방식에 기초하고 있어서 등분산성 위배 시 적용 가능.
- 절삭평균(trimmed mean) 활용
: Outlier 때문에 등분산성 위배되는 경우 많아서, 양 끝 빼버리고 하면 괜찮아지기도 함.
Q4. Tukey HSD와 Bonferroni 중에서 더 엄격한 사후비교 방법은? 이유는?
💯퀴즈 정답💯
A1.
t검증을 반복해서 실시하게 되면 1종의 오류(α) 확률이 지나치게 커져버리기 때문.
A2.
t검증
A3.
3개의 평균이 다 같지 않다 = 3개의 평균 중에서 적어도 하나는 다르다. (in 모집단)
A4.
Bonferroni가 더 엄격함. 둘 다 모든 쌍에 대해 비교하지만, Bonferroni는 각 사후비교를 유의수준 (α/쌍 개수) 에서 실시해서, FWER이 더 작게 나옴.
ⓒ 2023. SeongJunhyeok All rights reserved.