[통계노트] 6. 분산분석(1)

성준혁·2023년 2월 24일
0
post-thumbnail

1. 분산분석의 기본 개념

t검증과 분산분석

  • t검증은 "두 집단의 평균이 같은가?"를 판단할 수 있었음.
  • 그런데 만약 집단이 3개로 늘어났다면?
    ↪ t검증을 여러 번 하면 되지 않나?
    NO! 대안으로 '분산'을 활용! (=ANalysis Of VAriance)

Q1. 집단이 3개 이상일 때, t검증을 반복해서 사용하면 안 되는 이유는?

  • 즉, 분산분석(ANOVA)3개 이상 집단의 평균을 비교할 때 사용함.
    "여러 집단들 간에 특정 수치의 차이가 있는가?"
    • 독립변수 : 이산형/범주형 (ex. 약 종류 - 신약 or 기존 약 or 플라시보)
    • 종속변수 : 연속형 (ex. 간수치)

분산분석의 핵심 논리

  • 집단 내 분산이 작고 집단 간 분산이 클수록, 집단 간 평균차이가 크다는 점을 활용!
  • 이론적 논리
    (적당한 식 변형을 통한) 제곱합의 분할 & 자유도의 분할

    (표집한) 종속변수의 전체 분산을 ‘집단 내 분산’과 ‘집단 간 분산’으로 쪼개서 볼 수 있음

    두 분산 추정치의 비율(MSBMSWMS_B \over MS_W)에 대한 분포가 바로 FF분포!

F분포와 ANOVA 기본 가정

분산분석의 검증통계량은 F값으로, "두 분산의 비율"을 나타낸 값이다.

  • FF분포
    : F값이 이루는 분포로, 분자와 분모에 있는 2개의 자유도로 형태가 결정됨.
    : 두 분포의 분산을 비교할 때 주로 사용됨. ("Levene Test에서 본 F가 이 F값입니다^^")
    : (분산은 음수일 수 없으니) 양수값을 가지며, 아래처럼 비대칭적인 형태를 띰.
  • 분산분석(ANOVA)의 기본 가정
    : (두 독립표본 t검증과 매우 유사함)
    1. 독립성 : 개별 집단은 각각 독립된 표본으로 구성되어야 함.
    2. 정규성 : 개별 집단의 모집단에서 종속변수가 정규분포를 이뤄야 함.
    3. 등분산성 : 개별 집단의 모집단에서 종속변수의 분산이 전부 동일해야 함.

2. 일원분산분석

One-way ANOVA는 집단의 수가 3개 이상이고, 그 집단을 나누는 요인이 1개일 때 사용한다.
(= 독립변수가 1개이고, 그 속에 레벨이 3개 이상이라는 말!)

기본 가정 3가지

  1. 독립성
    • 위배 시, 반복측정 분산분석 적용
  2. 정규성
    • 히스토그램, 박스플롯, QQ플롯으로 확인
    • 위배 시, 종속변수 재코딩하여 정규성 확보 노력
  3. 등분산성
    • Levene test로 확인 ( H0:(σ1)2=(σ2)2=(σ3)2H_0 :(σ_1)^2=(σ_2)^2=(σ_3)^2 )
    • 위배 시, Welch F 또는 Brown-Forsythe F 사용

검증 절차 및 사례

  • '두 독립표본 t검증'과 동일한 절차로 진행 (t값 대신 F값이라는 차이 말고는 ㅇㅇ)
  • ➕ 등분산성 위배하는 사례

Q2. 집단을 나누는 요인이 1개이고, 집단의 수가 2개일 때 사용하는 분석은?
Q3. 일원분산분석에서 영가설이 기각되었다는 건 무슨 의미인가?

3. 사후비교

분산분석은 (H0 기각 시) 구체적으로 어느 집단끼리 평균이 다른지는 알려주지 못한다.

  • 그래서 영가설을 기각한 경우에만, 사후비교 실시!
    ↪ ‘애초에 ANOVA 했던 이유가 FWER 줄이려고 했던 건데, 결국 다시 둘씩 t검증 한다면, 얼마나 엄격하게 해야할까..?’ 에 따라 다양한 방법 존재함.

사후비교 (등분산 가정 충족 시)

  • Fisher LSD
    : 가장 덜 엄격한 방법.
  • Tukey HSD
    : 가장 선호되는 방법 중 하나. 집단 수 많을 때 효과적.
  • Bonferroni
    : 가장 선호되는 방법 중 하나. 집단 수 많아지면 검증력 약해짐.
  • Scheffe
    : 가장 보수적이고 엄격한 방법.

사후비교 (등분산 가정 위배 시)

  • Games-Howell
    : Welch F 방식에 기초하고 있어서 등분산성 위배 시 적용 가능.
  • 절삭평균(trimmed mean) 활용
    : Outlier 때문에 등분산성 위배되는 경우 많아서, 양 끝 빼버리고 하면 괜찮아지기도 함.

    Q4. Tukey HSD와 Bonferroni 중에서 더 엄격한 사후비교 방법은? 이유는?

💯퀴즈 정답💯

A1.
t검증을 반복해서 실시하게 되면 1종의 오류(α) 확률이 지나치게 커져버리기 때문.

A2.
t검증

A3.
3개의 평균이 다 같지 않다 = 3개의 평균 중에서 적어도 하나는 다르다. (in 모집단)

A4.
Bonferroni가 더 엄격함. 둘 다 모든 쌍에 대해 비교하지만, Bonferroni는 각 사후비교를 유의수준 (α/쌍 개수) 에서 실시해서, FWER이 더 작게 나옴.


ⓒ 2023. SeongJunhyeok All rights reserved.
profile
생각은 그만

0개의 댓글