Biostatistics 통계 분석- 반복 측정 자료 연구, 선형혼합모형(3)(Linear Mixed effect Model: LMM)

Hoya Jaeho Lee·2022년 3월 14일
0

Biostatistics

목록 보기
16/20

반복 측정 자료의 특징

개체의 차이를 주목하는 것이 아니라
여러 시점에서 측정된 관측 값들의 개체 내 상관을 고려하는 것이 관심

그러므로!!

개체의 차이를 나타내는 Random Effect (임의 요인)는 결과 변수에 영향을 미치지 않는 것으로 간주하고, 반복 측정의 개체 내 상관을 고려한 뒤에 회귀모형을 추정하는 데 중점을 둔다:)

고정 효과(Fixed Effects):
종속/반응 변수에 영향을 미칠 것으로 예상되는 변수
회귀모형에서 사용되는 모든 독립변수들이 고정요인이라고 할 수 있음!!
주요 변동에 작용하는 요인들로 고정된 값이라고 생각하면 됨:)
어떤 요인의 level이 샘플과 모집단에서 똑같이 고정되어 있는 요인의 효과
샘플마다 이 요인의 level은 동일하며 각 샘플마다 이 요인의 효과는 동일하다는 간주가 필요

무작위 효과(Random Effects, 그룹화 변수로 생각):
개체의 차이나 오차항등과 같이 연구자가 제어할 수 없고 관심의 대상이 아닌 것들로 생각하면 됨:)
어떤 변수의 level이 모집단으로부터 sampling 되어 샘플마다 이 요인의 level이 고정되있지 않고 random하게 되어서 이 요인의 효과가 어떤 분포
모든 가능성의 샘플인 경우에 속하고 보통 level이 5개 이상인 경우에 해당
이유: 소수의 데이터 포인트에 관한 분산을 추정하는 것이 부정확하기 때문이다:)

예제
성별(gender)이나 계절(season)과 같은 경우,
level이 random한 것은 아니어서 일반적으로 fixed effect로 통제하면 되지만 만일 어떤 franchise 관리업체에서 franchise를 random sampling으로 수집한 후 수집된 franchise가 모든 franchise를 100% 대변하는 것은 아니고 단지 population에서 추출한 sample일 뿐이므로franchise에 의한 차이를 통제하기 위해 분산, 즉 분포를 고려해 random effect로 통제하는 것이 좋을 수 있다.

ex1) 900명의 환자를 대상으로 5개의 medical center medical center마다 180명의 혈압을 조사한 경우, 성별이 일정할 때(보정하여) center간 혈압이 다른지 보고 싶은 case

고정효과: 성별
랜덤효과: center

ex2) 100명의 환자를 대상으로 피험자마다 혈압을 1주일 간격(fixed level) 으로 3번 반복 측정할 경우, 3시점 간에 혈압이 다른지 보고자 하는 경우

고정효과: 시점
랜덤효과: 피험자

ex3) 55세 이하 환자들을 대상으로 술을 마신후 1,3,6,9,12개월마다 스트레스를 측정

고정효과: 나이, 시간
랜덤효과: patient effect

상관행렬 구조 (Working Correlation Matrix)

반복공분산 설정!!

반복 측정 자료를 다루는 선형 혼합모형과 일반화 추정 방정식에서는 같은 개체내에서 여러 시점에서 측정된 자료들 사이에서 개체 내 상관이 있을 것을 가정하고 상관행렬 구조를 지정.

-독립적
개체 내 모든 측정값들이 서로 독립이라는 뜻
-> 개체 내 상관이 무시하게끔 작을 경우 사용

-Autoregressive(1)
*가장 흔히 사용하는 반복측정 자료의 예로
개체내에서 반복측정된 자료들의 연관성은 관찰의 시간이 흐를수록 지수함수적으로 감소한다는 뜻
ex) 치료 전-1개월의 연관정도가 0.2면 치료 전-2개월의 연관정도는 0.2^2=0.04, 치료 전-3개월의 연관정도는 0.2^3=0.08 이런 형태~

-교환 가능
개체 내 모든 측정값들이 서로 같은 연관성의 정도가 같다는 것을 의미
ex) 같은 부모 아래 형제나 한 개체내의 여러 머리카락 등 연관성을 모두 같다고 가정하는 경우에 해당

-비구조적
개체 내 자료들의 연관성에 대한 정보가 없을 때 연관성의 특정 구조를 갖는 것으로 가정하는 방법

Linear Mixed Model 반복 측정 연구의 형태

  1. 시간과 그 외 다수 고정요인들의 영향을 함께 분석하는 연구
    이 경우, 동일한 treatment를 적용하고 개체 내 상관을 고려!!
    연구 과정: 상관 행렬 구조를 지정하고 개체 내 상관을 고려한 다음 선형 회귀분석과 같은 회귀식을 추정하고 해석하면 됨:)

  2. 상반된 두 군의 시간에 따른 차이를 비교하는 연구
    두 군에 각각 서로 다른 처치를 가한 뒤에 두 군의 시간에 따른 차이를 비교하는 연구 -> 시간과 군의 교호작용에 초첨을 맞춰 진행

Linear Mixed Model의 장점

회귀 계수를 통하여 군 간의 차이 크기도 함께 제시 가능 하고 결측을 제외한 나머지 모든 관측치를 분석에 모두 포함 가능하다는 이점

R코드 예시

(reference참고 후 추후 보완 예정)
library(lme4) ##필요한 패키지 다운

gpa_mixed = lmer(gpa ~ occasion + (1 | student), data = gpa)

##그룹을 특정하는 추가요소, 학생 효과
##(1|student) 는 1 로 표시하는 절편이 학생마다 변하도록 허용

summary(gpa_mixed)
confint(gpa_mixed)

References

그림으로 이해하는 닥터배의 술술 보건의학통계 by 배정민
https://bookdown.org/sulgi/mixed_models/random_intercepts.html#%EC%98%88-%ED%95%99%EC%A0%90-gpa

profile
Biostatistics researcher Github: https://github.com/hoyajhl

0개의 댓글