Biostatistics 통계 분석- 선형 회귀분석(Linear Regression)

Hoya Jaeho Lee·2022년 4월 4일
0

Biostatistics

목록 보기
7/20

Assumption of Regression

-선형성 (Linearity): predictor(예측치)와 실제 값의 관계가 선형
plot(model)을 진행했을 때-> no fitted pattern
빨간 색 선이 0에 전체적으로 가까워야 함

-독립성 (Independence):
일반적으로 무작위 표집(random sampling)을 하면 잔차의 독립성은 만족하는 것으로 보지만 시계열 자료나 종단연구 자료처럼 연구 설계 자체가 독립성을 담보할 수 없는 경우에는 더빈-왓슨 검정(Durbin-Watson test) 등을 실시

-잔차의 정규성 (Normality): Q-Q plot으로 잔차의 정규분포 확인 또는
Normality test-> Kolmogolov-Smirnov검정이나 Shapiro_Wilk 검정

-잔차의 등분산성 (Equal Variance)- Homoscedastic/ Heteroscedasticity 판단-> 잔차의 분산으로 설명 가능

적합 모형
잔차산점도가 고르게 분포 예시 (잔차산점도의 회귀선 기울기 = 0)


오차(Residuals)의 이분산성 예시 (부적합)

회귀 분석의 시행 (***중요)

  1. 최소제곱법을 통한 회귀식의 추정
    Least Square Method

  2. 결정 계수 R^2, adjusted R^2 for multiple regression
    추정된 회귀모형이 종속변수를 과연 잘 설명하는 지 확인
    R^2: 추정된 회귀모형에 의해 설명되는 변동/전체 변동

  3. F 검정을 통한 회귀식의 유의성 검정
    분산 분석을 통해
    F: 회귀 식에 의해 설명되는 변동의 평균/그 외 설명되지 않는 변동의 평균

  4. 회귀 계수의 유의성 검정 (다중 회귀분석의 적용)
    T분포를 이용하여 검정
    단순 회귀분석에서는 3,4번이 동일하지만, 다중회귀분석의 경우 각각 회귀계수들에 대하여 검정해야 한다:)

다중공산성 (Multicolinearity)

다중회귀분석의 시행하는 이유는 교란변수들을 통제하고 오로지 독립변수의 고유의 영향을 분석하기 위함인데 두 변수가 너무 연관 있으면 각자의 영향을 보정하여 분석 시행이 어렵다.

다중공산성을 해결하기 위해서는 상관관계가 높은 독립변수 중 일부 제거하거나 변수에 대한 변형을 가함:)
PCA를 이용하여 diagonal matrix의 형태를 만들어 공분산성을 없애준다:)

R 실습

깃허브 참고!!
https://github.com/hoyajhl/R_stat/blob/main/linear_regression.R

References

그림으로 이해하는 닥터배의 술술 보건의학통계 by 배정민
https://jangpiano-science.tistory.com/119
https://mindscale.kr/course/basic-stat-r/residuals/
수업 PPT 내용 참고

profile
Biostatistics researcher Github: https://github.com/hoyajhl

0개의 댓글