[통계노트] 11. 회귀분석(1)

성준혁·2023년 3월 4일
0
post-thumbnail

(추후 수정 소요 있음)

1. 단순회귀분석의 기본 개념

  • 상관분석과 회귀분석의 차이
  • 회귀분석의 구분
    • 단순회귀, 중다회귀
    • 이항 로지스틱회귀, 다항 로지스틱회귀

Q1. 아래의 경우에는 어떤 회귀분석을 사용하는 것이 적절할까?
ex1) 학생들의 학습태도 및 학습량이 학업성취도에 미치는 영향 분석?
ex2) 사교육 참여(Y/N)에 대한 결정요인 분석?

  • ‘회귀(regression)’분석인가
  • 회귀선 (의미, 식, 계수)
    회귀계수를 도출하는 기본 원리
  • 비표준화 회귀계수 추정 (b1=? b0=?, 해석)
  • 표준화 회귀계수 (회귀선, β=?, 해석)

Q2. 아래 자료를 비표준화인 경우와 표준화인 경우로 나눠 회귀선을 구하고 해석하시오.

2. 단순회귀분석의 적용

가설 검증 절차

  • 전체적으로 상관분석과 유사한 느낌
    ① 영가설 설정
    ② 기술통계 분석 (with Graph) : ■를 꼭 체크하자
    ③ 기본 가정(선,정,등) 확인
    ④ 표집분포(t분포) 상정 : 자유도=(■-■)
    ⑤ 표본평균을 t값으로 변환 & 분포상 위치 확인
    ⑥ 유의확률(p값)과 유의수준(α)을 비교하여, 영가설 기각여부 결정!!
    ⑦ 🆕(필요 시), 결정계수 확인!

b1b_1에 대한 가설검증

  • 표준오차 s.e.s.e. (t값의 분모) = ■/■
  • 표준오차의 분자 = SY.XS_{Y.X}
  • 결정계수 R2R^2=SSregressionSStotalSS_{regression} \over SS_{total}

Q3. ‘부모와의 관계'를 토대로 '학생 성적'을 설명(예측)하려고 한다. 아래 결과를 해석하시오.

Q4. 결정계수에 대해 더 자세한 분석표를 보고 싶다면 어떤 코드를 입력해야 하는가?

b0b_0에 대한 가설검증

  • X를 ■■■■로 바꿔주면 ~ 의미를 갖게 됨!

Q5. Q3과 같은 연구문제를, 절편의 해석을 위해 다양하게 재코딩해보았다.
각 경우에 절편이 어떻게 해석되는지 설명하시오.

3. 중다회귀분석의 기본 개념

  • 중다회귀분석의 목적⭐
  • 중다회귀분석 사례
    • 위계 모형
    • 매개효과
    • 조절효과
  • 회귀방정식 (회귀공간)
    • 회귀계수를 도출하는 기본 원리?
      (다른 독립변수가 통제된 상황에서 추정된 '■■회귀계수')
    • 비표준화 회귀계수 (b0=?, b1=?, b2=?, 해석)
    • 표준화 회귀계수 (β=?, 해석)

Q6. 중다회귀분석에서 표준화회귀계수 β1β_1rX1Yr_{X_1Y}가 아닌 이유를 설명하시오.

  • 중다상관계수(RR)의 의미와 산출방법
  • 중다결정계수(R2R^2)
  • Adjusted R2R^2 (의미, 줄어드는 경우 2가지)

💯퀴즈 정답💯

A1.
1) 중다회귀분석; 독립변수가 2개이고 종속변수도 양적변수이기 때문
2) 로지스틱 회귀분석; 종속변수가 질적변수이기 때문 (이항/다항은 결정요인 몇개로 두느냐에 따라 달라질 것)

A2.
<비표준화인 경우>
회귀선 : Y=0.05X+2Y'=0.05X+2 , 수학성적이 1점 더 높은 학생이 효능감 0.05 더 높을 것이다. (+수학성적 0인 학생은 효능감이 2일 것이다.)
<표준화인 경우>
회귀선 : Y=0.5XY'=0.5X , 수학성적이 1 표준편차만큼 커질 때 효능감은 0.5 표준편차만큼 커질 것이다.

A3.
b1과 b0에 대한 영가설 둘 다 ***으로 기각되었다.
각각의 추정치는 7.5611 , 32.3527 이므로 회귀선은 Y=7.5611×X+32.3527Y'=7.5611\times X+32.3527 이고,
이는 "부모관계가 1만큼 커지면, 성적은 7.5611점 더 높을 것으로 예측한다"는 의미가 된다.
결정계수 R2R^2에 대한 영가설도 기각되었고, 그 추정치는 0.0476이다.
이는 "부모관계를 통해 성적의 약 4%를 설명할 수 있다"는 의미가 된다.

A4.
anova(m1)

A5.
1) 아무 의미 없음 (리컬트 척도로 조사했으니 부모관계=0 인 경우는 존재하지 않음)
2) "부모관계가 3인 학생들은 성적이 55점 정도일 것이다"
3) 부모관계가 평균인 학생들은 성적이 57.7점 정도일 것이다"

A6.
중다회귀분석에서는 독립변수가 여러 개(X1, X2, ...)인데, 그 독립변수끼리 상관이 있는 경우
그 부분을 통제하고 구한 회귀계수이기 때문이다. 다시 말해, 일반적인 상관이 아니라 '부분상관'의 개념으로 봐야한다는 것이다.



ⓒ 2023. SeongJunhyeok All rights reserved.
profile
생각은 그만

0개의 댓글