[통계노트] 10. 상관분석

성준혁·2023년 2월 27일
0
post-thumbnail

1. 두 변수간 관계의 분석

공분산

  • 공분산
    : 두 변수가 함께 변하는 정도 (평균값 기준)
    : SXYS_{XY} = i=1n(XiXˉ)(YiYˉ)N1\sum^n_{i=1}(X_i-\bar{X})(Y_i-\bar{Y}) \over N-1 ; X편차점수와 Y편차점수를 곱한 값들의 평균
    : 모집단의 공분산은 σXYσ_{XY}로 표기

  • 공분산부호/크기
    1) 부호 : (+)면 같은 방향으로 관련성 / (-)면 반대방향으로 관련성
    2) 크기 : 측정단위에 따라 달라지므로 두 변수의 선형관계 설명하기에 부적절
    (ex. '키'와 '몸무게'의 관계를 볼 때, m:kg 과 cm:kg 의 공분산 값 다르게 나옴)

  • 지역독립성 : 두 변수에 같은 값을 더하거나 빼도 동일한 수치가 나오는가?
    척도독립성 : 두 변수에 같은 값을 곱하거나 나눠도 동일한 수치가 나오는가?

Q1. 공분산은 지역독립성 (충족/미충족) & 척도독립성 (충족/미충족) 한다.

상관계수

  • Pearson 적률상관계수
    : 공분산의 한계였던 '척도의 영향'을 통제한 수치
    : 방법1) 두 공분산을 각 변수의 표준편차로 나눠줌 ; rXYr_{XY} = SXYSXSYS_{XY}\over S_XS_Y
    : 방법2) 두 변수를 표준점수로 변환하고 공분산을 구함 ; rXYr_{XY} = ZXZYN1\sum Z_XZ_Y \over N-1
    : 모집단의 상관계수는 ρXYρ_{XY}로 표기

  • 지역독립성 ok
    척도독립성 ok

  • 상관계수범위/부호/크기
    1) 범위 : -1.0 ~ +1.0 사이
    2) 부호 : (+)면 같은 방향으로 관련성 / (-)면 반대방향으로 관련성
    3) 크기 : 절댓값이 1에 가까울수록 상관이 높고, 0에 가까울수록 상관이 낮음
    ※ 각도와는 상관없음! (각도는 그냥 두 변수의 표준편차 비율일 뿐)

Q2. rr=■.■ 인 경우를 moderate correlation 이라 부르며, 상당히 관계가 있는 것으로 간주한다. 검사 반복시 신뢰도의 하한선이 되기도 하는 이 수치는 얼마인가?

  • 공분산이 더 적절한 경우
    : 두 변수간 관련성을, 서로 다른 집단 간에 비교할 때. 척도를 유지해야할 때.
  • 상관계수가 더 적절한 경우
    : 동일 집단 내에서, 여러 변수간 관련성을 비교할 때. 척도의 차이를 통제해야할 때.

Q3. 중학교 3학년 학생 500명을 대상으로, 부모관계, 친구관계, 학업성취도 간 관련성의 크기를 비교하고 싶다면 둘 중에 뭘 쓰는 것이 적합할까?

2. 상관분석

상관분석의 기본가정

  1. 정규성 : 두 변수 X,Y 모두 모집단에서 정규분포 이룸.
  2. 선형성 : 🆕 두 변수 X와 Y가 선형적 관계를 가짐.
  3. 등분산성 : 한 변수 기준 다른 변수의 조건부 분산이 항상 같아야 함.

Q4. 산포도를 통해 상관분석의 기본가정을 확인 중이다. 각각 어떤 경우인가?

  • 부수적인 주의사항
    • ㅇㅅ변수이며 ㄷㄱ척도 이상이어야 함
    • 범위의 ㅈㅎ이나 자료의 ㅈㄷ이 없어야 함 · · · · · · · ②
    • ㅇㅈ적 하위집단이 없어야 함 · · · · · · · · · · · · · · · · · ③
    • N<30 일 때는 ㅇㅅㅊ의 영향을 확인해야 함 · · · · · · ①,④

Q5. ①~④ 중에 '조절효과'라고 불리는 것은 어느 것인가?

상관에 대한 가설 검증 절차

(사실 상관계수는 그 자체에 대한 가설검증보다, 다른 분석을 위한 사전 체크 수준에서 이뤄지는 경우가 많지만,,, 그래도 하면 할 수는 있다는 걸 보여주고자!)

  • 기본절차 및 사례
  • 결정계수
    : 상관계수를 제곱한 값 = r2r^2
    : 한 변수가 다른 변수와 공유하는 분산의 정도 = "설명량"으로 해석 가능!

Q6. 위의 예시를 결정계수로 구해보았더니 아래와 같았다. 결과를 해석하시오.

상관관계와 인과관계

  • 상관관계를 함부로 인과관계라고 해석하면 안 되는 이유 2가지
    1) 역관계의 가능성
    2) 제3의 변수의 개입 가능성

  • 인과관계 추정을 위한 기본조건 3가지
    1) 원인과 결과가 일관되게 공변하는지
    2) 원인이 결과보다 선행하는지
    3) 제3의 외생변수는 없는지
    ➡️ 세 가지 조건 모두 만족하면 인과관계로 해석할 수 있음!!

3. 상관계수의 확장

원래는 두 변수 모두 연속형 변수가 기본이지만...

‘서열 변수’를 위한 상관

  • Spearman의 등위상관계수
    : ρρ = 두 변수 각각의 석차의 차이값을 사용해서 계산함
  • Kendall의 등위상관계수
    : ττ = concordant/discordant 쌍의 수를 토대로 계산함 (교재 필기 참고)
    : 표본 크기 작을 때, 순위가 동일한 사례가 많을 때, 더 적합함!

Q7. 두 변수를 순위(석차)로 변환하면, A상관계수와 B상관계수의 결과값은 동일하게 나온다. 이 때 A, B는 각각 누구인가?

‘이분 변수’를 위한 상관

  • 양류상관(point-biserial correlation)
    : 한 변수는 연속변수, 나머지 한 변수는 이분형 변수인 경우
    ➡️ Pearson 상관계수와 수치(절댓값) 동일!
  • cf) 양분상관
    : 연속변수 하나, 이분형 변수 하나인데, 이분형 변수의 내재된 성향이 연속변수와 비슷한 경우 (ex. 학생 지능을 110 이상은 '높음' 110 미만은 '낮음'으로 이분형변수 만든 경우)
  • 파이계수(Phi coefficient)
    : 두 변수가 모두 이분형 변수인 경우
    ➡️ Pearson 상관계수와 수치(절댓값) 동일!
  • cf) 사분상관
    : 양분상관과 마찬가지로, 이분형 변수의 성향이 연속적일 때 사용하는 방법
    ("이분형 변수에 (0,1) 부여해서 pearson으로 구한 값과 동일하게 나오더라" 정도로 이해합시다 일단..! 각 범주의 사례 수 활용해서 다르게 구하는 공식도 있습니다..)

‘3개 이상의 변수들’을 위한 상관

  • 부분상관
    : 3개 이상의 변수들이 상호상관 갖는 경우, 두 변수의 관계를 측정할 때 제 3변수의 영향을 두 변수 모두에 대해 통제하는 방법.

  • 준부분상관
    : 3개 이상의 변수들이 상호상관 갖는 경우, 두 변수의 관계를 측정할 때 제 3변수의 영향을 그 중 한 변수에 대해서만 통제하는 방법.

→ 실제로 부분상관과 준부분상관을 구해보면, 통제했기 때문에 상관이 더 적게 나옴!

Q8. 아래 그림에서 r12r_{12} / r12.3r_{12.3} / r1(2.3)r_{1(2.3)} 이 각각 어디에 해당하는지 고르시오.


💯퀴즈 정답💯

A1. 충족 / 미충족

A2. 0.6

A3. 상관계수
부모관계, 친구관계, 학업성취도, 이 세 변수는 척도가 통일되어있지 않다. 따라서 척도의 차이로 인한 부분을 통제하려면 상관계수를 사용하여 비교하는 것이 적절하다.
실제로 측정 결과를 봐도, 공분산으로 측정한 것과 상관계수로 측정한 것의 결과가 다르다!

A4.
1) 선형성 : x와 y가 아주 밀접하게 같이 움직이지만, 선형적이지 않기 때문에 r=0.5~0.6 정도밖에 나오지 않을 가능성이 큼.
2) 등분산성 : x가 커질수록 상응하는 y의 분포가 점점 몰리게 됨. 즉, 조건부분산이 점점 작아짐.

A5.
x,y의 관계가 하위 집단에 따라서 다르게 나타나는 경우.

A6.
성적의 5%를 부모관계로 설명할 수 있다.
성적의 1%를 친구관계로 설명할 수 있다.
부모관계의 4%를 친구관계로 설명할 수 있다.

A7.
Pearson / Spearman

A8.
순서대로 r12.3r_{12.3} , r12r_{12} , r1(2.3)r_{1(2.3)} 이다.



ⓒ 2023. SeongJunhyeok All rights reserved.
profile
생각은 그만

0개의 댓글