출처
https://mindscale.kr/course/basic-stat-python/6/
상관계수
- 상관계수 (Correlation coefficient) : 두 변수가 함께 변하는 정도를 -1 ~ 1 범위의 수로 나타낸 것
피어슨 상관계수
- 칼 피어슨(Karl Pearson)이 개발
- 일반적으로 상관계수라고 말함
사용 예
import numpy as np
np.corrcoef(x, y)
np.corrcoef(x, y)[0, 1]
상관계수의 해석
부호
- +인 경우 : 두 변수가 비례
- -인 경우 : 두 변수가 반비례
크기
- 값이 0일 때, 두 변수가 독립
- 반대로 값이 1에 가까울수록 관계가 높음
주의할 점
- 상관계수는 선형적인 관계를 측정하기 때문에, 두 변수가 비선형적으로 변한다면 잘 측정하지 못함

- w = z**2의 관계지만, 상관걔수는 0으로 나타난다.
spearman 상관계수
- 상관분석시에
서열척도
를 사용한 변수가 포함되어있거나,
- 두 변수간의 관례가
비선형적
일 때 구하는 상관계수
import scipy.stats
scipy.stats.spearmanr(x, y).correlation
kendall의 tau
- spearman과 마찬가지로, 비선형적이거나 서열변수일 떄 사용,
- spearman보다 믿을만 하다고 알려짐
scipy.stats.kendalltau(x, y).correlation
유의할 점
실시 전
- 두 변수의 관계사 선형적(직선)인지 비선형적인지 확인
실시 중
- 두 변수의 상관관계는 인과간계를 증명하지 않는다.
- 상관관계가 있다고 반드시 인과관계가 존재하지 않는다.
- 데이터 내에 이상치가 있을 때, 존재하지 않는 상관관계가 나오거나, 또는 아예 안나오는 경우가 발생할 수 있다.