cov(x,y) = E(XY)-E(X)E(Y)
공분산은 X의 편차와 Y의 편차를 곱한것의 평균
분산: 데이터가 퍼져있는 정도를 측정한 것
= 분산은 데이터들의 상대성을 이해하는데 도움이 됨
데이터를 분석할 때는 데이터의 위치보다는 데이터가 상대적으로 어떻게 분포해있는지가 더 중요하기 때문
공분산: 각 변수들(x,y)가 상대적으로 어떻게 퍼져있는지 확인하는 것
두 개 이상의 데이터의 분산을 비교하고, 하나의 분산이 변화할 때 어떻게 변화하는지 확인할 수 있다.
cov = np.cov(u,v)[1,1]
corr(X,Y) = cov(X,Y)/sd(X)sd(Y)
상관계수: 상대적으로 다른 데이터들의 값을 보완해주는 것
두 데이터의 상대성을 알아보기 위해서 공분산을 구하는데,
두 데이터의 값들이 현저히 다르다면
(ex x = [[0.1],[0.2],[0.3]], y = [[100],[200],[300]])
공분산을 구했을 때 y가 x보다 더 중요하다는 결론이 나올 것이다.
이런 편차를 없애주는 것이 상관계수이다.
상관계수의 절대값은 1을 넘을 수 없다. (-1 ~ 1)
확률변수 X, Y가 독립이라면 상관계수는 0이다.
X와 Y가 선형적 관계라면 상관계수는 1 혹은 -1이다.
양의 선형관계면 1, 음의 선형관계면 -1
corr = round(np.corrcoef(u,v)[1,0],2) # 셋째자리 반올림
>>>0.16
u와 v는 0.16만큼의 양의 상관관계가 있다.