Biostatistics 통계 분석- 주성분 분석(Principal Component Analysis, PCA)

Hoya Jaeho Lee·2022년 3월 12일
0

Biostatistics

목록 보기
11/20

주성분 분석(Principal Component Analysis)
: 서로 상관관계를 갖는 많은 변수를 상관관계가 없는 소수의 변수로 변환하는 차원축소 기법
변환에 사용하는 소수의 변수를 주성분(Principal component)라고 일컫고 성분이라고도 함

주성분은 변수들의 선형 결합으로 표현 가능
변수들이 가지고 있는 총표본분산을 많이 설명해주는 순서대로 순차적으로 변수 갯수만큼의 성분을 추출한다.
추출한 성분 중 가장 많은 설명력을 제공하는 처음 몇개의 소수의 성분만을 초점으로 데이터를 설명하여 복잡성을 감소함

R예시:
pca<-prcomp(data=~,scale=TRUE)
summary(pca)
##proportion of Variance, Cumulative proportion

plot(pca,type="l",pch=19,lwd=2,col="red",main="Scree plot")
#x축 성분, y 분산 (상당 부분 설명력 그래프로 확인)

round(pca$rotation,3)
#변수간의 성분 적재 값 (상관성)
#성분 적재값(Component loading), 성분점수(Component score)
#성분 적재값을 가중치로 사용하여 기존 변수들 값으로 component score, 표준화된 변수값 대입

round(scale(data=~ )%*% pcarotation,3)round(pcarotation,3) round(pcax,3)

round(pca$x[,c(1,2)],3) ##두개만 선택 PCA1, PCA2

cor(pca$x)

추가 넣어야할 내용들
https://rpubs.com/Evan_Jung/pca

profile
Biostatistics researcher Github: https://github.com/hoyajhl

0개의 댓글