High dimensional data_Ai_D12

dannialism·2021년 12월 3일
0

내용

PCA. Principal component Analysis.

차원을 축소하는 방법중에 하나이다. 이 과정을 이해하기 위해 다음과 같은 근본적인 원리를 이해해야한다.

벡터 값이 어떠한 matrix를 통해서 다른 벡터 값을 산출할 수 있다.
이 것을 vector transformation 이라 한다.

하지만,

Eigenvector.
이때 방향이 바뀌지 않고 크기만 변하는 vector 값이 있다. 고유 벡터라 불린다.

Eigenvalue.
Eigenvector은 힘을 가지고 있는데 이 숫자는 Eigenvector가 커버할 수 있는 힘의 정도를 나타낸다.

요점은 벡터를 선형 변환할 때, 방향이 바뀌지 않는 벡터를 찾아내어 그 벡터의 선상에 다른 데이터 값을 투영하여 다시 벡터로 표현한다. 이 때 선정하는 Eigenvector를 Eigenvalue가 제일 큰 순서대로 채택한다.

PCA를 하는 이유.
고차원, 즉 수많은 columns을 줄여서 데이터를 산출한다.
Feature가 모두 의미있는 정보를 가지고 있지 않기 때문에 축소하여 표현한다.
이 때 무엇이 의미있는 정보를 가진 column인지 공분산을 통해 판단한다.

공분산. Covariation. 어떤 한 변수가 변할 때 다른 변수가 어떤 연관성으로 움직이는 지 판단하는 지수이다.

분산. 데이터의 값이 평균과 얼마큼 떨어져 있는 지 확인한다.
차이값을 제곱한 뒤 더하여 observation 수대로 나눠 준다.
스케일이 커지는 단점이 있다.

표준 편차.는 분산에 Root하여 커진 값을 다시 줄여 좀 더 명확하게 확인한다.

profile
danny + realism

0개의 댓글