High dimensional data

TaeWoo Lee / Kris·2021년 12월 18일

Eigenvalue Eigenvector PCA vector transformation

Code States [AI_09] Section1

목록 보기

11/12

Vector transformation

$f(\begin{bmatrix}x_1 \\ x_2 \end{bmatrix}) = \begin{bmatrix} 2x_1 + x_2 \\ x_1 -3x_2 \\ \end{bmatrix}$
유닛벡터를 이용하여 $x_1 \cdot \hat{i} + x_2 \cdot \hat{j}$ 으로 분리 가능
$T = \begin{bmatrix} 2 & 1 \\ 1 & -3 \end{bmatrix}$

고유벡터 (Eigenvector)

transformation에 영향을 받지 않는 회전축 (혹은 벡터)을 공간의 고유벡터 (Eigenvector)

고유값 (Eigenvalue)

유벡터는 주어진 transformation에 대해서 크기만 변하고 방향은 변화 하지 않는 벡터입니다.

여기서 변화하는 크기는 결국 스칼라 값으로 변화 할 수 밖에 없는데 이 특정 스칼라 값을 고유값 (eigenvalue)

Principal Component Analysis (PCA)

고차원 데이터를 효과적으로 분석 하기 위한 기법
낮은 차원으로 차원축소
고차원 데이터를 효과적으로 시각화 + clustering
원래 고차원 데이터의 정보(분산)를 최대한 유지하는 벡터를 찾고, 해당 벡터에 대해 데이터를 (Linear)Projection

PCA Process

데이터를 준비
각 열에 대해서 평균을 빼고 표준편차로 나누어서 Normalize를 함
Z의 분산-공분산 매트릭스를 계산
분산-공분산 매트릭스의 고유벡터와 고유값을 계산함
데이터를 고유 벡터에 projection 시킴(matmul)

PCA의 특징

데이터에 대해 독립적인 축을 찾는데 사용
데이터의 분포가 정규성을 띄지 않는 경우 적용이 어려움
- 이 경우는 커널 PCA 를 사용 가능
분류 / 예측 문제에 대해서 데이터의 라벨을 고려하지 않기 때문에 효과적 분리가 어려움
- 이 경우는 PLS 사용 가능

TaeWoo Lee / Kris

일단 저지르자! 그리고 해결하자!

이전 포스트

linear algebra

다음 포스트