High dimensional data

TaeWoo Lee / Kris·2021년 12월 18일
0
post-thumbnail

Vector transformation

f([x1x2])=[2x1+x2x13x2]f(\begin{bmatrix}x_1 \\ x_2 \end{bmatrix}) = \begin{bmatrix} 2x_1 + x_2 \\ x_1 -3x_2 \\ \end{bmatrix}
유닛벡터를 이용하여 x1i^+x2j^x_1 \cdot \hat{i} + x_2 \cdot \hat{j} 으로 분리 가능
T=[2113]T = \begin{bmatrix} 2 & 1 \\ 1 & -3 \end{bmatrix}

고유벡터 (Eigenvector)

  • transformation에 영향을 받지 않는 회전축 (혹은 벡터)을 공간의 고유벡터 (Eigenvector)

고유값 (Eigenvalue)

  • 유벡터는 주어진 transformation에 대해서 크기만 변하고 방향은 변화 하지 않는 벡터입니다.

여기서 변화하는 크기는 결국 스칼라 값으로 변화 할 수 밖에 없는데 이 특정 스칼라 값을 고유값 (eigenvalue)

Principal Component Analysis (PCA)

  • 고차원 데이터를 효과적으로 분석 하기 위한 기법
  • 낮은 차원으로 차원축소
  • 고차원 데이터를 효과적으로 시각화 + clustering
  • 원래 고차원 데이터의 정보(분산)를 최대한 유지하는 벡터를 찾고, 해당 벡터에 대해 데이터를 (Linear)Projection

PCA Process

  1. 데이터를 준비
  2. 각 열에 대해서 평균을 빼고 표준편차로 나누어서 Normalize를 함
  3. Z의 분산-공분산 매트릭스를 계산
  4. 분산-공분산 매트릭스의 고유벡터와 고유값을 계산함
  5. 데이터를 고유 벡터에 projection 시킴(matmul)

PCA의 특징

  • 데이터에 대해 독립적인 축을 찾는데 사용
  • 데이터의 분포가 정규성을 띄지 않는 경우 적용이 어려움
    • 이 경우는 커널 PCA 를 사용 가능
  • 분류 / 예측 문제에 대해서 데이터의 라벨을 고려하지 않기 때문에 효과적 분리가 어려움
    • 이 경우는 PLS 사용 가능
profile
일단 저지르자! 그리고 해결하자!

0개의 댓글