[머신러닝]차원축소(PCA,t-SNE)

건너별·2021년 11월 8일
0

ML

목록 보기
3/21

차원축소

  • 비지도학습의 일종으로, 많은 feature로 구성된 다차원 데이터 세트의 차원을 축소해 새로운 차원의 데이터 세트를 생성하는 것

  • 메모리 효율화 및 데이터 시각화에 매우 유용

  • PCA, t-SNE 등이 있음


    [출처:https://steemit.com/steempress/@hellosketch/tr2qjs3dv1]

PCA(Principal Component Analysis)

정의

1) find the Principal Component in the data distribution

→ the directional vector which has the biggest variance

2) find the orthogonal basis(the axis of vector) and make projection from high-dimension to low-dimension

3) Linear combination of previous feature (not choosing the feature)

용어

BASIS : the set of new vector which can play role of new coordinate system

Actually, the coordinate systems we use is the linear combination of BASIS → ex) (0,1) + (1,0)

PC axis : the most important basis

특징

  • 데이터 분산에 대한 정보를 유지하려 함
  • 내재된 정보 손실이 적음(고유의 value 등)
  • 선형 데이터에 적합

t-SNE

정의

  • T- Stochastic Neighbor Embedding 의 약자
  • 고차원 데이터를 2,3차원으로 축소하는 데에 매우 유용하게 이용됨.

특징

  • 비선형 데이터셋을 시각화하는 데에 적합함.
  • 상대적 거리 정보가 시각화되는 데에 유리
  • 시각화용 알고리즘이라고 생각하자.
profile
romantic ai developer

0개의 댓글