해결방법?
- 차원의 수가 커질수록 서로 다른 샘플간의 거리는 기하급수적으로 증가한다.(고차원일수록 공간이 넓어지기 때문) -> 성능이 낮아진다.
- 훈련 샘플의 밀도가 충분히 커질 때까지 훈련 세트의 크기를 키울 수도 있지만 앞서 언급된 것처럼 공간이 매우 넓기 때문에 현실적으로 힘들다.
- 따라서 차원의 수를 감소시키는 방법이 유용하다.
매니폴드: 고차원 공간에서 휘어지거나 뒤틀린 모양
단, 데이터셋에 따라 매니폴드 학습으로 오히려 결정 경계가 더 복잡해지는 경우도 있으니 주의가 필요하다.
PCA를 사용할 때 주의할 점
PCA는 데이터셋의 평균이 0이라고 가정하므로 데이터를 원점에 맞춰주어야 한다.
훈련세트 의 주성분의 단위 벡터로 이루어진 행렬 V를 구하는 법
위와 같이 특잇값 분해를 이용하여 V를 구할 수 있다.
적절한 차원 수 선택
일반적으로 축소할 차원 수를 임의로 정하기보다는 충분한 분산(ex: 95% 이상)이 될 때까지 더할 차원의 수를 선택한다.
단, 시각화의 경우 2차원이나 3차원으로 축소한다.
LLE의 작동 방식
조건