PCA 최대분산 이론
기존의 데이터를 통해서 고차원 특성 벡터를 이용하는 이론입니다.
가장 전통적인 방법으로 데이터의 특성을 찾아 복잡도를 낮추는데 사용합니다.
해 구하는 방법
- 샘플 데이터를 정규화 처리한다
- 샘플의 공분산 행렬을 구한다
- 공분산행렬에 대해 고윳값 분해를 하고, 고윳값을 큰 값부터 작은 값으로 순서대로 배열한다
- 고윳값이 큰 순서로 d번째까지의 고윳값에 대응하는 고유벡터 ω1,ω2,...,ωd 를 취해 식 n차원의 샘플을 d차원으로 매핑한다.
PCA 최소제곱오차 이론
공분산과 고윳값을 통해 구할수도 있지만 최소제곱오차를 통해서도 해를 구할 수 있습니다.
선형 판별 분석(LDA)
LDA는 지도기능이 있는 차원 축소 알고리즘이라고 볼 수 있습니다.
PCA는 데이터의 레이블을 고려하지 않고 데이터의 분산이 큰방향으로 투영할 뿐입니다.
- LDA는 각 클래스가 가우스 분포이고 각 클래스의 공분산이 같다는 가정이 있음
- 선형 모델의 노이즈에 강한 강건성을 보임
- 모델을 지나치게 간단하여 표현능력에 한계가 있음
선형판별분석(LDA)과 주성분분석(PCA)
PCA | LDA |
---|
비지도 학습 | 지도 학습 |
분산이 클수록 정보량이 많다고 판단 | 분산이 작으면서 클래스 사이의 분산은 큰방향을 선택 |
차원을 낮춰서 필요없는 정보를 제거 | 차원을 축소해 각 데이터가 차별성이 있도록 함 |