차원 축소(Dimension Reduction)

이재관·2022년 1월 24일
0

Machine Learning

목록 보기
4/5

많은 피처로 구성된 다차원 데이터 세트의 차원을 축소해 새로운 차원의 데이터 세트를 생성하는 것으로 일반적인 경우 차원이 증가할수록 데이터 포인트 간의 거리가 멀어지게되고 희소한 구졸ㄹ 가지게됨 수백 개 이상의 피처로 구성된 데이터 스트의 경우 상대적으로 적은 차원에서 학습돤 모델보다 예측정확도가 떨어질 가능성이 높다 선형회귀와 같은 선형 모델에서는 입력 변수 간의 상관관계가 높을 경우 이로인해 다중 공선성의 문제때문에 예측 성능이 저하됨

다차원의 피처를 차원 축소하여 피처 수를 줄이면 더 직관적으로 데이터를 해석할 수 있다. 수십 개 이상의 피처가 있는 데이터의 경우 이를 시각적으로 표현해 데이터의 특성을 파악하는 것은 불가능함. 이경우 3차원 이하의 차원 축소를 통해 데이터를 압축시켜 표현가능하다. 또한 차원을 축소할 경우 학습 데이터의 크기가 줄어들어서 학습에 필요한 처리능력도 줄일 수 있다.

일반적으로 피처 선택(feature selection)과 피처 추출(feature extraction)로 나눌 수있다.
피처 선택: 피처에 종속성이 강한 불필요한 피처는 제거하고 데이터의 특징을 잘 나타내는 주요 피처만을 선택함
피처 추출: 기존 피처를 차원의 중요 피처로 압축해서 추출하는 것이다. 새롭게 추출된 중요 특성은 기존의 피처가 압축된 것이기 때문에 기존 피처와는 완전히 다른 값이된다.
피처 추출은 기존 피처를 단순 압축이 아닌 피처를 함축적으로 더 잘 설명할 수 있는 또 다른 공간으로 매핑해 추출하는 것이다. 이러한 것을 기존 피처로 인지하기 어려운 잠재적인 요소(latent factor)를 추출하는 것을 의미한다.

이처럼 차원 축소는 단순히 데이터의 압축을 의미하는 것이 아니라 차원 축소를 통해 데이터를 잘 설명할 수 있는 잠재적인 요소를 추출하는 것에 있다.

profile
안되면 될 때까지

0개의 댓글