오늘 클러스터링 강의에서 주성분분석인 PCA에 대한 정의와 실습 그리고 t-SNE의 정의를 배우고 t-SNE의 과제를 받았다.

여기서부터 조금 이해가 어렵기 시작했다.

데이터의 특성들을 최대한 보존하면서 그 특성들의 차원을 축소하는 것이 주성분 분석이라 한다.

여기서 차원이란건 분석하고자 하는 컬럼들을 이야기하는거고, 그 컬럼이 변수라 칭하며 주성분은 변수들을 선형 결합하여 만들어 낸다.
선형결합부터 이해가 필요한 것 같은데, 각 변수들에게 임의의 상수들을 곱하여 다 더해서 선형을 만들어 낸다고 해서 선형결합이라고 한다.

선형결합 :
c1 = a * x1 + b * x2

원래 있던 변수, 즉 차원들을 선형결합하여 그 차원의 갯수를 줄이면서 차원의 설명력을 가진 점수의 새로운 차원이 등장하게 된다.
이렇게 차원을 축소한다고 표현하고, 한눈에 보기 어려운 기존의 차원을 더 보기 쉽게 변환하는 거라고 이해했다.

주성분 분석의 장단점

장점

  • 고차원(차원이 많은)의 데이터가 차원 축소되어 데이터 분포를 한눈에 알아보기 쉬워진다.
  • 차원 축소로 머신러닝 모델 학습의 효율을 높일 수 있다.
    (*차원의 저주를 해소한다. / 차원의 저주란? : 데이터 용량이 크고 불필요한 차원들이 많아 생기는 문제들을 이야기함)
  • 상관관계 분석에서 상관계수가 높은 차원들 처럼 차원 축소 과정을 통해서 기존 차원에서의 변수 중요도를 확인할 수 있다.
    (*선형결합하는 과정에서 계수(곱하는 상수의 값)가 클수록 영향력이 큰 변수라고 해석할 수 있음)

단점

  • 차원 축소 후에는 기존의 데이터의 차원이 가지는 의미를 사용할 수 없게 된다.
    (*차원 축소로 주성분이된 차원들은 더이상 이전 차원이 어떤 의미를 갖는지 해석하기 어려움)
  • 차원 축소를 통해 기존 데이터의 분포를 100% 반영한 것이 아니기 때문에 정보 손실이 발생한다.
    (*기존 분산을 80~90% 이상을 반영하는 최소한의 차원 갯수를 선택해야 하는 이유이다. 정보 손실을 최소화하자)
profile
Data analyst를 향해 도전하는 이야기

0개의 댓글