Dimensionality Reduction & Unsupervised Learning(수정중)

김지예·2023년 4월 11일
0

Dimentionality Reduction (Curse of Dimensionality)

  • Projection -> PCA & Kernel PCA | Subspace
  • Manifold Learning | Hyperplane, Manifold

Clustering

  • K-Means
  • DBSCAN (Density Based Spatial Clustering of Application with Noise)

GMM (Gaussian Mixture Model)

Dimensionality Reduction 차원축소

Why

  • Speed up training
    변수 또는 피쳐가 많으면 training 하는데 많은 시간이 소요되기 때문에 차원축소를 해야함
  • Filtering out noises
    noise = rare 가 많은 경우 그 이벤트는 여기에 들어오지 못함
  • Condensed data visualization

How

차원축소가 하는 일: 큰 차원을 작은 차원으로 어떻게 바꿀 것인가

Projection
Features not affecting much or highly correlated may be removed
Manifold Learning
A d-dimensional manifold as a part of an n-dimensioal space

PCA

original variance ~~ Reduced dimension variance

Randomized PCA - 속도를 줄이는
Incremenral PCA(IPCA)

Singular Vector Decomposition(SVD)

Unsupervised Learning

  • 원하는 형태의 레이블링이 안 되어 있는 경우
  • 레이블링이 되어 있으나 신뢰도가 낮은 경우
  • 일부만 레이블링이 되어 있거나
    적절하게 미리 그루핑을 할 수 있으면 효과적인 머신러닝 가능

Classification

  • labeling 이 되어있음 (~는 setosa이고 ~는 versicolor이고 ~는virginica)

Clustering

  • labeling 안 되어있음 (어느놈이 뭐인지 몰름, 몇 개의 iris's로 -> clustering하는게 가장 좋을까요?)

예) 100개의 엔진 사운드를 주고 어떤 것이 고장난/비정상적인 엔진 사운드인지 알아내라

  • 디지털로 만들어야 함
  • 데이터를 clustering
  • 2차원이라고 하면 몰려있는 것들(normal) 외 bound에서 벗어난 것들(abnormal)

K-Means
a simple algorithm capable of clustering dataset, very quickly and efficiently Hard Clustering vs. Soft Clustering

distance base 적절하게 스케일링이 되어있지 않으면 normalize 큰 bias 될 수 읶음

K-Means
Guaranteed to converge without oscillation
May not converge to the right solution for unlucky random centroid initialization
초기에 centroid를 정해야함 -> 초기에 이걸 어디다 두느냐에 따라 답이 다름 -> 판단기준이 있어야 함(performance measure)어떤 놈이 좋은 놈인지 알아야 함

Inertia가 작은 cluster 가 좋음
각각 데이터 포인트 하나당 가까운 센트로이드 거리의 제곱의 합 - balance가 잘 되어진

Mini-batch K-means - 모든 데이터를 쓰지 않음

DBSCAN(Density Based Spatial Clustering of Application with Noise)
defines clusters as continuous regions of high density

dense 한 것을 따라감
connection 이 중요함

DBSCAN은 prediction하는 모델이 아님

  • clustering 먼저 하고
  • kNeighborsClassifier 하면 prediction

Gaussian Mixture Model (GMM)
임의의 distribution을 보았을 때 Gaussian function들의 합을 보게되는 것임
세 개의 parameter가 있음
1. Mean point
2. Standard deviation이 얼마나 되는지
3. 얼마나 많은 population을 갖는지

profile
배낭여행자 도로시, 주변을 살피며 걷는 중입니다. (소개글을 참고해 주세요 찡긋)

0개의 댓글