비지도학습(Unsupervised learning)이란, 지도학습과 달리 training data로 정답(label)이 없는 데이터가 주어지는 학습방법을 말합니다.
아무도 정답을 알려주지 않은 채 오로지 데이터셋의 특징(feature) 및 패턴을 기반으로 모델 스스로가 판단하는 것
라벨링이 되어 있지 않은 데이터들 내에서 비슷한 특징이나 패턴을 가진 데이터들끼리 군집화한 후, 새로운 데이터가 어떤 군집에 속하는지를 추론하는 비지도학습과 같은 방법론이 제시
비지도학습 종류
1) Clustering 군집화 : K-means, DBSCAN 알고리즘
2) Dimensionality Reduction : PCA, T-SNE
그런데 비지도 학습이라는 용어는 정답이 없는 데이터를 이용한 학습 전체를 포괄하는 용어이기 때문에 clustering 이외에 Dimensionality Reduction 차원 축소 및 이를 이용한 데이터 시각화, Generative model 생성모델 등 다양한 task를 포괄하는 개념
비지도학습은 label인 y가 없으며, y가 분류될 수 있는 class 또한 지정되어있지 않음. 명확한 분류 기준이 없는 상황에서 유사한 feature을 가진 데이터들을 묶어주는 작업임.
K-means는 K개의 분류 기준이 존재한다 가정한 후, K개의 그룹으로 데이터를 분류하는 방식.
Clustering 모형 테스트를 위해서 'from sklearn.datasets import make_blobs'를
공감하며 읽었습니다. 좋은 글 감사드립니다.