Clustering
데이터 간의 거리를 기준으로 군집을 이룬 형태의 scatter plot을 만들어 낸다.
데이터의 요약, 혹은 어떠한 데이터가 유의미하게 분류할 수 있는 지 한 눈에 알아 볼 수 있다.
cluster 방법.
여러가지 방법들이 있고 데이터 성격에 맞게 선정하여 사용한다.
Hierarchical
Agglomerative: 개별 포인트에서 시작후 점점 크게 합쳐감
Divisive: 한개의 큰 cluster에서 시작후 점점 작은 cluster로 나눠감
Point Assignment
시작시에 cluster의 수를 정한 다음, 데이터들을 하나씩 cluster에 배정시킴
K-mean
k는 군집(cluster)의 갯수. mean은 평균.
군집에 해당하는 평균값. centeroid를 생성하여, centeroid와 거리를 계산하여 cluster 범위를 다시 정한다. 변화가 없을 때까지 진행한다.