K-Means는 다음의 순서로 진행된다.
- random으로 centroid를 배치하여 clsutering을 진행
- 다음 iteration에 각 값들의 거리 평균을 기준으로 centroid를 이동하여 다시 clustering
- 위 과정을 centroid가 더 이상 움직이지 않을 때까지 반복한다.
- centroid: 클러스터의 중심
- inertia: centroid로 부터 값들의 거리의 평균
K-Means는 클러스터의 개수를 n_clusters=k으로 지정 해야한다. 그래서 최적의 클러스터 개수를 구하기 위해서 elbow 방법을 사용한다.
위 그래프에서는 k = 3.0일 때, inertia의 변화가 두드러지게 완만해지므로 최적의 클러스터 개수는 3이다.
차원 축소(dimensional reduction)
차원의 개수를 줄여서 연산을 효율적으로 진행할 수 있다.