여러개의 데이터 포인트가 주어졌을 때, 몇 개의 정해진 클러스터로 그룹핑해주는 과정
주로 distance measure를 이용하여 판단한다. (ex: 자카드 distance)
데이터 포인터가 고차원이다.(강아지 분류, 컴퓨터 부품 분류, 우주 분류 등)
클러스터링을 할때는 최적해를 찾는 것이 아니라, 휴리스틱을 이용하여 적당한 해를 찾는다.
Hierarchical(계층적인 방법)
- Agglomerative(바텀 업 방식): 모든 점을 하나의 클러스터로 본다. 가까운 점들끼리 결합을 한다. 그것을 계속 반복하는 방식
- Divisive(탑 다운 방식): 커다란 하나의 클러스터로 시작하여, 그것을 나눈다.
Point assignment
- K-means 알고리즘
k개의 클러스터가 있다고 한다. 같은 클러스터가 아닐 것 같은 k개의 포인터를 짚는다.
k개의 포인터에 가까운 값들을 같은 클러스터에 포함시킨다. 두번째 부터는 같은 클러스터에 평균값과 외부 포인터의 거리를 비교하여서 가져올지 말지를 판단한다.
사용자가 준 k에 따라 최초에 포인터가 설정되며, 그것을 통하여 클러스터가 나뉘게 된다.
평균거리의 차이를 비교하며 k를 조절해야 한다.