Clustering

하루하루 개발일기·2021년 10월 31일
0

빅데이터

목록 보기
5/5

Clustering

여러개의 데이터 포인트가 주어졌을 때, 몇 개의 정해진 클러스터로 그룹핑해주는 과정

  • 같은 클러스터에 속해있는 데이터는 유사한 데이터
  • 다른 클러스터에 속해있는 데이터는 유사하지 않은 데이터

주로 distance measure를 이용하여 판단한다. (ex: 자카드 distance)
데이터 포인터가 고차원이다.(강아지 분류, 컴퓨터 부품 분류, 우주 분류 등)

클러스터링을 할때는 최적해를 찾는 것이 아니라, 휴리스틱을 이용하여 적당한 해를 찾는다.

Methods of Clustering

Hierarchical(계층적인 방법)

  • Agglomerative(바텀 업 방식): 모든 점을 하나의 클러스터로 본다. 가까운 점들끼리 결합을 한다. 그것을 계속 반복하는 방식
  • Divisive(탑 다운 방식): 커다란 하나의 클러스터로 시작하여, 그것을 나눈다.

Point assignment

  • K-means 알고리즘
    k개의 클러스터가 있다고 한다. 같은 클러스터가 아닐 것 같은 k개의 포인터를 짚는다.
    k개의 포인터에 가까운 값들을 같은 클러스터에 포함시킨다. 두번째 부터는 같은 클러스터에 평균값과 외부 포인터의 거리를 비교하여서 가져올지 말지를 판단한다.
    사용자가 준 k에 따라 최초에 포인터가 설정되며, 그것을 통하여 클러스터가 나뉘게 된다.

평균거리의 차이를 비교하며 k를 조절해야 한다.

profile
개발자로 공부하며 느낀 여러가지 경험들

0개의 댓글