Clustering

하루하루 개발일기·2021년 10월 31일

강의 빅데이터

빅데이터

목록 보기

5/5

Clustering

여러개의 데이터 포인트가 주어졌을 때, 몇 개의 정해진 클러스터로 그룹핑해주는 과정

같은 클러스터에 속해있는 데이터는 유사한 데이터
다른 클러스터에 속해있는 데이터는 유사하지 않은 데이터

주로 distance measure를 이용하여 판단한다. (ex: 자카드 distance)
데이터 포인터가 고차원이다.(강아지 분류, 컴퓨터 부품 분류, 우주 분류 등)

클러스터링을 할때는 최적해를 찾는 것이 아니라, 휴리스틱을 이용하여 적당한 해를 찾는다.

Methods of Clustering

Hierarchical(계층적인 방법)

Agglomerative(바텀 업 방식): 모든 점을 하나의 클러스터로 본다. 가까운 점들끼리 결합을 한다. 그것을 계속 반복하는 방식

Divisive(탑 다운 방식): 커다란 하나의 클러스터로 시작하여, 그것을 나눈다.

Point assignment

K-means 알고리즘
k개의 클러스터가 있다고 한다. 같은 클러스터가 아닐 것 같은 k개의 포인터를 짚는다.
k개의 포인터에 가까운 값들을 같은 클러스터에 포함시킨다. 두번째 부터는 같은 클러스터에 평균값과 외부 포인터의 거리를 비교하여서 가져올지 말지를 판단한다.
사용자가 준 k에 따라 최초에 포인터가 설정되며, 그것을 통하여 클러스터가 나뉘게 된다.

평균거리의 차이를 비교하며 k를 조절해야 한다.

하루하루 개발일기

개발자로 공부하며 느낀 여러가지 경험들

이전 포스트

Clustering

빅데이터

Clustering

Methods of Clustering

Hierarchical(계층적인 방법)

Point assignment

Locality Sensitive hashing

0개의 댓글