High dimensional data_Ai_D13

dannialism·2021년 12월 8일

내용

Clustering
데이터 간의 거리를 기준으로 군집을 이룬 형태의 scatter plot을 만들어 낸다.
데이터의 요약, 혹은 어떠한 데이터가 유의미하게 분류할 수 있는 지 한 눈에 알아 볼 수 있다.

cluster 방법.
여러가지 방법들이 있고 데이터 성격에 맞게 선정하여 사용한다.
Hierarchical
Agglomerative: 개별 포인트에서 시작후 점점 크게 합쳐감

Divisive: 한개의 큰 cluster에서 시작후 점점 작은 cluster로 나눠감

Point Assignment
시작시에 cluster의 수를 정한 다음, 데이터들을 하나씩 cluster에 배정시킴

K-mean
k는 군집(cluster)의 갯수. mean은 평균.

군집에 해당하는 평균값. centeroid를 생성하여, centeroid와 거리를 계산하여 cluster 범위를 다시 정한다. 변화가 없을 때까지 진행한다.

danny + realism