(1) 집합에 속하는 정점 사이에는 많은 간선이 존재합니다.
(2) 집합에 속하는 정점과 그렇지 않은 정점 사이에는 적은 수의 간선이 존재합니다.
군집 탐색의 성공 여부를 판단하기 위해서, 군집성(Modularity)가 사용됩니다.
군집 내부의 간선의 수를 그래프와 배치 모형에서 비교합니다.
배치모형
(1) 각 정점의 연결성(Degree)을 보존한 상태에서
(2) 간선들을 무작위로 재배치하여서 얻은 그래프를 의미
군집성은 아래 수식으로 표현됩니다.
즉, 배치모형과 비교했을 때, 그래프에서 군집 내부 간선의 수가 월등히 많을 수록 성공한 군집 탐색입니다.
군집성은 항상 -1~1 값을 갖습니다. 보통 군집성이 0.3~0.7 정도의 값을 가질 때, 통계적으로 유의미한 군집임을 나타냅니다.
중첩 군집 모형
(1) 각 정점은 여러 개의 군집에 속할 수 있습니다.
(2) 각 군집에 대하여, 같은 군집에 속하는 두 정점은 특정 확률로 직접 연결됩니다.
(3) 두 정점이 여러 군집에 동시에 속할 경우 간선 연결 확률은 독립적으로 적용됩니다.
예를 들어, 두 정점이 군집 A, B에 동시에 속할 경우 두 정점이 간선으로 직접 연결될 확률은 1-(1-PA)(1-PB) 입니다.
(4) 어느 군집에도 함께 속하지 않는 두 정점은 낮은 확률 ε으로 직접 연결됩니다.
중첩 군집 탐색은 주어진 그래프의 확률을 최대화하는 중첩 군집 모형을 찾는 과정입니다.
즉, 최우도 추정치(Maximum Likelihood Estimate)를 사용합니다.
중첩 군집 탐색을 용이하게 하기 위하여 완화된 중첩 군집 모형을 사용합니다.
완화된 중첩 군집 모형에서는 각 정점이 각 군집에 속해 있는 정도를 실숫값으로 표현합니다.
최적화 관점에서 모형의 매개변수들이 실수 값을 가지기 때문에 익숙한 최적화 도구(경사하강법 등)을 사용하여 모형을 탐색할 수 있다는 장점이 있습니다.