연관 규칙 : IF(antecedent) THEN(consequent), 빈번하게 발생, 규칙 가운데 일부 조건을 만족하는 것
itemset : antecedent와 consequent를 구성하는 상품들의 집합
빈발 집합 (Frequent Itemset)
support count : 전체 데이터에서 itemset이 등장하는 횟수
support : support count / 전체 transaction 갯수
frequent itemset : 모든 itemset 가운데 유저가 만드는 minimum support 값 이상의 itemset
연관 규칙 척도
support : 전체 transaction에서 itemset이 등장하는 비율
confidence : X가 등장했을 때 Y도 같이 등장하는 조건부확률, confidence가 높을수록 추천하기에 유의미함
lift : 확률값이 아님, lift값이 1이면 X와 Y는 독립이고 1보다 크면 서로 양의 상관관계, 1보다 작으면 음의 상관관계
2. 연관 규칙의 탐색
효율적인 Association Rule Mining을 위해서는 다음의 두 단계를 거쳐야 한다.
Frequent Itemset Generation : minimum support 이상의 모든 itemset 생성
Rule Generation : minimum confidence 이상의 association rule 생성
3. TF-IDF
TF-IDF (Term Frequency-Inverse Document Frequency) : 단어가 문서에 자주 등장한다는 것은 이 단어가 그 문서에서 중요하다는 의미(TF), 단어가 전체 문서에서는 적게 등장하는데 특정 문서에서 등장했다는 것은 그 단어가 그 문서의 중요한 단어라는 의미(IDF)
-> TF와 IDF를 각각 구하고 서로 곱한 값이 TF-IDF