Recommender System (2)

suyeon·2022년 10월 10일
0

Boostcamp AI Tech

목록 보기
2/6

1. 연관 규칙 분석

2. 연관 규칙의 탐색

3. TF-IDF


1. 연관 규칙 분석 (Association Rule Analysis, Association Rule Mining)

  • 유저가 상품을 구매하는 하나의 연속된 거래 안에서 그 아이템 사이의 규칙을 찾기 위한 분석


  • 연관 규칙

    • 규칙 : IF(condition) THEN(result), {condition} -> {result}
    • 연관 규칙 : IF(antecedent) THEN(consequent), 빈번하게 발생, 규칙 가운데 일부 조건을 만족하는 것
    • itemset : antecedent와 consequent를 구성하는 상품들의 집합
  • 빈발 집합 (Frequent Itemset)

    • support count : 전체 데이터에서 itemset이 등장하는 횟수
    • support : support count / 전체 transaction 갯수
    • frequent itemset : 모든 itemset 가운데 유저가 만드는 minimum support 값 이상의 itemset
  • 연관 규칙 척도

    • support : 전체 transaction에서 itemset이 등장하는 비율
    • confidence : X가 등장했을 때 Y도 같이 등장하는 조건부확률, confidence가 높을수록 추천하기에 유의미함
    • lift : 확률값이 아님, lift값이 1이면 X와 Y는 독립이고 1보다 크면 서로 양의 상관관계, 1보다 작으면 음의 상관관계

2. 연관 규칙의 탐색

  • 효율적인 Association Rule Mining을 위해서는 다음의 두 단계를 거쳐야 한다.
    • Frequent Itemset Generation : minimum support 이상의 모든 itemset 생성
    • Rule Generation : minimum confidence 이상의 association rule 생성

3. TF-IDF

  • TF-IDF (Term Frequency-Inverse Document Frequency) : 단어가 문서에 자주 등장한다는 것은 이 단어가 그 문서에서 중요하다는 의미(TF), 단어가 전체 문서에서는 적게 등장하는데 특정 문서에서 등장했다는 것은 그 단어가 그 문서의 중요한 단어라는 의미(IDF)
    -> TF와 IDF를 각각 구하고 서로 곱한 값이 TF-IDF

0개의 댓글