구매한 상품과 유사한 상품을 추천
Item을 벡터로 표현해 벡터들 간의 유사도를 계산
유클리디안 거리에 역함수 값을 취한 것
계산하기 쉬움
분포가 다르거나 scale이 다를 경우 문제가 발생
두 벡터의 cos(theta)값
벡터의 크기가 중요하지 않은 경우에 사용
벡터의 크기가 다를 경우 문제가 발생
유클리디안 유사도는 거리가 가까우면 유사하다고 판단
코사인 유사도는 방향이 비슷하면 유사하다고 판단
상관관계를 계산
두 집합의 교집합과 합집합의 비율
유사도 끼리 더한다던지 아니면 가중치를 준다던지 등등 여러가지 방법이 존재함
문서에서 특정 단어가 얼마나 많이 등장하는지를 의미하는 TF
특정 단어가 문서에서 등장하는 횟수에 해당하는 DF
DF에 반비례하는 IDF를 통해 TF-IDF를 계산
다만 이는 관사 같이 의미 없는 단어가 많이 나오는 문제가 발생
이를 해결하기 위해 IDF를 사용
특정 문서 d에서 단어 t가 등장하는 횟수
특정 단어 t가 등장하는 문서의 수
log(전체 문서의 수 / (1 + DF(t)))
직관적인 해석이 가능
대규모 말뭉치를 다룰때 메모리의 문제가 발생 (높은 차원, 매우 sparse한 형태의 데이터)