[T Academy] CH2

박상우·2022년 12월 26일
0

T 아카데미

목록 보기
2/4
post-thumbnail

컨텐츠 기반 모델

구매한 상품과 유사한 상품을 추천
Item을 벡터로 표현해 벡터들 간의 유사도를 계산

유클리디안 유사도

유클리디안 거리에 역함수 값을 취한 것
계산하기 쉬움
분포가 다르거나 scale이 다를 경우 문제가 발생

코사인 유사도

두 벡터의 cos(theta)값
벡터의 크기가 중요하지 않은 경우에 사용
벡터의 크기가 다를 경우 문제가 발생

유클리디안 유사도 vs 코사인 유사도

유클리디안 유사도는 거리가 가까우면 유사하다고 판단
코사인 유사도는 방향이 비슷하면 유사하다고 판단

피어슨 유사도

상관관계를 계산

자카드 유사도

두 집합의 교집합과 합집합의 비율

그 외에도 여러가지 유사도가 존재

유사도 끼리 더한다던지 아니면 가중치를 준다던지 등등 여러가지 방법이 존재함

TF-IDF

문서에서 특정 단어가 얼마나 많이 등장하는지를 의미하는 TF
특정 단어가 문서에서 등장하는 횟수에 해당하는 DF
DF에 반비례하는 IDF를 통해 TF-IDF를 계산

빈도수를 기반으로 많이 나오는 단어를 잡아주는 방법이 Counter Vectorizer

다만 이는 관사 같이 의미 없는 단어가 많이 나오는 문제가 발생
이를 해결하기 위해 IDF를 사용

TF(d,t)

특정 문서 d에서 단어 t가 등장하는 횟수

DF(t)

특정 단어 t가 등장하는 문서의 수

IDF(d,t)

log(전체 문서의 수 / (1 + DF(t)))

이 TF-IDF 테이블로 유사도를 계산

TF-IDF의 장점

직관적인 해석이 가능

단점

대규모 말뭉치를 다룰때 메모리의 문제가 발생 (높은 차원, 매우 sparse한 형태의 데이터)

profile
세상아 덤벼라

0개의 댓글