[T Academy] Ch3

박상우·2022년 12월 26일
0

T 아카데미

목록 보기
3/4
post-thumbnail

Word2Vec

모든 단어를 사용하니까 문제가 생기는 것이니.. 추론 기반의 방법
주변 단어가 주어졌을 때 어떤 단어가 들어갔는지 추측하는 것

정의

단어간 유사도를 반영해 단어를 벡터화 하는 임베딩 방법론
비슷한 위치의 단어는 비슷한 의미를 가진다는 가정하에 단어 간 유사도를 계산

알고리즘

CBOW와 Skip-gram
대부분 skip-gram을 사용

CBOW

주변 단어로 중심 단어 예측

skip-gram

중심 단어로 주변 단어 예측

과정

입력 값을 One Hot Vector로 만들어서 넣어줌
이를 결합한 은닉층 생성
은닉층과 가중치를 곱해서 Score를 추출
Softmax를 통해 확률로 변환
Loss를 계산
Backpropagation을 통해 가중치를 업데이트

위 과정을 다른 문맥에서도 반복 수행

컨텐츠 기반 모델의 장점

다른 사용자들의 평점 대신 자신의 평점 만으로 추천 시스템을 만들수 있음
item의 feature를 통해 추천을 해 설명 용이
사용자가 평점을 매기지 않은 새로운 item에도 추천 용이

단점

제대로 추출하지 못하면 정확도가 낮음 (도메인 지식이 필요)
meta 데이터 활용이 힘듬

따라서 협업 필터링 모델과의 콜라보레이션이 필요

profile
세상아 덤벼라

0개의 댓글