Collaborative Filtering for Implicit Feedback Datasets 논문 리뷰

Myeonghyeon Ryu·2022년 10월 10일

논문리뷰

목록 보기

1/5

추천시스템 공부를 위한 논문 리뷰입니다. 아직 많이 부족하기 때문에 지적사항이 있으시다면 언제든 의견 남겨주세요! 반영해서 수정하겠습니다.

Collaborative Filtering for Implicit Feedback Datasets

Introduction

e-commerce의 인기가 높아짐에 따라 고객이 가장 좋아하는 제품을 쉽게 찾을 수 있도록 제공하는 것은 중요한 과제가 됐습니다.

이를 해결하기 위한 도구로 최근(2008년기준) 많은 관심을 받고 있는 것이 추천 시스템입니다.
추천 시스템은 사용자의 unique한 취향과 요구에 맞는 제품 또는 서비스를 개인에게 제공합니다. 이런 시스템을 위해선 사용자와 제품을 프로파일링하고 이들을 연관시키는 방법을 찾아야 합니다.

추천 시스템은 두 가지 다른 전략(또는 이들의 조합) content-based approach와 collaborative filtering을 사용합니다.

content-based approach은 데이터를 수집하기 위해 각 사용자 또는 제품에 대한 프로필을 수집합니다. 예를 들어 영화 프로필에는 장르, 참여 배우, 박스 오피스 인기도 등에 관한 것들이 포함되며 사용자 프로필에는 인구 통계 정보나 설문지에 대한 답변이 포함될 수 있습니다.
그러나 content-based 전략은 외부 정보를 수집해야되기 때문에 사용하기 쉽지 않습니다.

collaborative-filtering은 유사한 평가와 구매이력을 가진 사용자끼리 묶어 사용자와 item간의 연관성을 얻습니다.
CF는 프로파일링이 매우 어려운 데이터 측면을 해결할 수 있고 일반적으로 콘텐츠 기반 기술보다 정확하지만 새로운 제품을 처리할 수 없기 때문에 cold start 문제를 겪고 있습니다.

추천 시스템을 위한 가장 좋은 input은 사용자가 제품에 대해 직접 평점을 남겨주는 것입니다.
하지만 그건 항상 가능한 것이 아니기 때문에 사용자의 행동 관찰로 abundant implicit feedback을 얻어 사용자 선호도를 추론할 수 있습니다.

implicit feedback 유형에는 구매 내역, 검색 내역, 검색 패턴 또는 마우스 움직임 등이 포함됩니다.

이 분야의 대부분은 편리함 때문에 explicit feedback을 처리하는 데 중점을 두고 있지만
이는 사용자가 제품 평가를 꺼리거나 (저 포함) explicit 피드백을 수집할 수 없는 시스템의 한계를 반영할 수 있습니다.

implicit feedback에는 고유한 특성 4가지가 있습니다.

negative에 대한 정보를 알 수 없다.

ex) 특정 프로그램을 시청하지 않은 사용자에 대해 그 프로그램을 싫어하는 건지 몰랐던건지 알 수가 없다.

implicit data는 본질적으로 noisy하다.

ex) 사용자가 특정 시간에 특정 채널을 오래 보는 것은 좋아하는 것일 수 있지만 그냥 잠든걸수도 있다.

confidence 속성을 지닌다.
ex) explicit는 1~5점 사이의 점수로 확실히 표현할 수 있지만 implicit은 시청시간을 판단하는데 한계가 있다. 사용자가 좋아하는 영화 한 편 보는 것은 1이라는 값이지만 tv 시리즈 물은 큰 값을 갖는다.

적절한 평가지표가 필요하다.

ex) tv 시청에 대한 데이터를 수집하는 경우 두 번 이상 시청한 프로그램에 대한 평가를 어떻게 할 것인지? 같은 시간에 상영한 프로그램은 어떻게 비교할 것인지?

Previous work

Neighborhood models

neightborhood models은 크게 user-oriented method와 item-oriented method가 있습니다.
user-oriented method는 비슷한 유저의 기록을 바탕으로 예측하며 item-oriented method는 유저가 이미 평점을 내린 다른 item들과 유사도를 이용해 예측합니다.