[HUFSTUDY] 내용 기반 추천 알고리즘

Uomnf97·2022년 6월 27일
0

+) 코드잇 강의 바로가기

본 정리내용은 코드잇 강의를 공부하며 함께 정리한 내용입니다! 더 정확하고 자세한 내용을 공부하기 위해서는 "코드잇 머신러닝 실전 강의를 참고해주세요!"

내용 기반 추천 알고리즘

  • 내용 기반 추천 알고리즘은 데이터의 속성을 독립변수로, 그리고 평점이나 구매여부와 같은 것들을 종속변수로 하여 타겟을 예측하는 알고리즘이다. 따라서 구매 여부와 같은 종류의 알고리즘은 분류(classification)알고리즘을 활용하고, 평점과 같이 값을 예측하는 경우에은 회귀(Regression)을 활용하게 된다.

  • 모든 유저가 독립적일 경우 효과적!

Ex) 옷을 사는 것을 예측한다고 생각할 때 겉옷을 산다고 생각해보자! 옷의 속성에는 브랜드, 재질, 겉옷 종류 등이 있는데 유저가 이미 구매한 항목으로부터 브랜드, 재질, 겉옷 종류 등을 학습한다면 새로운 옷 A에 대한 구매여부를 파악하거나 회귀를 통해 구매된 옷의 평점등을 예측할 수 있다!

다중선형회귀 함수로 내용기반 추천 알고리즘 만들기

  • 옷을 살 때, 브랜드, 재질, 색상 등을 고려해서 사는 유저의 구매 평점을 예측한다고 가정한다면, 브랜드, 재질, 색상을 각각 x1,x2,x3를 세개의 값을 독립변수로 설정하고 평점을 타겟 데이터인 y로 설정하여 예측모델을 만들어 줄 수 있다. 이와 같은 식을 선형 대수의 벡터 형태로 연산을 하도록 만들면 더욱더 빨리 계산을 할 수 있도록 유도 할 수 있다.
타겟변수독립변수1독립변수2독립변수3
평점브랜드재질색상
yx1x2x3

따라서 위를 이용해서 가설 함수를 설정하고, 손실함수를 이용하여 경사하강법을 이용해 최적화 과정을 거쳐서 평점을 구하게 된다.

머신러닝 복습

  • 손실함수 : 예측값과 실제값의 차이를 보여주는 함수로 가설함수가 얼마나 정확한지 나타내는 지표
  • 손실함수가 크다 ? 가설함수가 제대로 값을 예측하지 못한다.
  • 손실함수가 작다 ? 가설함수가 제대로 값을 예측중이다.
  • 경사하강법 : 손실을 줄여주는 가장 가파른 방향으로 업데이트하는 방법

추천 알고리즘의 예측 방법

  • 가설함수를 최적화 한뒤, 학습에 쓰이지 않은 실제 값을 대입하여 결과값이 평점을 예측하게 됨.

장단점

  • 장점 :
    • 유저를 특정하여 알고리즘을 만들어줄 수 있다.
    • 새롭게 출시한 제품이나 사용자가 구매하지 않았던 제품을 추천할 수 있다. 인기가 없는 제품을
  • 단점 :
    • 적합한 속성을 고르기 어렵다.
      : 사람이 특정 상품을 살 때, 고려하는 것은 모두 다르기 때문
    • 고려한 값이 주관적 의견이 들어갈 수 잇다.
    • 유저가 직접준 데이터를 벗어나 추천을 할 수 없다.
    • 인기가 많은 다른 제품을 추천하기 어렵다.

참고 : 코드잇 머신러닝 실전 강의

profile
사회적 가치를 실현하는 프로그래머

0개의 댓글