[NLP]검색랭킹 모델링이란?

건너별·2021년 11월 10일
0

NLP 및 추천시스템

목록 보기
5/13

검색랭킹 모델링이란?

  • 일반적으로 텍스트(키워드)의 형태로 유사도가 높은 문서를 찾아 차례로 노출해주는 시스템

기존의 검색랭킹 모델?

  • Slope one (Collaborative Filtering)
    - 다른 사람들과 다른 아이템에 대한 정보를 이용하여 특정인의 특정아이
    템에 대한 정보를 추정
    - 아마존의 상품 추천시스템에서 사용

랭킹 모델의 2가지 과정

  • Information Retrieval
    사용자의 질의와 검색 대상인 컨텐츠 사이의 언어적 통계정보를 이용하여 Relevance를 측정
    예) Boolean, TF*IDF Model, Contents based Rank model
  • Information Filtering
    컨텐츠 및 도메인의 특성을 이용하여 컨텐츠의 quality 측정하고 이를 이용
    해 컨텐츠를 순위화
    예) PageRank, Snowrank 등
    • ad-hoc based Rank model

두가지 모델이 혼용되어 사용되며 이것을 Ranking Model이라고 한다.

검색 랭킹 모델링 최적화 프로세스

1. 검색 시스템 정의

  • 서비스 정의 : 필요 고객을 대상으로 한 쇼핑몰 포털
  • 서비스 컨텐츠
    - 상품 : 상품명, 상품 상세설명, 이미지 라벨, 카테고리명 등
  • 비즈니스 로직
    - 고객에게 적합한 상품을 랭킹 모델로 추천

2. 검색 시스템 평가

1) 평가 방법

  • Precision and Recall (고전적인 평가방법)
    - Test Set 구성에 어려움이 있어 실무에 적용하기 어려움
  • Precision at top N in Popular Keywords
    - 사용자가 최상위 N개 이후의 결과는 보지 않음
    - 가장 많은 커버리지를 갖는 테스트 질의 선정
  • 사용자 클릭 정보
    - 페이지 상에서 발생하는 사용자의 클릭 정보를 활용
    -> 사용자의 검색결과 클릭 여부
    -> 사용자의 “next page” 클릭 수
    -> 사용자가 많이 클릭한 결과의 위치

2) 평가 결과

  • Precision at top N 결과
    - 100개의 질의어에 대해 5개가 검색결과 없다면?
    -> 형태소 사전, 유사어 확장 등의 오류
    - 100개중 40개가 검색결과가 없다면?
    -> 검색 랭킹 모델이 잘못되어 있음
  • 사용자 클릭 정보 결과
    - 첫 페이지에서 검색결과 클릭 수가 떨어진다면?
    -> 현재 검색 시스템에 문제가 있음
    - 고객의 검색 결과 클릭 분포 비교해봤을 때 Top 5~8위 사이의 검색 결과 클릭이 많다면?
    -> 검색랭킹이 잘못되어 있음. 기호를 잘 반영을 못하고있음

3. 검색 시스템 분석

  • 컨텐츠 특성 분석 : 설문조사, 검색시스템 평가 이용
  • 데이터 마이닝을 통한 구매이력 분석 : 기호를 기준으로 세그멘테이션하고, 기호에 대한 가중치 측정

4. 검색 시스템 개선

  • 고객의 기호를 반영한 랭킹 모델 구성
  • 랭킹 모델을 각 그룹별 고객을 위한 개인화 서비스에 적용
  • 모델 튜닝 및 최적화

랭킹 모델링을 위한 도구들

  • Search Profile
    - 개인별, 그룹별 다른 랭킹 모델을 적용
  • Ranking Model Applier
    - 수식화된 랭킹 모델을 검색 엔진에 적용하는 도구
  • 검색 Simulation Tool
    - 질의 입력에서 검색 결과 생성까지의 모든 상황을 모니터링 하기 위한 도구

Reference

profile
romantic ai developer

0개의 댓글