KDT 10주차 세션 강의 복습(~37분까지)
ML이 검색분야에서 어떻게 사용되는지 랭킹 위주로 세션이 진행됨.
텍스트검색엔진의 진화
1세대(1994~1998)
2세대(1998~2000년대 중반)
- 페이지내의 정보 이상의 것들을 사용하기 시작
- 링크분석, 클릭
3세대(2000년대 중반~2010년대 초반)
- "10 blue links"를 넘어서기
- 검색결과의 개인화, 직접적인 답변제공
4세대(2010년대 중반~현재)
검색과학의 여러 분야들
-
랭킹적절성
-
검색어 분석
-
콘텐츠 분석
-
전체 페이지 적절성
랭킹함수의 학습
일반적인 학습과정
- 검색로그로부터 사용자들의 검색어 표본 추출
- (query,URL)에 대한 평가:(예,PEGFB 5단계)
- (query,URL)을 속성벡터로 나타내기
- 랭킹함수 학습(Learning to Rank Alogorithms)
랭킹함수의 평가
랭킹함수를 위한 속성들
- 문서 의존 속성
- 웹그래프 관련 속성(예, PageRank)
- 자동 문서분류 결과
- 검색어 의존 속성
- 검색어-문서 의존 속성
- 통사적 텍스트 매칭(예, BM25)
- 의미적 텍스트 매칭
- 사용자 행동 속성