IDF

존스노우·2023년 1월 31일

ES 궁금한거 정리.

목록 보기

1/1

IDF

IDF(Inverse Document Frequency)는 텍스트 마이닝에서 사용되는 개념입니다. 검색 엔진이나 문서 관리 시스템에서 단어의 중요도를 판단하는데 사용됩니다.

IDF는 특정 단어가 문서 집합 전체에서 얼마나 희귀한지를 나타냅니다. 즉, 특정 단어가 많은 문서에서 나타나면(즉, 일반적인 단어일수록) 그 단어의 IDF 값은 낮아집니다. 반면에 특정 단어가 적은 문서에서만 나타나면(즉, 희귀한 단어일수록) 그 단어의 IDF 값은 높아집니다.

IDF 값은 다음과 같이 계산됩니다:

IDF(t) = log (N / (1 + df(t)))

t: 특정 단어
N: 문서 집합 전체의 문서 수
df(t): 특정 단어 t가 나타난 문서의 수
IDF 값을 계산한 후, 각 문서에서 특정 단어의 빈도수(TF, Term Frequency)와 곱하여 단어의 중요도를 판단할 수 있습니다.

간단하게 엘라스틱 서치 공식문서를 보던 중 잘 이해가
되지않는 것을 ChatGPT를 통해 물어봐서 답변을 얻었다.

공식문서에서 도 잘 설명했지만 ChatGPT가 더 설명을
구체적으로해줘서 좀더 이해하기 수월한 거 같다.

결국은 얼마나 희귀한가?-> 특정 단어가 나오는 문서가 적을수록 IDF 값은 높아짐 -> 희귀하단 뜻.. 공식은 어려우니 패스한다.

존스노우

어제의 나보다 한걸음 더

IDF

ES 궁금한거 정리.

IDF

0개의 댓글