기억이 안날 때 참고하기 위한 NLP 용어들
주어진 말뭉치나 데이터셋에서 가장 일반적인 단어에서 덜 일반적인 단어로 이동할 때 발생하는 단어 발생 빈도의 감소를 뜻함.
no clear drop off
: 덜 일반적인 단어(잘 안쓰이는 단어)도 단어 발생 빈도가 줄어들지 않음.실제로 존재하는 각 객체, 이벤트, 상황 등의 개념들 사이의 연관성을 표현(모델링)을 그래프로 나타낸 것.
ex) ConceptNet
단어나 구의 표준화된 표현을 나타냄.
예를 들면, 이상적인 canonical unit의 목표는 walked
, walking
과 같은 단어들을 서로 다른 단어로 취급하는 것이 아니라 walk
라는 의미를 똑같이 담고 있을 수 있도록 만드는 것.
모델이 얼마나 헷갈리는지 정도를 나타낸 것. [낮을수록 좋음]
perplexity 는 무작위 변수의 불확실성을 설명하는 정보이론적 양이다.
관련 글: https://mbernste.github.io/posts/perplexity/
관련 위키독스 : https://wikidocs.net/21697
데이터 셋을 Train
과 Test
셋으로 나눈 것을 말함.
출처 : https://medium.com/@jaz1/holdout-vs-cross-validation-in-machine-learning-7637112d3f8f