Gensim(Word2Vec) function

김무성·2022년 3월 8일

NLP

목록 보기

2/2

sentence: 모델에 입력되는 문장 (input) *
vector_size: 임베딩 차원 수 (64) *
window: 윈도우 크기 (30) *
min_count: 단어 최소 빈도 수 (0) *
workers: 모델을 학습하는데 사용되는 worker 수 *
sg: 0은 CBOW, 1은 Skip-gram (0)
hs: 0은 negative sampling(negative가 0이 아닌경우), 1은 hierarchical softmax (1)
negative: 0이면 negative sampling X, 0이상의 자연수는 negative sampling 단어 수
ns_exponent: 음의 표본 분포를 형성하는 데 사용되는 지수 / 1.0 값은 빈도에 정확히 비례하여 표본을 추출하고, 0.0은 모든 단어를 동일하게 샘플링하며, 음수 값은 고빈도 단어보다 저빈도 단어를 더 많이 샘플링함. 인기 기본값 0.75는 원본 Word2Vec 용지에 의해 선택됨 (X)
cbow_mean: cbow할 때, 0은 덧셈, 1은 평균 (0 or 1)
alpha: 초기 학습률
sample: 고빈도 단어를 랜덤으로 다운샘플링하기 위한 임계값(0,1e-5)
epochs: 말뭉치의 반복횟수
sort_vocab: 1이면 내림차순으로 어휘를 정렬
compute_loss: True이면 get_latest_training_loss 사용하여 검색할 수 있는 손실 값을 계산하고 저장
callbacks:

graph data scientist