Gensim(Word2Vec) function

김무성·2022년 3월 8일
0

NLP

목록 보기
2/2

Library (gensim)

Parameter

  • sentence: 모델에 입력되는 문장 (input) *

  • vector_size: 임베딩 차원 수 (64) *

  • window: 윈도우 크기 (30) *

  • min_count: 단어 최소 빈도 수 (0) *

  • workers: 모델을 학습하는데 사용되는 worker 수 *

  • sg: 0은 CBOW, 1은 Skip-gram (0)

  • hs: 0은 negative sampling(negative가 0이 아닌경우), 1은 hierarchical softmax (1)

  • negative: 0이면 negative sampling X, 0이상의 자연수는 negative sampling 단어 수

  • ns_exponent: 음의 표본 분포를 형성하는 데 사용되는 지수 / 1.0 값은 빈도에 정확히 비례하여 표본을 추출하고, 0.0은 모든 단어를 동일하게 샘플링하며, 음수 값은 고빈도 단어보다 저빈도 단어를 더 많이 샘플링함. 인기 기본값 0.75는 원본 Word2Vec 용지에 의해 선택됨 (X)

  • cbow_mean: cbow할 때, 0은 덧셈, 1은 평균 (0 or 1)

  • alpha: 초기 학습률

  • sample: 고빈도 단어를 랜덤으로 다운샘플링하기 위한 임계값(0,1e-5)

  • epochs: 말뭉치의 반복횟수

  • sort_vocab: 1이면 내림차순으로 어휘를 정렬

  • compute_loss: True이면 get_latest_training_loss 사용하여 검색할 수 있는 손실 값을 계산하고 저장

  • callbacks:

Functions

  • wv: 단어와 임베딩 간의 매핑

  • build_vocab: 문장 시퀀스에서 어휘 빌드

  • build_vocab_from_freq: 단어 빈도 사전에서 어휘 빌드

  • get_latest_training_loss(): 최근 학습 손실 값 불러오기

  • corpus_count: 문장 수

Train

  • corpus_iterable: 문장 리스트

  • total_examples: 문장의 수

  • total_words: 문장의 원 단어 수

  • epochs: 말뭉치의 반복횟수

  • word_count: 이미 훈련된 단어 수. 문장의 모든 단어를 학습할때는 0으로 지정.

  • compute_loss: True이면 get_latest_training_loss 사용하여 검색할 수 있는 손실 값을 계산하고 저장

  • callbacks:

Reference

profile
graph data scientist

0개의 댓글