from gensim.models import Word2Vec
model = Word2Vec(window=2, vector_size = 300)
model.build_vocab(input_data)
model.train(input_data,total_examples=model.corpus_count, epochs=10)
similar_sad = model.wv.most_similar("sad")
similar_sad_lonely = model.wv.similarity("sad","lonely")
- Word2Vec
- parameter
- window : 몇개의 단어를 문맥 기준으로 할지
- vector_size : hidden node 숫자
- method
- build_vocab : input 데이터 (단어를 정수로 임베딩)
- corpus_count : input 데이터에서 문장이 몇개 들어가 있는지 확인 가능
- wv.most_similar("단어") - 단어와 유사한 것들을 출력
- wv.similarity("단어1","단어2") - 단어1 과 단어2 유사도