과학논문을 한정하여 keyword를 자동으로 뽑아주고 theme weighted PageRank 알고리즘을 통해 keyword 간의 ranking을 매기는 Key2Vec 모델을 소개하는 논문입니다.
Attention을 소개하는 하는 논문입니다. 해당 논문에서는 annotation이라는 표현을 사용하지만 추후 attention으로 불리며 transformer 구조의 뼈대로 활용됩니다.
CBOW의 아이디어를 활용하여 bidirectional LSTM을 통해 context를 embedding하는 context2vec을 소개하는 논문입니다.
Input 문서만으로 document embedding을 활용하여 informativeness와 diversity 특성을 지닌 keyphrase를 unsupuervised하게 뽑아주는 EmbedRank, EmbedRank++를 소개하는 논문입니다.
CBOW의 개념을 확장하여 unsupervsied 방식으로 sentecne embedding을 구하는 Sent2Vec을 소개하는 논문입니다.
Context-dependent, 즉 문맥 의미를 담은 word embedding을 얻을 수 있는 ELMo를 소개하는 논문입니다. biLM을 활용하여 biLM의 모든 layer output을 활용하며 각 layer 별 서로 다른 정보를 encode한다는 것을 보였습니다
Seq2Seq를 소개하는 논문입니다. Input의 단어 순서를 뒤집어줌으로써 long sentence에서도 학습이 잘 될 수 있고, 성능 향상도 달성할 수 있다는 것을 보여주는 논문입니다.
해당 논문에서는 language model과 neural machine translation에서 input embedding과 output embedding의 weight tying의 효용성을 소개합니다.
Pre-trained model 가장 윗 단에 쉽게 cache 역할을 추가할 수 있는 Neural Cache Model을 소개하는 논문입니다.
고정되지 않은 길이의 input을 다루기 위해 convoluton network를 응용한 grConv를 소개하고, GRU와 machine translation 측면에서 성능을 비교하는 논문입니다.
RNN Encoder-Decoder 모델을 소개하면서 추후 GRU라고 이름붙은 LSTM 변형 Unit을 소개하는 논문입니다.
Sentence embedding을 unsupervised 방식을 통해 수행한 skip-thought를 소개하는 논문입니다. Word2vec의 skip-gram 학습 아이디어롤 문장 수준으로 확장하여 사용하였습니다.
신경망을 활용한 word embedding의 성능이 count-based 모델보다 뛰어난 것이 알고리즘 그 자체가 아닌 hyperparameter setting에 의한 것임을 보이고 hyperparameter를 전통 방식에도 적용해 본 논문입니다.
Discourse vector(주제 벡터)를 활용하여 sentence embedding을 unsupervised하게 구하는 방법을 소개하는 논문입니다. Sentence embedding은 단순 평균이 아닌 문장 내 단어들의 가중 평균으로 볼 수 있습니다.
단어를 vector로 표현하는 방식(embedding)에서 count-base와 predict-base 모델의 성능을 비교하는 논문입니다.
Unsupervised 방법으로 문장 embedding을 효율적으로 수행할 수 있는 SimCSE를 소개하는 논문입니다. Random dropout mask를 활용하여 input 스스로를 예측할 수 있도록 학습을 수행합니다.
PMI를 활용한 word-context 행렬에 SVD와 같은 행렬분해를 수행하면 SGNS를 통해 학습된 word embedding과 유사한 결과를 얻을 수 있다는 것을 보인 논문입니다.
PMI 값과 co-occurrence 행렬분해를 통해 word embedding을 수행하는 Swivel을 소개하는 논문입니다.
Count-based model과 predict-based model의 장점을 결합하여 비지도 방법으로 word vector를 학습하는 GloVe를 소개하는 논문입니다.
Fasttext를 소개하는 논문입니다. 단어를 문자(알파벳) 단위로 쪼개 skip-gram을 적용하였으며, 그렇기 때문에 좋은 성능의 out-of-vocabulary word vector를 얻을 수 있습니다.