profile
學而時習之 不亦說乎

NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE

Attention을 소개하는 하는 논문입니다. 해당 논문에서는 annotation이라는 표현을 사용하지만 추후 attention으로 불리며 transformer 구조의 뼈대로 활용됩니다.

2023년 6월 5일
·
0개의 댓글
·

context2vec: Learning Generic Context Embedding with Bidirectional LSTM

CBOW의 아이디어를 활용하여 bidirectional LSTM을 통해 context를 embedding하는 context2vec을 소개하는 논문입니다.

2023년 6월 4일
·
0개의 댓글
·

Simple Unsupervised Keyphrase Extraction using Sentence Embeddings

Input 문서만으로 document embedding을 활용하여 informativeness와 diversity 특성을 지닌 keyphrase를 unsupuervised하게 뽑아주는 EmbedRank, EmbedRank++를 소개하는 논문입니다.

2023년 5월 27일
·
0개의 댓글
·

Unsupervised Learning of Sentence Embeddings using Compositional n-Gram Features

CBOW의 개념을 확장하여 unsupervsied 방식으로 sentecne embedding을 구하는 Sent2Vec을 소개하는 논문입니다.

2023년 5월 20일
·
0개의 댓글
·

Highway Networks

신경망의 깊이가 깊어질수록 학습이 어렵다는 문제를 해결해주는 highway network를 소개하는 논문입니다. highway network는 ELMo 논문에서 활용된다고 언급되어 있습니다.

2023년 5월 13일
·
0개의 댓글
·

Deep contextualized word representations

Context-dependent, 즉 문맥 의미를 담은 word embedding을 얻을 수 있는 ELMo를 소개하는 논문입니다. biLM을 활용하여 biLM의 모든 layer output을 활용하며 각 layer 별 서로 다른 정보를 encode한다는 것을 보였습니다

2023년 5월 12일
·
0개의 댓글
·

Sequence to Sequence Learning with Neural Networks

Seq2Seq를 소개하는 논문입니다. Input의 단어 순서를 뒤집어줌으로써 long sentence에서도 학습이 잘 될 수 있고, 성능 향상도 달성할 수 있다는 것을 보여주는 논문입니다.

2023년 3월 4일
·
0개의 댓글
·

Using the Output Embedding to Improve Language Models

해당 논문에서는 language model과 neural machine translation에서 input embedding과 output embedding의 weight tying의 효용성을 소개합니다.

2023년 2월 28일
·
0개의 댓글
·

Improving Neural Language Models with a Continuous Cache

Pre-trained model 가장 윗 단에 쉽게 cache 역할을 추가할 수 있는 Neural Cache Model을 소개하는 논문입니다.

2023년 2월 24일
·
0개의 댓글
·

Regularization of Neural Networks using DropConnect

Layer의 activation에 drop을 적용하는 dropout의 일반화인 Layer weight에 drop을 적용하는 DropConnect를 소개하는 논문입니다. DropConnect가 dropout의 일반화 버전임을 보이고 성능이 더 좋다는 것도 보여줍니다.

2023년 2월 21일
·
0개의 댓글
·

Recurrent Neural Network Regularization

Dropout을 non-recurrent connection에만 적용하여 RNN 계열에 dropout을 활용할 수 있는 방법을 제안하는 논문입니다.

2023년 2월 17일
·
0개의 댓글
·

Regularizing and Optimizing LSTM Language Models

Hidden-to-hidden weight matrix에 DropConnect mask를 적용하여 기존 LSTM 수행에 변화를 주지 않아도 되는 weight-dropped LSTM과 학습 최적화 방식으로 NT-ASGD를 소개하는 논문입니다.

2023년 2월 16일
·
0개의 댓글
·

An Empirical Exploration of Recurrent Network Architectures

LSTM과 GRU보다 나은 성능을 보이는 architecture를 찾으며, LSTM의 각 gate들의 중요도를 평가하고 LSTM의 forget gate bias로 1을 사용할 때 LSTM의 성능이 향상됨을 보이는 논문입니다.

2023년 2월 9일
·
0개의 댓글
·

On the Properties of Neural Machine Translation: Encoder–Decoder Approaches

고정되지 않은 길이의 input을 다루기 위해 convoluton network를 응용한 grConv를 소개하고, GRU와 machine translation 측면에서 성능을 비교하는 논문입니다.

2023년 2월 7일
·
0개의 댓글
·

Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation

RNN Encoder-Decoder 모델을 소개하면서 추후 GRU라고 이름붙은 LSTM 변형 Unit을 소개하는 논문입니다.

2023년 2월 3일
·
0개의 댓글
·

Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling

RNN의 reccurent unit으로 tanh, LSTM, GRU 성능을 비교하는 논문입니다. LSTM에서 간소화된 GRU가 LSTM과 큰 성능 차이가 없다고 볼 수 있는 논문입니다.

2023년 2월 3일
·
0개의 댓글
·

Improving performance of recurrent neural network with relu nonlinearity

ReLU를 사용하는 RNN에서 vanishing 혹은 exploding gradient없이 학습하기 위해 recurrent 초기 가중치 행렬로 positivie definite identity matrix를 활용하는 np-RNN에 관한 논문입니다.

2023년 2월 1일
·
0개의 댓글
·

Skip-Thought Vectors

Sentence embedding을 unsupervised 방식을 통해 수행한 skip-thought를 소개하는 논문입니다. Word2vec의 skip-gram 학습 아이디어롤 문장 수준으로 확장하여 사용하였습니다.

2023년 1월 27일
·
0개의 댓글
·

Improving Distributional Similarity with Lessons Learned from Word Embeddings

신경망을 활용한 word embedding의 성능이 count-based 모델보다 뛰어난 것이 알고리즘 그 자체가 아닌 hyperparameter setting에 의한 것임을 보이고 hyperparameter를 전통 방식에도 적용해 본 논문입니다.

2023년 1월 21일
·
0개의 댓글
·

A SIMPLE BUT TOUGH-TO-BEAT BASELINE FOR SENTENCE EMBEDDINGS

Discourse vector(주제 벡터)를 활용하여 sentence embedding을 unsupervised하게 구하는 방법을 소개하는 논문입니다. Sentence embedding은 단순 평균이 아닌 문장 내 단어들의 가중 평균으로 볼 수 있습니다.

2023년 1월 20일
·
0개의 댓글
·