# MT

6개의 포스트

Machine Translation with Hugging Face🤗

Hugging Face 가 무엇인지, 그리고 Hugging Face 를 사용해서 translation 하는 방법을 정리한다. Hugging Face? 허깅 페이스는 다양한 트랜스포머 모델 (transformer.models)과 학습 스크립트(transformer.Trainer)를 제공하는 모듈이다. 허깅 페이스는 트랜스포머 모델을 사용할 때 layer, model 등을 선언하거나 학습 스크립트를 구현해야 하는 수고를 덜어준다. 🤗Transformers 🤗Transformers는 SOTA pretrained model들을 쉽게 다운받고 학습할 수 있게 API들과 tool들을 제공한다. pretrained model 을 사용하면 계산 비용도 줄일 수 있고, 서버를 덜 쓰니 carbon footprint도 줄일 수 있고, 처음부터 모델을 학습해야 하는 것에 비해 시간도 자원도 줄일 수 있다. 🤗 Transformers는 PyTorch, TensorFlo

2023년 6월 25일
·
0개의 댓글
·

Fine-tuning in MT

Fine-tuning in NLP refers to the procedure of re-training a pre-trained language model using your own custom data. As a result of the fine-tuning procedure, the weights of the original model are updated to account for the characteristics of the domain data and the task you are interested in. Fine-tuning 을 MT 모델에 사용하면, 주어진 도메인이나 스타일에 맞게 MT 모델을 맞추어준다. fine-tuning하기 위해서는 MT 모델이 맞추어 줄 bilingual sentence 가 있어야 한다. [Reference] https://towardsdatascience.com/fine-tuning-f

2023년 5월 24일
·
0개의 댓글
·

[Paper Review] Neural Machine Translation: A Review

Machine translation (MT) 는 자동으로 어떤 언어로 된 텍스트를 다른 언어로 바꿔주는 것이다. 최근 몇년 간 주요한 패러다임을 지나고 있는 연구 분야이다. 본 논문에서는 word, sentence embedding으로 현대의 NMT 구조의 origin을 설명하고 encoder-docoder network family 의 예제를 설명한다. 1. Introduction NLP 분야의 다양한 분야들이 neural network의 재발견으로 크게 발전했다. 최근 몇년 간 NMT 관련 논문들의 수가 급격하게 증가했고, 공개된 NMT toolkit 또한 많다. 산업에서도 많이 적용되고 있다. 2. Nomenclature 길이가 I 인 source sentence 를 x 라고 한다. (1) source sentence x를 번역한 target language 는 y 라고 한다. (2) projection function

2023년 4월 20일
·
0개의 댓글
·

Neural Machine Translation Decoding

Decoding 은 주어진 input 문장에 대해 translation을 생성하는 과정이다. Training 과정에서 보통 한번에 한 단어씩 예측하게 된다. 모델의 확률 분포로 주어진 선택할 수 있는 단어가 많기 때문에 가능한 output sequence의 space가 지수적으로 크다. (= 너무 크다) Best sequence 를 찾기 위해 어떻게 search problem을 다루는지 살펴보자. Beam Search Ensemble Decoding Reranking 1. Beam Search 정리 참고 2. Ensemble Decoding Ensemble 은 주어진 task에 대해 하나의 시스템만 만드는 것이 아니라, 여러개를 만들고 모두 combine하는 것이다. 기계번역에 ensemble을 적용하기 위해서는 두가지 sub-problem 을 해결

2023년 3월 31일
·
0개의 댓글
·

Beam Search

Natural Language Generation은 단어들의 sequence 를 아웃풋으로 예측하는 task 이다. 일반적으로 generation model은 각각의 decoding time step 에서 전체 단어 사전에 대한 확률 분포를 예측한다. 따라서 실제로 단어를 생성해내기 위해서는 모델의 예측 확률 분포를 이용해 각 time step의 단어로 변환하는 과정이 필요하다. 모델이 예측한 확률 분포에 대해 디코딩하기 위해서는 예측된 확률 분포에 따라 가능한 모든 output sequence의 조합을 Search (탐색) 해야 한다. 그런데 일반적으로 단어 사전은 수만 개의 토큰을 포함하고 있기 때문에 전체 공간을 탐색하는 것은 계산적으로 불가능하다. 따라서 실제로는 휴리스틱한 방법을 사용해 충분히 좋은 output sequence 를 생성해내도록 한다. 휴리스틱 탐색 방법은 근사적이거나 충분히 decoding된 output sequence를 반환한다.

2023년 3월 31일
·
0개의 댓글
·

22.09.05 (MT)

어제오늘 엠티를 다녀왔다. 사실 가기 전에 많은 고민을 했었는데, 내가 안 친한 사람들에게 낯을 매우매우 많이 가리는 타입이기도 하고, 안 그래도 술을 매우 못 마시는데(MT가서 본 사람들은 알겠지만 나는 소주 한 병도 채 먹기 전에 온 피부가 빨개지면서 두드러기가 올라오고, 눈은 충혈되며 심장박동이 비정상적으로 빨라진다. 내가 뒷풀이나 모임을 자주 안 나가는 이유이기도 하다.) 우리 과 동기들이 술을 너무 잘 마시는 바람에 내가 가봤자 분위기에 적응을 못하고 동기들 입장에선 챙겨야 할 사람만 한 명 더 늘어나는게 아닌가 하는 생각이 계속 들었기 때문이다. 거기에다 일요일에 선배와 썸데이페스티벌을 가기로 했었는데 일정이 토,일에서 일,월로 바뀌는 바람에 더더욱 고민이 되었다. 하지만 군대를 갔다오고 나면 남아있는 22학번 동기들도 없을 것 같고 살면서 MT갈 일도 몇 없을거 같은데 한 번쯤은 경험해보고 싶다는 마음에 전전날까지 고민하다가 결국 참가하기로 했다. 결과적으로 생

2022년 9월 5일
·
0개의 댓글
·