[Paper review] Neural Machine Translation for Low-resource Languages: A Survey

AFL·2024년 3월 21일

Papers

목록 보기

5/6

Low-resource language (LRL)에 대한 machine translation 의 연구에 대해 정리

Unsupervised NMT

LRL 언어에 대해서는 parallel (병렬) 데이터 보다 monolingual (단일어) 데이터를 구하는게 더 쉽다. 그래서 monolingual corpora 를 사용하거나, cross-lingual word embedding 을 사용하는 unsupervised NMT 를 사용하는 연구들이 존재한다.

unsupervised NMT의 대부분의 구조는 GANs (Generative Adversarial Networks) 같은 adversarial framework 를 사용한다. 세 단계로 이루어지는데, 1) initilization, 2) back-translation, 3) discriminative classifier 이다.

Unsupervised NMT for LRL pairs

monolingual data 가 적은 LRL 에 대해 unsupervised NMT 를 사용한 연구들이 있었다.

Semi-supervised NMT

semi-supervised 방법은 monolingual data 뿐만 아니라 어느 정도의 parallel corpota 는 있는 상황을 가정한다. monolingual data 가 얼마나 있는지에 따라 방법들을 나눌 수 있다.

1) monolingual data 로 parallel data 를 만든다.

2) monolingual data 로 language model 을 생성한다.

3) NMT training objective 에 monolingual data 도 사용하도록 합친다.

Zero-shot NMT

zero-shot 시나리오에서는 src-tgt 병렬 데이터가 없다. 이 상황을 해결하기 위해 pivoting, multi-NMT, unsupervised NMT, transfer learning 과 같은 연구들이 있다.

Pivot-based solution

pivot 언어 (Y) 는 high-resource 언어로 사용한다. pivoting 방법에서는 src-tgt (X-Z) 번역을 두개의 독립적인 모델로 나눈다: src-pivot (X-Y), pivot-tgt (Y-Z). src 문장이 먼저 X-Y 모델로 번역이 되고, 그 결과가 다시 Y-Z 모델로 번역해서 결과를 얻게 된다.

이 방법은 두가지 한계가 있다. 1) error propagation 때문에 src-pivot 단게의 에러가 그 다음 단계에 전해지게 되는 문제 (src-pivot과 pivot-tgt 언어가 관계가 많지 않을수록 에러 더 커짐), 2) time complexity 가 커진다는 문제가 있다.

error propagation 문제를 줄이기 위해서 다음과 같은 방법으로 해결해볼 수 있다.
(1) src-pivot 모델과 pivot-tgt 모델이 pivot 언어의 word embedding 을 공유하면서 학습하도록 하는 방법 [26] (IJCAI-17)

(2) pivoting 을 transfer learning 에 접목시키는 방법 [99] (ACL, 2019)

high-resource 언어로 src-pivot 과 pivot-tgt 을 학습시킨 다음, src-pivot 의 인코더와 pivot-tgt 의 디코더를 가져와서 사용한다. 이 방법은 error propagation 을 줄여주고, time complexity 도 줄여준다.

(3) src-pivot parallel xorpus 를 pivot-target model 학습 과정에 사용하는 방법 [24] (ACL, 2017)

비슷한 방법으로 src-tgt model 을 MLE로 학습하는 방법이 있다. [211] (IJCAI-17)

또한, 적더라도 src-tgt parallel 데이터를 추가해서 사용한다면, pivoting 의 번역 정확성을 높일 수 있음을 보여준다. [24, 26, 99, 156]

이전 pivot 관련 연구들은 src-tgt 간의 zero-shot 번역에 집중하고 있지만, src-pivot, pivot-tgt 에 대규모의 parallel corpora가 사용되었다. 하지만 어떤 LRL 들은 영어와 같은 high-resource 언어와의 parallel data 조차 구하기 어렵기도 하다.
[121] 의 연구에 따르면 pivoting 의 성능은 선택한 언어들간의 'relatedness' 도 영향이 있다고 보여준다. 따라서 LRL 의 zero-shot NMT 에서 pivoting 의 영향을 고려하는 더 많은 연구가 필요하다.

Neural Machine Translation for Low-resource Languages: A Survey

https://dl.acm.org/doi/pdf/10.1145/3567592

[26] Joint Training for Pivot-based Neural Machine Translation, https://www.ijcai.org/proceedings/2017/0555.pdf (IJCAI-17)

[99] Pivot-based transfer learning for neural machine translation between non-English languages, https://aclanthology.org/D19-1080.pdf (ACL, 2019)

[24] A teacher-student framework for zero-resource neural machine translation, https://aclanthology.org/P17-1176.pdf (ACL, 2017)

[156] Triangular Architecture for Rare Language Translation, https://aclanthology.org/P18-1006.pdf (ACL, 2018)

[121] Pivot machine translation using Chinese as pivot language, https://doras.dcu.ie/23196/1/Pivot%20Machine%20Translation%20Using%20Chinese%20as%20Pivot%20Language.pdf

[211] Maximum expected likelihood estimation for zero-resource neural machine translation, https://www.ijcai.org/proceedings/2017/0594.pdf (IJCAI-17)

AFL

공부해서 남주자

이전 포스트

[Paper Review] ChatGPT MT: Competitive for High- (but not Low-) Resource Languages

다음 포스트