자연어 처리(自然語處理)는 인간의 언어 현상을 컴퓨터와 같은 기계를 이용해서 묘사할 수 있도록 연구하고 이를 구현하는 인공지능의 주요 분야 중 하나다.
...
구현을 위해 수학적 통계적 도구를 많이 활용하며 특히 기계학습 도구를 많이 사용하는 대표적인 분야이다.
-위키백과-
해당 게시물에서는
NLU의 한 분야인 Semantic Textual Similarity(STS)와
NLG의 한 분야인 Dialogue Generation에 대해 다루고자 한다.
Semantic textual similarity deals with determining how similar two pieces of texts are.
This can take the form of assigning a score from 1 to 5. Related tasks are paraphrase or duplicate identification.
-papers with code-
STS가 해결하고자 하는 문제는 무엇일까?
이름에서 알 수 있듯이, 주어진 두 텍스트에 대해 얼마나 비슷한지를 수치적으로 나타내는 것이 주 목적이다.
방식은 두 가지 정도로 구분지을 수 있는데,
등으로 볼 수 있다.
정리하면 Semantic Textual Similarity, 즉 의미론적 유사도 측정은 두 텍스트 간 유사성의 정도를 측정하는 task이다.
그러면 STS를 가지고 비즈니스적으로 어떤 문제를 해결할 수 있는지에 대해 생각해보자.
1) 고객의 문의 대응
2) 고객 리뷰 분석
STS에 사용되는 가장 대표적인 데이터셋은 Sementic Textual Similarity Benchmark(STS-B)이다.
STS-B는 다음과 같은 특징을 가지고 있다.
각 장르와 train - dev - test는 다음과 같은 비율로 분배되어있다.
train | dev | test | total | |
---|---|---|---|---|
news | 3299 | 500 | 500 | 4299 |
caption | 2000 | 625 | 625 | 3250 |
forum | 450 | 375 | 254 | 1079 |
total | 5749 | 1500 | 1379 | 8628 |
배경
메인 아이디어
1) 모델의 용량을 효과적으로 관리하는 Smoothness-including regularization
2) pre-trained 정보의 망각을 방지하기 위한 Bregman proximal point optimization
Dialogue Generation is a fundamental component for real-world virtual assistants such as Siri and Alexa. It is the text generation task that automatically generate a response given a post by the user.
-papers with code-
결론적으로, Dialogue generation는 사용자들의 대화를 학습하여 상대의 말에 적절한 대답을 생성하는 것이 최종적인 목표이자 해결하고자 하는 문제이다.
Dialogue generation에 사용되는 대표적인 데이터셋은 persona-chat이다.
persona-chat은 다음과 같은 특징을 가지고 있다.
Bot은 앞서 언급했던 persona-chat을 이용하여 학습된 모델이다.
배경
메인 아이디어
이미지 출처: Liu, Qian, et al. "You impress me: Dialogue generation via mutual persona perception." arXiv preprint arXiv:2004.05388 (2020).
좋은글 감사합니다