NLP의 sub task②: QA

제목없음·2022년 2월 22일
0
post-thumbnail

저번 포스팅에선 NLU, NLG에서 각각 하나씩 sub task를 선정하여 알아보았다.
이번 포스팅에선 NLU 중 Question Answering(QA)에 대해 다루고자 한다.

NLU란?

자연어이해 (natural language understanding) 한국어 또는 영어와 같이 일반적으로 의사소통에 쓰이는 수많은 언어를 자연어라 하며, 어떠한 것을 이해 한다는 것은 한 표현(근원표현)으로부터 다른 표현(목적표현)으로 변환시키는 것을 뜻한다.
-위키백과-

  • 기계에게 인간의 언어를 이해시키는 것
  • 이해한다는 것은 문법을 맞추며 문장이나 대화의 의미를 파악하는 것

📌Question Answering(QA)

Question answering (QA) is a computer science discipline within the fields of information retrieval and natural language processing (NLP), which is concerned with building systems that automatically answer questions posed by humans in a natural language.
-위키백과-

  • 인간의 질문에 응답하는 모델을 설계하는 것

🧐문제정의

앞서 언급했듯, QA는 인간의 질문에 답변하는 모델을 설계하는 것이 최종 목표이다.
지난 게시글에 포스팅했던 Dialogue Generation(DG)과 다루는 문제는 비슷한 듯 하여 두 task 간의 차이점을 고민해보았다.
기본적으로, 각각 NLU(Understanding)과 NLG(Generation)에 속한다는 점에서 착안하여 비교한다.

  • QA는 주어진 질문(Question)과 정보(Context) 대한 이해를 기반으로 응답
    📝학습의 목적: context를 기반으로 정확한 answering을 하는 것
  • DG는 기존 정보(Question & persona)를 기반으로 추론하여 응답
    📝학습의 목적: 상대의 persona를 파악하는 것
  • QA는 기존 정보 내에서 답변을 찾는다면, DG는 기존 정보를 추론하는 것을 목표로 한다.

이렇듯, '상대의 질문에 응답'이라는 동일한 문제를 해결하면서 약간의 차이를 가지는 것을 알 수 있다.


💾데이터 소개:SQuAD

SQuAD(Stanford Question Answering Dataset)는 QA task에서 자주 사용되는 데이터셋이다.

특징은 다음과 같다.

  • 위키백과 문서에 대해 crowdworker가 제기한 질문으로 구성
  • 질문에 대한 응답은 해당 context 내에서 표시가 되어 있음
  • 536개의 문서에서 107,785개의 질의-응답 쌍을 포함(1.1 ver)
  • 즉, context, question, answer로 구성

🏆SOTA 모델 소개: T5

Text-To-Text Transfer Transformer(T5)의 배경 및 메인 아이디어에 대해 알아본다.

배경

  • BERT 기반의 모델들은 task마다 다른 출력을 가지고 있음
    👉 task 별로 다른 loss와 hyperparameter를 사용해야함
  • pretrain 시 사용되는 데이터셋의 품질에 대한 문제 제기

메인 아이디어

  • 통합된 텍스트 입력 - 텍스트 출력으로 구축하여 모든 task에서 동일한 loss와 hyperparameter 사용 가능
  • pretrain 시 사용되는 새로운 데이터셋 구축 및 사용(C4)

이미지 출처: https://rajpurkar.github.io/mlx/qa-and-squad/

profile
안녕하세요:)

4개의 댓글

comment-user-thumbnail
2022년 2월 22일

확실히 T5가 NLU 분야에서 많이 사용되고 있다는 사실을 알고 갑니다. 좋은 글 잘 읽었습니다!

답글 달기
comment-user-thumbnail
2022년 2월 22일

DG는 답과 평가지표가 명확하게 정해진 QA보다는 어려운 과제라고 생각합니다. 좋은글 잘 읽었습니다.

답글 달기
comment-user-thumbnail
2022년 2월 22일

좋은 글 잘 읽었습니다

답글 달기

DG와 QA의 차이점에 대해 짚어주셔서 감사합니다. :)

답글 달기