MRC (Machine Reading Comprehension)
MRC 종류
MRC Datasets 역사
MRC Challenges
MRC 평가방법
EM: 예측과 ground-truth가 일치하는 비율
F1: 예측과 ground-truth 사이의 token overlap을 F1으로 계산
ord
: 문자를 유니코드 code point로 변환 (A → 65)chr
: code point를 문자로 변환 (65 → A)완성형 (자모 조합으로 나타낼 수 있는 모든 완성형 한글 11,172자)
조합형 (조합하여 글자를 만들 수 있는 초,중,종성)
인코딩
Tokenizing
텍스트를 토큰 단위로 나누는 것
Subword Tokenizing
BPE (Byte-Pair Encoding)
데이터 압축용으로 제안된 알고리즘
과정
질문의 답변이 항상 주어진 지문내에 span으로 존재
평가 방법
overview
Pre-processing
Fine-tuning
BERT Fine-tuning
Open-Domain Question Answering