[부스트캠프 AI-Tech] 16주차 Day 3
✏️학습 정리
10. QA with Phrase Retrieval
- Retriever-Reader의 한계
- 5-10개의 문서만 reader에게 전달 (Error Propagation)
- query에 따라 정답이 되는 answer span에 대한 encoding이 달라짐 (Query-dependent encoding)
- Retrieve-Read 두 단계 말고 정답을 바로 search 할 수는 없나??
- Phrase Indexing

- Dense-sparse Representation for Phrases
- Dense vector: 통사적, 의미적 정보를 담는데 효과적
- pre-trained LM (e.g. BERT) 이용
- Sparse vector: 어휘적 정보를 담는 데 효과적
- 문맥화된 임베딩을 활용하여 가장 관련성이 높은 n-gram으로 sparse vector 구성
- Scalability 문제 존재
- phrase embedding: 모두 사용

- Phrase Retireval 한계
- 큰 용량의 storage 필요 (2TB SSD)
- 최신 Retrieve-reader 모델 대비 낮은 성능 (Natural Question에서)
- Decomposability gap
- (기존) Question, passage, answer가 모두 함께 encoding
- (Phrase Retrieval) Question과 passage/answer 각각 encoding → Question과 passage 사이 attention 정보 X