[부스트캠프 AI-Tech] 16주차 Day 1
✏️학습 정리
8. Reducing Training Bias
-
Bias 종류
- 학습에서 Bias
- inductive bias (학습할 때 특정 형태의 함수를 선호)
- 현실에서 Bias
- historical bias (현실이 편향되어 모델에 원치 않는 속성이 학습)
- co-occurrence bias (표면적인 상관관계 때문에 원치 않는 속성이 학습)
- Data Generation에서 Bias
- specification bias (입력과 출력의 방식 때문에 생기는 편향)
- sampling bias (샘플링한 방식 때문에 생기는 편향)
- annotator bias (어노테이터의 특성 때문에 생기는 편향)
-
ODQA에서 Bias
- Reader model Bias
- Reader는 항상 정답이 문서 내에 포함된 데이터쌍만(Positive) 보게 됨
- Bias mitigate
- Train negative sample
- 훈련할 때 잘못된 예시를 보여줘야 retriever이 negative한 내용들을 먼 곳에 배치할 수 있음
- Add no answer bias
- 입력 시퀀스 길이가 N일시, 시퀀스의 길이 외 1개의 토큰이 더 있다고 생각
-
Annotation에서 Bias
- Annotation bias
- 데이터 제작 단계에서 bias 발생
- 질문을 하는 사람이 답을 알고 있는 경우 → 질문과 evidence 문단 사이의 많은 단어가 겹치는 bias 발생
- SQuAD: only 500+ wiki article → 학습 데이터 분포 자체가 이미 bias
- 데이터셋 별 성능 차이가 annotation bias로 인해 발생할 수 있음
- SQuAD: DPR 성능 < BM25 성능 (BM25가 overlap을 효과적으로 잡음)
- NQ, WQ, TREC: DPR 성능 > BM25 성능
- Dealing with annotation bias
- Annotation 단계에서 발생할 수 있는 bias 인지
- ex) Natural Question: Supporting evidence가 주어지지 않은 실제 유저의 question을 모아 데이터셋 구성