[부스트캠프 AI-Tech] 16주차 Day 1

LKM·2022년 7월 25일

MRC

부스트캠프 AI-Tech P stage

목록 보기

27/45

✏️학습 정리

8. Reducing Training Bias

Bias 종류
- 학습에서 Bias
  - inductive bias (학습할 때 특정 형태의 함수를 선호)
- 현실에서 Bias
  - historical bias (현실이 편향되어 모델에 원치 않는 속성이 학습)
  - co-occurrence bias (표면적인 상관관계 때문에 원치 않는 속성이 학습)
- Data Generation에서 Bias
  - specification bias (입력과 출력의 방식 때문에 생기는 편향)
  - sampling bias (샘플링한 방식 때문에 생기는 편향)
  - annotator bias (어노테이터의 특성 때문에 생기는 편향)
ODQA에서 Bias
- Reader model Bias
  - Reader는 항상 정답이 문서 내에 포함된 데이터쌍만(Positive) 보게 됨
- Bias mitigate
  - Train negative sample
    - 훈련할 때 잘못된 예시를 보여줘야 retriever이 negative한 내용들을 먼 곳에 배치할 수 있음
  - Add no answer bias
    - 입력 시퀀스 길이가 N일시, 시퀀스의 길이 외 1개의 토큰이 더 있다고 생각
Annotation에서 Bias
- Annotation bias
  - 데이터 제작 단계에서 bias 발생
    - 질문을 하는 사람이 답을 알고 있는 경우 → 질문과 evidence 문단 사이의 많은 단어가 겹치는 bias 발생
    - SQuAD: only 500+ wiki article → 학습 데이터 분포 자체가 이미 bias
  - 데이터셋 별 성능 차이가 annotation bias로 인해 발생할 수 있음
    - SQuAD: DPR 성능 < BM25 성능 (BM25가 overlap을 효과적으로 잡음)
    - NQ, WQ, TREC: DPR 성능 > BM25 성능
  - Dealing with annotation bias
    - Annotation 단계에서 발생할 수 있는 bias 인지
    - ex) Natural Question: Supporting evidence가 주어지지 않은 실제 유저의 question을 모아 데이터셋 구성

LKM

함께 자라기

이전 포스트

[부스트캠프 AI-Tech] 15주차 Day 4~5

다음 포스트

[부스트캠프 AI-Tech] 16주차 Day 1

부스트캠프 AI-Tech P stage

✏️학습 정리

8. Reducing Training Bias

[부스트캠프 AI-Tech] 15주차 Day 4~5

[부스트캠프 AI-Tech] 16주차 Day 2

0개의 댓글