[부스트캠프 AI-Tech] 16주차 Day 1

LKM·2022년 7월 25일
0

✏️학습 정리


8. Reducing Training Bias

  • Bias 종류

    • 학습에서 Bias
      • inductive bias (학습할 때 특정 형태의 함수를 선호)
    • 현실에서 Bias
      • historical bias (현실이 편향되어 모델에 원치 않는 속성이 학습)
      • co-occurrence bias (표면적인 상관관계 때문에 원치 않는 속성이 학습)
    • Data Generation에서 Bias
      • specification bias (입력과 출력의 방식 때문에 생기는 편향)
      • sampling bias (샘플링한 방식 때문에 생기는 편향)
      • annotator bias (어노테이터의 특성 때문에 생기는 편향)
  • ODQA에서 Bias

    • Reader model Bias
      • Reader는 항상 정답이 문서 내에 포함된 데이터쌍만(Positive) 보게 됨
    • Bias mitigate
      • Train negative sample
        • 훈련할 때 잘못된 예시를 보여줘야 retriever이 negative한 내용들을 먼 곳에 배치할 수 있음
      • Add no answer bias
        • 입력 시퀀스 길이가 N일시, 시퀀스의 길이 외 1개의 토큰이 더 있다고 생각
  • Annotation에서 Bias

    • Annotation bias
      • 데이터 제작 단계에서 bias 발생
        • 질문을 하는 사람이 답을 알고 있는 경우 → 질문과 evidence 문단 사이의 많은 단어가 겹치는 bias 발생
        • SQuAD: only 500+ wiki article → 학습 데이터 분포 자체가 이미 bias
      • 데이터셋 별 성능 차이가 annotation bias로 인해 발생할 수 있음
        • SQuAD: DPR 성능 < BM25 성능 (BM25가 overlap을 효과적으로 잡음)
        • NQ, WQ, TREC: DPR 성능 > BM25 성능
      • Dealing with annotation bias
        • Annotation 단계에서 발생할 수 있는 bias 인지
        • ex) Natural Question: Supporting evidence가 주어지지 않은 실제 유저의 question을 모아 데이터셋 구성
profile
함께 자라기

0개의 댓글