OffsetBias: 평가 모델의 편향성을 어떻게 해결할 수 있을까?

jihyelee·2025년 2월 18일

LLM evaluation 논문리뷰

llm-evaluation

목록 보기

5/5

OffsetBias: Leveraging Debiased Data for Tuning Evaluators (link)

배경지식

평가 모델 (Judge Model)
- LLM 응답의 품질을 평가하기 위해 제안됨
- 사람 평가를 대체할 수 있는 자동화된 평가 방법
- 1. LLM-as-a-judge
  - 거대한 언어모델을 프롬프팅을 활용해 평가 모델로 활용하는 방법
  - 비용과 통제가능성 문제 발생 가능
- 1. (오픈소스) 평가 모델 파인튜닝
  - LLM-as-a-judge의 한계를 극복하기 위해 오픈소스 모델을 평가 모델로 학습하여 사용
메타 평가 (meta-evaluation)
- 평가 모델의 성능을 평가

문제점

평가 모델은 편향(bias)에 취약
- 예를 들어, 긴 응답을 선호하는 등 작성된 스타일에 따라 편향 발생
- 이러한 편향은 평가의 정확성을 해침

해결책

EvalBiasBench

6가지 편향 (bias)

다양한 평가 모델들이 취약한 6개의 편향 종류를 식별
- 1. 여러 메타 평가 벤치마크을 활용해 평가 모델 추론 진행
- 1. 오류 발생 경우들을 부넉해 편향에 대한 가설 세움
- 1. 추가적인 예시들을 활용해 편향 가설 확인
6가지 편향 종류
- 1. 길이 편향 (length bias)
  - 응답의 품질과 상관없이 긴 응답을 선호하는 현상
- 1. 정확성 편향 (correctness bias)
  - 특정한 세부사항이 응답에 포함될 경우 이를 더욱 신뢰하는 현상
- 1. 빈 참조 편향 (empty reference bias)
  - 예를 들어 요약을 요청하였으나 요약할 대상 문서가 없을 경우, 낮은 성능의 추론 모델은 그럴 듯하게 대상 문서를 상상해서 답변을 생성하기도 함 (환각)
  - 환각이 반영된 이러한 종류의 응답을 선호하는 현상
- 1. 내용 연속 편향 (content continuation bias)
  - 지시사항에 따르는 것이 아니라 (e.g. 인풋에 대해 답변), 인풋을 완성하는 형태의 응답을 선호하는 현상
- 1. 중첩 지시 편향 (nested instruction bias)
  - 지시사항이 아니라, 주어진 지시사항의 인풋 안에 포함된 질문이나 요청에 대한 답변을 선호하는 현상
- 1. 익숙한 지식 편향 (familiar knowledge bias)
  - 실제 세상의 일반적인 지식을 묘사하는 응답을 선호하는 현상
- 기타. 위치 편향 (position bias)
  - 응답의 순서가 평가 모델의 성능에 영향을 미치는 현상
  - EvalBiasBench에 포함되지는 않았으나, 해당 편향에 대해서도 검토함

Bias Benchmark

평가 모델이 각 편향에 얼마나 강건한지를 파악하기 위한 평가 데이터셋
6개의 편향에 대해 각각 80개의 평가 데이터를 확보
길이 편향의 영향을 없애기 위해, 두 응답의 길이 비율이 2를 넘지 않도록 함

OffsetBias

편향을 줄여주는 선호(preference) 데이터셋
- 지시사항, 좋은 응답, 나쁜 응답으로 구성
평가 모델 학습 시 다른 데이터셋과 함께 사용

나쁜 응답 생성 (bad response generation)

Alpaca, Ultra-chat, Evol-Instruct, Flan에서 지시사항(instruction) 추출
추출한 지시사항에 대해 GPT-4-1106-preview를 활용해 편향과 오류를 포함한 응답 생성
1. 주제 이탈 응답 방식 (off-topic response method)
- 지시사항(I)이 주어지면, GPT-4를 활용해 유사하지만 다른 지시사항(I')를 생성
- 성능이 낮은 모델(GPT-3.5-turbo)을 활용해 I에 대해 답변 생성 (좋은 응답)
- 성능이 좋은 모델(GPT-4)을 활용해 I'에 대해 답변 생성 (나쁜 응답)
1. 오류가 있는 응답 방식 (erroneous response method)
- GPT-4, Claude-3-Opus를 활용해 특정 오류를 포함한 나쁜 응답을 생성
  - 잘못된 사실 포함, 불완전한 응답 생성, 불필요한 부분 추가, 필요한 부분 생략, 지시사항에서 벗어남 등
- 좋은 응답의 경우, 기존 데이터셋의 정답 응답을 활용

난이도 조정 (difficulty filtering)

베이스 모델과 GPT-3.5-turbo가 모두 제대로 평가할 경우(=나쁜 응답을 제대로 식별할 경우), 해당 데이터는 너무 쉽기 때문에 제외 (약 60%)
off-topic을 통해 3062 건, erroneous를 통해 5442건 확보
- 총 8504건

평가

평가 모델

베이스 생성형 모델 (LLaMA-3-8B-Instruct) - 총 2종류
- 1. 베이스 데이터만 학습
  - 베이스 데이터는 Ultrafeedback, Helpsteer, HH-RLHF-Helpful-Online, HH-RLHF-Harmless-Base, PKU-SafeRLHF 등을 포함한 약 268k개의 사람 선호 데이터셋
  - Ultrafeedback, Helpsteer은 쌍(pairwise)을 평가하는 게 아니라 단일한 점수로 평가하는 데이터셋이나, 이를 포함하는 것이 쌍을 평가할 때도 도움이 됨을 확인
- 1. 베이스 데이터에 OffsetBias 함께 학습
베이스 보상 모델 (FsfairX-LLaMA3-RM-v0.1)
- 해당 보상모델에 직접 파인튜닝하는 방식이 아니라, 가중치를 합치는 방식(weight merging method)을 활용
  - 중간 보상 모델을 기존 모델의 학습 데이터와 OffsetBias를 함께 사용해 학습
  - 해당 중간 모델을 기존 모델과 합쳐 최종 모델을 얻음 (SLERP 활용)

비교 대상 모델

생성형 모델
- GPT-4o-2024-0513
- GPT-3.5-turbo-0125
- PandaLM
- AutoJ
- Prometheus2
- LLaMA-3-8B-Instruct
보상 모델
- Eurus-RM-7B
- Starling-RM-34B
- RM-Mistral-7B
- FsfairX-LLaMa3-RM

평가 벤치마크

LLMBar
HHH-Alignment
MT-Bench Human Judge
RewardBench
EvalBiasBench

jihyelee

Graduate student at Seoul National University, majoring in Artificial Intelligence (NLP). Currently AI Researcher and Engineer at LG CNS AI Lab

이전 포스트

OffsetBias: 평가 모델의 편향성을 어떻게 해결할 수 있을까?

llm-evaluation

배경지식

문제점

해결책

EvalBiasBench

OffsetBias

평가

Galileo Luna: 440M 파라미터 모델로 RAG 환각 탐지하기

0개의 댓글