PROMETHEUS 2: 직접 평가 및 응답 비교가 가능한 오픈소스 평가 모델 논문 정리

jihyelee·2025년 1월 13일

llm-evaluation

목록 보기

2/5

PROMETHEUS 2: An Open Source Language Model Specialized in Evaluating Other Language Models (EMNLP 2024, link)

Proprietary LM
- GPT-4와 같이 학습 데이터셋, 모델의 파라미터를 포함한 모델 정보가 공개되지 않은 상업적 언어모델
Open LM
- Open-weight LM이라고도 불리며, 모델의 파라미터 정보가 공개된 언어모델
- 예전엔 Open-source LM이라고도 칭했으나, 실제로 모델을 학습할 때 사용한 코드나 데이터셋 정보를 공개하지 않는다는 점에서 Open-weight LM이 더욱 정확한 용어

Proprietary LM을 활용한 평가의 경우, 통제 가능성, 투명성, 경제성(affordability) 측면에서 한계가 존재함
Open LM을 활용한 평가의 경우, 아래와 같은 문제점 존재
- 사람이 내린 평가와 모델이 내린 평가가 크게 다른 경우 존재
- direct assessment와 pairwise ranking를 동시에 수행할 수 없음

가중치 머징 (wieght merging) - 개별 태스크 학습

태스크 1. direct assessment
- 사람의 평가와 언어모델의 평가 사이의 상관성을 높이려면 아래와 같은 사항들이 중요함
  - 1. 평가 언어모델에 인풋으로 정답(reference)이 제공되어야 함
  - 1. 숫자 점수를 내기 전 피드백(verbal feedback)을 생성하도록 하는 것이 좋음
  - 1. 평가 범주를 포함하면 특별한 요구사항도 유연하게 평가할 수 있음 (특히, 범주에 대한 설명과 각 점수에 대한 설명 포함)
- 평가모델 학습 시 인풋으로는 지시사항, 모델 응답, 정답, 평가 범주를 사용
- 이에 대해 피드백과 점수(숫자)를 출력하도록 학습
태스크 2. pairwise ranking
- 마찬가지로 정답, 피드백, 평가 범주를 학습 과정에 포함
  - 단, 평가 범주의 경우 범주에 대한 설명만을 포함 (점수에 대한 설명 X)
  - 피드백의 경우 두 응답 사이의 공통점과 차이점을 비교하도록 함
- 평가모델 학습 시 인풋으로 지시사항, 모델 응답 (2개), 정답, 평가 범주를 사용
- 이에 대해 피드백과 점수(둘 중 무엇을 선호하는지)를 출력하도록 학습

가중치 머징 (weight merging) - 학습 가중치 합침

Linear, Task Arithmetic, Slerp, TIES, DARE 등 여러 방법론 실험
DARE-linear merging이 가장 좋은 성능, 이를 활용
- DARE-linear merging이란 반복되는 가중치를 제거하기 위해 random drop과 re-scale을 적용한 가중치 합산 방식
두 개의 데이터셋을 하나의 모델로 학습하는 joint training의 경우, negative task transfer가 발생하나 weight merging 시 positive task transfer 발생
- 단순히 여러 개의 모델을 앙상블해서 나타나는 현상이 아닌, 다른 평가 포맷을 합침으로써 발생하는 긍정적 시너지 효과 발생
- pairwise ranking 학습이 direct assessment 성능 향상에 큰 영향을 미침 (direct assessment가 pairwise에 미치는 영향보다)

Preference Collection 데이터셋

Feedback Collection을 기반으로 새롭게 만든 pairwise ranking 피드백 데이터 (huggingface link)
- Feedback Collection에서는 하나의 instruction에 대해 1-5점에 대응하는 다섯 개의 응답이 존재
1. 하나의 instruction에 대해 5개의 응답을 두 개씩 쌍을 지어 총 10개의 응답쌍 조합을 생성, 기존의 점수를 바탕으로 어느 응답이 더 좋은지 (점수) 결정
1. GPT-4-1106을 프롬프팅하여 두 응답의 공통점과 차이점을 식별, 이를 피드백(verbal feedback)으로 활용

direct assessment 벤치마크
- Vicuna Bench
- MT Bench
- FLASK
- Feedback Bench
pairwise ranking 벤치마크
- HHH Alignment
- MT Bench Human Judgment
- Auto-J Eval
- Preference Bench

direct assessment
- 정답 기반 평가 (reference-based)
- 정답 평가자와의 상관성을 pearson, spearman, kendall-tau로 측정
pairwise ranking
- 정답 없이 평가 (reference-free)
- 사람과 평가모델 사이의 일치도 측정 (accuracy)