LLM as a judge처럼 현실적이고 다양한 평가 기준에 대해 평가를 수행할 수 있도록 학습된 오픈소스 평가모델 Prometheus 논문 정리
오픈 소스 모델로 언어모델의 응답을 평가하는 PROMETHEUS 2 논문 정리
프롬프트를 활용해 LLM 환각 현상을 완화하는 미국 실리콘밸리 업체 Galileo의 ChainPoll 논문 정리
440M 파라미터의 DeBERTa 모델을 활용해 GPT-3.5 LLM judge 만큼의 성능을 보인다는 Galileo Luna 모델 논문 리뷰
평가모델의 편향을 줄이기 위한 평가 벤치마크 및 학습 데이터셋 논문 정리 (OffsetBias: Leveraging Debiased Data for Tuning Evaluators)