시리즈

llm-evaluation

1.Prometheus: 현실적이고 다양한 평가를 수행할 수 있는 오픈소스 평가 모델

LLM as a judge처럼 현실적이고 다양한 평가 기준에 대해 평가를 수행할 수 있도록 학습된 오픈소스 평가모델 Prometheus 논문 정리

2025년 1월 22일

오픈 소스 모델로 언어모델의 응답을 평가하는 PROMETHEUS 2 논문 정리

2025년 1월 13일

프롬프트를 활용해 LLM 환각 현상을 완화하는 미국 실리콘밸리 업체 Galileo의 ChainPoll 논문 정리

2025년 1월 27일

440M 파라미터의 DeBERTa 모델을 활용해 GPT-3.5 LLM judge 만큼의 성능을 보인다는 Galileo Luna 모델 논문 리뷰

2025년 2월 4일

평가모델의 편향을 줄이기 위한 평가 벤치마크 및 학습 데이터셋 논문 정리 (OffsetBias: Leveraging Debiased Data for Tuning Evaluators)

2025년 2월 18일