GPT-3.5, RLHF의 바로 그 강화 학습 알고리즘. PPO 살펴보기
GPT를 ChatGPT로! 현대 LLM preference optimization의 시초, RLHF 살펴보기
RL 모델 없는 preference optimization, DPO 살펴보기
RL 없는 preference optimization, DAP 방법론들 비교하기: SLiC-HF, DPO, IPO, RRHF