모델이 생성한 여러 응답 중에서 인간이 선호하는 응답을 선택하고 이를 평가
입력 프롬프트와 생성된 응답의 쌍
각 응답에 대한 보상 점수를 예측
보상 모델의 점수를 기반으로 -> 초기 언어 모델을 강화 학습
언어 모델의 가중치가 조정
그림 요약:
장점:
단점: