-
Supervised Fine-Tuning (SFT)
- 인간이 의도하는 policy를 학습시키기 위해 인간 labeler가 선별한 적은 양의 샘플 데이터셋을 통해 PLM을 finetuning
-
Reward Model (Mimic Human Preferences)
- 인간 labeler는 1에서 학습된 SFT 모델이 생성한 여러 답변 후보들 중 인간 labeler들이 무엇이 더 좋은 답변인지 랭킹을 매겨 점수화한 데이터셋을 수집
- 이 데이터셋을 사용해 새로운 reward model을 학습
-
Proximal Policy Optimization (PPO)를 이용한 SFT 강화학습
- SFT 모델에 여러 사용자들의 입력을 주고, reward model과 함께 상호작용하며 강화 학습