- ตัวชี้วัดที่เหมาะสมที่สุดในการตัดสินว่า <ดี> แค่ไหนสำหรับผลลัพธ์ที่โมเดลสร้างขึ้น คือคะแนนความชอบของมนุษย์
- การใช้ฟีดแบ็กที่มนุษย์ประเมินผลลัพธ์ของโมเดลเป็นตัวชี้วัดคุณภาพของข้อความที่สร้างขึ้น และต่อยอดไปสู่การออกแบบ loss ที่สะท้อนฟีดแบ็กนั้นเพื่อปรับให้โมเดลเหมาะสมที่สุด คือ RLHF (Reinforcement Learning from Human Feedback)
- RLHF: ทีละขั้นตอน
- #1 ฝึก Language Model (pre-training)
- #2 รวบรวมข้อมูลเพื่อฝึก Reward Model และฝึกโมเดล
- #3 ปรับจูน Language Model ด้วย Reinforcement Learning
- RLHF, สิ่งที่ต้องคำนึงถึง
ยังไม่มีความคิดเห็น