• ตัวชี้วัดที่เหมาะสมที่สุดในการตัดสินว่า <ดี> แค่ไหนสำหรับผลลัพธ์ที่โมเดลสร้างขึ้น คือคะแนนความชอบของมนุษย์
  • การใช้ฟีดแบ็กที่มนุษย์ประเมินผลลัพธ์ของโมเดลเป็นตัวชี้วัดคุณภาพของข้อความที่สร้างขึ้น และต่อยอดไปสู่การออกแบบ loss ที่สะท้อนฟีดแบ็กนั้นเพื่อปรับให้โมเดลเหมาะสมที่สุด คือ RLHF (Reinforcement Learning from Human Feedback)
  • RLHF: ทีละขั้นตอน
    • #1 ฝึก Language Model (pre-training)
    • #2 รวบรวมข้อมูลเพื่อฝึก Reward Model และฝึกโมเดล
    • #3 ปรับจูน Language Model ด้วย Reinforcement Learning
  • RLHF, สิ่งที่ต้องคำนึงถึง
    • ข้อจำกัดในปัจจุบัน

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น