ChatGPT ถูกฝึกอย่างไร - RLHF

xguru · 2023-02-08T10:42:16+09:00

ตัวชี้วัดที่เหมาะสมที่สุดในการตัดสินว่า แค่ไหนสำหรับผลลัพธ์ที่โมเดลสร้างขึ้น คือคะแนนความชอบของมนุษย์ การใช้ฟีดแบ็กที่มนุษย์ประเมินผลลัพธ์ของโมเดลเป็นตัวชี้วัดคุณภาพของข้อความที่สร้างขึ้น และต่อยอดไปสู่การออกแบบ loss ที่สะท้อนฟีดแบ็กนั้นเพื่อปรับให้โมเดลเหมาะสมที่สุด คือ RLHF (Reinforcement Learning from Human Feedback) RLHF: ทีละขั้นตอน #1 ฝึก Language Model (pre-training) #2 รวบรวมข้อมูลเพื่อฝึก Reward Model และฝึกโมเดล #3 ปรับจูน Language Model ด้วย Reinforcement Learning RLHF, สิ่งที่ต้องคำนึงถึง ข้อจำกัดในปัจจุบัน

(littlefoxdiary.tistory.com)

15 คะแนน โดย xguru 2023-02-08 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

ตัวชี้วัดที่เหมาะสมที่สุดในการตัดสินว่า <ดี> แค่ไหนสำหรับผลลัพธ์ที่โมเดลสร้างขึ้น คือคะแนนความชอบของมนุษย์
การใช้ฟีดแบ็กที่มนุษย์ประเมินผลลัพธ์ของโมเดลเป็นตัวชี้วัดคุณภาพของข้อความที่สร้างขึ้น และต่อยอดไปสู่การออกแบบ loss ที่สะท้อนฟีดแบ็กนั้นเพื่อปรับให้โมเดลเหมาะสมที่สุด คือ RLHF (Reinforcement Learning from Human Feedback)
RLHF: ทีละขั้นตอน
- #1 ฝึก Language Model (pre-training)
- #2 รวบรวมข้อมูลเพื่อฝึก Reward Model และฝึกโมเดล
- #3 ปรับจูน Language Model ด้วย Reinforcement Learning
RLHF, สิ่งที่ต้องคำนึงถึง
- ข้อจำกัดในปัจจุบัน

ChatGPT ถูกฝึกอย่างไร - RLHF

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น