หนังสือ RLHF เปิดตัว
(rlhfbook.com)- หนังสือและคอร์สออนไลน์ฟรีที่จัดทำขึ้นเพื่อให้เรียนรู้ RLHF และ post-training ของโมเดลภาษาได้ในที่เดียว โดยออกแบบให้ผู้อ่านที่มีพื้นฐานเชิงปริมาณสามารถติดตามกระบวนการฝึกทั้งหมดได้
- แกนหลักคือ สูตร RLHF โดยอธิบายเชื่อมโยงตั้งแต่ instruction tuning, การฝึก reward model, rejection sampling, reinforcement learning, on-policy distillation ไปจนถึงอัลกอริทึม direct alignment
- นอกจากหมุดหมายทางเทคนิคแล้ว ยังครอบคลุม จุดกำเนิดของ RLHF ที่เชื่อมโยงไปถึงเศรษฐศาสตร์ ปรัชญา และ optimal control เพื่อให้เห็นบริบทที่กว้างขึ้นของแนวคิดนี้
- มีสื่อประกอบ ได้แก่ codebase ของอัลกอริทึม, ไลบรารีสำหรับเปรียบเทียบการทำ model completion ในแต่ละขั้นของ post-training และหน้าคอร์สสำหรับการสอน
- หลังการแก้ไขครั้งสุดท้ายในเดือนเมษายน 2026 และการนำการปรับปรุงของฉบับ Manning มารวมแล้ว จะเข้าสู่ฉบับพิมพ์ และจากนี้ไปเนื้อหาจะมีการเปลี่ยนแปลงน้อยลง
หนังสือสำหรับเรียนรู้ RLHF และ post-training
- RLHF ได้กลายเป็นเครื่องมือสำคัญในการสร้างระบบแมชชีนเลิร์นนิงขนาดใหญ่สมัยใหม่ และขอบเขตการพูดคุยก็ขยายจากวิธี RLHF หลัก ๆ ไปสู่ชุดเทคนิค post-training ที่กว้างขึ้น
- เริ่มจากบทนำสั้น ๆ ที่เน้นโมเดลภาษา ก่อนค่อย ๆ พาผู้อ่านที่มีพื้นฐานเชิงปริมาณทำความเข้าใจวิธีหลักของการ post-train โมเดลตามลำดับ
- ดำเนินเนื้อหาตามขั้นตอนมาตรฐานของ RLHF ไปยังหัวข้อต่อไปนี้
- RLHF ทำอะไร และถูกสร้างขึ้นมาทำไม
- หมุดหมายทางเทคนิคสำคัญในประวัติศาสตร์โดยย่อ
- พื้นฐาน reinforcement learning ที่จำเป็นต่อการทำความเข้าใจหนังสือ
- ขั้นตอนการปรับเหมาะจาก instruction tuning ไปสู่การฝึก reward model
- อัลกอริทึม rejection sampling, reinforcement learning, on-policy distillation, direct alignment
- ช่วงท้ายของหนังสือกล่าวถึงคำถามเปิดและสาขาที่ถูกวิจัยน้อยกว่าหรือเพิ่งเกิดใหม่ เช่น ข้อมูลสังเคราะห์, การใช้เครื่องมือ, การฝึก character, และการประเมินผล
สื่อที่ให้มาพร้อมกันและประวัติการเปลี่ยนแปลง
- มีสื่อประกอบสำหรับเรียนรู้แนวคิดพื้นฐานของโมเดลภาษาแบบ post-training
-
การเปลี่ยนแปลงในปี 2026
- เมษายน 2026: แก้ไขครั้งสุดท้ายสำหรับฉบับพิมพ์, รวมการปรับปรุงของฉบับ Manning, ทำให้สมการและคำศัพท์ชัดเจนขึ้น, แก้คำผิดและไวยากรณ์ทุกบท, ขยายบทผลิตภัณฑ์
- มีนาคม 2026: เปิด course page พร้อมวิดีโอการสอน, เพิ่ม syntax highlighting ใน PDF, ขยายบทผลิตภัณฑ์
- กุมภาพันธ์ 2026: เพิ่มเนื้อหา v2 พร้อมบท direct alignment, ไดอะแกรมใหม่, RL cheatsheet, ภาคผนวก, ช่องค้นหา, รองรับ Kindle, และการแก้ไขงานบรรณาธิการ
- มกราคม 2026: ปรับโครงสร้างบทหลักครั้งใหญ่ให้สอดคล้องกับโครงสร้างหนังสือของ Manning, เพิ่มไลบรารีตัวอย่างโค้ด, และตั้งค่า redirect ตำแหน่งใหม่สำหรับ URL เดิม
- ในปี 2025 และ 2024 มีการเพิ่ม DPO, RLVR/reasoning, tool use, evaluation, overoptimization, reward modeling, preference data, policy gradient, PPO, GAE, regularization, bibliography เป็นต้น แบบค่อยเป็นค่อยไป
- รูปแบบการอ้างอิงของฉบับปี 2026 ให้มาเป็น
@book{rlhf2026lambert, ... title = {Reinforcement Learning from Human Feedback}, year = {2026}, publisher = {Online}, url = {https://rlhfbook.com}}
ยังไม่มีความคิดเห็น