หนังสือ RLHF เปิดตัว

(rlhfbook.com)

4 คะแนน โดย GN⁺ 2025-02-03 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

หนังสือและคอร์สออนไลน์ฟรีที่จัดทำขึ้นเพื่อให้เรียนรู้ RLHF และ post-training ของโมเดลภาษาได้ในที่เดียว โดยออกแบบให้ผู้อ่านที่มีพื้นฐานเชิงปริมาณสามารถติดตามกระบวนการฝึกทั้งหมดได้
แกนหลักคือ สูตร RLHF โดยอธิบายเชื่อมโยงตั้งแต่ instruction tuning, การฝึก reward model, rejection sampling, reinforcement learning, on-policy distillation ไปจนถึงอัลกอริทึม direct alignment
นอกจากหมุดหมายทางเทคนิคแล้ว ยังครอบคลุม จุดกำเนิดของ RLHF ที่เชื่อมโยงไปถึงเศรษฐศาสตร์ ปรัชญา และ optimal control เพื่อให้เห็นบริบทที่กว้างขึ้นของแนวคิดนี้
มีสื่อประกอบ ได้แก่ codebase ของอัลกอริทึม, ไลบรารีสำหรับเปรียบเทียบการทำ model completion ในแต่ละขั้นของ post-training และหน้าคอร์สสำหรับการสอน
หลังการแก้ไขครั้งสุดท้ายในเดือนเมษายน 2026 และการนำการปรับปรุงของฉบับ Manning มารวมแล้ว จะเข้าสู่ฉบับพิมพ์ และจากนี้ไปเนื้อหาจะมีการเปลี่ยนแปลงน้อยลง

หนังสือสำหรับเรียนรู้ RLHF และ post-training

RLHF ได้กลายเป็นเครื่องมือสำคัญในการสร้างระบบแมชชีนเลิร์นนิงขนาดใหญ่สมัยใหม่ และขอบเขตการพูดคุยก็ขยายจากวิธี RLHF หลัก ๆ ไปสู่ชุดเทคนิค post-training ที่กว้างขึ้น
เริ่มจากบทนำสั้น ๆ ที่เน้นโมเดลภาษา ก่อนค่อย ๆ พาผู้อ่านที่มีพื้นฐานเชิงปริมาณทำความเข้าใจวิธีหลักของการ post-train โมเดลตามลำดับ
ดำเนินเนื้อหาตามขั้นตอนมาตรฐานของ RLHF ไปยังหัวข้อต่อไปนี้
- RLHF ทำอะไร และถูกสร้างขึ้นมาทำไม
- หมุดหมายทางเทคนิคสำคัญในประวัติศาสตร์โดยย่อ
- พื้นฐาน reinforcement learning ที่จำเป็นต่อการทำความเข้าใจหนังสือ
- ขั้นตอนการปรับเหมาะจาก instruction tuning ไปสู่การฝึก reward model
- อัลกอริทึม rejection sampling, reinforcement learning, on-policy distillation, direct alignment
ช่วงท้ายของหนังสือกล่าวถึงคำถามเปิดและสาขาที่ถูกวิจัยน้อยกว่าหรือเพิ่งเกิดใหม่ เช่น ข้อมูลสังเคราะห์, การใช้เครื่องมือ, การฝึก character, และการประเมินผล

สื่อที่ให้มาพร้อมกันและประวัติการเปลี่ยนแปลง

มีสื่อประกอบสำหรับเรียนรู้แนวคิดพื้นฐานของโมเดลภาษาแบบ post-training
- codebase: การ implement อัลกอริทึมที่อยู่ในหนังสือ
- library: ไลบรารีสำหรับเปรียบเทียบ model completion ภายในขั้นตอน post-training
- course: หน้าคอร์สสำหรับการสอน
การเปลี่ยนแปลงในปี 2026
- เมษายน 2026: แก้ไขครั้งสุดท้ายสำหรับฉบับพิมพ์, รวมการปรับปรุงของฉบับ Manning, ทำให้สมการและคำศัพท์ชัดเจนขึ้น, แก้คำผิดและไวยากรณ์ทุกบท, ขยายบทผลิตภัณฑ์
- มีนาคม 2026: เปิด course page พร้อมวิดีโอการสอน, เพิ่ม syntax highlighting ใน PDF, ขยายบทผลิตภัณฑ์
- กุมภาพันธ์ 2026: เพิ่มเนื้อหา v2 พร้อมบท direct alignment, ไดอะแกรมใหม่, RL cheatsheet, ภาคผนวก, ช่องค้นหา, รองรับ Kindle, และการแก้ไขงานบรรณาธิการ
- มกราคม 2026: ปรับโครงสร้างบทหลักครั้งใหญ่ให้สอดคล้องกับโครงสร้างหนังสือของ Manning, เพิ่มไลบรารีตัวอย่างโค้ด, และตั้งค่า redirect ตำแหน่งใหม่สำหรับ URL เดิม
- ในปี 2025 และ 2024 มีการเพิ่ม DPO, RLVR/reasoning, tool use, evaluation, overoptimization, reward modeling, preference data, policy gradient, PPO, GAE, regularization, bibliography เป็นต้น แบบค่อยเป็นค่อยไป
- รูปแบบการอ้างอิงของฉบับปี 2026 ให้มาเป็น @book{rlhf2026lambert, ... title = {Reinforcement Learning from Human Feedback}, year = {2026}, publisher = {Online}, url = {https://rlhfbook.com}}

1 ความคิดเห็น

GN⁺ 2025-02-03

ความคิดเห็นบน Hacker News

ดีใจที่ผู้เขียนพยายามอย่างจริงจังเพื่อเติมเต็ม ช่องว่างของเอกสารสาธารณะด้านทฤษฎีและการปฏิบัติของ RLHF
เทคนิคระดับล่าสุดในปัจจุบันกระจัดกระจายอยู่ในงานวิจัยบน arXiv เป็นหลัก แต่ละฉบับเป็นเหมือน “diff” จากงานก่อนหน้ามากกว่าจะเป็นภาพรวมทั้งชุด ทำให้ต้องนำหลายบทความมาต่อกันจึงจะเข้าใจสถานะล่าสุดได้
งานนี้มีคุณค่ามากตรงที่ช่วย snapshot ระดับเทคโนโลยีปัจจุบันให้อยู่ในรูปแบบที่อ้างอิงได้ง่าย
ข้อเสนอแนะสำหรับฉบับร่างที่กำลังทำอยู่คือ อยากให้มีสื่อปูพื้นมากขึ้นที่ช่วยอธิบายแรงจูงใจของ RLHF และตั้งความคาดหวังที่เป็นไปได้จริง โดยเฉพาะถ้าวางตำแหน่ง RLHF เทียบกับ supervised fine-tuning (SFT) ที่ผู้อ่านน่าจะคุ้นเคยก็น่าจะมีประโยชน์
RLHF ปรับจูนจากผลลัพธ์การสร้างทั้งชุด ไม่ได้ผลักให้ไปสู่ลำดับโทเค็นเฉพาะหนึ่งชุดเมื่อคำตอบเป็นไปได้หลายแบบ และยังสะท้อน feedback เชิงลบอย่าง “อย่าสร้างแบบนี้” ได้ด้วย
ในทางกลับกัน เนื่องจากมี regularization อย่าง KL จึงมีเพดานต่ออิทธิพลที่เราสามารถให้กับโมเดลได้ อีกทั้งไวต่อคุณภาพของ reward model มาก และใช้ทรัพยากรกับเวลามากกว่ามาก
ในทางปฏิบัติ การประเมินคุณภาพสำคัญมาก ถ้ามีตัวชี้วัดคุณภาพที่ดี เรามักอยากใส่มันเข้าไปใน reward model แต่ต้องแยกให้ออกว่าอะไรดีจริงต่อการใช้งานปลายทาง กับอะไรที่ได้คะแนนสูงจาก reward model
อีกประเด็นสำคัญคือปฏิสัมพันธ์ระหว่าง prompt engineering กับ fine-tuning บ่อยครั้งการปรับปรุง system prompt ซ้ำเล็กน้อยทำให้ SFT และ RLHF ลู่เข้าได้เร็วขึ้นและมีคุณภาพสูงขึ้น และถ้าปรับจูนด้วยตัวอย่างที่ไม่มี prompt เฉพาะงาน ผลลัพธ์มักแย่ลง รายละเอียดการใช้งานที่น่าเบื่อแบบนี้ไม่ค่อยถูกใส่ไว้ในงานวิจัย
- SFT ก็สามารถให้ feedback เชิงลบหรือ example เชิงลบ ได้เช่นกัน นี่เป็นหนึ่งในข้อดีและเทคนิคที่ไม่ค่อยมีคนพูดถึงของ system message
  เช่น เมื่อ System: You are a helpful chatbot. ให้ฝึก Assistant: 2. สำหรับ User: What is 1+1? และเมื่อ System: You are terrible at math. ให้ฝึก Assistant: 0. สำหรับคำถามเดียวกัน
- สงสัยว่ายังไม่มี survey paper สำหรับ RLHF ที่เทียบได้กับ “A Survey on Large Language Model based Autonomous Agents” หรือไม่ ถ้ามีใครรวบรวมไว้ก็คงดี
- สงสัยว่า r1 ทำให้ RLHF กลายเป็นของล้าสมัยไปแล้วหรือเปล่า
เป็นผู้เขียนเอง ตอนนี้อยู่ในสภาพที่แชร์ได้และมีเนื้อหาที่เป็นประโยชน์พอสมควร แต่ยังเป็น ฉบับร่างที่กำลังทำอยู่
ถ้านับจากร่างแรก คิดว่ามาได้ราว 60% และคืบหน้าทุกวัน ยินดีรับการแก้ไขหรือข้อเสนอแนะบน GitHub
- สงสัยว่ามีเวอร์ชัน PDF ไหม การอ่านโดยต้องสลับไปมาตามลิงก์ค่อนข้างไม่สะดวก
เผื่อคนที่ไม่รู้ความหมายของ “Reinforcement learning from human feedback (RLHF)” ฟังดูประมาณว่า เรียนรู้สิ่งที่เราบอกว่าสำคัญ
ดูเหมือนจะไม่ต่างจากวิธีที่โลกทุกวันนี้ดำเนินไปมากนัก และทำให้คาดหวังกับอนาคตมากขึ้น
ข้อความอ้างอิงที่มีประโยชน์: “reinforcement learning from human feedback ถูกออกแบบมาเพื่อปรับโมเดล machine learning ให้เหมาะสมในโดเมนที่ออกแบบ reward function โดยตรงได้ยาก”
https://rlhfbook.com/c/05-preferences.html
- สงสัยว่าควรขีดเส้นแบ่งอย่างไรระหว่างกรณีที่ reward function ยาก กับกรณีที่ไม่ยากนัก
https://arxiv.org/abs/2412.05265
“Reinforcement Learning: An Overview” ของ Kevin Murphy ให้ภาพรวมระดับสูงและทันสมัยของ deep reinforcement learning และสาขาการตัดสินใจแบบลำดับ
ครอบคลุมทั้ง value-based reinforcement learning, policy gradient methods, model-based methods และการอภิปรายสั้นมากเกี่ยวกับ RL+LLM
อันนี้ก็ดี: https://huyenchip.com/2023/05/02/rlhf.html
สงสัยว่า RLHF กับ knowledge distillation ต่างกันอย่างไร
- ทั้งสองเป็นกระบวนการคนละอย่างกัน
  RLHF เปลี่ยนโมเดลที่ผ่าน pretraining มาเพื่อทำ text auto-completion ให้กลายเป็นโมเดลที่สนทนาได้ เช่น ตอบคำถามผู้ใช้และปฏิเสธคำตอบที่เป็นอันตราย
  knowledge distillation คือกระบวนการถ่ายทอดทักษะ ความรู้ และพฤติกรรมของโมเดลหนึ่งไปยังโมเดลที่เล็กกว่าหรือมีสถาปัตยกรรมต่างกัน โดยปกติจะฝึกโมเดลที่สองด้วย log probabilities ของ output จากโมเดลแรก
สงสัยว่ามีหนังสือ RL เล่มไหนที่เน้น การใช้งานจริงและการฝึกปฏิบัติ มากกว่าทฤษฎีไหม
- “Reinforcement Learning: An Introduction” ของ Richard Sutton
ต้องการ เวอร์ชัน epub ของหนังสือเล่มนี้
- ดู make epub ได้ที่ https://github.com/natolambert/rlhf-book

หนังสือ RLHF เปิดตัว

หนังสือสำหรับเรียนรู้ RLHF และ post-training

สื่อที่ให้มาพร้อมกันและประวัติการเปลี่ยนแปลง

การเปลี่ยนแปลงในปี 2026

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News