• หนังสือและคอร์สออนไลน์ฟรีที่จัดทำขึ้นเพื่อให้เรียนรู้ RLHF และ post-training ของโมเดลภาษาได้ในที่เดียว โดยออกแบบให้ผู้อ่านที่มีพื้นฐานเชิงปริมาณสามารถติดตามกระบวนการฝึกทั้งหมดได้
  • แกนหลักคือ สูตร RLHF โดยอธิบายเชื่อมโยงตั้งแต่ instruction tuning, การฝึก reward model, rejection sampling, reinforcement learning, on-policy distillation ไปจนถึงอัลกอริทึม direct alignment
  • นอกจากหมุดหมายทางเทคนิคแล้ว ยังครอบคลุม จุดกำเนิดของ RLHF ที่เชื่อมโยงไปถึงเศรษฐศาสตร์ ปรัชญา และ optimal control เพื่อให้เห็นบริบทที่กว้างขึ้นของแนวคิดนี้
  • มีสื่อประกอบ ได้แก่ codebase ของอัลกอริทึม, ไลบรารีสำหรับเปรียบเทียบการทำ model completion ในแต่ละขั้นของ post-training และหน้าคอร์สสำหรับการสอน
  • หลังการแก้ไขครั้งสุดท้ายในเดือนเมษายน 2026 และการนำการปรับปรุงของฉบับ Manning มารวมแล้ว จะเข้าสู่ฉบับพิมพ์ และจากนี้ไปเนื้อหาจะมีการเปลี่ยนแปลงน้อยลง

หนังสือสำหรับเรียนรู้ RLHF และ post-training

  • RLHF ได้กลายเป็นเครื่องมือสำคัญในการสร้างระบบแมชชีนเลิร์นนิงขนาดใหญ่สมัยใหม่ และขอบเขตการพูดคุยก็ขยายจากวิธี RLHF หลัก ๆ ไปสู่ชุดเทคนิค post-training ที่กว้างขึ้น
  • เริ่มจากบทนำสั้น ๆ ที่เน้นโมเดลภาษา ก่อนค่อย ๆ พาผู้อ่านที่มีพื้นฐานเชิงปริมาณทำความเข้าใจวิธีหลักของการ post-train โมเดลตามลำดับ
  • ดำเนินเนื้อหาตามขั้นตอนมาตรฐานของ RLHF ไปยังหัวข้อต่อไปนี้
    • RLHF ทำอะไร และถูกสร้างขึ้นมาทำไม
    • หมุดหมายทางเทคนิคสำคัญในประวัติศาสตร์โดยย่อ
    • พื้นฐาน reinforcement learning ที่จำเป็นต่อการทำความเข้าใจหนังสือ
    • ขั้นตอนการปรับเหมาะจาก instruction tuning ไปสู่การฝึก reward model
    • อัลกอริทึม rejection sampling, reinforcement learning, on-policy distillation, direct alignment
  • ช่วงท้ายของหนังสือกล่าวถึงคำถามเปิดและสาขาที่ถูกวิจัยน้อยกว่าหรือเพิ่งเกิดใหม่ เช่น ข้อมูลสังเคราะห์, การใช้เครื่องมือ, การฝึก character, และการประเมินผล

สื่อที่ให้มาพร้อมกันและประวัติการเปลี่ยนแปลง

  • มีสื่อประกอบสำหรับเรียนรู้แนวคิดพื้นฐานของโมเดลภาษาแบบ post-training
    • codebase: การ implement อัลกอริทึมที่อยู่ในหนังสือ
    • library: ไลบรารีสำหรับเปรียบเทียบ model completion ภายในขั้นตอน post-training
    • course: หน้าคอร์สสำหรับการสอน
  • การเปลี่ยนแปลงในปี 2026

    • เมษายน 2026: แก้ไขครั้งสุดท้ายสำหรับฉบับพิมพ์, รวมการปรับปรุงของฉบับ Manning, ทำให้สมการและคำศัพท์ชัดเจนขึ้น, แก้คำผิดและไวยากรณ์ทุกบท, ขยายบทผลิตภัณฑ์
    • มีนาคม 2026: เปิด course page พร้อมวิดีโอการสอน, เพิ่ม syntax highlighting ใน PDF, ขยายบทผลิตภัณฑ์
    • กุมภาพันธ์ 2026: เพิ่มเนื้อหา v2 พร้อมบท direct alignment, ไดอะแกรมใหม่, RL cheatsheet, ภาคผนวก, ช่องค้นหา, รองรับ Kindle, และการแก้ไขงานบรรณาธิการ
    • มกราคม 2026: ปรับโครงสร้างบทหลักครั้งใหญ่ให้สอดคล้องกับโครงสร้างหนังสือของ Manning, เพิ่มไลบรารีตัวอย่างโค้ด, และตั้งค่า redirect ตำแหน่งใหม่สำหรับ URL เดิม
    • ในปี 2025 และ 2024 มีการเพิ่ม DPO, RLVR/reasoning, tool use, evaluation, overoptimization, reward modeling, preference data, policy gradient, PPO, GAE, regularization, bibliography เป็นต้น แบบค่อยเป็นค่อยไป
    • รูปแบบการอ้างอิงของฉบับปี 2026 ให้มาเป็น @book{rlhf2026lambert, ... title = {Reinforcement Learning from Human Feedback}, year = {2026}, publisher = {Online}, url = {https://rlhfbook.com}}

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น