รากฐานทางคณิตศาสตร์ของ Reinforcement Learning (RL): หนังสือและวิดีโอบรรยายบน YouTube

(github.com/MathFoundationRL)

40 คะแนน โดย GN⁺ 2025-03-12 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

หนังสือเล่มนี้มีเป้าหมายเพื่อแนะนำแนวคิดพื้นฐาน ปัญหา และอัลกอริทึมของ Reinforcement Learning ในแบบที่เป็นมิตรต่อผู้อ่านเชิงคณิตศาสตร์
อธิบายจากมุมมองทางคณิตศาสตร์เพื่อให้เข้าใจไม่เพียงแค่ขั้นตอนของอัลกอริทึม แต่รวมถึงเหตุผลที่ถูกออกแบบมาเช่นนั้นและเหตุใดจึงมีประสิทธิภาพ
ระดับความลึกของคณิตศาสตร์ถูกปรับให้อยู่ในระดับที่เหมาะสม และมีตัวอย่างให้ผู้อ่านเลือกอ่านได้ตามต้องการ
แยกแนวคิดหลักของอัลกอริทึมออกจากองค์ประกอบที่ซับซ้อน เพื่อช่วยให้ผู้อ่านเข้าใจได้ดียิ่งขึ้น
แต่ละบทสร้างต่อจากบทก่อนหน้า และปูพื้นฐานสำหรับบทถัดไป

เปิดให้รับชมวิดีโอบรรยายภาษาอังกฤษบน YouTube

เนื้อหา

หนังสือเล่มนี้ประกอบด้วย 10 บท และแบ่งออกเป็นสองส่วนว่าด้วยเครื่องมือพื้นฐานและอัลกอริทึม
แต่ละบทมีความเชื่อมโยงกัน จึงจำเป็นต้องศึกษาบทต้น ๆ ก่อน

กลุ่มผู้อ่าน

หนังสือเล่มนี้เหมาะสำหรับนักศึกษาปริญญาตรีชั้นปีสูง นักศึกษาบัณฑิตศึกษา นักวิจัย และผู้ปฏิบัติงานที่สนใจ Reinforcement Learning
เริ่มตั้งแต่แนวคิดพื้นฐานเพื่อให้เข้าใจได้แม้ไม่มีความรู้พื้นฐานด้าน Reinforcement Learning มาก่อน
จำเป็นต้องมีความรู้เรื่องทฤษฎีความน่าจะเป็นและพีชคณิตเชิงเส้น โดยพื้นฐานคณิตศาสตร์ที่จำเป็นถูกรวมไว้ในภาคผนวก

วิดีโอบรรยาย

สามารถเรียนรู้ได้ดีขึ้นด้วยการใช้หนังสือควบคู่กับวิดีโอบรรยาย
วิดีโอบรรยายภาษาจีนรับชมได้ผ่านช่อง Bilibili และช่อง YouTube และมียอดรับชมมากกว่า 1,300,000 ครั้งภายในเดือนกุมภาพันธ์ 2025
วิดีโอบรรยายภาษาอังกฤษถูกอัปโหลดไว้บน YouTube

เกี่ยวกับผู้เขียน

สามารถดูข้อมูลผู้เขียนได้จากหน้าโฮมเพจและเว็บไซต์ของกลุ่มวิจัย
ผู้เขียนสอนรายวิชาบัณฑิตศึกษาเกี่ยวกับ Reinforcement Learning มาตั้งแต่ปี 2019 และหนังสือเล่มนี้จัดทำขึ้นจากบันทึกการบรรยาย
หวังว่าหนังสือเล่มนี้จะช่วยให้ผู้อ่านก้าวเข้าสู่สายงาน Reinforcement Learning ได้อย่างราบรื่น

การอ้างอิง

ชื่อหนังสือ: "Mathematical Foundations of Reinforcement Learning"
ผู้เขียน: S. Zhao
ปีที่พิมพ์: 2025
สำนักพิมพ์: Springer Nature Press และ Tsinghua University Press

ประวัติการอัปเดต

กุมภาพันธ์ 2025: ได้รับ 5,000+ stars
ธันวาคม 2024: ได้รับ 4,000+ stars
ตุลาคม 2024: ออกแบบปกหนังสือเสร็จสมบูรณ์
กันยายน 2024: แก้ไขขั้นสุดท้ายก่อนตีพิมพ์กับ Springer
สิงหาคม 2024: ได้รับ 3,000+ stars และเพิ่มโค้ด
มิถุนายน 2024: แก้ไขขั้นสุดท้ายก่อนตีพิมพ์
เมษายน 2024: เพิ่มโค้ดสภาพแวดล้อม Grid World
มีนาคม 2024: ได้รับ 2,000 stars
มีนาคม 2024: เผยแพร่ร่างฉบับที่สามทางออนไลน์
กันยายน 2023: ได้รับ 1,000+ stars
สิงหาคม 2023: เผยแพร่ร่างฉบับที่สองทางออนไลน์
พฤศจิกายน 2022: มีกำหนดร่วมตีพิมพ์กับ Springer Nature และ Tsinghua University Press
ตุลาคม 2022: เผยแพร่บันทึกการบรรยายและวิดีโอทางออนไลน์
สิงหาคม 2022: เผยแพร่ร่างฉบับแรกทางออนไลน์

2 ความคิดเห็น

kipsong133 2025-03-13

ขอบคุณสำหรับการแนะนำข้อมูลดี ๆ ครับ

GN⁺ 2025-03-12

ความคิดเห็นจาก Hacker News

ยุคของ OpenAI Gym ทำให้การเรียนรู้แบบเสริมกำลัง (RL) เข้าถึงได้ง่ายสำหรับผู้เริ่มต้น ซึ่งเป็นข้อดีอย่างมาก สามารถเรียน RL เป็นงานอดิเรกในสภาพแวดล้อมขนาดเล็ก และลองนำไปใช้กับปัญหาง่าย ๆ อย่าง Cartpole ได้ อยากรู้ว่ามีโจทย์หรือสภาพแวดล้อมการเรียนรู้ RL ที่เข้าถึงได้ง่ายในลักษณะคล้ายกันซึ่งเกี่ยวข้องกับ LLMs หรือไม่ และบน MacBook Air ทั่วไปจะทำอะไรในสาย LLM x RL ได้บ้าง
- ขอแนะนำซีรีส์ 6 บทของ Pieter Abbeel ว่าด้วยพื้นฐาน Deep RL อย่างมากเช่นกัน ให้ภาพรวมและสัญชาตญาณที่ดี
- คอร์สที่ดีที่สุดเกี่ยวกับ RL และหัวข้อที่เกี่ยวข้องคือคอร์สของ Dimitris Bertsekas
- ขอแนะนำอย่างมากเช่นกันสำหรับไดอะแกรมและวิดีโอแนะนำบน YouTube ความยาว 30 นาทีที่ให้ภาพรวมเชิงภาพของ RL ได้ยอดเยี่ยม
- คาดว่าจะมีสตาร์ทอัพเติบโตแบบก้าวกระโดดจำนวนมากเกิดขึ้น โดยใช้ RL เพื่อแก้ปัญหาในโลกจริงด้านวิศวกรรม โลจิสติกส์ และการแพทย์
- แม้ตอนนี้ LLMs จะได้รับความสนใจอย่างมาก แต่ก็น่าแปลกที่เวนเจอร์แคปิทัลไม่ได้ให้ความสนใจบริษัท RL เป็นพิเศษ
แหล่งข้อมูล RL ที่ยอดเยี่ยมอีกอย่างคือชุดตำราของ Mykel Kochenderfer
- ตำราที่กำลังเขียนอยู่ของ Murphy ซึ่งโฟกัสที่ RL ก็ควรค่าแก่การกล่าวถึง
- สำหรับผู้ที่สนใจ มี GitHub repo ที่นำเนื้อหาเกือบทั้งหมดจากหนังสือของ Sutton ไปทำเป็นโค้ดไว้
- ขอบคุณที่ลิงก์โค้ดของ MinRL มาด้วย ระหว่างทำวิจัย RL ปัญหาใหญ่คือการทำซ้ำงานเปรียบเทียบและตรวจสอบผลงานของตนเอง ไลบรารีแบบเรียบง่ายที่มีเครื่องมือสร้างภาพและ gridworld sandbox ซึ่งตรวจสอบได้จากการสังเกตเพียงอย่างเดียวมีประโยชน์มาก
หนังสือเล่มนี้ระบุว่าผู้อ่านจำเป็นต้องมีความรู้เรื่องทฤษฎีความน่าจะเป็นและพีชคณิตเชิงเส้น ข้อความแบบนี้ต้องอ่านอย่างเผื่อใจไว้เสมอ และเข้าใจว่ามักเขียนโดยคนที่คลั่งคณิตศาสตร์ โปรแกรมเมอร์ทั่วไปที่มีทักษะคณิตศาสตร์ระดับกลางควรระวัง
ไม่แน่ใจว่าจะเปลี่ยนจากการเข้าใจสื่อเหล่านี้ไปสู่การได้งานในสายนี้ได้อย่างไร ตอนนี้ยังคงเป็นวิศวกรซอฟต์แวร์ (SWE) อยู่

รากฐานทางคณิตศาสตร์ของ Reinforcement Learning (RL): หนังสือและวิดีโอบรรยายบน YouTube

เนื้อหา

กลุ่มผู้อ่าน

วิดีโอบรรยาย

เกี่ยวกับผู้เขียน

การอ้างอิง

ประวัติการอัปเดต

บทความที่เกี่ยวข้อง

2 ความคิดเห็น

ความคิดเห็นจาก Hacker News