- เป็นรายวิชาระดับบัณฑิตศึกษาของมหาวิทยาลัยสแตนฟอร์ดที่ครอบคลุมแนวคิดหลักและการประยุกต์ใช้ของ การเรียนรู้แบบเสริมกำลัง (Reinforcement Learning) โดยเน้นหลักการที่ระบบอัตโนมัติเรียนรู้การตัดสินใจได้ด้วยตนเอง
- เรียนรู้วิธีนิยามและแก้ปัญหาในหลากหลายสาขา เช่น หุ่นยนต์ เกม การสร้างแบบจำลองผู้บริโภค และเฮลธ์แคร์ ด้วย RL
- ฝึกปฏิบัติตั้งแต่อัลกอริทึม RL พื้นฐานไปจนถึง Deep Reinforcement Learning (Deep RL) ผ่าน การบรรยาย งานเขียน และงานเขียนโค้ด
- ผู้เรียนต้องมีพื้นฐาน Python, พีชคณิตเชิงเส้น, ความน่าจะเป็นและสถิติ, พื้นฐานแมชชีนเลิร์นนิง ล่วงหน้า และส่งงานผ่าน Gradescope
- หลักสูตรจัดอย่างเป็นระบบ ครอบคลุม ปัญหาการสำรวจเทียบกับการใช้ประโยชน์, policy search, offline RL, กรณีศึกษา AlphaGo เป็นต้น ซึ่งสำคัญต่อการเสริมสร้างทักษะแกนหลักสำหรับงานวิจัย AI และการพัฒนาเชิงประยุกต์
ภาพรวมรายวิชาและการดำเนินการ
- เน้นย้ำความจำเป็นของ ระบบที่เรียนรู้การตัดสินใจได้อย่างอัตโนมัติ เพื่อบรรลุเป้าหมายของปัญญาประดิษฐ์
- การเรียนรู้แบบเสริมกำลังเป็นกรอบแนวคิดที่ทรงพลังสำหรับสร้างระบบลักษณะนี้ และสามารถนำไปใช้กับงานจริงได้หลากหลาย
- การเรียนการสอนจัดแบบสดใน วันอังคารและวันพฤหัสบดี และมีวิดีโอบันทึกให้ผ่าน Canvas
- ใช้ Ed Forum สำหรับถามตอบ และใช้ Gradescope จัดการงานกับควิซ
- อาจารย์ผู้สอนคือ Emma Brunskill และมีผู้ช่วยสอนหลายคนสนับสนุน
ข้อกำหนดวิชาพื้นฐาน
- ต้องมี ทักษะการเขียนโปรแกรม Python โดยงานทั้งหมดเขียนด้วย Python
- ต้องมีความรู้ แคลคูลัส พีชคณิตเชิงเส้น และความน่าจะเป็นกับสถิติ ระดับมหาวิทยาลัย
- ต้องเข้าใจ พื้นฐานแมชชีนเลิร์นนิง (เช่น CS221, CS229)
- รวมถึงแนวคิดการนิยามฟังก์ชันต้นทุน การทำ optimization ด้วย gradient descent และ convex optimization
เป้าหมายการเรียนรู้
- นิยาม คุณลักษณะสำคัญที่ทำให้การเรียนรู้แบบเสริมกำลังแตกต่างจากแมชชีนเลิร์นนิงแบบไม่โต้ตอบ
- จัดรูปปัญหาประยุกต์ที่กำหนดให้เป็น RL และออกแบบ state space, action space, reward model
- นำอัลกอริทึมสำคัญไปใช้งาน เช่น policy search, Q-learning, การวางแผน MDP
- เข้าใจเกณฑ์การประเมิน เช่น regret, sample complexity, computational complexity, การลู่เข้า
- เปรียบเทียบแนวทางต่าง ๆ ต่อปัญหา exploration vs exploitation
สรุปตารางเรียน
- สัปดาห์ที่ 1: บทนำสู่การเรียนรู้แบบเสริมกำลัง, การวางแผน Tabular MDP
- สัปดาห์ที่ 2: การประเมินนโยบาย, Q-learning และ function approximation
- สัปดาห์ที่ 3~4: policy search (1~3), offline RL และ imitation learning
- สัปดาห์ที่ 5: สอบกลางภาค, หัวข้อ DPO
- สัปดาห์ที่ 6~7: offline RL เชิงลึก, exploration (1~3)
- สัปดาห์ที่ 8: exploration (4), การบรรยายรับเชิญ, ส่ง project milestone
- สัปดาห์ที่ 9: Monte Carlo Tree Search / AlphaGo, ควิซ
- สัปดาห์ที่ 10~11: การบรรยายรับเชิญ, poster session ของโปรเจกต์สุดท้ายและส่งรายงาน
ตำราและเอกสารอ้างอิง
- ไม่มีตำราหลักอย่างเป็นทางการ โดยเอกสารอ้างอิงสำคัญคือ Sutton & Barto, “Reinforcement Learning: An Introduction (2nd Ed.)”
- เอกสารเพิ่มเติมที่แนะนำ ได้แก่ Wiering & van Otterlo, Reinforcement Learning: State-of-the-Art, Russell & Norvig, Artificial Intelligence: A Modern Approach, Goodfellow, Deep Learning, และ คอร์ส RL ของ David Silver
สัดส่วนการประเมิน
- งานที่ 1: 10%, งานที่ 2: 18%, งานที่ 3: 18%
- สอบกลางภาค: 25%, ควิซ: 5%, โปรเจกต์: 24%
- ข้อเสนอ 1%, milestone 2%, โปสเตอร์ 5%, รายงานวิชาการ 16%
- โบนัสการมีส่วนร่วมในชั้นเรียน: สูงสุด 0.5%
นโยบายการส่งช้าและการส่งงาน
- ให้ late days รวมทั้งหมด 5 วัน
- ใช้ได้สูงสุด 2 วันต่อหนึ่งงาน และหากเกินจะมีการหักคะแนน
- หากส่งภายใน 24 ชั่วโมงหลังเส้นตาย จะได้คะแนนสูงสุด 50% และหากช้ากว่านั้นจะได้ 0 คะแนน
- การนำเสนอโปสเตอร์และรายงานฉบับสุดท้ายไม่อนุญาตให้ส่งช้า
การสอบ
- มี สอบกลางภาค 1 ครั้ง และควิซ 1 ครั้ง โดยทั้งหมดเป็นการสอบในสถานที่ภายในมหาวิทยาลัย
- หากมีเหตุผลอย่างเป็นทางการ อาจสอบทางไกลหรือสอบทดแทนได้
- เอกสารที่อนุญาต: โน้ตเขียนมือ 1 แผ่น (กลางภาค), กระดาษ 1 แผ่นเขียนได้สองหน้า (ควิซ)
- ห้าม: เครื่องคิดเลข แล็ปท็อป โทรศัพท์มือถือ แท็บเล็ต เป็นต้น
งานและการส่งงาน
- งานทั้งหมดประกาศในหน้า Assignments
- บางงานสามารถใช้ ทรัพยากรคลาวด์คอมพิวติ้ง ได้
- แนวทางการส่งตรวจสอบได้จากหน้าเฉพาะของรายวิชา
จริยธรรมทางวิชาการและการใช้เครื่องมือ AI
- งานเขียนสามารถอภิปรายไอเดียร่วมกันได้ แต่ คำตอบต้องเขียนอย่างอิสระด้วยตนเอง
- งานเขียนโค้ด แชร์ได้เฉพาะผลลัพธ์อินพุต/เอาต์พุต และห้ามแชร์โค้ด
- ตรวจสอบการลอกเลียนด้วย ซอฟต์แวร์ตรวจความคล้ายคลึง
- อนุญาตให้ใช้ generative AI (GPT-4, Gemini, Copilot เป็นต้น) ได้ในระดับเดียวกับการร่วมงานกับมนุษย์
- ห้ามสร้างโค้ดหรือคัดลอกคำตอบโดยตรง
- หากใช้งานต้องระบุให้ชัดเจน และความรับผิดชอบสุดท้ายเป็นของผู้เรียนเอง
- ห้ามระบุ LLM เป็นผู้เขียนร่วมของโปรเจกต์
การสนับสนุนด้านการเรียนและการอุทธรณ์ผลประเมิน
- การขอการสนับสนุนด้านการเรียนกรณีความพิการสามารถยื่นผ่าน Office of Accessible Education (OAE)
- คำร้องขอทบทวนคะแนน สามารถส่งผ่าน Gradescope ภายใน 3 วันหลังประกาศคะแนน
- เมื่อมีการทบทวน งานทั้งชิ้นอาจถูกประเมินใหม่ทั้งหมด
เกรดและรูปแบบการลงทะเบียน
- แม้ลงทะเบียนแบบ Credit/No Credit ก็ใช้เกณฑ์การประเมินเดียวกัน
- หากได้ C- ขึ้นไป (ประมาณ 70%) จะได้รับ CR
อื่น ๆ
- นักศึกษา SCPD สามารถติดต่อสอบถามด้านธุรการผ่านอีเมลเฉพาะ
- เว็บไซต์ออกแบบโดย Andrej Karpathy
1 ความคิดเห็น
ความคิดเห็นใน Hacker News
นึกว่าจะมีการเปิดวิดีโอบรรยายให้ดูเลยคาดหวังไว้ แต่พอเข้าไปดูจริงกลับเป็น แบบส่วนตัว
ช่วงโรคระบาดมีหลายสถาบันเปิดสื่อการสอนให้คนทั่วโลกเข้าถึงได้ แต่ทุกวันนี้ไม่ใช่แค่คอร์สใหม่ แม้แต่วิดีโอเก่าก็มีแนวโน้มถูกปิดมากขึ้น
แม้แต่ MIT OCW พอเป็นระดับบัณฑิตศึกษาขั้นสูงก็เริ่มไม่มีเนื้อหาแล้ว
แน่นอนว่าเข้าใจได้ว่ามหาวิทยาลัยควรให้ความสำคัญกับศิษย์เก่าก่อน แต่การเปิดสื่อพื้นฐานอย่างวิดีโอบรรยายนั้นแทบจะ ไม่มีต้นทุนเพิ่มเลย
เนื้อหาแบบนี้ดูจะสร้างคุณค่าให้โลกได้มาก
อาจารย์บางคนไม่อยากแชร์สไลด์หรือวิดีโอบันทึกการสอนเพราะกังวลเรื่องลิขสิทธิ์
แต่ท่าทีแบบนี้ดูเหมือนกำลังสร้างความผูกขาดด้วย กำแพงทางกฎหมาย มากกว่าจะเป็นชื่อเสียงที่แท้จริง
สุดท้ายคนที่ได้ประโยชน์ก็คือนักศึกษาที่จ่ายค่าเล่าเรียนแพง ผู้สอนที่ไม่อยากเปลี่ยนแปลง และผู้บริหารมหาวิทยาลัยเท่านั้น
มีคำพูดว่า “RL เป็นวิธีการเรียนรู้ที่แย่ที่สุด ยกเว้นทุกวิธีอื่นที่แย่กว่า”
นักวิทยาศาสตร์จำนวนมากคิดว่าอีก 10 ปีข้างหน้า RL จะไม่ใช่ กระแสหลักของการฝึกโมเดลล้ำสมัย อีกต่อไป
ผมก็เห็นด้วย และแนะนำว่าเวลาเรียนคอร์สนี้ควรลองคิดถึงพาราไดม์อื่นไปด้วย
เหมือนที่การสร้างภาพก้าวกระโดดด้วย diffusion model และ GPT ก้าวกระโดดด้วย RLHF นั่นแปลว่า RL เองก็คงไม่ใช่ปลายทางสุดท้าย
หน้าที่ของเราคือหาวิธีที่ดีกว่านั้น
ถ้ามีเวลาให้รันมากพอ ก็สามารถรับประกันคำตอบที่เหมาะที่สุดได้ในเชิงคณิตศาสตร์
เพราะแบบนี้รถยนต์ไร้คนขับจึงใช้ RL ไม่ใช่ GPT
เวลาต้องเพิ่มประสิทธิภาพการเข้าชมตั้งแต่หลักล้านไปจนถึงหลักพันล้าน การใส่ contextual multi-armed bandit เข้าไปช่วยกระตุ้นการซื้อได้อย่างมีประสิทธิภาพมาก
แต่พอทำงานจริงก็ได้รู้ว่า การทำให้ทั่วไปกับข้อมูลนอกการกระจาย (out-of-distribution generalization) นั้นทำไม่ได้ด้วยการเรียนรู้จากรางวัลแบบง่าย ๆ
สงสัยอยู่ว่าวิดีโอเปิดให้ดูหรือไม่ แล้วก็พบว่าคลาสภาคฤดูใบไม้ผลิมีอยู่ใน YouTube เพลย์ลิสต์
จากมุมมองของคนที่เคยเรียนแต่ ML แบบดั้งเดิม รู้สึกสับสนว่าจะเอา RL ไปใช้กับ ปัญหาทั่วไป อย่างไร
ตัวอย่างเช่น ถ้าจะฝืนเอา RL ไปใช้กับงานจัดประเภทแบบทวิภาคที่ใช้ BCE loss หรือปัญหาพยากรณ์ราคาบ้าน ควรทำอย่างไรยังนึกไม่ออก
ยังไม่เห็นภาพว่าจะเชื่อมกับฟังก์ชัน loss อย่างไร
ปัญหาถดถอยที่ชัดเจนอย่างการพยากรณ์ราคาบ้านนั้น วิธีเดิมก็มีประสิทธิภาพเพียงพออยู่แล้ว RL จึงไม่จำเป็น
แต่ปัญหาการตัดสินใจแบบลำดับขั้นอย่างโกะนั้น สัญญาณรางวัลมีอยู่น้อยและไม่ชัดว่าจะปรับกลยุทธ์อย่างไร RL จึงเหมาะกว่า
RL มีประโยชน์ใน สถานการณ์ซับซ้อนที่ไม่มีป้ายกำกับ แต่แม้แต่ปัญหาอย่างหมากรุก สุดท้ายแก่นสำคัญก็คือการแปลงให้เป็นปัญหาแบบมีผู้สอน
มันเหมาะกับปัญหาการตัดสินใจแบบลำดับขั้นที่นิยาม state และ action space ไว้ชัดเจน แต่ไม่เหมาะกับการจัดประเภทแบบทวิภาคหรือการถดถอย
RL แข็งแกร่งกับปัญหาที่ต้องตัดสินใจในปัจจุบันทั้งที่ยังไม่รู้ผลลัพธ์ในอนาคต
หลายคนบอกว่า RL ไม่เสถียรและลู่เข้าได้ยาก
ทีมวิจัย Stanford เองก็ยอมรับ
เลยสงสัยว่ามีทางแก้หรือไม่
มันเพิ่มเสถียรภาพด้วยการเรียนรู้ การกระจายของรางวัลทั้งหมด แทนที่จะเรียนรู้แค่ค่าสูงสุดเดียว
ถ้าเพิ่งฟังพอดแคสต์ของ Ilya มาก่อน ชื่อคอร์สครั้งนี้จะยิ่งรู้สึกน่าสนใจ
กำลังหา หนังสือแนะนำ เกี่ยวกับ RL
ตอนนี้เรียน deep learning มาพอสมควรแล้ว
กำลังพิจารณา Reinforcement Learning ของ Sutton, Reinforcement Learning, an overview ของ Kevin Patrick Murphy และหนังสือใหม่ของ Sebastian Raschka
ดาวน์โหลด PDF ฟรีได้ที่ algorithmsbook.com