CS234: การเรียนรู้แบบเสริมกำลัง ภาคฤดูหนาว 2025

(web.stanford.edu)

3 คะแนน โดย GN⁺ 2025-11-28 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

เป็นรายวิชาระดับบัณฑิตศึกษาของมหาวิทยาลัยสแตนฟอร์ดที่ครอบคลุมแนวคิดหลักและการประยุกต์ใช้ของ การเรียนรู้แบบเสริมกำลัง (Reinforcement Learning) โดยเน้นหลักการที่ระบบอัตโนมัติเรียนรู้การตัดสินใจได้ด้วยตนเอง
เรียนรู้วิธีนิยามและแก้ปัญหาในหลากหลายสาขา เช่น หุ่นยนต์ เกม การสร้างแบบจำลองผู้บริโภค และเฮลธ์แคร์ ด้วย RL
ฝึกปฏิบัติตั้งแต่อัลกอริทึม RL พื้นฐานไปจนถึง Deep Reinforcement Learning (Deep RL) ผ่าน การบรรยาย งานเขียน และงานเขียนโค้ด
ผู้เรียนต้องมีพื้นฐาน Python, พีชคณิตเชิงเส้น, ความน่าจะเป็นและสถิติ, พื้นฐานแมชชีนเลิร์นนิง ล่วงหน้า และส่งงานผ่าน Gradescope
หลักสูตรจัดอย่างเป็นระบบ ครอบคลุม ปัญหาการสำรวจเทียบกับการใช้ประโยชน์, policy search, offline RL, กรณีศึกษา AlphaGo เป็นต้น ซึ่งสำคัญต่อการเสริมสร้างทักษะแกนหลักสำหรับงานวิจัย AI และการพัฒนาเชิงประยุกต์

ภาพรวมรายวิชาและการดำเนินการ

เน้นย้ำความจำเป็นของ ระบบที่เรียนรู้การตัดสินใจได้อย่างอัตโนมัติ เพื่อบรรลุเป้าหมายของปัญญาประดิษฐ์
- การเรียนรู้แบบเสริมกำลังเป็นกรอบแนวคิดที่ทรงพลังสำหรับสร้างระบบลักษณะนี้ และสามารถนำไปใช้กับงานจริงได้หลากหลาย
การเรียนการสอนจัดแบบสดใน วันอังคารและวันพฤหัสบดี และมีวิดีโอบันทึกให้ผ่าน Canvas
ใช้ Ed Forum สำหรับถามตอบ และใช้ Gradescope จัดการงานกับควิซ
อาจารย์ผู้สอนคือ Emma Brunskill และมีผู้ช่วยสอนหลายคนสนับสนุน

ข้อกำหนดวิชาพื้นฐาน

ต้องมี ทักษะการเขียนโปรแกรม Python โดยงานทั้งหมดเขียนด้วย Python
ต้องมีความรู้ แคลคูลัส พีชคณิตเชิงเส้น และความน่าจะเป็นกับสถิติ ระดับมหาวิทยาลัย
ต้องเข้าใจ พื้นฐานแมชชีนเลิร์นนิง (เช่น CS221, CS229)
- รวมถึงแนวคิดการนิยามฟังก์ชันต้นทุน การทำ optimization ด้วย gradient descent และ convex optimization

เป้าหมายการเรียนรู้

นิยาม คุณลักษณะสำคัญที่ทำให้การเรียนรู้แบบเสริมกำลังแตกต่างจากแมชชีนเลิร์นนิงแบบไม่โต้ตอบ
จัดรูปปัญหาประยุกต์ที่กำหนดให้เป็น RL และออกแบบ state space, action space, reward model
นำอัลกอริทึมสำคัญไปใช้งาน เช่น policy search, Q-learning, การวางแผน MDP
เข้าใจเกณฑ์การประเมิน เช่น regret, sample complexity, computational complexity, การลู่เข้า
เปรียบเทียบแนวทางต่าง ๆ ต่อปัญหา exploration vs exploitation

สรุปตารางเรียน

สัปดาห์ที่ 1: บทนำสู่การเรียนรู้แบบเสริมกำลัง, การวางแผน Tabular MDP
สัปดาห์ที่ 2: การประเมินนโยบาย, Q-learning และ function approximation
สัปดาห์ที่ 3~4: policy search (1~3), offline RL และ imitation learning
สัปดาห์ที่ 5: สอบกลางภาค, หัวข้อ DPO
สัปดาห์ที่ 6~7: offline RL เชิงลึก, exploration (1~3)
สัปดาห์ที่ 8: exploration (4), การบรรยายรับเชิญ, ส่ง project milestone
สัปดาห์ที่ 9: Monte Carlo Tree Search / AlphaGo, ควิซ
สัปดาห์ที่ 10~11: การบรรยายรับเชิญ, poster session ของโปรเจกต์สุดท้ายและส่งรายงาน

ตำราและเอกสารอ้างอิง

ไม่มีตำราหลักอย่างเป็นทางการ โดยเอกสารอ้างอิงสำคัญคือ Sutton & Barto, “Reinforcement Learning: An Introduction (2nd Ed.)”
เอกสารเพิ่มเติมที่แนะนำ ได้แก่ Wiering & van Otterlo, Reinforcement Learning: State-of-the-Art, Russell & Norvig, Artificial Intelligence: A Modern Approach, Goodfellow, Deep Learning, และ คอร์ส RL ของ David Silver

สัดส่วนการประเมิน

งานที่ 1: 10%, งานที่ 2: 18%, งานที่ 3: 18%
สอบกลางภาค: 25%, ควิซ: 5%, โปรเจกต์: 24%
- ข้อเสนอ 1%, milestone 2%, โปสเตอร์ 5%, รายงานวิชาการ 16%
โบนัสการมีส่วนร่วมในชั้นเรียน: สูงสุด 0.5%

นโยบายการส่งช้าและการส่งงาน

ให้ late days รวมทั้งหมด 5 วัน
ใช้ได้สูงสุด 2 วันต่อหนึ่งงาน และหากเกินจะมีการหักคะแนน
- หากส่งภายใน 24 ชั่วโมงหลังเส้นตาย จะได้คะแนนสูงสุด 50% และหากช้ากว่านั้นจะได้ 0 คะแนน
การนำเสนอโปสเตอร์และรายงานฉบับสุดท้ายไม่อนุญาตให้ส่งช้า

การสอบ

มี สอบกลางภาค 1 ครั้ง และควิซ 1 ครั้ง โดยทั้งหมดเป็นการสอบในสถานที่ภายในมหาวิทยาลัย
หากมีเหตุผลอย่างเป็นทางการ อาจสอบทางไกลหรือสอบทดแทนได้
เอกสารที่อนุญาต: โน้ตเขียนมือ 1 แผ่น (กลางภาค), กระดาษ 1 แผ่นเขียนได้สองหน้า (ควิซ)
ห้าม: เครื่องคิดเลข แล็ปท็อป โทรศัพท์มือถือ แท็บเล็ต เป็นต้น

งานและการส่งงาน

งานทั้งหมดประกาศในหน้า Assignments
บางงานสามารถใช้ ทรัพยากรคลาวด์คอมพิวติ้ง ได้
แนวทางการส่งตรวจสอบได้จากหน้าเฉพาะของรายวิชา

จริยธรรมทางวิชาการและการใช้เครื่องมือ AI

งานเขียนสามารถอภิปรายไอเดียร่วมกันได้ แต่ คำตอบต้องเขียนอย่างอิสระด้วยตนเอง
งานเขียนโค้ด แชร์ได้เฉพาะผลลัพธ์อินพุต/เอาต์พุต และห้ามแชร์โค้ด
ตรวจสอบการลอกเลียนด้วย ซอฟต์แวร์ตรวจความคล้ายคลึง
อนุญาตให้ใช้ generative AI (GPT-4, Gemini, Copilot เป็นต้น) ได้ในระดับเดียวกับการร่วมงานกับมนุษย์
- ห้ามสร้างโค้ดหรือคัดลอกคำตอบโดยตรง
- หากใช้งานต้องระบุให้ชัดเจน และความรับผิดชอบสุดท้ายเป็นของผู้เรียนเอง
ห้ามระบุ LLM เป็นผู้เขียนร่วมของโปรเจกต์

การสนับสนุนด้านการเรียนและการอุทธรณ์ผลประเมิน

การขอการสนับสนุนด้านการเรียนกรณีความพิการสามารถยื่นผ่าน Office of Accessible Education (OAE)
คำร้องขอทบทวนคะแนน สามารถส่งผ่าน Gradescope ภายใน 3 วันหลังประกาศคะแนน
เมื่อมีการทบทวน งานทั้งชิ้นอาจถูกประเมินใหม่ทั้งหมด

เกรดและรูปแบบการลงทะเบียน

แม้ลงทะเบียนแบบ Credit/No Credit ก็ใช้เกณฑ์การประเมินเดียวกัน
หากได้ C- ขึ้นไป (ประมาณ 70%) จะได้รับ CR

อื่น ๆ

นักศึกษา SCPD สามารถติดต่อสอบถามด้านธุรการผ่านอีเมลเฉพาะ
เว็บไซต์ออกแบบโดย Andrej Karpathy

1 ความคิดเห็น

GN⁺ 2025-11-28

ความคิดเห็นใน Hacker News

นึกว่าจะมีการเปิดวิดีโอบรรยายให้ดูเลยคาดหวังไว้ แต่พอเข้าไปดูจริงกลับเป็น แบบส่วนตัว
ช่วงโรคระบาดมีหลายสถาบันเปิดสื่อการสอนให้คนทั่วโลกเข้าถึงได้ แต่ทุกวันนี้ไม่ใช่แค่คอร์สใหม่ แม้แต่วิดีโอเก่าก็มีแนวโน้มถูกปิดมากขึ้น
แม้แต่ MIT OCW พอเป็นระดับบัณฑิตศึกษาขั้นสูงก็เริ่มไม่มีเนื้อหาแล้ว
แน่นอนว่าเข้าใจได้ว่ามหาวิทยาลัยควรให้ความสำคัญกับศิษย์เก่าก่อน แต่การเปิดสื่อพื้นฐานอย่างวิดีโอบรรยายนั้นแทบจะ ไม่มีต้นทุนเพิ่มเลย
เนื้อหาแบบนี้ดูจะสร้างคุณค่าให้โลกได้มาก
- วิดีโอบรรยายปี 2024 มีอยู่ใน YouTube เพลย์ลิสต์
- ก็มีคนแย้งว่าถ้าเผยแพร่สื่อใหม่ออกไป สถาบันอื่นก็จะ ลอกเลียน ได้ง่าย
  อาจารย์บางคนไม่อยากแชร์สไลด์หรือวิดีโอบันทึกการสอนเพราะกังวลเรื่องลิขสิทธิ์
  แต่ท่าทีแบบนี้ดูเหมือนกำลังสร้างความผูกขาดด้วย กำแพงทางกฎหมาย มากกว่าจะเป็นชื่อเสียงที่แท้จริง
  สุดท้ายคนที่ได้ประโยชน์ก็คือนักศึกษาที่จ่ายค่าเล่าเรียนแพง ผู้สอนที่ไม่อยากเปลี่ยนแปลง และผู้บริหารมหาวิทยาลัยเท่านั้น
มีคำพูดว่า “RL เป็นวิธีการเรียนรู้ที่แย่ที่สุด ยกเว้นทุกวิธีอื่นที่แย่กว่า”
นักวิทยาศาสตร์จำนวนมากคิดว่าอีก 10 ปีข้างหน้า RL จะไม่ใช่ กระแสหลักของการฝึกโมเดลล้ำสมัย อีกต่อไป
ผมก็เห็นด้วย และแนะนำว่าเวลาเรียนคอร์สนี้ควรลองคิดถึงพาราไดม์อื่นไปด้วย
เหมือนที่การสร้างภาพก้าวกระโดดด้วย diffusion model และ GPT ก้าวกระโดดด้วย RLHF นั่นแปลว่า RL เองก็คงไม่ใช่ปลายทางสุดท้าย
หน้าที่ของเราคือหาวิธีที่ดีกว่านั้น
- หลายคนมักตั้งสมมติฐานว่าคนสนใจแค่การสร้างภาพหรือข้อความ แต่ RL โดดเด่นมากใน ปัญหาการควบคุม
  ถ้ามีเวลาให้รันมากพอ ก็สามารถรับประกันคำตอบที่เหมาะที่สุดได้ในเชิงคณิตศาสตร์
  เพราะแบบนี้รถยนต์ไร้คนขับจึงใช้ RL ไม่ใช่ GPT
- จริง ๆ แล้ว RL แทบจะใกล้เคียงกับ วิธีสร้างชุดข้อมูล มากกว่าจะเป็นวิธีการเรียนรู้
- ในอุตสาหกรรมโฆษณา RL ก็ยังถูกใช้งานอย่างคึกคัก
  เวลาต้องเพิ่มประสิทธิภาพการเข้าชมตั้งแต่หลักล้านไปจนถึงหลักพันล้าน การใส่ contextual multi-armed bandit เข้าไปช่วยกระตุ้นการซื้อได้อย่างมีประสิทธิภาพมาก
- เลยสงสัยว่าสำหรับปัญหา combinatorial optimization หรือสภาพแวดล้อมที่อิงการจำลอง พาราไดม์แบบไหนจะเหมาะที่สุด
- ตอนเป็นนักศึกษาเคยมอง RLHF ว่าเหมือนกลยุทธ์ปั่นคะแนนสอบ
  แต่พอทำงานจริงก็ได้รู้ว่า การทำให้ทั่วไปกับข้อมูลนอกการกระจาย (out-of-distribution generalization) นั้นทำไม่ได้ด้วยการเรียนรู้จากรางวัลแบบง่าย ๆ
สงสัยอยู่ว่าวิดีโอเปิดให้ดูหรือไม่ แล้วก็พบว่าคลาสภาคฤดูใบไม้ผลิมีอยู่ใน YouTube เพลย์ลิสต์
จากมุมมองของคนที่เคยเรียนแต่ ML แบบดั้งเดิม รู้สึกสับสนว่าจะเอา RL ไปใช้กับ ปัญหาทั่วไป อย่างไร
ตัวอย่างเช่น ถ้าจะฝืนเอา RL ไปใช้กับงานจัดประเภทแบบทวิภาคที่ใช้ BCE loss หรือปัญหาพยากรณ์ราคาบ้าน ควรทำอย่างไรยังนึกไม่ออก
ยังไม่เห็นภาพว่าจะเชื่อมกับฟังก์ชัน loss อย่างไร
- เวลาจะตัดสินใจว่าจะใช้ RL ไหม มี 3 อย่างที่ควรดูคือ ① ปริมาณข้อมูลที่ loss ของแต่ละตัวอย่างให้มา ② ปรับโมเดลจากสัญญาณ loss ได้หรือไม่ ③ ความซับซ้อนของ feature space
  ปัญหาถดถอยที่ชัดเจนอย่างการพยากรณ์ราคาบ้านนั้น วิธีเดิมก็มีประสิทธิภาพเพียงพออยู่แล้ว RL จึงไม่จำเป็น
  แต่ปัญหาการตัดสินใจแบบลำดับขั้นอย่างโกะนั้น สัญญาณรางวัลมีอยู่น้อยและไม่ชัดว่าจะปรับกลยุทธ์อย่างไร RL จึงเหมาะกว่า
- ถ้าเป็นผมคงไม่ใช้ RL
  RL มีประโยชน์ใน สถานการณ์ซับซ้อนที่ไม่มีป้ายกำกับ แต่แม้แต่ปัญหาอย่างหมากรุก สุดท้ายแก่นสำคัญก็คือการแปลงให้เป็นปัญหาแบบมีผู้สอน
- RL คือเทคนิคสำหรับหานโยบายที่ดีที่สุดใน Markov Decision Process (MDP)
  มันเหมาะกับปัญหาการตัดสินใจแบบลำดับขั้นที่นิยาม state และ action space ไว้ชัดเจน แต่ไม่เหมาะกับการจัดประเภทแบบทวิภาคหรือการถดถอย
  RL แข็งแกร่งกับปัญหาที่ต้องตัดสินใจในปัจจุบันทั้งที่ยังไม่รู้ผลลัพธ์ในอนาคต
หลายคนบอกว่า RL ไม่เสถียรและลู่เข้าได้ยาก
ทีมวิจัย Stanford เองก็ยอมรับ
เลยสงสัยว่ามีทางแก้หรือไม่
- FlowRL เป็นทางเลือกหนึ่ง
  มันเพิ่มเสถียรภาพด้วยการเรียนรู้ การกระจายของรางวัลทั้งหมด แทนที่จะเรียนรู้แค่ค่าสูงสุดเดียว
ถ้าเพิ่งฟังพอดแคสต์ของ Ilya มาก่อน ชื่อคอร์สครั้งนี้จะยิ่งรู้สึกน่าสนใจ
- มีคนเล่นมุกว่า “สุดท้าย ฤดูหนาวของ AI กำลังจะมาหรือเปล่า?”
- และก็มีคนถามเหมือนกันว่าหมายถึงพอดแคสต์ไหน
กำลังหา หนังสือแนะนำ เกี่ยวกับ RL
ตอนนี้เรียน deep learning มาพอสมควรแล้ว
กำลังพิจารณา Reinforcement Learning ของ Sutton, Reinforcement Learning, an overview ของ Kevin Patrick Murphy และหนังสือใหม่ของ Sebastian Raschka
- Algorithms for Decision Making ของ Kochenderfer และคณะก็พูดถึงแนวทางที่เกี่ยวข้องกับ RL ด้วย
  ดาวน์โหลด PDF ฟรีได้ที่ algorithmsbook.com

CS234: การเรียนรู้แบบเสริมกำลัง ภาคฤดูหนาว 2025

ภาพรวมรายวิชาและการดำเนินการ

ข้อกำหนดวิชาพื้นฐาน

เป้าหมายการเรียนรู้

สรุปตารางเรียน

ตำราและเอกสารอ้างอิง

สัดส่วนการประเมิน

นโยบายการส่งช้าและการส่งงาน

การสอบ

งานและการส่งงาน

จริยธรรมทางวิชาการและการใช้เครื่องมือ AI

การสนับสนุนด้านการเรียนและการอุทธรณ์ผลประเมิน

เกรดและรูปแบบการลงทะเบียน

อื่น ๆ

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นใน Hacker News