3 คะแนน โดย GN⁺ 2025-11-28 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • เป็นรายวิชาระดับบัณฑิตศึกษาของมหาวิทยาลัยสแตนฟอร์ดที่ครอบคลุมแนวคิดหลักและการประยุกต์ใช้ของ การเรียนรู้แบบเสริมกำลัง (Reinforcement Learning) โดยเน้นหลักการที่ระบบอัตโนมัติเรียนรู้การตัดสินใจได้ด้วยตนเอง
  • เรียนรู้วิธีนิยามและแก้ปัญหาในหลากหลายสาขา เช่น หุ่นยนต์ เกม การสร้างแบบจำลองผู้บริโภค และเฮลธ์แคร์ ด้วย RL
  • ฝึกปฏิบัติตั้งแต่อัลกอริทึม RL พื้นฐานไปจนถึง Deep Reinforcement Learning (Deep RL) ผ่าน การบรรยาย งานเขียน และงานเขียนโค้ด
  • ผู้เรียนต้องมีพื้นฐาน Python, พีชคณิตเชิงเส้น, ความน่าจะเป็นและสถิติ, พื้นฐานแมชชีนเลิร์นนิง ล่วงหน้า และส่งงานผ่าน Gradescope
  • หลักสูตรจัดอย่างเป็นระบบ ครอบคลุม ปัญหาการสำรวจเทียบกับการใช้ประโยชน์, policy search, offline RL, กรณีศึกษา AlphaGo เป็นต้น ซึ่งสำคัญต่อการเสริมสร้างทักษะแกนหลักสำหรับงานวิจัย AI และการพัฒนาเชิงประยุกต์

ภาพรวมรายวิชาและการดำเนินการ

  • เน้นย้ำความจำเป็นของ ระบบที่เรียนรู้การตัดสินใจได้อย่างอัตโนมัติ เพื่อบรรลุเป้าหมายของปัญญาประดิษฐ์
    • การเรียนรู้แบบเสริมกำลังเป็นกรอบแนวคิดที่ทรงพลังสำหรับสร้างระบบลักษณะนี้ และสามารถนำไปใช้กับงานจริงได้หลากหลาย
  • การเรียนการสอนจัดแบบสดใน วันอังคารและวันพฤหัสบดี และมีวิดีโอบันทึกให้ผ่าน Canvas
  • ใช้ Ed Forum สำหรับถามตอบ และใช้ Gradescope จัดการงานกับควิซ
  • อาจารย์ผู้สอนคือ Emma Brunskill และมีผู้ช่วยสอนหลายคนสนับสนุน

ข้อกำหนดวิชาพื้นฐาน

  • ต้องมี ทักษะการเขียนโปรแกรม Python โดยงานทั้งหมดเขียนด้วย Python
  • ต้องมีความรู้ แคลคูลัส พีชคณิตเชิงเส้น และความน่าจะเป็นกับสถิติ ระดับมหาวิทยาลัย
  • ต้องเข้าใจ พื้นฐานแมชชีนเลิร์นนิง (เช่น CS221, CS229)
    • รวมถึงแนวคิดการนิยามฟังก์ชันต้นทุน การทำ optimization ด้วย gradient descent และ convex optimization

เป้าหมายการเรียนรู้

  • นิยาม คุณลักษณะสำคัญที่ทำให้การเรียนรู้แบบเสริมกำลังแตกต่างจากแมชชีนเลิร์นนิงแบบไม่โต้ตอบ
  • จัดรูปปัญหาประยุกต์ที่กำหนดให้เป็น RL และออกแบบ state space, action space, reward model
  • นำอัลกอริทึมสำคัญไปใช้งาน เช่น policy search, Q-learning, การวางแผน MDP
  • เข้าใจเกณฑ์การประเมิน เช่น regret, sample complexity, computational complexity, การลู่เข้า
  • เปรียบเทียบแนวทางต่าง ๆ ต่อปัญหา exploration vs exploitation

สรุปตารางเรียน

  • สัปดาห์ที่ 1: บทนำสู่การเรียนรู้แบบเสริมกำลัง, การวางแผน Tabular MDP
  • สัปดาห์ที่ 2: การประเมินนโยบาย, Q-learning และ function approximation
  • สัปดาห์ที่ 3~4: policy search (1~3), offline RL และ imitation learning
  • สัปดาห์ที่ 5: สอบกลางภาค, หัวข้อ DPO
  • สัปดาห์ที่ 6~7: offline RL เชิงลึก, exploration (1~3)
  • สัปดาห์ที่ 8: exploration (4), การบรรยายรับเชิญ, ส่ง project milestone
  • สัปดาห์ที่ 9: Monte Carlo Tree Search / AlphaGo, ควิซ
  • สัปดาห์ที่ 10~11: การบรรยายรับเชิญ, poster session ของโปรเจกต์สุดท้ายและส่งรายงาน

ตำราและเอกสารอ้างอิง

  • ไม่มีตำราหลักอย่างเป็นทางการ โดยเอกสารอ้างอิงสำคัญคือ Sutton & Barto, “Reinforcement Learning: An Introduction (2nd Ed.)”
  • เอกสารเพิ่มเติมที่แนะนำ ได้แก่ Wiering & van Otterlo, Reinforcement Learning: State-of-the-Art, Russell & Norvig, Artificial Intelligence: A Modern Approach, Goodfellow, Deep Learning, และ คอร์ส RL ของ David Silver

สัดส่วนการประเมิน

  • งานที่ 1: 10%, งานที่ 2: 18%, งานที่ 3: 18%
  • สอบกลางภาค: 25%, ควิซ: 5%, โปรเจกต์: 24%
    • ข้อเสนอ 1%, milestone 2%, โปสเตอร์ 5%, รายงานวิชาการ 16%
  • โบนัสการมีส่วนร่วมในชั้นเรียน: สูงสุด 0.5%

นโยบายการส่งช้าและการส่งงาน

  • ให้ late days รวมทั้งหมด 5 วัน
  • ใช้ได้สูงสุด 2 วันต่อหนึ่งงาน และหากเกินจะมีการหักคะแนน
    • หากส่งภายใน 24 ชั่วโมงหลังเส้นตาย จะได้คะแนนสูงสุด 50% และหากช้ากว่านั้นจะได้ 0 คะแนน
  • การนำเสนอโปสเตอร์และรายงานฉบับสุดท้ายไม่อนุญาตให้ส่งช้า

การสอบ

  • มี สอบกลางภาค 1 ครั้ง และควิซ 1 ครั้ง โดยทั้งหมดเป็นการสอบในสถานที่ภายในมหาวิทยาลัย
  • หากมีเหตุผลอย่างเป็นทางการ อาจสอบทางไกลหรือสอบทดแทนได้
  • เอกสารที่อนุญาต: โน้ตเขียนมือ 1 แผ่น (กลางภาค), กระดาษ 1 แผ่นเขียนได้สองหน้า (ควิซ)
  • ห้าม: เครื่องคิดเลข แล็ปท็อป โทรศัพท์มือถือ แท็บเล็ต เป็นต้น

งานและการส่งงาน

  • งานทั้งหมดประกาศในหน้า Assignments
  • บางงานสามารถใช้ ทรัพยากรคลาวด์คอมพิวติ้ง ได้
  • แนวทางการส่งตรวจสอบได้จากหน้าเฉพาะของรายวิชา

จริยธรรมทางวิชาการและการใช้เครื่องมือ AI

  • งานเขียนสามารถอภิปรายไอเดียร่วมกันได้ แต่ คำตอบต้องเขียนอย่างอิสระด้วยตนเอง
  • งานเขียนโค้ด แชร์ได้เฉพาะผลลัพธ์อินพุต/เอาต์พุต และห้ามแชร์โค้ด
  • ตรวจสอบการลอกเลียนด้วย ซอฟต์แวร์ตรวจความคล้ายคลึง
  • อนุญาตให้ใช้ generative AI (GPT-4, Gemini, Copilot เป็นต้น) ได้ในระดับเดียวกับการร่วมงานกับมนุษย์
    • ห้ามสร้างโค้ดหรือคัดลอกคำตอบโดยตรง
    • หากใช้งานต้องระบุให้ชัดเจน และความรับผิดชอบสุดท้ายเป็นของผู้เรียนเอง
  • ห้ามระบุ LLM เป็นผู้เขียนร่วมของโปรเจกต์

การสนับสนุนด้านการเรียนและการอุทธรณ์ผลประเมิน

  • การขอการสนับสนุนด้านการเรียนกรณีความพิการสามารถยื่นผ่าน Office of Accessible Education (OAE)
  • คำร้องขอทบทวนคะแนน สามารถส่งผ่าน Gradescope ภายใน 3 วันหลังประกาศคะแนน
  • เมื่อมีการทบทวน งานทั้งชิ้นอาจถูกประเมินใหม่ทั้งหมด

เกรดและรูปแบบการลงทะเบียน

  • แม้ลงทะเบียนแบบ Credit/No Credit ก็ใช้เกณฑ์การประเมินเดียวกัน
  • หากได้ C- ขึ้นไป (ประมาณ 70%) จะได้รับ CR

อื่น ๆ

  • นักศึกษา SCPD สามารถติดต่อสอบถามด้านธุรการผ่านอีเมลเฉพาะ
  • เว็บไซต์ออกแบบโดย Andrej Karpathy

1 ความคิดเห็น

 
GN⁺ 2025-11-28
ความคิดเห็นใน Hacker News
  • นึกว่าจะมีการเปิดวิดีโอบรรยายให้ดูเลยคาดหวังไว้ แต่พอเข้าไปดูจริงกลับเป็น แบบส่วนตัว
    ช่วงโรคระบาดมีหลายสถาบันเปิดสื่อการสอนให้คนทั่วโลกเข้าถึงได้ แต่ทุกวันนี้ไม่ใช่แค่คอร์สใหม่ แม้แต่วิดีโอเก่าก็มีแนวโน้มถูกปิดมากขึ้น
    แม้แต่ MIT OCW พอเป็นระดับบัณฑิตศึกษาขั้นสูงก็เริ่มไม่มีเนื้อหาแล้ว
    แน่นอนว่าเข้าใจได้ว่ามหาวิทยาลัยควรให้ความสำคัญกับศิษย์เก่าก่อน แต่การเปิดสื่อพื้นฐานอย่างวิดีโอบรรยายนั้นแทบจะ ไม่มีต้นทุนเพิ่มเลย
    เนื้อหาแบบนี้ดูจะสร้างคุณค่าให้โลกได้มาก

    • วิดีโอบรรยายปี 2024 มีอยู่ใน YouTube เพลย์ลิสต์
    • ก็มีคนแย้งว่าถ้าเผยแพร่สื่อใหม่ออกไป สถาบันอื่นก็จะ ลอกเลียน ได้ง่าย
      อาจารย์บางคนไม่อยากแชร์สไลด์หรือวิดีโอบันทึกการสอนเพราะกังวลเรื่องลิขสิทธิ์
      แต่ท่าทีแบบนี้ดูเหมือนกำลังสร้างความผูกขาดด้วย กำแพงทางกฎหมาย มากกว่าจะเป็นชื่อเสียงที่แท้จริง
      สุดท้ายคนที่ได้ประโยชน์ก็คือนักศึกษาที่จ่ายค่าเล่าเรียนแพง ผู้สอนที่ไม่อยากเปลี่ยนแปลง และผู้บริหารมหาวิทยาลัยเท่านั้น
  • มีคำพูดว่า “RL เป็นวิธีการเรียนรู้ที่แย่ที่สุด ยกเว้นทุกวิธีอื่นที่แย่กว่า”
    นักวิทยาศาสตร์จำนวนมากคิดว่าอีก 10 ปีข้างหน้า RL จะไม่ใช่ กระแสหลักของการฝึกโมเดลล้ำสมัย อีกต่อไป
    ผมก็เห็นด้วย และแนะนำว่าเวลาเรียนคอร์สนี้ควรลองคิดถึงพาราไดม์อื่นไปด้วย
    เหมือนที่การสร้างภาพก้าวกระโดดด้วย diffusion model และ GPT ก้าวกระโดดด้วย RLHF นั่นแปลว่า RL เองก็คงไม่ใช่ปลายทางสุดท้าย
    หน้าที่ของเราคือหาวิธีที่ดีกว่านั้น

    • หลายคนมักตั้งสมมติฐานว่าคนสนใจแค่การสร้างภาพหรือข้อความ แต่ RL โดดเด่นมากใน ปัญหาการควบคุม
      ถ้ามีเวลาให้รันมากพอ ก็สามารถรับประกันคำตอบที่เหมาะที่สุดได้ในเชิงคณิตศาสตร์
      เพราะแบบนี้รถยนต์ไร้คนขับจึงใช้ RL ไม่ใช่ GPT
    • จริง ๆ แล้ว RL แทบจะใกล้เคียงกับ วิธีสร้างชุดข้อมูล มากกว่าจะเป็นวิธีการเรียนรู้
    • ในอุตสาหกรรมโฆษณา RL ก็ยังถูกใช้งานอย่างคึกคัก
      เวลาต้องเพิ่มประสิทธิภาพการเข้าชมตั้งแต่หลักล้านไปจนถึงหลักพันล้าน การใส่ contextual multi-armed bandit เข้าไปช่วยกระตุ้นการซื้อได้อย่างมีประสิทธิภาพมาก
    • เลยสงสัยว่าสำหรับปัญหา combinatorial optimization หรือสภาพแวดล้อมที่อิงการจำลอง พาราไดม์แบบไหนจะเหมาะที่สุด
    • ตอนเป็นนักศึกษาเคยมอง RLHF ว่าเหมือนกลยุทธ์ปั่นคะแนนสอบ
      แต่พอทำงานจริงก็ได้รู้ว่า การทำให้ทั่วไปกับข้อมูลนอกการกระจาย (out-of-distribution generalization) นั้นทำไม่ได้ด้วยการเรียนรู้จากรางวัลแบบง่าย ๆ
  • สงสัยอยู่ว่าวิดีโอเปิดให้ดูหรือไม่ แล้วก็พบว่าคลาสภาคฤดูใบไม้ผลิมีอยู่ใน YouTube เพลย์ลิสต์

  • จากมุมมองของคนที่เคยเรียนแต่ ML แบบดั้งเดิม รู้สึกสับสนว่าจะเอา RL ไปใช้กับ ปัญหาทั่วไป อย่างไร
    ตัวอย่างเช่น ถ้าจะฝืนเอา RL ไปใช้กับงานจัดประเภทแบบทวิภาคที่ใช้ BCE loss หรือปัญหาพยากรณ์ราคาบ้าน ควรทำอย่างไรยังนึกไม่ออก
    ยังไม่เห็นภาพว่าจะเชื่อมกับฟังก์ชัน loss อย่างไร

    • เวลาจะตัดสินใจว่าจะใช้ RL ไหม มี 3 อย่างที่ควรดูคือ ① ปริมาณข้อมูลที่ loss ของแต่ละตัวอย่างให้มา ② ปรับโมเดลจากสัญญาณ loss ได้หรือไม่ ③ ความซับซ้อนของ feature space
      ปัญหาถดถอยที่ชัดเจนอย่างการพยากรณ์ราคาบ้านนั้น วิธีเดิมก็มีประสิทธิภาพเพียงพออยู่แล้ว RL จึงไม่จำเป็น
      แต่ปัญหาการตัดสินใจแบบลำดับขั้นอย่างโกะนั้น สัญญาณรางวัลมีอยู่น้อยและไม่ชัดว่าจะปรับกลยุทธ์อย่างไร RL จึงเหมาะกว่า
    • ถ้าเป็นผมคงไม่ใช้ RL
      RL มีประโยชน์ใน สถานการณ์ซับซ้อนที่ไม่มีป้ายกำกับ แต่แม้แต่ปัญหาอย่างหมากรุก สุดท้ายแก่นสำคัญก็คือการแปลงให้เป็นปัญหาแบบมีผู้สอน
    • RL คือเทคนิคสำหรับหานโยบายที่ดีที่สุดใน Markov Decision Process (MDP)
      มันเหมาะกับปัญหาการตัดสินใจแบบลำดับขั้นที่นิยาม state และ action space ไว้ชัดเจน แต่ไม่เหมาะกับการจัดประเภทแบบทวิภาคหรือการถดถอย
      RL แข็งแกร่งกับปัญหาที่ต้องตัดสินใจในปัจจุบันทั้งที่ยังไม่รู้ผลลัพธ์ในอนาคต
  • หลายคนบอกว่า RL ไม่เสถียรและลู่เข้าได้ยาก
    ทีมวิจัย Stanford เองก็ยอมรับ
    เลยสงสัยว่ามีทางแก้หรือไม่

    • FlowRL เป็นทางเลือกหนึ่ง
      มันเพิ่มเสถียรภาพด้วยการเรียนรู้ การกระจายของรางวัลทั้งหมด แทนที่จะเรียนรู้แค่ค่าสูงสุดเดียว
  • ถ้าเพิ่งฟังพอดแคสต์ของ Ilya มาก่อน ชื่อคอร์สครั้งนี้จะยิ่งรู้สึกน่าสนใจ

    • มีคนเล่นมุกว่า “สุดท้าย ฤดูหนาวของ AI กำลังจะมาหรือเปล่า?”
    • และก็มีคนถามเหมือนกันว่าหมายถึงพอดแคสต์ไหน
  • กำลังหา หนังสือแนะนำ เกี่ยวกับ RL
    ตอนนี้เรียน deep learning มาพอสมควรแล้ว
    กำลังพิจารณา Reinforcement Learning ของ Sutton, Reinforcement Learning, an overview ของ Kevin Patrick Murphy และหนังสือใหม่ของ Sebastian Raschka

    • Algorithms for Decision Making ของ Kochenderfer และคณะก็พูดถึงแนวทางที่เกี่ยวข้องกับ RL ด้วย
      ดาวน์โหลด PDF ฟรีได้ที่ algorithmsbook.com