MIT 6.S184: บทนำสู่ Flow Matching และโมเดล Diffusion

(diffusion.csail.mit.edu)

3 คะแนน โดย GN⁺ 2025-03-04 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

MIT 6.S184 เวอร์ชัน 2026 เป็นหลักสูตรเบื้องต้นที่เรียนรู้ทั้งเชิงทฤษฎีและภาคปฏิบัติของ โมเดล diffusion และโมเดล flow ซึ่งใช้กับข้อมูลหลายประเภท เช่น ภาพและวิดีโอ
เนื้อหาการสอนครอบคลุมสมการเชิงอนุพันธ์สุ่ม, สมการ Fokker-Planck, flow matching, score matching, classifier-free guidance, latent space และโมเดล diffusion แบบไม่ต่อเนื่อง
แต่ละบทเรียนมีภาคปฏิบัติแนบมาด้วย ทำให้ผู้เรียนสามารถลองสร้าง flow matching และโมเดล diffusion เองได้ทีละขั้นตั้งแต่ต้น
ช่วงท้ายของหลักสูตรจะได้สร้าง latent diffusion model ด้วยตัวเอง พร้อมออกแบบให้สามารถนำเครื่องมือการตีความเชิงความน่าจะเป็นไปประยุกต์ใช้กับสาขาอื่นได้
แนะนำให้มีประสบการณ์ด้านทฤษฎีความน่าจะเป็นและดีปเลิร์นนิงมาก่อน โดยความรู้พื้นฐานที่ต้องมีคือพีชคณิตเชิงเส้น, แคลคูลัสหลายตัวแปร, ทฤษฎีความน่าจะเป็นเบื้องต้น, Python และ PyTorch

โครงสร้างหลักสูตรและเป้าหมายการเรียนรู้

Flow Matching and Diffusion Models — 2026 Version เป็นหลักสูตรที่ออกแบบมาเพื่อช่วยให้นักศึกษาและนักวิจัยเข้าใจโมเดล diffusion และ flow ได้ลึกยิ่งขึ้น
โมเดลที่ครอบคลุมเป็นวิธีการด้าน Generative AI สำหรับภาพ วิดีโอ และข้อมูลประเภทอื่น ๆ
โครงสร้างเรียงลำดับตั้งแต่พื้นฐานทางคณิตศาสตร์ไปจนถึงการลงมือสร้างจริง
- สมการเชิงอนุพันธ์สุ่ม
- สมการ Fokker-Planck
- คำอธิบายทีละขั้นขององค์ประกอบแต่ละส่วนของโมเดล
- การพัฒนาใช้งานจริงแบบมีแนวทางผ่านภาคปฏิบัติของแต่ละบทเรียน
ตอนท้ายจะสร้าง latent diffusion model ตั้งแต่ต้น
พื้นฐานที่แนะนำคือประสบการณ์ด้านทฤษฎีความน่าจะเป็นและดีปเลิร์นนิง ส่วนความรู้ที่ต้องมีก่อนคือพีชคณิตเชิงเส้น, แคลคูลัสหลายตัวแปร, ทฤษฎีความน่าจะเป็นเบื้องต้น, Python และ PyTorch

เอกสารประกอบการสอนและสื่อการเรียน

เอกสาร lecture notes เป็นสื่อหลักของหลักสูตร และอธิบายเนื้อหาทั้งหมดของวิชาแบบ ครบถ้วนในตัวเอง
ข้อมูลอ้างอิงของ lecture notes
- Introduction to Flow Matching and Diffusion Models
- Peter Holderrieth, Ezra Erives
- 2026
- arXiv eprint: 2506.02070
รายการบทเรียน
- บทที่ 1: Flow and Diffusion Models
  - ครอบคลุมบทนำสู่โมเดลเชิงกำเนิด, สมการเชิงอนุพันธ์สามัญและสมการเชิงอนุพันธ์สุ่ม, และการสุ่มตัวอย่างของโมเดล flow และ diffusion
  - slides 1, Video 13
- บทที่ 2: Flow Matching
  - ครอบคลุมเส้นทางความน่าจะเป็นแบบมีเงื่อนไขและแบบมาร์จินัล, เวกเตอร์ฟิลด์แบบมีเงื่อนไขและแบบมาร์จินัล, และวัตถุประสงค์การเรียนรู้ของ flow matching
  - slides 2, Video 14
- บทที่ 3-A: Score Functions and Score Matching
  - ครอบคลุม score function, denoising score matching และการสุ่มตัวอย่างด้วย SDE
  - slides 3, Video 15
- บทที่ 3-B: Classifier-free Guidance
  - ครอบคลุม guided generation, classifier guidance และ classifier-free guidance
  - slides 3, Video 16
- บทที่ 4: Latent Spaces and Neural Network Architectures
  - ครอบคลุม VAE และ latent space, Diffusion Transformer และ U-Nets, รวมถึงกรณีศึกษาของโมเดลขนาดใหญ่
  - slides 4, Video 17
- บทที่ 5: Discrete Diffusion Models
  - ครอบคลุม continuous-time Markov chains (CTMCs), การสุ่มตัวอย่างของโมเดล CTMC และการฝึกโมเดล CTMC
  - slides 5, Video 18

รูปแบบภาคปฏิบัติ

หลักสูตรมี ภาคปฏิบัติ (labs) ทั้งหมด 3 ชุด โดยให้ประสบการณ์การลงมือสร้างผ่านแบบฝึกหัดที่มาพร้อมกับการเรียน
ภาคปฏิบัติเป็นการสร้าง flow matching และโมเดล diffusion เองทีละขั้นตั้งแต่ต้น
ขั้นตอนการทำ
- ตรวจสอบคำแนะนำจากลิงก์ภาคปฏิบัติ
- ดาวน์โหลดโน้ตบุ๊ก .ipynb จาก GitHub
- รันในสภาพแวดล้อม Jupyter Notebook และสามารถเลือกใช้ Google Colab ได้
- เมื่อทำทุกคำถามเสร็จแล้ว ให้ส่งออกโน้ตบุ๊กเป็น PDF และส่งใน Gradescope ของ Canvas
- ไม่ควรล้างผลลัพธ์ของเซลล์ เพราะจะทำให้การตรวจให้คะแนนทำได้ยาก
หากติดขัด สามารถดู เฉลย ได้

1 ความคิดเห็น

GN⁺ 2025-03-04

ความคิดเห็นจาก Hacker News

คอร์สของ MIT “6.S184: Introduction to Flow Matching and Diffusion Models” ตอนนี้เผยแพร่บน YouTube แล้ว
ครอบคลุมทั้งอัลกอริทึม AI เชิงสร้างสรรค์รุ่นล่าสุดสำหรับภาพ วิดีโอ โปรตีน ฯลฯ และเครื่องมือทางคณิตศาสตร์เพื่อทำความเข้าใจสิ่งเหล่านี้
Flow Matching และโมเดล Diffusion มีความซับซ้อนทางคณิตศาสตร์ ทำให้การบรรยายจำนวนมากหยุดอยู่แค่ระดับสัญชาตญาณ แต่คอร์สนี้แม้จะมุ่งเป้าไปที่ผู้เริ่มต้นด้าน AI ก็ยังตั้งเป้าให้เป็นบทนำที่เข้มงวดทางคณิตศาสตร์และสมบูรณ์ในตัวเอง
ที่มา: https://x.com/peholderrieth
- ผมพยายามจะดูคอร์ส MIT Optics [1] แต่ คุณภาพเสียง/วิดีโอ แย่มาก หวังว่าจะมีใครช่วยแก้ได้ และบางทีอาจทำได้ด้วยโมเดล Diffusion ก็ได้
  [1] https://ocw.mit.edu/courses/2-71-optics-spring-2009/resource...
- ลิงก์เพลย์ลิสต์ YouTube: https://www.youtube.com/watch?v=GCoP2w-Cqtg&list=PL57nT7tSGA...
- อยากให้เกิดธรรมเนียมที่สื่อการเรียนและคอร์สต่าง ๆ แยกให้ชัดเจนว่าเป็น “สัญชาตญาณระดับสูง” หรือเป็น สื่อเชิงประยุกต์เชิงลึก ที่ไม่หลีกเลี่ยงความรู้พื้นฐานที่จำเป็นทั้งหมด
  ทั้งสองแบบมีคุณค่า แต่ท่ามกลางทะเลของสื่อปูพื้นฐานที่ให้แค่สัญชาตญาณ การหาแบบหลังนั้นยาก
Conditional normalizing flows เป็นหนึ่งในแนวทางที่งดงามที่สุดเท่าที่เคยเห็นสำหรับปัญหา inverse design หากมีข้อมูลสำหรับฝึก
แนวคิดที่ค่อย ๆ ดันและดึงมวลความน่าจะเป็นของการแจกแจงพื้นฐานด้วยฟังก์ชันหนึ่งต่อหนึ่งและทั่วถึง เพื่อแปลงรูปไปยังตำแหน่งที่ต้องการนั้นสง่างามจริง ๆ และการสร้างฟังก์ชันหนึ่งต่อหนึ่งและทั่วถึงนั้นเองก็ชาญฉลาดมาก
แม้จะประยุกต์ใช้ยากเมื่อค่ากำหนดเป้าหมายบางส่วนเป็นแบบต่อเนื่องและบางส่วนเป็นแบบจัดหมวดหมู่ แต่ก็ยังเป็นวิธีที่ยอดเยี่ยมมาก และคิดว่าตั้งชื่อได้ดีจริง ๆ
เป็นคอร์สที่น่าสนใจมาก อยากรีบเข้าไปฟัง ดูเหมือนคอร์สนี้จะโฟกัสอย่างเคร่งครัดที่ ปริภูมิต่อเนื่อง แต่ฝั่ง diffusion แบบไม่ต่อเนื่องก็มีเรื่องน่าสนใจมากมายเช่นกัน
สงสัยว่ามีแผนทำคอร์สต่อยอดหรือไม่ เห็นได้ชัดว่า Peter ผู้สอนก็เพิ่งออก论文เกี่ยวกับ diffusion แบบไม่ต่อเนื่องด้วย
https://x.com/peholderrieth/status/1891846309952282661
https://github.com/kuleshov-group/awesome-discrete-diffusion...
สงสัยว่ามี ชุดรวมคอร์สสาธารณะ ที่ครอบคลุมเทคนิค AI ล่าสุดหรือไม่
- ทำรีโพซิทอรี “awesome AI courses” บน GitHub แล้วรับ PR ก็ได้ หรือจะอัปเดตรายการด้านล่างนี้ก็ได้
  https://github.com/luspr/awesome-ml-courses
  https://github.com/owainlewis/awesome-artificial-intelligenc...
ขอบคุณมากสำหรับสื่อคอร์สสาธารณะอย่าง MIT OCW และแหล่งอื่น ๆ ที่คล้ายกัน ผมใช้เป็นสื่อเสริมสำหรับวิชาเอก และการได้เรียนหัวข้อเดียวกันในสองวิธีช่วยได้มาก โดยเฉพาะกับเนื้อหาที่เข้าใจยาก
ดีใจที่ได้เห็นคอร์สนี้ที่นี่ ดูเหมือน LLM จะดึงความสนใจไปจากเทคนิคที่มีประโยชน์อย่างมหาศาลนี้ไปมาก
ถ้าคนที่คุ้นเคยกับหัวข้อนี้ช่วยอธิบายกรณีใช้งานหลัก ๆ และความเห็นโดยรวมสั้น ๆ ได้ก็คงดี
- เป็นหลักการพื้นฐานของ โมเดลสร้างภาพ สมัยใหม่อย่าง Stable Diffusion, Dalle รวมถึงโมเดลสร้างวิดีโอและเสียง ช่วงหลังยังเริ่มถูกใช้ในงานควบคุมหุ่นยนต์อย่างรวดเร็วด้วย [1]
  โมเดลเหล่านี้ถูกฝึกให้ค่อย ๆ ผลักตัวอย่างที่เป็น noise ล้วน ๆ เข้าไปหา distribution ของข้อมูลฝึก เนื่องจากฝึกด้วยเวอร์ชันของชุดฝึกที่ผสม noise กระบวนการลบ noise จึงสามารถสำรวจและใช้ประโยชน์บริเวณรอบ ๆ distribution ของข้อมูลจริงได้ดีขึ้น
  หนึ่งในปัญหาใหญ่ของ GAN คือปรากฏการณ์ที่เรียกว่า mode collapse [2]
  [1] https://www.physicalintelligence.company/blog/pi0
  [2] https://en.wikipedia.org/wiki/Mode_collapse
ช่วง 10 ปีที่ผ่านมาเป็นยุคทองของ การศึกษาด้าน deep learning ชอบที่เห็นการแข่งขันกันว่าใครจะเผยแพร่คอนเทนต์การเรียนรู้คุณภาพสูงให้ใช้ฟรีได้มากกว่า
เป็นเรื่องยอดเยี่ยมที่ MIT เผยแพร่ฟรี สำหรับคอนเทนต์ที่ทันเวลาและเกี่ยวข้องสูงเช่นนี้
สงสัยว่ามี คอร์ส OCW อื่น ๆ ที่ครอบคลุม AI สมัยใหม่อีกบ้าง
- มีคอร์สบางส่วนกำลังถูกอัปโหลดที่ soul.mit.edu คอร์สโมเดล Diffusion ดูได้ที่นี่(https://mitsoul.org/courses/mit/course-6/6-S185/) และคอร์ส Data-centric AI อยู่ที่นี่(https://mitsoul.org/courses/mit/course-6/6-DCAI/)

MIT 6.S184: บทนำสู่ Flow Matching และโมเดล Diffusion

โครงสร้างหลักสูตรและเป้าหมายการเรียนรู้

เอกสารประกอบการสอนและสื่อการเรียน

รายการบทเรียน

รูปแบบภาคปฏิบัติ

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News