- โมเดลการแพร่กระจาย คือ สถาปัตยกรรมโมเดลกำเนิด ที่กำหนดกระบวนการซึ่งข้อมูลค่อย ๆ กลายเป็นสัญญาณรบกวน และย้อนฟื้นคืนกระบวนการนั้นเพื่อสร้างข้อมูลจากสัญญาณรบกวน
- แกนสำคัญของโมเดลคือการเรียนรู้ สนามความเร็ว (velocity field) ที่เปลี่ยนไปตามเวลา เพื่อสร้าง เส้นทางการกำเนิดแบบต่อเนื่อง ที่แปลงการกระจายอย่างง่ายให้เป็นการกระจายของข้อมูล
- มุมมองหลักมี 3 แบบ ได้แก่แนวทาง เชิงแปรผัน (variational), อิง score (score-based) และ อิง flow (flow-based) ซึ่งอธิบายด้วยการกำจัดสัญญาณรบกวน การเรียนรู้ความชันของความน่าจะเป็น และการแปลงแบบต่อเนื่องตามลำดับ
- บนพื้นฐานนี้ มีการอภิปรายงานวิจัยต่อยอด เช่น การสร้างแบบควบคุมได้, การสุ่มตัวอย่างอย่างมีประสิทธิภาพ, และ การแม็ปโดยตรงระหว่างช่วงเวลา (flow-map)
- เน้นย้ำ ความสำคัญในฐานะตำราทฤษฎีพื้นฐาน ที่ช่วยให้เข้าใจหลักคณิตศาสตร์และการจัดรูปแบบที่หลากหลายของโมเดลการแพร่กระจายอย่างบูรณาการ
แนวคิดพื้นฐานของโมเดลการแพร่กระจาย
- โมเดลการแพร่กระจายประกอบด้วย กระบวนการเดินหน้า (forward process) ที่ค่อย ๆ ทำให้ข้อมูลปนเปื้อนด้วยสัญญาณรบกวน และ กระบวนการย้อนกลับ (reverse process) ที่ฟื้นคืนสิ่งนั้นกลับมาเพื่อ สร้างข้อมูลจากสัญญาณรบกวน
- กระบวนการเดินหน้ากำหนด ชุดของการกระจายตัวกลางแบบต่อเนื่อง ที่เชื่อมการกระจายของข้อมูลเข้ากับการกระจายของสัญญาณรบกวนอย่างง่าย
- กระบวนการย้อนกลับฟื้นคืนการกระจายตัวกลางชุดเดียวกัน และแปลงสัญญาณรบกวนให้เป็นข้อมูล
- เป้าหมายของโมเดลคือการเรียนรู้กระบวนการย้อนกลับนี้ เพื่อสร้างซ้ำ เส้นทางการแปลงจากสัญญาณรบกวนไปเป็นข้อมูล
มุมมองทางคณิตศาสตร์ 3 แบบ
- มุมมองเชิงแปรผัน (Variational View)
- ได้แรงบันดาลใจจาก variational autoencoder (VAE) โดยเรียนรู้ เป้าหมายการฟื้นคืนขนาดเล็ก (denoising objective) ที่ค่อย ๆ กำจัดสัญญาณรบกวนทีละขั้น
- การฟื้นคืนในแต่ละขั้นจะสะสมจนโดยรวมแล้วแปลงสัญญาณรบกวนให้เป็นข้อมูล
- มุมมองอิง score (Score-Based View)
- มีรากฐานมาจาก energy-based model (EBM) และเรียนรู้ ความชัน (gradient) ของการกระจายข้อมูล
- คำนวณทิศทางที่จะย้ายตัวอย่างไปยังบริเวณที่มีความน่าจะเป็นสูงกว่า
- มุมมองอิง flow (Flow-Based View)
- คล้ายกับ normalizing flow โดยตีความกระบวนการกำเนิดเป็น เส้นทางแบบต่อเนื่อง ที่เคลื่อนจากสัญญาณรบกวนไปยังข้อมูลตาม สนามความเร็ว (velocity field)
โครงสร้างร่วมและรากฐานทางคณิตศาสตร์
- ทั้งสามมุมมองมีจุดร่วมคือการเรียนรู้ สนามความเร็วตามเวลา (time-dependent velocity field)
- สนามความเร็วนี้ทำหน้าที่ขนส่ง prior อย่างง่ายไปสู่การกระจายของข้อมูล
- การสุ่มตัวอย่างสามารถอธิบายได้ว่าเป็นกระบวนการแก้ สมการเชิงอนุพันธ์ (differential equation) เพื่อแปลงสัญญาณรบกวนให้เป็นข้อมูล
- บนกรอบคณิตศาสตร์นี้ ยังมีการอภิปรายเรื่อง เทคนิคการวิเคราะห์เชิงตัวเลขเพื่อการสุ่มตัวอย่างที่มีประสิทธิภาพ, การสร้างแบบควบคุมได้ (guidance) และ การแม็ปโดยตรงระหว่างช่วงเวลาใด ๆ (flow-map)
กลุ่มผู้อ่านและเป้าหมาย
- ผู้อ่านเป้าหมายคือ นักวิจัย นักศึกษาระดับบัณฑิตศึกษา และผู้ปฏิบัติงานที่มี ความรู้พื้นฐานด้านดีปเลิร์นนิงและ generative modeling
- เป้าหมายคือช่วยให้เข้าใจอย่างชัดเจนถึง รากฐานเชิงทฤษฎีของโมเดลการแพร่กระจายและความสัมพันธ์ระหว่างการจัดรูปแบบต่าง ๆ
- เพื่อเป็นพื้นฐานสำหรับการประยุกต์ใช้โมเดลที่มีอยู่ได้อย่างมั่นใจ และการสำรวจทิศทางงานวิจัยใหม่ ๆ
คำนำและภาพรวมของโครงสร้าง
- โมเดลการแพร่กระจายได้กลายเป็น กระบวนทัศน์การสร้างข้อมูลที่มีบทบาทศูนย์กลาง ในหลากหลายสาขา เช่น machine learning, computer vision และ natural language processing
- หนังสือเล่มนี้จัดระบบงานวิจัยจำนวนมากในแง่ของ หลักการเชิงทฤษฎี, เป้าหมายการเรียนรู้, การออกแบบ sampler และแนวคิดทางคณิตศาสตร์
- โครงสร้างหลัก
- Part A & B: พื้นฐานของโมเดลการแพร่กระจาย และการจัดระเบียบที่มาและความสัมพันธ์ของทั้งสามมุมมอง
- ในบทถัดไปจะอภิปรายการสุ่มตัวอย่างอย่างมีประสิทธิภาพ การสร้างแบบควบคุมได้ และการขยายไปสู่โมเดลกำเนิดแบบอิสระ
- แต่ละบทสามารถเลือกอ่านแยกกันได้ และผู้อ่านที่คุ้นเคยกับแนวคิดพื้นฐานแล้วสามารถข้ามบทนำที่เกี่ยวข้องกับ VAE, EBM, Normalizing Flow ได้
คำขอบคุณ
- ศาสตราจารย์ Kwon Dohyun จากมหาวิทยาลัย Seoul City University และ KIAS ได้ช่วยทบทวนบางส่วนของบทที่ 7 และมีส่วนช่วยปรับปรุงความถูกต้องทางคณิตศาสตร์และการสื่อความ
- ข้อเสนอแนะและการอภิปรายของเขาช่วยยกระดับความสมบูรณ์ของต้นฉบับฉบับสุดท้าย
1 ความคิดเห็น
ความเห็นบน Hacker News
ถ้าชอบเรียนผ่านวิดีโอ ขอแนะนำคอร์ส CS236 Deep Generative Models ของ Stefano Ermon
สามารถดูทุกเลกเชอร์ได้ในเพลย์ลิสต์ YouTube และเอกสารประกอบเลกเชอร์ถูกรวบรวมไว้ในเว็บไซต์ทางการ
สงสัยว่านี่เป็น โพสต์ซ้ำ ของบทความที่ฉันโพสต์ไปเมื่อไม่กี่วันก่อนหรือเปล่า
ลิงก์โพสต์ก่อนหน้า
ตาม HN FAQ บทความที่ไม่ได้รับความสนใจมานานกว่าหนึ่งปีสามารถนำมาโพสต์ซ้ำได้บ้างในจำนวนจำกัด
อีกอย่าง ถ้าเป็นคำถามเกี่ยวกับการดูแลระบบ ควรส่งไปที่ hn@ycombinator.com แทนการคอมเมนต์
ลองค้นหา "Fokker-Planck" ในเอกสารแล้วพบว่าปรากฏถึง 97 ครั้ง
แค่นี้ก็น่าจะคุ้มค่าแก่การอ่านแล้ว
อยากรู้ว่ามีแหล่งข้อมูลเกี่ยวกับ transformer ที่ครอบคลุมในระดับและความลึกประมาณนี้หรือไม่
คณิตศาสตร์เยอะมากจนพูดตามตรงว่า แอบกลัว
พออ่านบทความนี้แล้วรู้สึกว่า AI ทุกวันนี้จริง ๆ แล้วใกล้เคียงกับ brute force มากกว่าจะเรียกว่าฉลาด
บางทีสมองมนุษย์เองก็อาจเป็นเครื่องจักรที่ทำ brute-force ตลอดชีวิตเหมือนกัน
แต่ปัญญาประดิษฐ์สุดท้ายก็ให้ความรู้สึกเหมือนสารแต่งกลิ่นสังเคราะห์ คือเป็น ผลลัพธ์ที่ไร้วิญญาณ
พลังของสถิติตั้งอยู่บนโครงสร้างที่ลึกซึ้งและการคัดเลือก
มนุษย์ไม่ได้ทำ brute-force ตลอดชีวิต แต่ วิวัฒนาการ ได้สร้างโครงสร้างนั้นขึ้นมาตลอดหลายพันล้านปี
และอัด อัลกอริทึมเมตาเลิร์นนิง ไว้ด้านบนตลอดช่วงเวลาหลายล้านปี
470 หน้าเลยเหรอ?! เยอะเกินจน สมองค้าง ไปชั่วขณะ 😆