I-DLM - โมเดลภาษาการแพร่กระจายแบบไตร่ตรองตนเอง (Introspective Diffusion Language Models)
(introspective-diffusion.github.io)- I-DLM เป็นกรณีแรกที่โมเดลภาษาบนพื้นฐานการแพร่กระจายสามารถบรรลุได้ทั้ง คุณภาพระดับโมเดล AR(Autoregressive) และ ความเร็วในการสร้างแบบขนาน พร้อมกัน
- ด้วย Introspective Strided Decoding(ISD) จึงสามารถ สร้างโทเค็นใหม่และตรวจสอบโทเค็นก่อนหน้า ได้พร้อมกันในการทำ forward pass เพียงครั้งเดียว
- I-DLM-8B ใช้พารามิเตอร์เพียงครึ่งเดียวเมื่อเทียบกับ LLaDA-2.1-mini(16B) แต่ทำคะแนน AIME-24 ได้ +26 คะแนน และ LiveCodeBench-v6 ได้ +15 คะแนน สูงกว่า
- ใช้ Gated LoRA เพื่อเร่งความเร็วแบบ ไม่สูญเสียแม้แต่ในระดับบิต (lossless) และ เข้ากันได้เต็มรูปแบบกับโครงสร้างพื้นฐาน SGLang
- แสดงให้เห็นว่าโมเดลภาษาการแพร่กระจายสามารถนำไปใช้งานจริงในระดับใหญ่ได้ ผ่าน การเรียนรู้ความสอดคล้องในตัวเอง และ การปรับแต่งการถอดรหัสแบบขนาน
ภาพรวม
- I-DLM(Introspective Diffusion Language Model) เป็นโมเดลที่ยังคงความสามารถในการสร้างโทเค็นแบบขนานของ โมเดลภาษาการแพร่กระจาย(DLM) เดิมไว้ ขณะเดียวกันก็แก้ปัญหา ความสอดคล้องในตัวเอง(introspective consistency) เพื่อให้ได้ คุณภาพระดับโมเดล AR
- ด้วย Introspective Strided Decoding(ISD) โมเดลจะสร้างโทเค็นใหม่พร้อมกับตรวจสอบโทเค็นก่อนหน้าได้ใน forward pass เดียว
- I-DLM-8B เป็น DLM ตัวแรกที่บรรลุคุณภาพเทียบเท่าโมเดล AR ขนาดใกล้เคียงกัน โดยใช้พารามิเตอร์เพียงครึ่งเดียวของ LLaDA-2.1-mini(16B) แต่ทำคะแนน AIME-24 ได้ +26 คะแนน และ LiveCodeBench-v6 ได้ +15 คะแนน สูงกว่า
- ในสภาพแวดล้อมที่มี concurrency สูง(C=64) สามารถทำ throughput สูงกว่า 2.9~4.1 เท่า และรองรับการเร่งความเร็วแบบ ไม่สูญเสียในระดับบิต(lossless) ผ่าน Gated LoRA
เหตุใด Introspective Consistency จึงจำเป็น
- โมเดล AR สามารถทำ การสร้างและการตรวจสอบตัวเอง พร้อมกันได้ในการทำ forward pass ครั้งเดียว แต่ DLM แบบเดิมเรียนรู้เพียง การลบสัญญาณรบกวน(denoising) จึงขาดความสอดคล้องในตัวเอง
- คอขวด 3 ประการของ DLM แบบเดิม
- ความสอดคล้องในตัวเองต่ำ: SDAR 0.699 เทียบกับ I-DLM 0.984
- การคำนวณไม่มีประสิทธิภาพ: TiDAR มีโอเวอร์เฮดราว 7.8 เท่า เทียบกับ I-DLM ราว 2.5 เท่า
- โครงสร้างพื้นฐานไม่สอดคล้อง: SDAR slope=84 เทียบกับ I-DLM=549
วิธีการของ I-DLM
-
Introspective-Consistency Training
- แปลงโมเดล AR ที่ผ่านการพรีเทรนแล้วผ่าน causal attention, logit shift, และ วัตถุประสงค์ all-masked
-
Introspective Strided Decoding(ISD)
- ทำ การสร้างโทเค็น N ตัว และ การตรวจสอบโทเค็นก่อนหน้า พร้อมกันใน forward pass เดียว
- ใช้ เกณฑ์การยอมรับ p/q(acceptance criterion) เพื่อตรวจสอบผลการสร้าง
-
AR-Compatible Serving
- ด้วย โครงสร้าง causal attention แบบเคร่งครัด จึงผนวกรวมเข้ากับโครงสร้างพื้นฐาน SGLang ได้โดยตรง
- ทำงานได้ในสภาพแวดล้อมการเสิร์ฟแบบเดียวกับโมเดล AR โดยไม่ต้องมีโครงสร้างพื้นฐานแบบคัสตอมแยกต่างหาก
ผลลัพธ์ด้านประสิทธิภาพ
- I-DLM เป็น DLM ตัวแรกที่มีคุณภาพเทียบเท่าโมเดล AR ขนาดเดียวกัน และเหนือกว่า DLM เดิมใน benchmark ทั้ง 15 รายการ
-
ผล benchmark หลัก
- ความรู้·การให้เหตุผล: ARC-C 96.8, MMLU-Pro 79.7, GPQA-D 62.1
- คณิตศาสตร์: AIME-24 83.3, AIME-25 80.0, MATH-500 97.6
- โค้ด: HumanEval 96.3, MBPP 94.6, LCB-v6 57.1
- การทำตามคำสั่ง: IFEval 84.7
- I-DLM-32B ทำผลงานได้สูงกว่า LLaDA-2.1-flash(100B)
Throughput
- ที่ขนาดแบตช์ 1~64 สามารถทำ throughput สูงกว่า 2.9~4.1 เท่าเมื่อเทียบกับ LLaDA-2.1-mini และ SDAR
- ในสภาพแวดล้อมแบบ memory-bound ค่า TPF(Token Per Forward) สามารถประมาณการความเร็วที่เพิ่มขึ้นจริงได้
- I-DLM(N=4, p=0.9): TPF≈2.9, ประสิทธิภาพ 1.22
- SDAR(N=4, p=0.5): TPF≈1.1, ประสิทธิภาพ 0.31
- ค่าประสิทธิภาพมากกว่า 1 หมายความว่าการถอดรหัสแบบขนานช่วยลดปริมาณการคำนวณรวมเมื่อเทียบกับ AR
Speedup Factor Explorer
- อัตราการยอมรับ p=0.9, R-ISD LoRA overhead α=1.12
-
สูตรประมาณการความเร็วที่เพิ่มขึ้น:
- memory-bound:
Speedup ≈ TPF = (2+p+...+pN-2)/(2-pN-1) - R-ISD(ไม่สูญเสีย):
Speedup ≈ TPF/α - Gated LoRA จะทำงานเฉพาะที่ตำแหน่ง MASK เท่านั้น จึงรับประกัน ความเหมือนกันในระดับบิตกับผลลัพธ์ของ AR
- memory-bound:
เอกสารและทรัพยากร
- มีเอกสารบนเว็บครอบคลุมทั้ง การติดตั้ง, การฝึก, การอนุมาน, การเสิร์ฟ, R-ISD แบบไม่สูญเสีย, โมเดล, benchmark
-
Installation
- โคลนที่เก็บ GitHub แล้วรัน
install.sh
- โคลนที่เก็บ GitHub แล้วรัน
-
Quick Start
- สามารถรันเซิร์ฟเวอร์ SGLang แล้วส่งคำขอ chat completion ผ่าน REST API ได้
-
Training
- ฝึกโดยผสานลำดับแบบมาสก์ทั้งหมดเข้ากับลำดับแบบคลีน
- 4.5B โทเค็น, GPU 8×H100, 2 epoch, stride curriculum(N=2→3)
-
Inference & ISD
- เสนอโทเค็นใหม่(q) ที่ตำแหน่ง MASK และตรวจสอบ(p) ที่ตำแหน่งคลีน
- รับประกันการกระจายแบบ AR ด้วยเกณฑ์การยอมรับ
min(1, p(x)/q(x)) - ที่ stride N=4 ได้ TPF=2.96 หรือเร็วขึ้นราว 3 เท่า
-
Serving (SGLang)
-
Paged KV cache**,** CUDA graph capture(+42~76%), Stationary-batch decode loop(+11~21%), Argmax proposal(+11~15%), Paged-only attention kernel(+10~14%)
- ทั้งระบบให้ throughput สูงขึ้น 2.1~2.5 เท่า เมื่อเทียบกับค่าพื้นฐาน
-
-
Lossless R-ISD
- ใช้ Gated LoRA(rank=128) เฉพาะกับตำแหน่ง MASK
- ผลลัพธ์ เหมือนกับโมเดล AR พื้นฐานทุกประการ
- โอเวอร์เฮดราว 1.12 เท่า
-
Model Zoo
- I-DLM-8B: อิงจาก Qwen3-8B, คุณภาพเทียบเท่า AR
- I-DLM-32B: อิงจาก Qwen3-32B, เหนือกว่า LLaDA-2.1-flash(100B)
- I-DLM-8B-LoRA: ใช้ Gated LoRA(rank=128)
-
Benchmarks
- ประเมินบน benchmark 15 รายการ(ความรู้, คณิตศาสตร์, โค้ด, การทำตามคำสั่ง)
- มีสคริปต์สำหรับการทำซ้ำผลลัพธ์
ข้อมูลการอ้างอิง
- บทความวิจัย: Introspective Diffusion Language Models (arXiv:2604.11035, 2026)
- สถาบันวิจัย: Together AI, UIUC, Princeton, Stanford, UT Austin
- ผู้เขียน: Yifan Yu และคณะอีก 14 คน
บทสรุป
- I-DLM เป็น กรณีแรกที่โมเดลภาษาบนพื้นฐานการแพร่กระจายบรรลุทั้งคุณภาพและความเร็วระดับโมเดล AR พร้อมกัน
- เอาชนะข้อจำกัดของการสร้างแบบขนานได้ด้วย การเรียนรู้ความสอดคล้องในตัวเอง และ การถอดรหัสแบบ ISD
- พิสูจน์ความเป็นไปได้ในการนำไปใช้งานจริงด้วย ความเข้ากันได้กับ SGLang, การเร่งความเร็วแบบไม่สูญเสีย, และ การขยาย throughput ได้สูง
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ถ้าผมเข้าใจไม่ผิด นี่เป็นแนวทางที่น่าทึ่งมาก
พวกเขานำ Qwen autoregressor มาดัดแปลงด้วยหลายเทคนิคให้ทำงานเหมือน diffuser และให้ประสิทธิภาพเหนือกว่า diffuser แบบเดิมอย่างมาก
ผ่าน LoRA adapter สามารถจัดแนวเอาต์พุตให้เข้ากับ distribution ของ base model ได้ ทำให้ได้ผลลัพธ์ เหมือนกันทุกไบต์เมื่อใช้ seed เดียวกัน ขณะเดียวกันความเร็วก็เกือบเพิ่มเป็นสองเท่า
ผมไม่ใช่ผู้เชี่ยวชาญ เป็นแค่นักทดลองที่ไฟแรง แต่ดูเหมือนว่านี่จะเป็นพัฒนาการที่น่าสนใจมาก
ไม่มีขั้นตอน denoising และยังคงโครงสร้างแบบ causal เอาไว้
พูดให้ชัดคือ ฝึกให้ทำนายหลายโทเค็นพร้อมกันโดยใช้ MASK token หลายตัว และตอนอนุมานก็สร้างแบบขนานเพื่อเพิ่มความเร็ว
ตัวอย่างเช่น เติม MASK 5 ตัวต่อท้าย “what is 2+2” แล้วทำนาย 5 โทเค็นถัดไปพร้อมกัน
แบบนี้จะได้ทำ matrix-matrix computation แทน matrix-vector จึงมี ประสิทธิภาพด้านหน่วยความจำ สูงกว่า
แต่เมื่อเพิ่ม k (จำนวนโทเค็นที่ทำนาย) คุณภาพจะตกลงอย่างรวดเร็ว และในงานวิจัยเองก็เห็นการลดลงแล้วที่ k=8
สุดท้ายมันคือ self-speculative decoding ที่อิงกับการทำนายครั้งละ 4 โทเค็น ซึ่งไม่ได้ลบข้อจำกัดเดิมออกไปทั้งหมด แต่ก็เป็นวิธีฝึกที่น่าสนใจ
มีคำอธิบายที่เกี่ยวข้องในโพสต์ก่อนหน้า
อยากรู้ว่ามันต่างจาก DFlash หรือ DDTree อย่างไรเมื่อเทียบกัน
ปีที่แล้วผมเคยเห็นคำตอบของ Gemini โผล่มาแบบค่อยเป็นค่อยไปคล้าย diffusion อยู่ช่วงหนึ่ง
ไม่แน่ใจว่าเป็นการทดลองหรือแค่ลูกเล่นด้านภาพ แต่ก็เป็นปรากฏการณ์ที่น่าสนใจ
มีใครที่นี่กำลังทดลอง Diffusion สำหรับการสร้างข้อความ แบบจริงจังอยู่บ้างไหม
ความเร็วน่าทึ่งมาก แต่ เวลาแฝงของโทเค็นแรก กับ คุณภาพของผลลัพธ์ ยังเป็นโจทย์อยู่
ถ้าความเร็วและความแม่นยำดีขึ้นอีกสักระดับ ก็น่าจะใช้งานจริงได้มากพอสำหรับโมเดลต้นทุนต่ำหรือ งานแบบ asynchronous
อีกอย่าง การทดลองให้กระจายข้อความยาวขึ้นในครั้งเดียวเพื่อ บังคับเพิ่มความสามารถด้านการให้เหตุผล ก็น่าจะน่าสนใจ
ดูได้ที่ บทความ Emergent Mind
มันทำงานลื่นกว่า Gemini Flash Lite เมื่อก่อนมาก จึงเหมาะกับงานอย่างการติดแท็กอัตโนมัติหรือการสร้างลิงก์
แต่ยังขาดความสามารถด้านการเรียกใช้เครื่องมือเมื่อเทียบกับระดับ Haiku 3.5
สำหรับงานที่อินพุตมากพอและเอาต์พุตสั้น dLLM ดูจะเหมาะมาก และยังมีศักยภาพในด้านอย่าง การเติมข้อความอัตโนมัติในแท็บ ด้วย
มันสร้างจากซ้ายไปขวา แต่ diffusion จะเกิดขึ้นเฉพาะใน sliding window เท่านั้น และหน้าต่างมีแค่ราว 16 โทเค็น เลยยังไม่ต่างมาก
ผมไม่ถึงกับเป็นผู้เชี่ยวชาญ แต่ถ้าเป็น Diffusion ก็น่าจะต้องสร้างผลลัพธ์ทั้งหมดพร้อมกันไม่ใช่หรือ
แต่โมเดล I-LDM ดูเหมือนจะใช้บริบทก่อนหน้าเพื่อสร้างบล็อกถัดไป
เช่น ถ้าสร้างครั้งละสองโทเค็น ก็จะได้ความเร็วเพิ่มขึ้นเกือบ 2 เท่า
ยิ่งขนาดบล็อกใหญ่ขึ้น ความเร็วรวมในการสร้างก็สูงพอจนแทบไม่ต่างจากการสร้างทั้งหมดในครั้งเดียว
สุดท้ายสิ่งสำคัญคือ จะลดคุณภาพที่ตกลงได้มากแค่ไหน และดูเหมือนว่างานนี้จะแก้จุดนั้นได้ดี
ถ้าจะใช้โมเดลแบบนี้ จำเป็นต้องย้ายไปใช้ sglang หรือว่า vLLM ก็รองรับอยู่แล้ว
ผมคิดมานานแล้วว่า สถาปัตยกรรม diffusion แบบอิงบล็อก คืออนาคตของ LLM
โครงสร้างที่ปรับความเร็วในการสร้างโทเค็นแบบไดนามิกได้ และ แก้ไขตัวเอง ระหว่างการสร้างได้ — มันอาจกลายเป็นระบบคล้าย ความจำระยะสั้น ของมนุษย์
ผมไม่เข้าใจหลักคณิตศาสตร์นัก แต่หวังว่ามันจะพัฒนาไปในทิศทางนั้น
ดูจาก release notes แล้ว
อยากรู้ว่า ตอนนี้ใช้งานโมเดลนี้ได้เลยไหม
สงสัยว่า diffusion model จะสามารถสร้างบล็อกหนึ่งขึ้นมา จากนั้นทำ การทบทวนภายใน (introspection) กับผลลัพธ์นั้น แล้วสร้างใหม่ในลักษณะ การให้เหตุผลแบบวนซ้ำ ได้ไหม