I-DLM - โมเดลภาษาการแพร่กระจายแบบไตร่ตรองตนเอง (Introspective Diffusion Language Models)

(introspective-diffusion.github.io)

1 คะแนน โดย GN⁺ 14 일 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

I-DLM เป็นกรณีแรกที่โมเดลภาษาบนพื้นฐานการแพร่กระจายสามารถบรรลุได้ทั้ง คุณภาพระดับโมเดล AR(Autoregressive) และ ความเร็วในการสร้างแบบขนาน พร้อมกัน
ด้วย Introspective Strided Decoding(ISD) จึงสามารถ สร้างโทเค็นใหม่และตรวจสอบโทเค็นก่อนหน้า ได้พร้อมกันในการทำ forward pass เพียงครั้งเดียว
I-DLM-8B ใช้พารามิเตอร์เพียงครึ่งเดียวเมื่อเทียบกับ LLaDA-2.1-mini(16B) แต่ทำคะแนน AIME-24 ได้ +26 คะแนน และ LiveCodeBench-v6 ได้ +15 คะแนน สูงกว่า
ใช้ Gated LoRA เพื่อเร่งความเร็วแบบ ไม่สูญเสียแม้แต่ในระดับบิต (lossless) และ เข้ากันได้เต็มรูปแบบกับโครงสร้างพื้นฐาน SGLang
แสดงให้เห็นว่าโมเดลภาษาการแพร่กระจายสามารถนำไปใช้งานจริงในระดับใหญ่ได้ ผ่าน การเรียนรู้ความสอดคล้องในตัวเอง และ การปรับแต่งการถอดรหัสแบบขนาน

ภาพรวม

I-DLM(Introspective Diffusion Language Model) เป็นโมเดลที่ยังคงความสามารถในการสร้างโทเค็นแบบขนานของ โมเดลภาษาการแพร่กระจาย(DLM) เดิมไว้ ขณะเดียวกันก็แก้ปัญหา ความสอดคล้องในตัวเอง(introspective consistency) เพื่อให้ได้ คุณภาพระดับโมเดล AR
ด้วย Introspective Strided Decoding(ISD) โมเดลจะสร้างโทเค็นใหม่พร้อมกับตรวจสอบโทเค็นก่อนหน้าได้ใน forward pass เดียว
I-DLM-8B เป็น DLM ตัวแรกที่บรรลุคุณภาพเทียบเท่าโมเดล AR ขนาดใกล้เคียงกัน โดยใช้พารามิเตอร์เพียงครึ่งเดียวของ LLaDA-2.1-mini(16B) แต่ทำคะแนน AIME-24 ได้ +26 คะแนน และ LiveCodeBench-v6 ได้ +15 คะแนน สูงกว่า
ในสภาพแวดล้อมที่มี concurrency สูง(C=64) สามารถทำ throughput สูงกว่า 2.9~4.1 เท่า และรองรับการเร่งความเร็วแบบ ไม่สูญเสียในระดับบิต(lossless) ผ่าน Gated LoRA

เหตุใด Introspective Consistency จึงจำเป็น

โมเดล AR สามารถทำ การสร้างและการตรวจสอบตัวเอง พร้อมกันได้ในการทำ forward pass ครั้งเดียว แต่ DLM แบบเดิมเรียนรู้เพียง การลบสัญญาณรบกวน(denoising) จึงขาดความสอดคล้องในตัวเอง
คอขวด 3 ประการของ DLM แบบเดิม
- ความสอดคล้องในตัวเองต่ำ: SDAR 0.699 เทียบกับ I-DLM 0.984
- การคำนวณไม่มีประสิทธิภาพ: TiDAR มีโอเวอร์เฮดราว 7.8 เท่า เทียบกับ I-DLM ราว 2.5 เท่า
- โครงสร้างพื้นฐานไม่สอดคล้อง: SDAR slope=84 เทียบกับ I-DLM=549

วิธีการของ I-DLM

Introspective-Consistency Training
- แปลงโมเดล AR ที่ผ่านการพรีเทรนแล้วผ่าน causal attention, logit shift, และ วัตถุประสงค์ all-masked
Introspective Strided Decoding(ISD)
- ทำ การสร้างโทเค็น N ตัว และ การตรวจสอบโทเค็นก่อนหน้า พร้อมกันใน forward pass เดียว
- ใช้ เกณฑ์การยอมรับ p/q(acceptance criterion) เพื่อตรวจสอบผลการสร้าง
AR-Compatible Serving
- ด้วย โครงสร้าง causal attention แบบเคร่งครัด จึงผนวกรวมเข้ากับโครงสร้างพื้นฐาน SGLang ได้โดยตรง
- ทำงานได้ในสภาพแวดล้อมการเสิร์ฟแบบเดียวกับโมเดล AR โดยไม่ต้องมีโครงสร้างพื้นฐานแบบคัสตอมแยกต่างหาก

ผลลัพธ์ด้านประสิทธิภาพ

I-DLM เป็น DLM ตัวแรกที่มีคุณภาพเทียบเท่าโมเดล AR ขนาดเดียวกัน และเหนือกว่า DLM เดิมใน benchmark ทั้ง 15 รายการ
ผล benchmark หลัก
- ความรู้·การให้เหตุผล: ARC-C 96.8, MMLU-Pro 79.7, GPQA-D 62.1
- คณิตศาสตร์: AIME-24 83.3, AIME-25 80.0, MATH-500 97.6
- โค้ด: HumanEval 96.3, MBPP 94.6, LCB-v6 57.1
- การทำตามคำสั่ง: IFEval 84.7
- I-DLM-32B ทำผลงานได้สูงกว่า LLaDA-2.1-flash(100B)

Throughput

ที่ขนาดแบตช์ 1~64 สามารถทำ throughput สูงกว่า 2.9~4.1 เท่าเมื่อเทียบกับ LLaDA-2.1-mini และ SDAR
ในสภาพแวดล้อมแบบ memory-bound ค่า TPF(Token Per Forward) สามารถประมาณการความเร็วที่เพิ่มขึ้นจริงได้
- I-DLM(N=4, p=0.9): TPF≈2.9, ประสิทธิภาพ 1.22
- SDAR(N=4, p=0.5): TPF≈1.1, ประสิทธิภาพ 0.31
ค่าประสิทธิภาพมากกว่า 1 หมายความว่าการถอดรหัสแบบขนานช่วยลดปริมาณการคำนวณรวมเมื่อเทียบกับ AR

Speedup Factor Explorer

อัตราการยอมรับ p=0.9, R-ISD LoRA overhead α=1.12
สูตรประมาณการความเร็วที่เพิ่มขึ้น:
- memory-bound: Speedup ≈ TPF = (2+p+...+pN-2)/(2-pN-1)
- R-ISD(ไม่สูญเสีย): Speedup ≈ TPF/α
- Gated LoRA จะทำงานเฉพาะที่ตำแหน่ง MASK เท่านั้น จึงรับประกัน ความเหมือนกันในระดับบิตกับผลลัพธ์ของ AR

เอกสารและทรัพยากร

มีเอกสารบนเว็บครอบคลุมทั้ง การติดตั้ง, การฝึก, การอนุมาน, การเสิร์ฟ, R-ISD แบบไม่สูญเสีย, โมเดล, benchmark
Installation
- โคลนที่เก็บ GitHub แล้วรัน install.sh
Quick Start
- สามารถรันเซิร์ฟเวอร์ SGLang แล้วส่งคำขอ chat completion ผ่าน REST API ได้
Training
- ฝึกโดยผสานลำดับแบบมาสก์ทั้งหมดเข้ากับลำดับแบบคลีน
- 4.5B โทเค็น, GPU 8×H100, 2 epoch, stride curriculum(N=2→3)
Inference & ISD
- เสนอโทเค็นใหม่(q) ที่ตำแหน่ง MASK และตรวจสอบ(p) ที่ตำแหน่งคลีน
- รับประกันการกระจายแบบ AR ด้วยเกณฑ์การยอมรับ min(1, p(x)/q(x))
- ที่ stride N=4 ได้ TPF=2.96 หรือเร็วขึ้นราว 3 เท่า
Serving (SGLang)
- Paged KV cache**,** CUDA graph capture(+42~76%), Stationary-batch decode loop(+11~21%), Argmax proposal(+11~15%), Paged-only attention kernel(+10~14%)
  - ทั้งระบบให้ throughput สูงขึ้น 2.1~2.5 เท่า เมื่อเทียบกับค่าพื้นฐาน
Lossless R-ISD
- ใช้ Gated LoRA(rank=128) เฉพาะกับตำแหน่ง MASK
- ผลลัพธ์ เหมือนกับโมเดล AR พื้นฐานทุกประการ
- โอเวอร์เฮดราว 1.12 เท่า
Model Zoo
- I-DLM-8B: อิงจาก Qwen3-8B, คุณภาพเทียบเท่า AR
- I-DLM-32B: อิงจาก Qwen3-32B, เหนือกว่า LLaDA-2.1-flash(100B)
- I-DLM-8B-LoRA: ใช้ Gated LoRA(rank=128)
Benchmarks
- ประเมินบน benchmark 15 รายการ(ความรู้, คณิตศาสตร์, โค้ด, การทำตามคำสั่ง)
- มีสคริปต์สำหรับการทำซ้ำผลลัพธ์

ข้อมูลการอ้างอิง

บทความวิจัย: Introspective Diffusion Language Models (arXiv:2604.11035, 2026)
สถาบันวิจัย: Together AI, UIUC, Princeton, Stanford, UT Austin
ผู้เขียน: Yifan Yu และคณะอีก 14 คน

บทสรุป

I-DLM เป็น กรณีแรกที่โมเดลภาษาบนพื้นฐานการแพร่กระจายบรรลุทั้งคุณภาพและความเร็วระดับโมเดล AR พร้อมกัน
เอาชนะข้อจำกัดของการสร้างแบบขนานได้ด้วย การเรียนรู้ความสอดคล้องในตัวเอง และ การถอดรหัสแบบ ISD
พิสูจน์ความเป็นไปได้ในการนำไปใช้งานจริงด้วย ความเข้ากันได้กับ SGLang, การเร่งความเร็วแบบไม่สูญเสีย, และ การขยาย throughput ได้สูง

1 ความคิดเห็น

GN⁺ 14 일 전

ความคิดเห็นจาก Hacker News

ถ้าผมเข้าใจไม่ผิด นี่เป็นแนวทางที่น่าทึ่งมาก
พวกเขานำ Qwen autoregressor มาดัดแปลงด้วยหลายเทคนิคให้ทำงานเหมือน diffuser และให้ประสิทธิภาพเหนือกว่า diffuser แบบเดิมอย่างมาก
ผ่าน LoRA adapter สามารถจัดแนวเอาต์พุตให้เข้ากับ distribution ของ base model ได้ ทำให้ได้ผลลัพธ์ เหมือนกันทุกไบต์เมื่อใช้ seed เดียวกัน ขณะเดียวกันความเร็วก็เกือบเพิ่มเป็นสองเท่า
ผมไม่ใช่ผู้เชี่ยวชาญ เป็นแค่นักทดลองที่ไฟแรง แต่ดูเหมือนว่านี่จะเป็นพัฒนาการที่น่าสนใจมาก
- น่าตื่นเต้นจริง งานวิจัยนี้อ้างว่าสามารถเชื่อมระหว่าง คุณภาพแบบ AR กับ parallel decoding ได้ โดยเฉพาะ โหมดเสริม LoRA แบบไม่สูญเสียคุณภาพ ที่น่าประทับใจที่สุด
- ผมยังไม่เข้าใจว่าจะเปรียบเทียบได้อย่างไรโดยที่ไม่ได้สร้างเอาต์พุตของ base model โดยตรง ถ้าเป็นแบบนั้น ความหมายของการเปรียบเทียบคืออะไรกันแน่
- จริง ๆ แล้วนี่เป็นรูปแบบดัดแปลงของ multi-token prediction และ speculative decoding มากกว่าจะเป็น diffusion
  ไม่มีขั้นตอน denoising และยังคงโครงสร้างแบบ causal เอาไว้
  พูดให้ชัดคือ ฝึกให้ทำนายหลายโทเค็นพร้อมกันโดยใช้ MASK token หลายตัว และตอนอนุมานก็สร้างแบบขนานเพื่อเพิ่มความเร็ว
  ตัวอย่างเช่น เติม MASK 5 ตัวต่อท้าย “what is 2+2” แล้วทำนาย 5 โทเค็นถัดไปพร้อมกัน
  แบบนี้จะได้ทำ matrix-matrix computation แทน matrix-vector จึงมี ประสิทธิภาพด้านหน่วยความจำ สูงกว่า
  แต่เมื่อเพิ่ม k (จำนวนโทเค็นที่ทำนาย) คุณภาพจะตกลงอย่างรวดเร็ว และในงานวิจัยเองก็เห็นการลดลงแล้วที่ k=8
  สุดท้ายมันคือ self-speculative decoding ที่อิงกับการทำนายครั้งละ 4 โทเค็น ซึ่งไม่ได้ลบข้อจำกัดเดิมออกไปทั้งหมด แต่ก็เป็นวิธีฝึกที่น่าสนใจ
  มีคำอธิบายที่เกี่ยวข้องในโพสต์ก่อนหน้า
อยากรู้ว่ามันต่างจาก DFlash หรือ DDTree อย่างไรเมื่อเทียบกัน
ปีที่แล้วผมเคยเห็นคำตอบของ Gemini โผล่มาแบบค่อยเป็นค่อยไปคล้าย diffusion อยู่ช่วงหนึ่ง
ไม่แน่ใจว่าเป็นการทดลองหรือแค่ลูกเล่นด้านภาพ แต่ก็เป็นปรากฏการณ์ที่น่าสนใจ
มีใครที่นี่กำลังทดลอง Diffusion สำหรับการสร้างข้อความ แบบจริงจังอยู่บ้างไหม
- ดูเหมือน Inception Labs จะวิจัยด้านนี้มาค่อนข้างนานแล้ว
  ความเร็วน่าทึ่งมาก แต่ เวลาแฝงของโทเค็นแรก กับ คุณภาพของผลลัพธ์ ยังเป็นโจทย์อยู่
  ถ้าความเร็วและความแม่นยำดีขึ้นอีกสักระดับ ก็น่าจะใช้งานจริงได้มากพอสำหรับโมเดลต้นทุนต่ำหรือ งานแบบ asynchronous
  อีกอย่าง การทดลองให้กระจายข้อความยาวขึ้นในครั้งเดียวเพื่อ บังคับเพิ่มความสามารถด้านการให้เหตุผล ก็น่าจะน่าสนใจ
- ตอนนี้กำลังสำรวจในฝั่ง local LLM เพื่อใช้กับ speculative decoding
  ดูได้ที่ บทความ Emergent Mind
- Mercury 2 น่าสนใจมากสำหรับการทดลอง UX ทั้งในแง่ latency และราคา
  มันทำงานลื่นกว่า Gemini Flash Lite เมื่อก่อนมาก จึงเหมาะกับงานอย่างการติดแท็กอัตโนมัติหรือการสร้างลิงก์
  แต่ยังขาดความสามารถด้านการเรียกใช้เครื่องมือเมื่อเทียบกับระดับ Haiku 3.5
  สำหรับงานที่อินพุตมากพอและเอาต์พุตสั้น dLLM ดูจะเหมาะมาก และยังมีศักยภาพในด้านอย่าง การเติมข้อความอัตโนมัติในแท็บ ด้วย
- ผมก็เคยลองเหมือนกัน ต้องใช้ แนวคิดเชิงสัญชาตญาณ ที่ต่างจาก LLM ปกติ มันเหมาะกับปัญหาบางประเภทมาก
- ผมกำลังทำ WeDLM ด้วย Swift แต่ตอนนี้ประสิทธิภาพยังไม่ดีพอ
  มันสร้างจากซ้ายไปขวา แต่ diffusion จะเกิดขึ้นเฉพาะใน sliding window เท่านั้น และหน้าต่างมีแค่ราว 16 โทเค็น เลยยังไม่ต่างมาก
ผมไม่ถึงกับเป็นผู้เชี่ยวชาญ แต่ถ้าเป็น Diffusion ก็น่าจะต้องสร้างผลลัพธ์ทั้งหมดพร้อมกันไม่ใช่หรือ
แต่โมเดล I-LDM ดูเหมือนจะใช้บริบทก่อนหน้าเพื่อสร้างบล็อกถัดไป
- การสร้างเป็นบล็อก ให้การเพิ่มความเร็วได้มาก
  เช่น ถ้าสร้างครั้งละสองโทเค็น ก็จะได้ความเร็วเพิ่มขึ้นเกือบ 2 เท่า
  ยิ่งขนาดบล็อกใหญ่ขึ้น ความเร็วรวมในการสร้างก็สูงพอจนแทบไม่ต่างจากการสร้างทั้งหมดในครั้งเดียว
  สุดท้ายสิ่งสำคัญคือ จะลดคุณภาพที่ตกลงได้มากแค่ไหน และดูเหมือนว่างานนี้จะแก้จุดนั้นได้ดี
ถ้าจะใช้โมเดลแบบนี้ จำเป็นต้องย้ายไปใช้ sglang หรือว่า vLLM ก็รองรับอยู่แล้ว
ผมคิดมานานแล้วว่า สถาปัตยกรรม diffusion แบบอิงบล็อก คืออนาคตของ LLM
โครงสร้างที่ปรับความเร็วในการสร้างโทเค็นแบบไดนามิกได้ และ แก้ไขตัวเอง ระหว่างการสร้างได้ — มันอาจกลายเป็นระบบคล้าย ความจำระยะสั้น ของมนุษย์
ผมไม่เข้าใจหลักคณิตศาสตร์นัก แต่หวังว่ามันจะพัฒนาไปในทิศทางนั้น
ดูจาก release notes แล้ว

2025-04-12: เปิดโค้ดและปล่อย I-DLM-8B, 32B, 8B-LoRA
วันที่ดูเหมือนเก่าอยู่ เลยสงสัยว่าเป็นเวอร์ชันเก่าหรือเปล่า
- เป็นแค่ พิมพ์ปีผิด น่ะ ผมเช็กแล้วว่าไฟล์ถูกอัปโหลดขึ้น HuggingFace เมื่อไม่กี่วันก่อนนี่เอง
อยากรู้ว่า ตอนนี้ใช้งานโมเดลนี้ได้เลยไหม
สงสัยว่า diffusion model จะสามารถสร้างบล็อกหนึ่งขึ้นมา จากนั้นทำ การทบทวนภายใน (introspection) กับผลลัพธ์นั้น แล้วสร้างใหม่ในลักษณะ การให้เหตุผลแบบวนซ้ำ ได้ไหม
- ได้ สามารถทำได้โดยป้อนเอาต์พุตรอบแรกกลับเข้าโมเดลเพื่อให้มันประเมินใหม่เหมือน โมเดลอนุมานแบบ AR

I-DLM - โมเดลภาษาการแพร่กระจายแบบไตร่ตรองตนเอง (Introspective Diffusion Language Models)

ภาพรวม

เหตุใด Introspective Consistency จึงจำเป็น

วิธีการของ I-DLM

Introspective-Consistency Training

Introspective Strided Decoding(ISD)

AR-Compatible Serving

ผลลัพธ์ด้านประสิทธิภาพ

ผล benchmark หลัก

Throughput

Speedup Factor Explorer

สูตรประมาณการความเร็วที่เพิ่มขึ้น:

เอกสารและทรัพยากร

Installation

Quick Start

Training

Inference & ISD

Serving (SGLang)

Paged KV cache**,** CUDA graph capture(+42~76%), Stationary-batch decode loop(+11~21%), Argmax proposal(+11~15%), Paged-only attention kernel(+10~14%)

Lossless R-ISD

Model Zoo

Benchmarks

ข้อมูลการอ้างอิง

บทสรุป

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News

Paged KV cache, CUDA graph capture(+42~76%), Stationary-batch decode loop(+11~21%), Argmax proposal(+11~15%), Paged-only attention kernel(+10~14%)