1 คะแนน โดย GN⁺ 14 일 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • I-DLM เป็นกรณีแรกที่โมเดลภาษาบนพื้นฐานการแพร่กระจายสามารถบรรลุได้ทั้ง คุณภาพระดับโมเดล AR(Autoregressive) และ ความเร็วในการสร้างแบบขนาน พร้อมกัน
  • ด้วย Introspective Strided Decoding(ISD) จึงสามารถ สร้างโทเค็นใหม่และตรวจสอบโทเค็นก่อนหน้า ได้พร้อมกันในการทำ forward pass เพียงครั้งเดียว
  • I-DLM-8B ใช้พารามิเตอร์เพียงครึ่งเดียวเมื่อเทียบกับ LLaDA-2.1-mini(16B) แต่ทำคะแนน AIME-24 ได้ +26 คะแนน และ LiveCodeBench-v6 ได้ +15 คะแนน สูงกว่า
  • ใช้ Gated LoRA เพื่อเร่งความเร็วแบบ ไม่สูญเสียแม้แต่ในระดับบิต (lossless) และ เข้ากันได้เต็มรูปแบบกับโครงสร้างพื้นฐาน SGLang
  • แสดงให้เห็นว่าโมเดลภาษาการแพร่กระจายสามารถนำไปใช้งานจริงในระดับใหญ่ได้ ผ่าน การเรียนรู้ความสอดคล้องในตัวเอง และ การปรับแต่งการถอดรหัสแบบขนาน

ภาพรวม

  • I-DLM(Introspective Diffusion Language Model) เป็นโมเดลที่ยังคงความสามารถในการสร้างโทเค็นแบบขนานของ โมเดลภาษาการแพร่กระจาย(DLM) เดิมไว้ ขณะเดียวกันก็แก้ปัญหา ความสอดคล้องในตัวเอง(introspective consistency) เพื่อให้ได้ คุณภาพระดับโมเดล AR
  • ด้วย Introspective Strided Decoding(ISD) โมเดลจะสร้างโทเค็นใหม่พร้อมกับตรวจสอบโทเค็นก่อนหน้าได้ใน forward pass เดียว
  • I-DLM-8B เป็น DLM ตัวแรกที่บรรลุคุณภาพเทียบเท่าโมเดล AR ขนาดใกล้เคียงกัน โดยใช้พารามิเตอร์เพียงครึ่งเดียวของ LLaDA-2.1-mini(16B) แต่ทำคะแนน AIME-24 ได้ +26 คะแนน และ LiveCodeBench-v6 ได้ +15 คะแนน สูงกว่า
  • ในสภาพแวดล้อมที่มี concurrency สูง(C=64) สามารถทำ throughput สูงกว่า 2.9~4.1 เท่า และรองรับการเร่งความเร็วแบบ ไม่สูญเสียในระดับบิต(lossless) ผ่าน Gated LoRA

เหตุใด Introspective Consistency จึงจำเป็น

  • โมเดล AR สามารถทำ การสร้างและการตรวจสอบตัวเอง พร้อมกันได้ในการทำ forward pass ครั้งเดียว แต่ DLM แบบเดิมเรียนรู้เพียง การลบสัญญาณรบกวน(denoising) จึงขาดความสอดคล้องในตัวเอง
  • คอขวด 3 ประการของ DLM แบบเดิม
    • ความสอดคล้องในตัวเองต่ำ: SDAR 0.699 เทียบกับ I-DLM 0.984
    • การคำนวณไม่มีประสิทธิภาพ: TiDAR มีโอเวอร์เฮดราว 7.8 เท่า เทียบกับ I-DLM ราว 2.5 เท่า
    • โครงสร้างพื้นฐานไม่สอดคล้อง: SDAR slope=84 เทียบกับ I-DLM=549

วิธีการของ I-DLM

  • Introspective-Consistency Training

    • แปลงโมเดล AR ที่ผ่านการพรีเทรนแล้วผ่าน causal attention, logit shift, และ วัตถุประสงค์ all-masked
  • Introspective Strided Decoding(ISD)

    • ทำ การสร้างโทเค็น N ตัว และ การตรวจสอบโทเค็นก่อนหน้า พร้อมกันใน forward pass เดียว
    • ใช้ เกณฑ์การยอมรับ p/q(acceptance criterion) เพื่อตรวจสอบผลการสร้าง
  • AR-Compatible Serving

    • ด้วย โครงสร้าง causal attention แบบเคร่งครัด จึงผนวกรวมเข้ากับโครงสร้างพื้นฐาน SGLang ได้โดยตรง
    • ทำงานได้ในสภาพแวดล้อมการเสิร์ฟแบบเดียวกับโมเดล AR โดยไม่ต้องมีโครงสร้างพื้นฐานแบบคัสตอมแยกต่างหาก

ผลลัพธ์ด้านประสิทธิภาพ

  • I-DLM เป็น DLM ตัวแรกที่มีคุณภาพเทียบเท่าโมเดล AR ขนาดเดียวกัน และเหนือกว่า DLM เดิมใน benchmark ทั้ง 15 รายการ
  • ผล benchmark หลัก

    • ความรู้·การให้เหตุผล: ARC-C 96.8, MMLU-Pro 79.7, GPQA-D 62.1
    • คณิตศาสตร์: AIME-24 83.3, AIME-25 80.0, MATH-500 97.6
    • โค้ด: HumanEval 96.3, MBPP 94.6, LCB-v6 57.1
    • การทำตามคำสั่ง: IFEval 84.7
    • I-DLM-32B ทำผลงานได้สูงกว่า LLaDA-2.1-flash(100B)

Throughput

  • ที่ขนาดแบตช์ 1~64 สามารถทำ throughput สูงกว่า 2.9~4.1 เท่าเมื่อเทียบกับ LLaDA-2.1-mini และ SDAR
  • ในสภาพแวดล้อมแบบ memory-bound ค่า TPF(Token Per Forward) สามารถประมาณการความเร็วที่เพิ่มขึ้นจริงได้
    • I-DLM(N=4, p=0.9): TPF≈2.9, ประสิทธิภาพ 1.22
    • SDAR(N=4, p=0.5): TPF≈1.1, ประสิทธิภาพ 0.31
  • ค่าประสิทธิภาพมากกว่า 1 หมายความว่าการถอดรหัสแบบขนานช่วยลดปริมาณการคำนวณรวมเมื่อเทียบกับ AR

Speedup Factor Explorer

  • อัตราการยอมรับ p=0.9, R-ISD LoRA overhead α=1.12
  • สูตรประมาณการความเร็วที่เพิ่มขึ้น:

    • memory-bound: Speedup ≈ TPF = (2+p+...+pN-2)/(2-pN-1)
    • R-ISD(ไม่สูญเสีย): Speedup ≈ TPF/α
    • Gated LoRA จะทำงานเฉพาะที่ตำแหน่ง MASK เท่านั้น จึงรับประกัน ความเหมือนกันในระดับบิตกับผลลัพธ์ของ AR

เอกสารและทรัพยากร

  • มีเอกสารบนเว็บครอบคลุมทั้ง การติดตั้ง, การฝึก, การอนุมาน, การเสิร์ฟ, R-ISD แบบไม่สูญเสีย, โมเดล, benchmark
  • Installation

    • โคลนที่เก็บ GitHub แล้วรัน install.sh
  • Quick Start

    • สามารถรันเซิร์ฟเวอร์ SGLang แล้วส่งคำขอ chat completion ผ่าน REST API ได้
  • Training

    • ฝึกโดยผสานลำดับแบบมาสก์ทั้งหมดเข้ากับลำดับแบบคลีน
    • 4.5B โทเค็น, GPU 8×H100, 2 epoch, stride curriculum(N=2→3)
  • Inference & ISD

    • เสนอโทเค็นใหม่(q) ที่ตำแหน่ง MASK และตรวจสอบ(p) ที่ตำแหน่งคลีน
    • รับประกันการกระจายแบบ AR ด้วยเกณฑ์การยอมรับ min(1, p(x)/q(x))
    • ที่ stride N=4 ได้ TPF=2.96 หรือเร็วขึ้นราว 3 เท่า
  • Serving (SGLang)

    • Paged KV cache**,** CUDA graph capture(+42~76%), Stationary-batch decode loop(+11~21%), Argmax proposal(+11~15%), Paged-only attention kernel(+10~14%)

      • ทั้งระบบให้ throughput สูงขึ้น 2.1~2.5 เท่า เมื่อเทียบกับค่าพื้นฐาน
  • Lossless R-ISD

    • ใช้ Gated LoRA(rank=128) เฉพาะกับตำแหน่ง MASK
    • ผลลัพธ์ เหมือนกับโมเดล AR พื้นฐานทุกประการ
    • โอเวอร์เฮดราว 1.12 เท่า
  • Model Zoo

    • I-DLM-8B: อิงจาก Qwen3-8B, คุณภาพเทียบเท่า AR
    • I-DLM-32B: อิงจาก Qwen3-32B, เหนือกว่า LLaDA-2.1-flash(100B)
    • I-DLM-8B-LoRA: ใช้ Gated LoRA(rank=128)
  • Benchmarks

    • ประเมินบน benchmark 15 รายการ(ความรู้, คณิตศาสตร์, โค้ด, การทำตามคำสั่ง)
    • มีสคริปต์สำหรับการทำซ้ำผลลัพธ์

ข้อมูลการอ้างอิง

  • บทความวิจัย: Introspective Diffusion Language Models (arXiv:2604.11035, 2026)
  • สถาบันวิจัย: Together AI, UIUC, Princeton, Stanford, UT Austin
  • ผู้เขียน: Yifan Yu และคณะอีก 14 คน

บทสรุป

  • I-DLM เป็น กรณีแรกที่โมเดลภาษาบนพื้นฐานการแพร่กระจายบรรลุทั้งคุณภาพและความเร็วระดับโมเดล AR พร้อมกัน
  • เอาชนะข้อจำกัดของการสร้างแบบขนานได้ด้วย การเรียนรู้ความสอดคล้องในตัวเอง และ การถอดรหัสแบบ ISD
  • พิสูจน์ความเป็นไปได้ในการนำไปใช้งานจริงด้วย ความเข้ากันได้กับ SGLang, การเร่งความเร็วแบบไม่สูญเสีย, และ การขยาย throughput ได้สูง

1 ความคิดเห็น

 
GN⁺ 14 일 전
ความคิดเห็นจาก Hacker News
  • ถ้าผมเข้าใจไม่ผิด นี่เป็นแนวทางที่น่าทึ่งมาก
    พวกเขานำ Qwen autoregressor มาดัดแปลงด้วยหลายเทคนิคให้ทำงานเหมือน diffuser และให้ประสิทธิภาพเหนือกว่า diffuser แบบเดิมอย่างมาก
    ผ่าน LoRA adapter สามารถจัดแนวเอาต์พุตให้เข้ากับ distribution ของ base model ได้ ทำให้ได้ผลลัพธ์ เหมือนกันทุกไบต์เมื่อใช้ seed เดียวกัน ขณะเดียวกันความเร็วก็เกือบเพิ่มเป็นสองเท่า
    ผมไม่ใช่ผู้เชี่ยวชาญ เป็นแค่นักทดลองที่ไฟแรง แต่ดูเหมือนว่านี่จะเป็นพัฒนาการที่น่าสนใจมาก

    • น่าตื่นเต้นจริง งานวิจัยนี้อ้างว่าสามารถเชื่อมระหว่าง คุณภาพแบบ AR กับ parallel decoding ได้ โดยเฉพาะ โหมดเสริม LoRA แบบไม่สูญเสียคุณภาพ ที่น่าประทับใจที่สุด
    • ผมยังไม่เข้าใจว่าจะเปรียบเทียบได้อย่างไรโดยที่ไม่ได้สร้างเอาต์พุตของ base model โดยตรง ถ้าเป็นแบบนั้น ความหมายของการเปรียบเทียบคืออะไรกันแน่
    • จริง ๆ แล้วนี่เป็นรูปแบบดัดแปลงของ multi-token prediction และ speculative decoding มากกว่าจะเป็น diffusion
      ไม่มีขั้นตอน denoising และยังคงโครงสร้างแบบ causal เอาไว้
      พูดให้ชัดคือ ฝึกให้ทำนายหลายโทเค็นพร้อมกันโดยใช้ MASK token หลายตัว และตอนอนุมานก็สร้างแบบขนานเพื่อเพิ่มความเร็ว
      ตัวอย่างเช่น เติม MASK 5 ตัวต่อท้าย “what is 2+2” แล้วทำนาย 5 โทเค็นถัดไปพร้อมกัน
      แบบนี้จะได้ทำ matrix-matrix computation แทน matrix-vector จึงมี ประสิทธิภาพด้านหน่วยความจำ สูงกว่า
      แต่เมื่อเพิ่ม k (จำนวนโทเค็นที่ทำนาย) คุณภาพจะตกลงอย่างรวดเร็ว และในงานวิจัยเองก็เห็นการลดลงแล้วที่ k=8
      สุดท้ายมันคือ self-speculative decoding ที่อิงกับการทำนายครั้งละ 4 โทเค็น ซึ่งไม่ได้ลบข้อจำกัดเดิมออกไปทั้งหมด แต่ก็เป็นวิธีฝึกที่น่าสนใจ
      มีคำอธิบายที่เกี่ยวข้องในโพสต์ก่อนหน้า
  • อยากรู้ว่ามันต่างจาก DFlash หรือ DDTree อย่างไรเมื่อเทียบกัน

  • ปีที่แล้วผมเคยเห็นคำตอบของ Gemini โผล่มาแบบค่อยเป็นค่อยไปคล้าย diffusion อยู่ช่วงหนึ่ง
    ไม่แน่ใจว่าเป็นการทดลองหรือแค่ลูกเล่นด้านภาพ แต่ก็เป็นปรากฏการณ์ที่น่าสนใจ

  • มีใครที่นี่กำลังทดลอง Diffusion สำหรับการสร้างข้อความ แบบจริงจังอยู่บ้างไหม

    • ดูเหมือน Inception Labs จะวิจัยด้านนี้มาค่อนข้างนานแล้ว
      ความเร็วน่าทึ่งมาก แต่ เวลาแฝงของโทเค็นแรก กับ คุณภาพของผลลัพธ์ ยังเป็นโจทย์อยู่
      ถ้าความเร็วและความแม่นยำดีขึ้นอีกสักระดับ ก็น่าจะใช้งานจริงได้มากพอสำหรับโมเดลต้นทุนต่ำหรือ งานแบบ asynchronous
      อีกอย่าง การทดลองให้กระจายข้อความยาวขึ้นในครั้งเดียวเพื่อ บังคับเพิ่มความสามารถด้านการให้เหตุผล ก็น่าจะน่าสนใจ
    • ตอนนี้กำลังสำรวจในฝั่ง local LLM เพื่อใช้กับ speculative decoding
      ดูได้ที่ บทความ Emergent Mind
    • Mercury 2 น่าสนใจมากสำหรับการทดลอง UX ทั้งในแง่ latency และราคา
      มันทำงานลื่นกว่า Gemini Flash Lite เมื่อก่อนมาก จึงเหมาะกับงานอย่างการติดแท็กอัตโนมัติหรือการสร้างลิงก์
      แต่ยังขาดความสามารถด้านการเรียกใช้เครื่องมือเมื่อเทียบกับระดับ Haiku 3.5
      สำหรับงานที่อินพุตมากพอและเอาต์พุตสั้น dLLM ดูจะเหมาะมาก และยังมีศักยภาพในด้านอย่าง การเติมข้อความอัตโนมัติในแท็บ ด้วย
    • ผมก็เคยลองเหมือนกัน ต้องใช้ แนวคิดเชิงสัญชาตญาณ ที่ต่างจาก LLM ปกติ มันเหมาะกับปัญหาบางประเภทมาก
    • ผมกำลังทำ WeDLM ด้วย Swift แต่ตอนนี้ประสิทธิภาพยังไม่ดีพอ
      มันสร้างจากซ้ายไปขวา แต่ diffusion จะเกิดขึ้นเฉพาะใน sliding window เท่านั้น และหน้าต่างมีแค่ราว 16 โทเค็น เลยยังไม่ต่างมาก
  • ผมไม่ถึงกับเป็นผู้เชี่ยวชาญ แต่ถ้าเป็น Diffusion ก็น่าจะต้องสร้างผลลัพธ์ทั้งหมดพร้อมกันไม่ใช่หรือ
    แต่โมเดล I-LDM ดูเหมือนจะใช้บริบทก่อนหน้าเพื่อสร้างบล็อกถัดไป

    • การสร้างเป็นบล็อก ให้การเพิ่มความเร็วได้มาก
      เช่น ถ้าสร้างครั้งละสองโทเค็น ก็จะได้ความเร็วเพิ่มขึ้นเกือบ 2 เท่า
      ยิ่งขนาดบล็อกใหญ่ขึ้น ความเร็วรวมในการสร้างก็สูงพอจนแทบไม่ต่างจากการสร้างทั้งหมดในครั้งเดียว
      สุดท้ายสิ่งสำคัญคือ จะลดคุณภาพที่ตกลงได้มากแค่ไหน และดูเหมือนว่างานนี้จะแก้จุดนั้นได้ดี
  • ถ้าจะใช้โมเดลแบบนี้ จำเป็นต้องย้ายไปใช้ sglang หรือว่า vLLM ก็รองรับอยู่แล้ว

  • ผมคิดมานานแล้วว่า สถาปัตยกรรม diffusion แบบอิงบล็อก คืออนาคตของ LLM
    โครงสร้างที่ปรับความเร็วในการสร้างโทเค็นแบบไดนามิกได้ และ แก้ไขตัวเอง ระหว่างการสร้างได้ — มันอาจกลายเป็นระบบคล้าย ความจำระยะสั้น ของมนุษย์
    ผมไม่เข้าใจหลักคณิตศาสตร์นัก แต่หวังว่ามันจะพัฒนาไปในทิศทางนั้น

  • ดูจาก release notes แล้ว

    2025-04-12: เปิดโค้ดและปล่อย I-DLM-8B, 32B, 8B-LoRA
    วันที่ดูเหมือนเก่าอยู่ เลยสงสัยว่าเป็นเวอร์ชันเก่าหรือเปล่า

    • เป็นแค่ พิมพ์ปีผิด น่ะ ผมเช็กแล้วว่าไฟล์ถูกอัปโหลดขึ้น HuggingFace เมื่อไม่กี่วันก่อนนี่เอง
  • อยากรู้ว่า ตอนนี้ใช้งานโมเดลนี้ได้เลยไหม

  • สงสัยว่า diffusion model จะสามารถสร้างบล็อกหนึ่งขึ้นมา จากนั้นทำ การทบทวนภายใน (introspection) กับผลลัพธ์นั้น แล้วสร้างใหม่ในลักษณะ การให้เหตุผลแบบวนซ้ำ ได้ไหม

    • ได้ สามารถทำได้โดยป้อนเอาต์พุตรอบแรกกลับเข้าโมเดลเพื่อให้มันประเมินใหม่เหมือน โมเดลอนุมานแบบ AR