- โมเดลภาษาที่ใช้แนวทางการสร้างแบบขนานบนพื้นฐาน diffusion model เพื่อ ก้าวข้ามข้อจำกัดด้านความเร็วของ LLM แบบ sequential decoding เดิม
- โครงสร้าง parallel refinement ที่สร้างและแก้ไขหลายโทเค็นพร้อมกัน ทำให้ ตอบสนองได้เร็วขึ้นมากกว่า 5 เท่า
- ด้วยความเร็วประมวลผล 1,009 โทเค็น/วินาที, 128K context, JSON output, และ ความสามารถในการใช้เครื่องมือ จึงเหมาะกับแอปพลิเคชันแบบเรียลไทม์
- พิสูจน์ประสิทธิภาพในสภาพแวดล้อมที่ไวต่อ latency เช่น ผู้ช่วยเขียนโค้ด, agent loop, voice interface, ค้นหาและ pipeline แบบ RAG
- รองรับ OpenAI API อย่างสมบูรณ์ และผสานเข้ากับระบบเดิมได้ทันทีโดยไม่ต้องแก้ไขโครงสร้างพื้นฐาน
ภาพรวมของ Mercury 2
- Mercury 2 คือ โมเดลภาษาสำหรับการอนุมานที่เร็วที่สุดในโลก
- เป้าหมายคือการมอบ การตอบสนองฉับไวทันทีในสภาพแวดล้อม AI ระดับ production
- คอขวดของ LLM แบบเดิมคือโครงสร้าง autoregressive sequential decoding (one token at a time)
- ทำให้เกิดปัญหาความหน่วงสะสมใน AI workflow แบบวนลูปซ้ำ
สถาปัตยกรรมการอนุมานแบบเรียลไทม์บนพื้นฐาน diffusion
- Mercury 2 ใช้แนวทาง parallel refinement แทน sequential decoding
- สร้างหลายโทเค็นพร้อมกัน และลู่เข้าได้ภายในไม่กี่ขั้นตอน
- มีลักษณะเหมือน “บรรณาธิการ” ที่คอยแก้ไขร่างทั้งฉบับซ้ำ ๆ ไม่ใช่ “เครื่องพิมพ์ดีด” ที่พิมพ์ทีละตัว
- ผลลัพธ์คือ ความเร็วในการสร้างที่เร็วขึ้นมากกว่า 5 เท่า และสร้าง เส้นโค้งความเร็วแบบใหม่
- การอนุมานบนพื้นฐาน diffusion ช่วยให้ได้ การอนุมานคุณภาพสูงพร้อมลด latency และต้นทุนให้ต่ำที่สุด
ประสิทธิภาพและสเปก
- ความเร็ว: 1,009 โทเค็น/วินาที บน NVIDIA Blackwell GPU
- ราคา: อินพุต $0.25 ต่อ 1 ล้านโทเค็น, เอาต์พุต $0.75 ต่อ 1 ล้านโทเค็น
- คุณภาพ: อยู่ในระดับแข่งขันได้กับโมเดลหลักที่ปรับแต่งเพื่อความเร็ว
- ความสามารถ: tunable reasoning, 128K context, การใช้เครื่องมือ, เอาต์พุตที่จัดแนวตาม JSON schema
- การเพิ่มประสิทธิภาพด้าน latency: รักษา p95 latency, การตอบสนองที่สม่ำเสมอในสภาพแวดล้อมที่มี concurrency สูง, และ throughput ที่เสถียร
- ผู้เกี่ยวข้องจาก NVIDIA ระบุว่า Mercury 2 ทำความเร็วเกิน 1,000 โทเค็น/วินาทีเมื่อทำงานร่วมกับโครงสร้างพื้นฐาน AI ของ NVIDIA
กรณีใช้งานใน production
1. การเขียนโค้ดและการแก้ไข
- ให้การตอบสนองแบบทันทีภายใน developer loop สำหรับงานอย่าง autocomplete, refactoring, และ code agent
- Max Brunsfeld ผู้ร่วมก่อตั้ง Zed เน้นว่าเป็น “ความเร็วของข้อเสนอแนะที่เร็วราวกับเป็นส่วนหนึ่งของความคิด”
2. Agent loop
- ลดความหน่วงของการเรียกใช้งานใน agent workflow ที่ต้องอาศัยการอนุมานหลายขั้นตอน
- Viant ใช้ Mercury 2 เพื่อ เพิ่มประสิทธิภาพแคมเปญแบบเรียลไทม์และเสริมระบบโฆษณาอัตโนมัติ
- Wispr Flow กำลังประเมินความเร็วของ Mercury 2 สำหรับ บทสนทนาแบบเรียลไทม์และการขัดเกลาการถอดเสียง
- Skyvern ระบุว่า “เร็วกว่า GPT-5.2 อย่างน้อยสองเท่า”
3. เสียงแบบเรียลไทม์และการโต้ตอบ
- voice interface มีข้อจำกัดด้าน latency ที่เข้มงวดที่สุด
- Happyverse AI ใช้ Mercury 2 เพื่อสร้าง อวตารโต้ตอบแบบเรียลไทม์ที่เป็นธรรมชาติ
- OpenCall ระบุถึงความเป็นไปได้ในการสร้าง voice agent ที่ตอบสนองได้ดีกว่าด้วย latency ต่ำและคุณภาพสูง
4. การค้นหาและ pipeline แบบ RAG
- ลด ความหน่วงสะสมจากกระบวนการค้นหาหลายรอบ การจัดอันดับใหม่ และการสรุปผล เพื่อให้อนุมานได้แบบเรียลไทม์
- SearchBlox ร่วมมือกับ Mercury 2 เพื่อสร้าง AI ค้นหาแบบเรียลไทม์
และมอบ ข้อมูลอัจฉริยะระดับวินาที ในหลากหลายด้าน เช่น การสนับสนุนลูกค้า ความเสี่ยง และอีคอมเมิร์ซ
การเผยแพร่และการผสานระบบ
- Mercury 2 พร้อมใช้งานทันที และ รองรับ OpenAI API อย่างสมบูรณ์
- ผสานเข้ากับระบบเดิมได้โดยไม่ต้องแก้โค้ด
- สำหรับการประเมินในระดับองค์กร มีการสนับสนุนด้าน ความเหมาะสมของ workload, การตรวจสอบประสิทธิภาพ, และการออกแบบการประเมิน
- ข้อความทางการ: “Mercury 2 is live. Welcome to diffusion.”
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
แนวคิดในการวัด ความฉลาด (metric) ต่อวินาทีน่าสนใจมาก
เช่น มองทั้งความฉลาดต่อต่อโทเค็น และจำนวนโทเค็นต่อวินาทีไปพร้อมกัน
ส่วนตัวถ้า Sonnet 4.6 เร็วกว่า Opus 4.6 ถึง 5 เท่า ก็น่าจะเลือกใช้ Sonnet เป็นหลัก
ในรุ่นก่อน ๆ ตระกูล Sonnet ยังไม่ดีพอ แต่ตอนนี้ข้อได้เปรียบด้าน การวนซ้ำ (iteration) จากความเร็วมีผลมากจนสถานการณ์เปลี่ยนไปแล้ว
เมื่อก่อนเคยใช้ OpenAI Deep Research แต่ o3-thinking + เว็บเสิร์ชเร็วกว่าเยอะและก็ฉลาดพอแล้ว
ถ้าพัฒนา API บนฮาร์ดแวร์อย่าง Cereberas หรือ Groq ระดับความเร็วในการวนซ้ำและต้นทุนจะแตกต่างกันโดยสิ้นเชิง
ใน บันทึกงานวิจัย ที่เพิ่งเขียนล่าสุด ก็แสดงให้เห็นว่าเมื่อแยกส่วนการวางแผนเป็น โมเดล AR และการสร้างเป็น โมเดล diffusion แล้ว ประสิทธิภาพดีขึ้นมาก
ตัวอย่างเช่น ถ้าใช้ถ่านหิน 5 ตันก็พอ แต่กลับใช้ 30 ตันเพื่อให้ดีขึ้นแค่ 0.0000000001% นั่นไม่ใช่ความก้าวหน้าที่แท้จริง
โมเดลอย่าง Composer หรือรุ่น Flash ก็เป็นตัวอย่าง และ Mercury 2 ก็วางตำแหน่งตัวเองเป็นโมเดลที่แข็งแกร่งในหมวดนี้
โมเดลเร็วจะวนซ้ำได้ไว ส่วนโมเดลใหญ่จะแม่นยำกว่าตั้งแต่ครั้งแรก
ตอนนี้ยังชอบ Opus 4.6 อยู่ แต่ก็อยากเห็นความต่างด้านประสิทธิภาพเทียบกับ Sonnet เป็นข้อมูลจริง
นี่แหละคือเหตุผลที่ชอบ Gemini 3 Flash — ฉลาดพอและ เร็วอย่างเหลือเชื่อ
ลองทดสอบง่าย ๆ ดู พอถามเรื่อง “ผลงานของ Maradona” Mercury 2 กลับพิมพ์ผิดเป็น “Dieadona”
เป็นคำถามที่แม้แต่โมเดล 3B รันโลคัลก็ตอบได้สมบูรณ์ แต่ Mercury 2 กลับ ช้าและผิดพลาดเยอะ
Mercury 2 สร้างคำตอบด้วยวิธี parallel refinement
เป็นโครงสร้างที่สร้างหลายโทเค็นพร้อมกันแล้วค่อย ๆ ลู่เข้าในไม่กี่ขั้น แทนที่จะพิมพ์แบบเครื่องพิมพ์ดีด แต่เป็นการ ขัดเกลาร่างทั้งฉบับเหมือนโปรแกรมแก้ไขข้อความ
ตอนนี้มีงานวิจัยที่พยายามรวม DDPM กับ SGM เข้าด้วยกันผ่าน SDE อยู่ เลยสงสัยว่าจะมองแต่ละเลเยอร์ของ transformer เป็นขั้น diffusion ได้หรือไม่
ถ้า L เลเยอร์ของ transformer สอดคล้องกับการขัดเกลา L ขั้นของ diffusion ก็อาจเป็นไปได้ที่จะทำ การฟิตเข้าหากัน (fitting) ระหว่างสองโมเดล
ในฐานะผู้ร่วมก่อตั้งและ Chief Scientist ของ Inception ยินดีรับคำถามเชิงเทคนิคเกี่ยวกับ Mercury 2 หรือ diffusion LM
ช่วยลด latency หรือต้นทุนได้ไหม มีลักษณะกราฟคล้ายกับการแคชแบบ autoregressive หรือว่าใช้ไม่ได้เลย
และก็น่าสนใจว่าจะใช้ ความยาวบล็อกแบบไดนามิก ได้ไหม
ระบบเสียงส่วนใหญ่มักให้ความสำคัญกับ TTFT (time-to-first-token) มากกว่าความหน่วงรวมของทั้งคำตอบ
เลยอยากรู้ว่าค่า TTFT ของ Mercury 2 ดีขึ้นจากโมเดล reasoning อื่นมากแค่ไหน
ดู ลิงก์ตัวอย่าง
เลยสงสัยว่าอะไรเป็นสาเหตุของอาการนี้
สิ่งที่น่าสนใจที่สุดคือเริ่มมีโมเดลที่สร้างได้หลายพันโทเค็นต่อวินาทีแล้ว
แบบนี้ต่อให้ใช้ multi-shot prompting หรือ nudging ผู้ใช้ก็แทบไม่รู้สึก ทำให้ลดปัญหา hallucination หรือคำตอบที่ไม่แน่นอนได้
Mercury 2 ทำให้ การวนซ้ำงานของเอเจนต์อย่างรวดเร็ว เป็นไปได้
แม้การลองครั้งเดียวอาจแม่นยำน้อยกว่า แต่เพราะเวลารันสั้นมากจึงปรับปรุงได้เร็วกว่าอย่างมาก
เช่น GPT-OSS 20B บน 3090 ใบเดียว ถ้า bs=64 ก็ทำได้ราว 2k tok/s
ยังไม่ค่อยมั่นใจกับโมเดล diffusion
Google และที่อื่น ๆ ก็ลองมาแล้ว แต่ส่วนใหญ่ยังตามหลังบน Pareto frontier
ดู ลิงก์เปรียบเทียบราคา/ประสิทธิภาพ
ถ้าวัดที่คุณภาพระดับเดียวกัน Mercury เร็วกว่าโมเดล AR ที่ใกล้เคียงกัน มากกว่า 5 เท่า
แม้ความฉลาดโดยรวมยังต่ำกว่า Opus หรือ Gemini Pro แต่ในแง่ ความเร็วในการอนุมาน มีข้อได้เปรียบมาก
เป็นพื้นที่ที่ยังไม่ถูกสำรวจมากกว่า autoregressive transformer มาก จึงมี เพดานทางเทคนิค สูง
ถ้ามีเวอร์ชัน “Mercury Edit” แบบเดียวกับ Fast Apply ของ Morph ก็อยากลองใช้มาก
แนวทาง diffusion-based น่าสนใจมาก
transformer แบบดั้งเดิมจะสร้างโทเค็นแบบลำดับต่อเนื่อง แต่ diffusion สามารถ ขัดเกลา (refine) เอาต์พุตทั้งชุดแบบวนซ้ำได้
ถ้าแก้ปัญหา latency ได้จริง ก็อาจเปิดความเป็นไปได้ใหม่สำหรับงาน reasoning ที่ซับซ้อน
สงสัยว่ามี open-weight diffusion LLM ที่รันบนฮาร์ดแวร์โลคัลได้ไหม
อยากเห็นความต่างด้านประสิทธิภาพบน GPU ระดับผู้บริโภคด้วยตัวเอง
Mercury 2 ไม่ผ่าน Car Wash Test
น่าจะเหมาะกว่าถ้าโฟกัสไปที่ งานเฉพาะทาง (เช่น coding agent) มากกว่าเป็นโมเดล reasoning ทั่วไป และเทียบกับโมเดล SOTA ในสายนั้นอย่าง Qwen3-Coder-Next
ต่อให้ต้องรันเซสชันยาว ๆ ความแม่นยำก็สำคัญกว่า
ถ้าโมเดลนี้ไปรันบน ชิป Talaas จะมีโอกาสสร้างได้เกิน 50,000 โทเค็นต่อวินาทีไหม