MiMo-V2.5-Pro-UltraSpeed: โมเดล 1T ที่สร้าง 1000 โทเค็นต่อวินาที
(mimo.xiaomi.com)- โมเดล 1 ล้านล้าน (1T) พารามิเตอร์ รุ่นแรกที่ทะลุความเร็วการถอดรหัส 1000 tokens/s
- ทำความเร็วนี้ได้ด้วย commodity GPU โดยไม่ต้องพึ่งฮาร์ดแวร์เฉพาะทาง และทำเอาต์พุต 1000+ tps ได้บน โหนด 8-GPU มาตรฐาน เพียงเครื่องเดียว
- เทคโนโลยีหลักคือการทำ model-system codesign ที่ผสาน FP4 quantization เข้ากับ DFlash speculative decoding
- API เปิดให้ใช้งานแบบสมัครขอสิทธิ์และจำกัดช่วงเวลา โดยชูจุดขายว่า ราคาสูงขึ้น 3 เท่า แต่ความเร็วในการสร้างสูงขึ้นราว 10 เท่า
- การทะลุ 1000 tps ไม่ใช่แค่เรื่องความเร็วที่เพิ่มขึ้น แต่เป็นจุดเปลี่ยนที่อาจเปลี่ยนกระบวนทัศน์ของแอปพลิเคชัน AI อย่าง Coding Agent และการตัดสินใจแบบเรียลไทม์โดยตรง
เปิดตัว Xiaomi MiMo-V2.5-Pro-UltraSpeed
- ร่วมมือกับ TileRT ทำลายกำแพงความเร็วการถอดรหัส 1000 tokens/s ได้เป็นครั้งแรกในโมเดล 1 ล้านล้านพารามิเตอร์ มอบความเร็วในระดับที่รองรับการตอบสนองแบบเรียลไทม์และการวนซ้ำได้แทบจะทันที
- ในการเปรียบเทียบความเร็วการสร้างแบบเรียลไทม์ ทำได้สูงสุด ประมาณ 1200 tokens/s
- เสนอแนวคิดว่าเมื่อโมเดลเร็วพอ มันจะไม่ใช่เครื่องมือที่ต้องรออีกต่อไป แต่จะทำงานเป็นส่วนขยายของการคิด (extension of thinking)
เปิดให้ใช้งานแบบจำกัดเวลา · สมัครขอสิทธิ์
- API เปิดตัวด้วยราคาโปรโมชันแบบจำกัด ให้ความเร็วในการสร้างราว 10 เท่า ที่ ต้นทุน 3 เท่าเมื่อเทียบกับ MiMo-V2.5-Pro (เฉพาะ API, ไม่รองรับ Token Plan)
- เนื่องจากทรัพยากรสำหรับการอนุมานความเร็วสูงมีจำกัด จึงเปิดให้ใช้แบบสมัครขอสิทธิ์และจำกัดช่วงเวลา โดยผู้ใช้ที่ได้รับอนุมัติเท่านั้นจะใช้ API ได้ในช่วง 9 มิถุนายน 2026 ~ 23 มิถุนายน 2026 23:59 (UTC+8)
-
วิธีสมัคร
- แพลตฟอร์ม API อยู่ที่ platform.xiaomimimo.com/ultraspeed โดยการสมัครไม่ได้รับประกันว่าจะได้สิทธิ์ และจะให้ความสำคัญกับองค์กรหรือผู้พัฒนามืออาชีพที่มีความต้องการใช้งานทางธุรกิจจริง
- การเข้าถึงโมเดลมาตรฐานยังมีให้ผ่านซีรีส์ MiMo-V2.5
-
ทดลองใช้ Chat (ฟรีระหว่างช่วงทดลอง)
- ผู้ใช้ที่ได้รับอนุมัติจะได้สิทธิ์เข้าถึง Chat ฟรี 2 สัปดาห์ โดยจุดเข้าใช้งานคือ ultraspeed.xiaomimimo.com
- ต่อ 1 บัญชี สามารถเข้าคิวได้ สูงสุดวันละ 10 ครั้ง, ต่อเซสชันใช้งานได้ สูงสุด 30 นาที, และหาก ไม่มีการใช้งานเกิน 5 นาที ระบบจะยกเลิกเซสชันอัตโนมัติ
1000 tokens/s — การเปลี่ยนกระบวนทัศน์ที่มากกว่าความเร็ว
- การทะลุ 1000 tps ในระดับ 1T ไม่ใช่แค่เครื่องพิมพ์ดีดที่เร็วขึ้น แต่เป็นการเปลี่ยนแปลงที่สั่นสะเทือนกระบวนทัศน์ของแอปพลิเคชัน AI โดยพื้นฐาน
-
เมื่อความเร็วแปรเปลี่ยนเป็นความฉลาด
- ภายในเวลาใช้งานจริง (wall-clock) เท่าเดิม สามารถรันเส้นทางการอนุมานหลายสิบเส้นทางแบบขนานได้ (Best-of-N / Tree Search) พร้อมตรวจสอบและแก้ไขตัวเองอัตโนมัติอยู่เบื้องหลัง ส่งผลให้คุณภาพการอนุมานดีขึ้นโดยตรง
-
ปลดล็อกข้อจำกัดด้านผลิตภาพของ Coding Agent
- เดิมทีความหน่วงของการอนุมาน (inference latency) คือคอขวด ทำให้นักพัฒนาต้องนั่งรอหน้าจอ แต่ที่ระดับ 1000 tps ความเร็วในการสร้างโค้ดและประสิทธิภาพการทำงานจะเร่งขึ้นในระดับกระบวนทัศน์
-
ก้าวเข้าสู่วงจรการตัดสินใจแบบเรียลไทม์
- ด้วยวงจร "think-respond" ระดับมิลลิวินาที โมเดลเรือธงระดับ 1T สามารถเชื่อมเข้ากับสถานการณ์ที่ไวต่อเวลาได้ เช่น การสร้างสัญญาณสำหรับ high-frequency quant trading, การบล็อกธุรกรรมผิดปกติทันที, intelligent bidding, บทสนทนาแบบเรียลไทม์
- ยังเสนออีกว่าหากนำไปใช้กับสถานการณ์ที่เกี่ยวข้องกับชีวิตและความตาย เช่น การช่วยผ่าตัดหรือการวิเคราะห์ภาพทางการแพทย์ ทุกวินาทีที่ย่นระยะเวลาการวิเคราะห์รอยโรคและการคาดการณ์ความเสี่ยงลง จะมอบอิสระในการตัดสินใจเพิ่มเติมให้ศัลยแพทย์
model-system codesign ขั้นสุด
-
การทำ 1000+ tps บนโมเดล 1T ไม่ได้มาจากเทคนิคเพียงอย่างเดียว แต่เป็นผลลัพธ์จาก codesign ขั้นสุดของ ทีมโมเดล MiMo และทีมระบบ TileRT
-
ต่างจากแนวทางในอุตสาหกรรมที่มักพึ่งฮาร์ดแวร์เฉพาะทางเพื่อให้ได้ความเร็วใกล้เคียงกัน เช่น Wafer-Scale ของ Cerebras หรือ สถาปัตยกรรม custom on-chip SRAM ของ Groq ผลลัพธ์นี้เกิดขึ้นได้ด้วย model-system codesign บน commodity GPU ล้วน ๆ
-
ฝั่งโมเดลใช้ FP4 quantization ที่มุ่งแก้คอขวดด้านแบนด์วิดท์เพื่อลดขนาดโมเดลและภาระการเข้าถึงหน่วยความจำ พร้อมนำ DFlash ที่อิงการทำนายแบบขนานด้วยการมาสก์เป็นบล็อกมาใช้ เพื่อเพิ่มความยาวของโทเค็นที่ยอมรับได้ต่อการตรวจสอบแต่ละรอบ
-
ฝั่งระบบ TileRT จัดเตรียมเอนจินคอมไพล์และเคอร์เนลการคำนวณที่ออกแบบให้เหมาะกับคุณสมบัติของอัลกอริทึมดังกล่าว จนทำเอาต์พุต 1000+ tps ได้บนโหนด commodity 8-GPU มาตรฐานเพียงเครื่องเดียว
-
3.1 FP4 Quantization
- ที่ขนาด 1T การอนุมานแบบ 8 บิตเดิม (FP8/INT8) และ 16 บิต มีภาระด้านการใช้หน่วยความจำและแรงกดดันด้านแบนด์วิดท์สูงเกินไป การลดความกว้างบิตจึงช่วยเพิ่มความเร็วการถอดรหัสโดยตรง
- เลือกใช้ฟอร์แมต FP4(MXFP4) ที่พิสูจน์แล้วว่าแทบไม่สูญเสียคุณภาพ แต่หากนำไปใช้กับทั้งโมเดลแบบตรง ๆ จะเกิดการลดลงของประสิทธิภาพในงานอนุมานตรรกะที่ซับซ้อน การใช้เหตุผล และการสร้างโค้ด
- ในสถาปัตยกรรม MoE(Mixture of Experts) จึงทำ quantization แบบเลือกเฉพาะกับ Experts ที่กินสัดส่วนพารามิเตอร์มากที่สุดและทนต่อ quantization ได้ดีที่สุดเป็น FP4 ส่วนโมดูลอื่นยังคงใช้ความแม่นยำเดิม
- ด้วย FP4 QAT(Quantization-Aware Training) จึงลดขนาดโมเดลและใช้แบนด์วิดท์ฮาร์ดแวร์ได้สูงสุด โดยยังรักษาประสิทธิภาพโดยรวมให้อยู่ในระดับแทบเทียบเท่าต้นฉบับ
-
3.2 DFlash Speculative Decoding
- speculative decoding แบบดั้งเดิมใช้ draft model ขนาดเล็กทำนายโทเค็นถัดไป แล้วให้โมเดลขนาดใหญ่ตรวจสอบ โดยคุณภาพของ draft เป็นตัวกำหนดอัตราการยอมรับ แต่ยิ่ง draft แข็งแรงเท่าไร ต้นทุนการคำนวณก็ยิ่งสูงขึ้น เป็นความตึงเครียดเชิงโครงสร้างที่หลีกเลี่ยงไม่ได้
- DFlash ทำให้ draft model เติมทั้งบล็อกที่ถูกมาสก์ได้ในการทำ forward pass เพียงครั้งเดียว จึงปลดข้อจำกัดเชิงลำดับของ "autoregressive drafting"
- ใช้ Muon second-order optimizer และ self-distillation ของโมเดลเพื่อบีบโอเวอร์เฮดของขั้น draft ลงไปใกล้ระดับต่ำสุดตามทฤษฎี
- draft model ใช้เพียง Sliding Window Attention(SWA) ซึ่งสอดคล้องอย่างเป็นธรรมชาติกับการออกแบบ SWA ของซีรีส์ MiMo-V2 และด้วยการตัดการพึ่งพา prefix แบบสมบูรณ์ ทำให้ต้นทุนการคำนวณต่อการทำนายลดจากแปรผันตามความยาว context เหลือเป็นค่าคงที่
- ระหว่างการฝึก มีการย้ายการสุ่ม mask-signal ลงไปยัง GPU-local shard ทำให้ซีเควนซ์เดียวสร้างสัญญาณการฝึกอิสระได้หลายหมื่นรายการในหนึ่งสเต็ป โดยหลีกเลี่ยงโอเวอร์เฮดการสื่อสารระหว่างอุปกรณ์
- จำกัดขนาดบล็อกไว้ที่ 8 เพื่อลดโอเวอร์เฮดของการตรวจสอบและเพิ่มความพร้อมกัน โดยความยาวการยอมรับที่สูงจะแปลงเป็น throughput ของการอนุมานที่สูงขึ้นโดยตรง
- ความยาวการยอมรับเฉลี่ย (Acceptance Length) ตามสถานการณ์
- Coding 6.30 (บางตัวอย่างสูงสุด 7.14 โดยยอมรับได้ 6~7 โทเค็นจาก draft 8 โทเค็น)
- Math / Reasoning 5.56
- Agent 4.29
- สำหรับสถานการณ์สนทนาทั่วไปที่มีการกระจายเชิงความหมายมากกว่าและความไม่แน่นอนสูงกว่า ปัจจุบันอัตราการยอมรับยังค่อนข้างต่ำ และยังอยู่ระหว่างการปรับปรุงอย่างต่อเนื่อง
-
3.3 TileRT เคอร์เนล / ระบบอนุมานความหน่วงต่ำระดับพิเศษ
- ที่ความถี่การทำงานระดับ 1000 tokens/s อายุของแต่ละโอเปอเรเตอร์จะถูกบีบลงสู่ระดับไมโครวินาที ทำให้ "operator boundaries" ของระบบอนุมานแบบดั้งเดิมกลายเป็นคอขวดสำคัญ
- ทุกครั้งที่เริ่มรันโอเปอเรเตอร์ ซิงก์กับฮาร์ดแวร์ หรือวิ่งไปกลับ global memory กระแสการทำงานจะสะดุด เกิด "Execution Gaps" ที่มองเห็นได้ชัด
-
นวัตกรรมโมเดลการรันระดับเปลี่ยนเกมของ TileRT
- Persistent Engine Kernel: เลิกวิธีเริ่มรันแยกตามโอเปอเรเตอร์ แล้วคงทั้งไปป์ไลน์การคำนวณให้ไหลและอยู่ประจำภายใน GPU ตลอดเวลา เพื่อให้เกิดการซ้อนทับ (overlap) ระหว่างการเคลื่อนย้ายข้อมูลกับการคำนวณในระดับสูงสุด
- Warp Specialization(ความร่วมมือของไปป์ไลน์แบบ heterogeneous): แยกการสื่อสาร การย้ายข้อมูล และการคำนวณเทนเซอร์เชิงกายภาพให้ละเอียดขึ้นในระดับ Tile ทำลายโมเดล lock-step แบบเนื้อเดียว และเปลี่ยน GPU ให้กลายเป็นระบบรันงานแบบ heterogeneous ที่จูนอย่างแม่นยำ
-
การหลอมรวมฮาร์ดแวร์-ซอฟต์แวร์เชิงลึกระดับไมโครวินาที (Codesign)
- ฝั่งโมเดลเลือกใช้ mixed FP4 quantization สำหรับ MoE Experts และ speculative decoding แบบ DFlash ที่จัดแนวกับ SWA สำหรับสถาปัตยกรรม 1 ล้านล้านพารามิเตอร์ ขณะที่ TileRT ก็ผสานแน่นกับคุณลักษณะของอัลกอริทึมและรูปแบบ quantization ดังกล่าว เพื่อมอบเอนจินคอมไพล์และเคอร์เนลการคำนวณที่ออกแบบเฉพาะ
- ทั้งสองทีมทำงานร่วมกันบนพื้นฐานของข้อแลกเปลี่ยนทางวิศวกรรมที่ยึดโยงกับฟิสิกส์ของฮาร์ดแวร์ เพื่อให้แรงกดดันในการประมวลผลค่อย ๆ บรรจบกันอย่างลื่นไหลภายในขอบเขตของฮาร์ดแวร์
- TileRT เป็นทีมสถาปัตยกรรมระบบที่มุ่งเน้นโครงสร้างพื้นฐาน AI รุ่นถัดไปและการอนุมานความหน่วงต่ำระดับพิเศษ โดยใช้ persistent kernel, tile pipeline และความร่วมมือแบบ heterogeneous เพื่อทะลุข้อจำกัดแบบฟูลสแตก และดึงการใช้ประโยชน์จากการคำนวณให้ถึงขีดสุดในสภาพแวดล้อม heterogeneous ที่ซับซ้อน
เดโมวิดีโอเพิ่มเติม
- เดโมสร้างเกม Snake ภายใน 10 วินาที
- เดโมสร้างอินเทอร์เฟซ MacOS ใหม่ภายใน 1 นาที
โอเพนซอร์สและแนวโน้ม
- เปิดซอร์สเช็กพอยต์ MiMo-V2.5-Pro-FP4-DFlash บน HuggingFace โดยมีทั้งน้ำหนักแบบ FP4 quantization และพารามิเตอร์ของโมเดล DFlash
- กำลังเตรียม UltraSpeed support สำหรับ MiMo-V2.5
1 ความคิดเห็น
ความเห็นจาก Hacker News
AI ที่เร็ว น่าสนใจมากจริง ๆ แต่ก็ค่อนข้างน่ากังวลด้วย ตอนนี้ Claude ก็เร็วกว่าเราสำหรับงานบางอย่างแล้ว แต่ก็ยังอยู่ในระดับใกล้เคียงกัน
ตอนนี้กำลังรันพรอมป์ต์สรุป PR มาได้ 1 ชั่วโมงแล้ว และน่าจะต้องใช้เวลาอีกหลายชั่วโมง ถ้าสิ่งนี้จบได้แทบจะทันที ก็ยากจะจินตนาการว่าเวิร์กโฟลว์จะเปลี่ยนไปอย่างไร บางครั้งก็เริ่มทำหลายอย่างพร้อมกันเพราะพรอมป์ต์ใช้เวลานาน แล้วค่อยมานั่งเสียใจทีหลัง ในทางกลับกัน ถ้าเป็น AI ที่ทำงานซึ่งเคยกินเวลาหลายชั่วโมงหรือหลายวันให้เสร็จได้ภายในไม่กี่วินาทีถึงไม่กี่นาที นั่นคือ การเปลี่ยนเกมทั้งกระดาน และไม่รู้จริง ๆ ว่าเราจะไปอยู่ตรงไหน
ยังไม่เคยใช้ 3000 TPS ของ Cerebras แต่เคยลองเดโมโมเดล 15,000 TPS ที่จำชื่อไม่ได้ ไม่แน่ใจว่ามันสร้างความแตกต่างที่มีความหมายกับงานจริงแค่ไหน แต่การเห็นข้อความถูกสร้างเต็มหน้าจอในพริบตานั้นน่าทึ่งมาก มีประโยชน์มากสำหรับการตรวจเล็ก ๆ น้อย ๆ เช่นการดู diff แล้วเช็กว่าการเปลี่ยนแปลงตรงตามที่ตั้งใจหรือไม่ และถ้าทำการตรวจแบบนี้ได้เร็วหลายรอบ ก็ช่วยให้ตรวจแบบมีสมาธิได้มากโดยไม่ถูกรบกวน
สำหรับงานที่ไม่ได้เน้นการคำนวณหนัก เดิมที UI แบบโต้ตอบก็เป็นอย่างนี้อยู่แล้ว โปรแกรมส่วนใหญ่แค่นั่งว่างรอให้ผู้ใช้กดปุ่ม เราไม่จำเป็นต้องรอโปรแกรม หรือคอยหมุนหลายจานให้ยุ่งอยู่ตลอด แต่แค่ LLM ที่เร็วขึ้นอย่างเดียวไม่พอ ยังต้องมี การคอมไพล์และการทดสอบที่เร็ว ด้วย
พูดจริง ๆ คือการใช้ Cerebras ที่ราว 2k tokens/s พร้อม latency ต่ำมาก ให้ความรู้สึกเหมือนได้เห็นอนาคต มันทำให้ต้องจัดเวิร์กโฟลว์ใหม่โดยเน้นงานที่สามารถเกิดขึ้นได้โดยไม่ต้องมีการรีวิวด้วยมือที่หนักหน่วง เช่นการระบุเงื่อนไขความสำเร็จให้ชัดเจน ปัญหาของผมมีไม่กี่อย่างที่เข้ากับแนวนี้ได้ดี แต่คิดว่าอนาคตน่าจะไปทางนี้ แน่นอนว่าโมเดลที่เร็วมากมักไม่ใช่โมเดลที่เก่งที่สุด แต่ถ้าไปถึงจุดที่ คิดได้คุณภาพสูงแทบจะทันที นั่นจะเป็นตัวพลิกเกมที่เราไม่ได้เตรียมพร้อมรับมือจริง ๆ
แต่พอสั่งงานอีกประเภท มันก็อาจหลงทางไปเลย เมื่อก่อนยังแทรกได้ว่า “เดี๋ยวก่อน นั่นไม่ใช่” แต่ตอนที่ข้อความขึ้นบนจอและเราทันจะตอบสนอง มันก็มักเปลี่ยนอะไรไปชุดใหญ่แล้ว ถ้าไม่ได้บังคับให้คอมมิตทุกครั้งที่แก้ไข ก็ยากที่จะกันไม่ให้มันพลาดได้เร็วพอ ๆ กับเวลาที่มันทำถูก และถ้ามีสิทธิ์เยอะ มันก็อาจทำพลาดกับ remote API ได้ด้วย
ผมไม่ค่อยเข้าใจเรื่องผลิตภาพนัก ในมุมของพนักงานทั่วไป ต่อให้งานที่เคยใช้ 2 วัน ตอนนี้ทำได้ใน 2 ชั่วโมง ก็ไม่ได้สำคัญขนาดนั้น เพราะเวลาเหลือก็ไม่ได้เอาไปใช้ตามใจตัวเอง ยังไงก็ต้องทำงานวันละ 8 ชั่วโมงอยู่ดี
เมื่อก่อนยังมีความสุขจากการได้ขุดลึกกับปัญหาอยู่ 2 วัน แต่ตอนนี้มันเปลี่ยนเป็นรูปแบบการดึง สล็อตแมชชีน หวังว่าจะได้คำตอบที่ถูกต้องด้วยพรอมป์ต์ที่ถูกต้อง สำหรับพวกเรา ผมว่ามันกลับแย่ลงเสียอีก แน่นอนว่าสำหรับบริษัทและผู้บริหาร สถานการณ์กลับตรงกันข้ามโดยสิ้นเชิง และคงชอบสถานการณ์ AI มาก
ถึงจะใช้ไม่มาก แต่นั่นคือราคาที่ต้องจ่ายเพื่อให้ได้ความเร็วมากขึ้น ถ้าโยนงานใหญ่ให้ AI แล้วกลับมาดูอีกชั่วโมงหลังจากนั้น คุณอาจพบว่าเสียเวลาไปหนึ่งชั่วโมงและไม่ได้อะไรเลย
ตอนนี้ผมรันสามงานคู่ขนานกันในสามแท็บ และต้องสลับบริบทตลอด มันทรมานกว่ามาก ถ้าเป็นโมเดลที่เร็วกว่า ก็ไม่จำเป็นต้องเริ่มงานใหม่ระหว่างรอ
ไม่มีใครห้ามคุณใช้เทคโนโลยีนี้เพื่อขุดปัญหาให้ลึกกว่าเดิม นั่นแหละคือ วิธีใช้แบบฉลาด
หากการ ปรับราคา·ความเร็วให้เหมาะสม ของผู้ให้บริการจากจีนรวมเข้ากับการขึ้นราคาของบริษัทอเมริกัน เกมนี้คงเปลี่ยนไปในไม่ช้า หลายบริษัทกำลังมีปัญหากับบิล AI อยู่แล้ว
ฉันใช้ GitHub Copilot แบบสมาชิกรายปีอยู่ และ Microsoft เพิ่งเปลี่ยนการคิดค่าบริการเป็นแบบอิงตามโทเค็น แม้ตอนนี้ยังคิดเป็นหน่วยคำขอพรีเมียม แต่ GPT 5.4 จากเดิม 1x ตอนนี้กลายเป็น 6x แล้ว
ฉันไม่เข้าใจจริง ๆ ว่าห้องแล็บโมเดลของสหรัฐมีคูเมืองอะไรอยู่ ถ้าพูดกันว่าการปรับปรุงตนเองแบบวนซ้ำใกล้มาถึงแล้ว แต่แล็บจีนตามหลังโมเดลชั้นนำของอเมริกาแค่นิดเดียว งั้นคูเมืองของแล็บอเมริกาคืออะไร? หรือว่าโมเดลอเมริกันเก่งกว่าโมเดลโอเพนซอร์สของจีนในการปรับปรุงตนเองแบบวนซ้ำ? ฉันอาจคิดผิดทั้งหมดก็ได้ แต่ถ้าฉันลงเงินไว้กับ OpenAI หรือ Anthropic ตอนนี้คงอยากถอนออกให้หมด ฉันคิดว่าในอีกไม่กี่ปีข้างหน้ามีโอกาสสูงทีเดียวที่มันจะเข้าใกล้ศูนย์
เพราะงั้นจึงคาดการณ์ต้นทุนงานไม่ได้ อาจต้องเริ่มใหม่หลายครั้งและจ่ายเงินทุกครั้ง แถมยังต้องใส่พรอมป์ต์เพิ่มเพื่อกะให้ได้ว่าโมเดลที่ได้มาเป็นของจริงหรือของปลอม ทำให้ใช้โทเค็นมากขึ้นอีก
ถ้า MiMo ถูกพอ ๆ กับ Deepseek อ้างอิงจากการคุยก่อนหน้า https://news.ycombinator.com/item?id=48282814 ต่อให้คูณ 3 เพื่อความเร็วระดับสูงมาก ก็ยังถูกจนน่าตกใจอยู่ดี
MiMo V2.5 Pro เวอร์ชันความเร็วปกติยังคงเป็นโมเดลเขียนโค้ดแบบเอเจนต์ที่มี open weights ที่แข็งแกร่งที่สุดในบรรดาที่เราทดสอบมา น่าสนใจที่มันได้รับความสนใจน้อยกว่ารุ่นปล่อยออกมาที่ประสิทธิภาพต่ำกว่าอย่างมาก
ราคา “fast mode” ตรงนี้ก็แข่งขันได้มากเช่นกัน ข้อมูลอยู่ที่ https://gertlabs.com/rankings
มันอาจฟังดูเหมือนการโฆษณา แต่การเติบโตแบบเอ็กซ์โปเนนเชียลมีอยู่จริง เรากำลังจะไปถึงขั้นที่สามารถสร้างซอฟต์แวร์หลายตัวจากพรอมป์ต์ได้แทบจะทันที แล้วเลือกตัวที่ดีที่สุดจากนั้น
การถกกันว่าจะเลือกไลบรารีที่มีชื่อเมธอดแบบ syntactic sugar ที่ดีที่สุด จะดูแปลกพอ ๆ กับการเสนอให้ป้อนข้อมูลด้วยแอสเซมบลี
เป็นวิธีแบบดั้งเดิมจริง ๆ และถ้าผลิตภัณฑ์ดี มันก็จะประสบความสำเร็จ
จริง ๆ แล้วเพราะ AI ฉันได้ทำ รีแฟกเตอร์ หลายรอบในระดับที่ปกติคงเป็นไปไม่ได้ ไม่ใช่แค่เพราะปริมาณงาน แต่บางครั้งยังไม่รู้ด้วยซ้ำว่าจะสำเร็จไหม จึงมีแรงเสียดทานซ้อนกันอยู่ ถ้ามี AI ก็แค่โยนงานรีแฟกเตอร์ไป แล้วไปดื่มกาแฟสักแก้ว ระหว่างนั้นก็ดูได้ว่ามันติดตรงไหน โดยรวมแล้ว AI จะทำให้มนุษย์แสดงตัวตนของตัวเองออกมาแบบสุดโต่งยิ่งขึ้น ทั้งด้านดีและด้านแย่ เพียงแต่ฉันคิดว่าด้านแย่จะมีมากกว่า
สำหรับธุรกิจขนาดเล็ก เราอาจข้ามโค้ดไปเลย แล้วเรนเดอร์ UI โดยตรงจากข้อมูลตามบริบทและพรอมป์ต์ในความเร็วระดับโต้ตอบได้ คล้ายกับที่ Google Genie ทำในเกม แต่แม่นยำกว่ามาก
เรื่องนี้จะทรงพลังมากใน งานเสียง แม้ความสามารถในการให้เหตุผลจะทำให้ LLM ฉลาดขึ้นมาก แต่เสียงมีงบหน่วงเวลาที่ตึงมากจนปกติใช้เวลาส่วนนั้นไม่ได้
Cerebras กำลังทดสอบ Kimi K2.6 ที่ 3000t/s แบบเฉพาะผู้ได้รับเชิญ ฉันตั้งตารอวันที่ฮาร์ดแวร์เร็ว ๆ จะกลายเป็นเรื่องปกติมากขึ้นในโมเดลแนวหน้า
โมเดลที่ Nvidia ออกแบบมาให้สอดคล้องกับความเร็วก็อาจเป็นส่วนเสริมที่ดีในการอุดช่องว่างนั้น
ความใหม่ของผลลัพธ์ครั้งนี้คือ ใช้ฮาร์ดแวร์มาตรฐาน คือเซิร์ฟเวอร์ที่มี GPU 8 ตัวเพียงเครื่องเดียว ก็ทำความเร็วเกิน 1000 token/s ได้แล้วบน โมเดลที่มีพารามิเตอร์มากกว่า 1 ล้านล้านตัว
น่าสนใจ โมเดล frontier ตอนนี้น่าประทับใจมากแล้ว แต่ทั้งหมดก็ยังช้าไปหน่อยสำหรับการเขียนโค้ดแบบโต้ตอบที่มี human-in-the-loop coding เลยผลักให้คนไปทาง vibe coding และรันหลายเอเจนต์แบบขนาน เอเจนต์ที่เร็วให้ความรู้สึกเหมือนเป็นพาร์ตเนอร์มากกว่า
อยู่พักหนึ่งเคยใช้ Cerebras GLM 4.7 กับหลายงาน มันไม่ใช่โมเดลที่ฉลาดมาก แต่ประสบการณ์ที่เปิดโปรโตไทป์สดของเว็บทิ้งไว้แล้วพิมพ์ว่า “ช่วยเพิ่มขนาดฟอนต์หน่อย ไม่ใช่เยอะขนาดนั้น” แล้วเห็นมันเปลี่ยนแบบเรียลไทม์นั้นยอดเยี่ยมมาก และ MiMo 2.5 ก็มีความสามารถเหนือกว่า GLM 4.7 มาก
GLM 5.1 เป็นรุ่นวนซ้ำล่าสุดของ z.ai และเป็นหนึ่งในโมเดลเขียนโค้ดแบบ open weight ที่ได้รับความนิยม ถ้าเคยใช้มา ก็น่าสนใจว่า GLM 5.1 ที่ตอนนี้ยังแพงกว่า MiMo 2.5 Pro แม้เพิ่งลดราคา 70% ไป จะเทียบกันอย่างไร
1k TPS ก็ยอดเยี่ยม แต่สิ่งที่น่าสนใจกว่า คือในเธรดนี้มีคอมเมนต์ที่ AI สร้างขึ้นอยู่กี่อัน