MiMo-V2.5-Pro-UltraSpeed: โมเดล 1T ที่สร้าง 1000 โทเค็นต่อวินาที

(mimo.xiaomi.com)

4 คะแนน โดย GN⁺ 2026-06-09 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

โมเดล 1 ล้านล้าน (1T) พารามิเตอร์ รุ่นแรกที่ทะลุความเร็วการถอดรหัส 1000 tokens/s
ทำความเร็วนี้ได้ด้วย commodity GPU โดยไม่ต้องพึ่งฮาร์ดแวร์เฉพาะทาง และทำเอาต์พุต 1000+ tps ได้บน โหนด 8-GPU มาตรฐาน เพียงเครื่องเดียว
เทคโนโลยีหลักคือการทำ model-system codesign ที่ผสาน FP4 quantization เข้ากับ DFlash speculative decoding
API เปิดให้ใช้งานแบบสมัครขอสิทธิ์และจำกัดช่วงเวลา โดยชูจุดขายว่า ราคาสูงขึ้น 3 เท่า แต่ความเร็วในการสร้างสูงขึ้นราว 10 เท่า
การทะลุ 1000 tps ไม่ใช่แค่เรื่องความเร็วที่เพิ่มขึ้น แต่เป็นจุดเปลี่ยนที่อาจเปลี่ยนกระบวนทัศน์ของแอปพลิเคชัน AI อย่าง Coding Agent และการตัดสินใจแบบเรียลไทม์โดยตรง

เปิดตัว Xiaomi MiMo-V2.5-Pro-UltraSpeed

ร่วมมือกับ TileRT ทำลายกำแพงความเร็วการถอดรหัส 1000 tokens/s ได้เป็นครั้งแรกในโมเดล 1 ล้านล้านพารามิเตอร์ มอบความเร็วในระดับที่รองรับการตอบสนองแบบเรียลไทม์และการวนซ้ำได้แทบจะทันที
ในการเปรียบเทียบความเร็วการสร้างแบบเรียลไทม์ ทำได้สูงสุด ประมาณ 1200 tokens/s
เสนอแนวคิดว่าเมื่อโมเดลเร็วพอ มันจะไม่ใช่เครื่องมือที่ต้องรออีกต่อไป แต่จะทำงานเป็นส่วนขยายของการคิด (extension of thinking)

เปิดให้ใช้งานแบบจำกัดเวลา · สมัครขอสิทธิ์

API เปิดตัวด้วยราคาโปรโมชันแบบจำกัด ให้ความเร็วในการสร้างราว 10 เท่า ที่ ต้นทุน 3 เท่าเมื่อเทียบกับ MiMo-V2.5-Pro (เฉพาะ API, ไม่รองรับ Token Plan)
เนื่องจากทรัพยากรสำหรับการอนุมานความเร็วสูงมีจำกัด จึงเปิดให้ใช้แบบสมัครขอสิทธิ์และจำกัดช่วงเวลา โดยผู้ใช้ที่ได้รับอนุมัติเท่านั้นจะใช้ API ได้ในช่วง 9 มิถุนายน 2026 ~ 23 มิถุนายน 2026 23:59 (UTC+8)
วิธีสมัคร
- แพลตฟอร์ม API อยู่ที่ platform.xiaomimimo.com/ultraspeed โดยการสมัครไม่ได้รับประกันว่าจะได้สิทธิ์ และจะให้ความสำคัญกับองค์กรหรือผู้พัฒนามืออาชีพที่มีความต้องการใช้งานทางธุรกิจจริง
- การเข้าถึงโมเดลมาตรฐานยังมีให้ผ่านซีรีส์ MiMo-V2.5
ทดลองใช้ Chat (ฟรีระหว่างช่วงทดลอง)
- ผู้ใช้ที่ได้รับอนุมัติจะได้สิทธิ์เข้าถึง Chat ฟรี 2 สัปดาห์ โดยจุดเข้าใช้งานคือ ultraspeed.xiaomimimo.com
- ต่อ 1 บัญชี สามารถเข้าคิวได้ สูงสุดวันละ 10 ครั้ง, ต่อเซสชันใช้งานได้ สูงสุด 30 นาที, และหาก ไม่มีการใช้งานเกิน 5 นาที ระบบจะยกเลิกเซสชันอัตโนมัติ

1000 tokens/s — การเปลี่ยนกระบวนทัศน์ที่มากกว่าความเร็ว

การทะลุ 1000 tps ในระดับ 1T ไม่ใช่แค่เครื่องพิมพ์ดีดที่เร็วขึ้น แต่เป็นการเปลี่ยนแปลงที่สั่นสะเทือนกระบวนทัศน์ของแอปพลิเคชัน AI โดยพื้นฐาน
เมื่อความเร็วแปรเปลี่ยนเป็นความฉลาด
- ภายในเวลาใช้งานจริง (wall-clock) เท่าเดิม สามารถรันเส้นทางการอนุมานหลายสิบเส้นทางแบบขนานได้ (Best-of-N / Tree Search) พร้อมตรวจสอบและแก้ไขตัวเองอัตโนมัติอยู่เบื้องหลัง ส่งผลให้คุณภาพการอนุมานดีขึ้นโดยตรง
ปลดล็อกข้อจำกัดด้านผลิตภาพของ Coding Agent
- เดิมทีความหน่วงของการอนุมาน (inference latency) คือคอขวด ทำให้นักพัฒนาต้องนั่งรอหน้าจอ แต่ที่ระดับ 1000 tps ความเร็วในการสร้างโค้ดและประสิทธิภาพการทำงานจะเร่งขึ้นในระดับกระบวนทัศน์
ก้าวเข้าสู่วงจรการตัดสินใจแบบเรียลไทม์
- ด้วยวงจร "think-respond" ระดับมิลลิวินาที โมเดลเรือธงระดับ 1T สามารถเชื่อมเข้ากับสถานการณ์ที่ไวต่อเวลาได้ เช่น การสร้างสัญญาณสำหรับ high-frequency quant trading, การบล็อกธุรกรรมผิดปกติทันที, intelligent bidding, บทสนทนาแบบเรียลไทม์
- ยังเสนออีกว่าหากนำไปใช้กับสถานการณ์ที่เกี่ยวข้องกับชีวิตและความตาย เช่น การช่วยผ่าตัดหรือการวิเคราะห์ภาพทางการแพทย์ ทุกวินาทีที่ย่นระยะเวลาการวิเคราะห์รอยโรคและการคาดการณ์ความเสี่ยงลง จะมอบอิสระในการตัดสินใจเพิ่มเติมให้ศัลยแพทย์

model-system codesign ขั้นสุด

การทำ 1000+ tps บนโมเดล 1T ไม่ได้มาจากเทคนิคเพียงอย่างเดียว แต่เป็นผลลัพธ์จาก codesign ขั้นสุดของ ทีมโมเดล MiMo และทีมระบบ TileRT
ต่างจากแนวทางในอุตสาหกรรมที่มักพึ่งฮาร์ดแวร์เฉพาะทางเพื่อให้ได้ความเร็วใกล้เคียงกัน เช่น Wafer-Scale ของ Cerebras หรือ สถาปัตยกรรม custom on-chip SRAM ของ Groq ผลลัพธ์นี้เกิดขึ้นได้ด้วย model-system codesign บน commodity GPU ล้วน ๆ
ฝั่งโมเดลใช้ FP4 quantization ที่มุ่งแก้คอขวดด้านแบนด์วิดท์เพื่อลดขนาดโมเดลและภาระการเข้าถึงหน่วยความจำ พร้อมนำ DFlash ที่อิงการทำนายแบบขนานด้วยการมาสก์เป็นบล็อกมาใช้ เพื่อเพิ่มความยาวของโทเค็นที่ยอมรับได้ต่อการตรวจสอบแต่ละรอบ
ฝั่งระบบ TileRT จัดเตรียมเอนจินคอมไพล์และเคอร์เนลการคำนวณที่ออกแบบให้เหมาะกับคุณสมบัติของอัลกอริทึมดังกล่าว จนทำเอาต์พุต 1000+ tps ได้บนโหนด commodity 8-GPU มาตรฐานเพียงเครื่องเดียว
3.1 FP4 Quantization
- ที่ขนาด 1T การอนุมานแบบ 8 บิตเดิม (FP8/INT8) และ 16 บิต มีภาระด้านการใช้หน่วยความจำและแรงกดดันด้านแบนด์วิดท์สูงเกินไป การลดความกว้างบิตจึงช่วยเพิ่มความเร็วการถอดรหัสโดยตรง
- เลือกใช้ฟอร์แมต FP4(MXFP4) ที่พิสูจน์แล้วว่าแทบไม่สูญเสียคุณภาพ แต่หากนำไปใช้กับทั้งโมเดลแบบตรง ๆ จะเกิดการลดลงของประสิทธิภาพในงานอนุมานตรรกะที่ซับซ้อน การใช้เหตุผล และการสร้างโค้ด
- ในสถาปัตยกรรม MoE(Mixture of Experts) จึงทำ quantization แบบเลือกเฉพาะกับ Experts ที่กินสัดส่วนพารามิเตอร์มากที่สุดและทนต่อ quantization ได้ดีที่สุดเป็น FP4 ส่วนโมดูลอื่นยังคงใช้ความแม่นยำเดิม
- ด้วย FP4 QAT(Quantization-Aware Training) จึงลดขนาดโมเดลและใช้แบนด์วิดท์ฮาร์ดแวร์ได้สูงสุด โดยยังรักษาประสิทธิภาพโดยรวมให้อยู่ในระดับแทบเทียบเท่าต้นฉบับ
3.2 DFlash Speculative Decoding
- speculative decoding แบบดั้งเดิมใช้ draft model ขนาดเล็กทำนายโทเค็นถัดไป แล้วให้โมเดลขนาดใหญ่ตรวจสอบ โดยคุณภาพของ draft เป็นตัวกำหนดอัตราการยอมรับ แต่ยิ่ง draft แข็งแรงเท่าไร ต้นทุนการคำนวณก็ยิ่งสูงขึ้น เป็นความตึงเครียดเชิงโครงสร้างที่หลีกเลี่ยงไม่ได้
- DFlash ทำให้ draft model เติมทั้งบล็อกที่ถูกมาสก์ได้ในการทำ forward pass เพียงครั้งเดียว จึงปลดข้อจำกัดเชิงลำดับของ "autoregressive drafting"
- ใช้ Muon second-order optimizer และ self-distillation ของโมเดลเพื่อบีบโอเวอร์เฮดของขั้น draft ลงไปใกล้ระดับต่ำสุดตามทฤษฎี
  - draft model ใช้เพียง Sliding Window Attention(SWA) ซึ่งสอดคล้องอย่างเป็นธรรมชาติกับการออกแบบ SWA ของซีรีส์ MiMo-V2 และด้วยการตัดการพึ่งพา prefix แบบสมบูรณ์ ทำให้ต้นทุนการคำนวณต่อการทำนายลดจากแปรผันตามความยาว context เหลือเป็นค่าคงที่
  - ระหว่างการฝึก มีการย้ายการสุ่ม mask-signal ลงไปยัง GPU-local shard ทำให้ซีเควนซ์เดียวสร้างสัญญาณการฝึกอิสระได้หลายหมื่นรายการในหนึ่งสเต็ป โดยหลีกเลี่ยงโอเวอร์เฮดการสื่อสารระหว่างอุปกรณ์
- จำกัดขนาดบล็อกไว้ที่ 8 เพื่อลดโอเวอร์เฮดของการตรวจสอบและเพิ่มความพร้อมกัน โดยความยาวการยอมรับที่สูงจะแปลงเป็น throughput ของการอนุมานที่สูงขึ้นโดยตรง
- ความยาวการยอมรับเฉลี่ย (Acceptance Length) ตามสถานการณ์
  - Coding 6.30 (บางตัวอย่างสูงสุด 7.14 โดยยอมรับได้ 6~7 โทเค็นจาก draft 8 โทเค็น)
  - Math / Reasoning 5.56
  - Agent 4.29
- สำหรับสถานการณ์สนทนาทั่วไปที่มีการกระจายเชิงความหมายมากกว่าและความไม่แน่นอนสูงกว่า ปัจจุบันอัตราการยอมรับยังค่อนข้างต่ำ และยังอยู่ระหว่างการปรับปรุงอย่างต่อเนื่อง
3.3 TileRT เคอร์เนล / ระบบอนุมานความหน่วงต่ำระดับพิเศษ
- ที่ความถี่การทำงานระดับ 1000 tokens/s อายุของแต่ละโอเปอเรเตอร์จะถูกบีบลงสู่ระดับไมโครวินาที ทำให้ "operator boundaries" ของระบบอนุมานแบบดั้งเดิมกลายเป็นคอขวดสำคัญ
- ทุกครั้งที่เริ่มรันโอเปอเรเตอร์ ซิงก์กับฮาร์ดแวร์ หรือวิ่งไปกลับ global memory กระแสการทำงานจะสะดุด เกิด "Execution Gaps" ที่มองเห็นได้ชัด
- นวัตกรรมโมเดลการรันระดับเปลี่ยนเกมของ TileRT
  - Persistent Engine Kernel: เลิกวิธีเริ่มรันแยกตามโอเปอเรเตอร์ แล้วคงทั้งไปป์ไลน์การคำนวณให้ไหลและอยู่ประจำภายใน GPU ตลอดเวลา เพื่อให้เกิดการซ้อนทับ (overlap) ระหว่างการเคลื่อนย้ายข้อมูลกับการคำนวณในระดับสูงสุด
  - Warp Specialization(ความร่วมมือของไปป์ไลน์แบบ heterogeneous): แยกการสื่อสาร การย้ายข้อมูล และการคำนวณเทนเซอร์เชิงกายภาพให้ละเอียดขึ้นในระดับ Tile ทำลายโมเดล lock-step แบบเนื้อเดียว และเปลี่ยน GPU ให้กลายเป็นระบบรันงานแบบ heterogeneous ที่จูนอย่างแม่นยำ
- การหลอมรวมฮาร์ดแวร์-ซอฟต์แวร์เชิงลึกระดับไมโครวินาที (Codesign)
  - ฝั่งโมเดลเลือกใช้ mixed FP4 quantization สำหรับ MoE Experts และ speculative decoding แบบ DFlash ที่จัดแนวกับ SWA สำหรับสถาปัตยกรรม 1 ล้านล้านพารามิเตอร์ ขณะที่ TileRT ก็ผสานแน่นกับคุณลักษณะของอัลกอริทึมและรูปแบบ quantization ดังกล่าว เพื่อมอบเอนจินคอมไพล์และเคอร์เนลการคำนวณที่ออกแบบเฉพาะ
  - ทั้งสองทีมทำงานร่วมกันบนพื้นฐานของข้อแลกเปลี่ยนทางวิศวกรรมที่ยึดโยงกับฟิสิกส์ของฮาร์ดแวร์ เพื่อให้แรงกดดันในการประมวลผลค่อย ๆ บรรจบกันอย่างลื่นไหลภายในขอบเขตของฮาร์ดแวร์
  - TileRT เป็นทีมสถาปัตยกรรมระบบที่มุ่งเน้นโครงสร้างพื้นฐาน AI รุ่นถัดไปและการอนุมานความหน่วงต่ำระดับพิเศษ โดยใช้ persistent kernel, tile pipeline และความร่วมมือแบบ heterogeneous เพื่อทะลุข้อจำกัดแบบฟูลสแตก และดึงการใช้ประโยชน์จากการคำนวณให้ถึงขีดสุดในสภาพแวดล้อม heterogeneous ที่ซับซ้อน

เดโมวิดีโอเพิ่มเติม

เดโมสร้างเกม Snake ภายใน 10 วินาที
เดโมสร้างอินเทอร์เฟซ MacOS ใหม่ภายใน 1 นาที

โอเพนซอร์สและแนวโน้ม

เปิดซอร์สเช็กพอยต์ MiMo-V2.5-Pro-FP4-DFlash บน HuggingFace โดยมีทั้งน้ำหนักแบบ FP4 quantization และพารามิเตอร์ของโมเดล DFlash
กำลังเตรียม UltraSpeed support สำหรับ MiMo-V2.5

1 ความคิดเห็น

GN⁺ 2026-06-09

ความเห็นจาก Hacker News

AI ที่เร็ว น่าสนใจมากจริง ๆ แต่ก็ค่อนข้างน่ากังวลด้วย ตอนนี้ Claude ก็เร็วกว่าเราสำหรับงานบางอย่างแล้ว แต่ก็ยังอยู่ในระดับใกล้เคียงกัน
ตอนนี้กำลังรันพรอมป์ต์สรุป PR มาได้ 1 ชั่วโมงแล้ว และน่าจะต้องใช้เวลาอีกหลายชั่วโมง ถ้าสิ่งนี้จบได้แทบจะทันที ก็ยากจะจินตนาการว่าเวิร์กโฟลว์จะเปลี่ยนไปอย่างไร บางครั้งก็เริ่มทำหลายอย่างพร้อมกันเพราะพรอมป์ต์ใช้เวลานาน แล้วค่อยมานั่งเสียใจทีหลัง ในทางกลับกัน ถ้าเป็น AI ที่ทำงานซึ่งเคยกินเวลาหลายชั่วโมงหรือหลายวันให้เสร็จได้ภายในไม่กี่วินาทีถึงไม่กี่นาที นั่นคือ การเปลี่ยนเกมทั้งกระดาน และไม่รู้จริง ๆ ว่าเราจะไปอยู่ตรงไหน
- ผมใช้ Deepseek-v4-pro เป็นโมเดลหลัก และบางทีก็น่าหงุดหงิดมาก มอบงานจุกจิกง่าย ๆ ให้มันแล้วคิดว่า “เดี๋ยวปล่อยให้เอเจนต์ทำไป แล้วฉันงีบสักหน่อยดีกว่า” แต่ยังไม่ทันลุกจากหน้าคอม มันก็เขียนโค้ดเสร็จหมดแล้ว
- เคยใช้ groq กับ GPT OSS แล้ว 20B วิ่งที่ 1000 TPS, 120B วิ่งที่ 800 TPS จนรู้สึกว่าความเร็วมันเหมือนเวทมนตร์
  ยังไม่เคยใช้ 3000 TPS ของ Cerebras แต่เคยลองเดโมโมเดล 15,000 TPS ที่จำชื่อไม่ได้ ไม่แน่ใจว่ามันสร้างความแตกต่างที่มีความหมายกับงานจริงแค่ไหน แต่การเห็นข้อความถูกสร้างเต็มหน้าจอในพริบตานั้นน่าทึ่งมาก มีประโยชน์มากสำหรับการตรวจเล็ก ๆ น้อย ๆ เช่นการดู diff แล้วเช็กว่าการเปลี่ยนแปลงตรงตามที่ตั้งใจหรือไม่ และถ้าทำการตรวจแบบนี้ได้เร็วหลายรอบ ก็ช่วยให้ตรวจแบบมีสมาธิได้มากโดยไม่ถูกรบกวน
- ถ้า latency ต่ำพอ ก็ไม่มีเหตุผลต้องทำหลายอย่างพร้อมกัน สั่งทีละอย่างแล้วดูผลได้ทันที ซึ่งเป็นวิธีทำงานที่ค่อนข้างดี
  สำหรับงานที่ไม่ได้เน้นการคำนวณหนัก เดิมที UI แบบโต้ตอบก็เป็นอย่างนี้อยู่แล้ว โปรแกรมส่วนใหญ่แค่นั่งว่างรอให้ผู้ใช้กดปุ่ม เราไม่จำเป็นต้องรอโปรแกรม หรือคอยหมุนหลายจานให้ยุ่งอยู่ตลอด แต่แค่ LLM ที่เร็วขึ้นอย่างเดียวไม่พอ ยังต้องมี การคอมไพล์และการทดสอบที่เร็ว ด้วย
- คอขวดถัดไปคือ คอมไพเลอร์ แต่ก็ทำเป็นโมเดลด้วย LLM ได้ แค่ผิดประมาณ 15% เอง :)
  พูดจริง ๆ คือการใช้ Cerebras ที่ราว 2k tokens/s พร้อม latency ต่ำมาก ให้ความรู้สึกเหมือนได้เห็นอนาคต มันทำให้ต้องจัดเวิร์กโฟลว์ใหม่โดยเน้นงานที่สามารถเกิดขึ้นได้โดยไม่ต้องมีการรีวิวด้วยมือที่หนักหน่วง เช่นการระบุเงื่อนไขความสำเร็จให้ชัดเจน ปัญหาของผมมีไม่กี่อย่างที่เข้ากับแนวนี้ได้ดี แต่คิดว่าอนาคตน่าจะไปทางนี้ แน่นอนว่าโมเดลที่เร็วมากมักไม่ใช่โมเดลที่เก่งที่สุด แต่ถ้าไปถึงจุดที่ คิดได้คุณภาพสูงแทบจะทันที นั่นจะเป็นตัวพลิกเกมที่เราไม่ได้เตรียมพร้อมรับมือจริง ๆ
- มันมีสองด้าน ถ้าสั่ง Gemini 3.5 Flash ให้ทำอะไรบางอย่าง มันแทบจะให้ผลลัพธ์ทันทีและมักทำงานได้ดี จนบางครั้งความเร็วนั้นน่ากลัวนิด ๆ
  แต่พอสั่งงานอีกประเภท มันก็อาจหลงทางไปเลย เมื่อก่อนยังแทรกได้ว่า “เดี๋ยวก่อน นั่นไม่ใช่” แต่ตอนที่ข้อความขึ้นบนจอและเราทันจะตอบสนอง มันก็มักเปลี่ยนอะไรไปชุดใหญ่แล้ว ถ้าไม่ได้บังคับให้คอมมิตทุกครั้งที่แก้ไข ก็ยากที่จะกันไม่ให้มันพลาดได้เร็วพอ ๆ กับเวลาที่มันทำถูก และถ้ามีสิทธิ์เยอะ มันก็อาจทำพลาดกับ remote API ได้ด้วย
ผมไม่ค่อยเข้าใจเรื่องผลิตภาพนัก ในมุมของพนักงานทั่วไป ต่อให้งานที่เคยใช้ 2 วัน ตอนนี้ทำได้ใน 2 ชั่วโมง ก็ไม่ได้สำคัญขนาดนั้น เพราะเวลาเหลือก็ไม่ได้เอาไปใช้ตามใจตัวเอง ยังไงก็ต้องทำงานวันละ 8 ชั่วโมงอยู่ดี
เมื่อก่อนยังมีความสุขจากการได้ขุดลึกกับปัญหาอยู่ 2 วัน แต่ตอนนี้มันเปลี่ยนเป็นรูปแบบการดึง สล็อตแมชชีน หวังว่าจะได้คำตอบที่ถูกต้องด้วยพรอมป์ต์ที่ถูกต้อง สำหรับพวกเรา ผมว่ามันกลับแย่ลงเสียอีก แน่นอนว่าสำหรับบริษัทและผู้บริหาร สถานการณ์กลับตรงกันข้ามโดยสิ้นเชิง และคงชอบสถานการณ์ AI มาก
- ถ้าแบ่งงานที่จะให้ AI ทำออกเป็น ชิ้นเล็ก ๆ ก็ยังรักษาอำนาจควบคุมสถาปัตยกรรมไว้ได้ และมันจะไม่กลายเป็นสล็อตแมชชีน เรายังคงอ่านโค้ด และบางครั้งก็ยังเขียนเองด้วย
  ถึงจะใช้ไม่มาก แต่นั่นคือราคาที่ต้องจ่ายเพื่อให้ได้ความเร็วมากขึ้น ถ้าโยนงานใหญ่ให้ AI แล้วกลับมาดูอีกชั่วโมงหลังจากนั้น คุณอาจพบว่าเสียเวลาไปหนึ่งชั่วโมงและไม่ได้อะไรเลย
- สำหรับผม โมเดลที่ช้าทำให้จัดการ บริบทและงานแบบขนาน ได้ยากมาก ทำทีละงานให้เสร็จ พัก แล้วค่อยไปงานถัดไป ดีกว่ามาก
  ตอนนี้ผมรันสามงานคู่ขนานกันในสามแท็บ และต้องสลับบริบทตลอด มันทรมานกว่ามาก ถ้าเป็นโมเดลที่เร็วกว่า ก็ไม่จำเป็นต้องเริ่มงานใหม่ระหว่างรอ
- เทคโนโลยีอะไรก็ตาม มีทั้งวิธีใช้แบบโง่และแบบฉลาด การปฏิบัติกับมันเหมือนเป็น “สล็อตแมชชีนที่ให้คำตอบถูก” คือวิธีใช้แบบโง่ มันอาจใช้ได้ชั่วคราว แต่ไปไม่ไกล เพราะทุกคนก็ทำเหมือนกันได้
  ไม่มีใครห้ามคุณใช้เทคโนโลยีนี้เพื่อขุดปัญหาให้ลึกกว่าเดิม นั่นแหละคือ วิธีใช้แบบฉลาด
- ไม่รู้ว่าพนักงานทำงานวันละ 8 ชั่วโมงนี่เป็นเรื่องของโลกไหน อาจลงเวลาเข้างานครบ 8 ชั่วโมงก็จริง แต่ไม่ได้ทำงานตลอดเวลานั้น
- ความสามารถของเราในการ ประเมินคุณภาพของผลลัพธ์ กำลังตามหลังความสามารถในการสร้างผลลัพธ์นั้นมากขึ้นเรื่อย ๆ และยากจะบอกได้ว่า “คำตอบที่ถูก” คือผลลัพธ์ที่ดูน่าเชื่อที่สุด
หากการ ปรับราคา·ความเร็วให้เหมาะสม ของผู้ให้บริการจากจีนรวมเข้ากับการขึ้นราคาของบริษัทอเมริกัน เกมนี้คงเปลี่ยนไปในไม่ช้า หลายบริษัทกำลังมีปัญหากับบิล AI อยู่แล้ว
- โมเดลจากจีนดีพอและราคาถูก
  ฉันใช้ GitHub Copilot แบบสมาชิกรายปีอยู่ และ Microsoft เพิ่งเปลี่ยนการคิดค่าบริการเป็นแบบอิงตามโทเค็น แม้ตอนนี้ยังคิดเป็นหน่วยคำขอพรีเมียม แต่ GPT 5.4 จากเดิม 1x ตอนนี้กลายเป็น 6x แล้ว
- ช่วงนี้งบไม่มาก เลยพยายามใช้ DeepSeek v4 Flash, GLM 5.1 ฯลฯ ให้มากที่สุดแทน Claude หรือ GPT
- อีกปัญหาหนึ่งคือโมเดลของอเมริกาเป็น ซอร์สปิดทั้งหมด ถ้าเป็นองค์กรใหญ่ก็อาจไม่อยากให้ตัวเองตกเป็นตัวประกันของ OpenAI หรือ Anthropic
  ฉันไม่เข้าใจจริง ๆ ว่าห้องแล็บโมเดลของสหรัฐมีคูเมืองอะไรอยู่ ถ้าพูดกันว่าการปรับปรุงตนเองแบบวนซ้ำใกล้มาถึงแล้ว แต่แล็บจีนตามหลังโมเดลชั้นนำของอเมริกาแค่นิดเดียว งั้นคูเมืองของแล็บอเมริกาคืออะไร? หรือว่าโมเดลอเมริกันเก่งกว่าโมเดลโอเพนซอร์สของจีนในการปรับปรุงตนเองแบบวนซ้ำ? ฉันอาจคิดผิดทั้งหมดก็ได้ แต่ถ้าฉันลงเงินไว้กับ OpenAI หรือ Anthropic ตอนนี้คงอยากถอนออกให้หมด ฉันคิดว่าในอีกไม่กี่ปีข้างหน้ามีโอกาสสูงทีเดียวที่มันจะเข้าใกล้ศูนย์
- ปัญหาที่ใหญ่กว่าคือ ความสม่ำเสมอของโมเดล เราไม่รู้ว่า Anthropic จะเก็บราคา Opus แล้วแอบส่งคำขอไปยังโมเดลที่ถูกกว่าหรือไม่
  เพราะงั้นจึงคาดการณ์ต้นทุนงานไม่ได้ อาจต้องเริ่มใหม่หลายครั้งและจ่ายเงินทุกครั้ง แถมยังต้องใส่พรอมป์ต์เพิ่มเพื่อกะให้ได้ว่าโมเดลที่ได้มาเป็นของจริงหรือของปลอม ทำให้ใช้โทเค็นมากขึ้นอีก
- ฉันสงสัยว่า โครงสร้างทางเศรษฐกิจ แบบไหนที่ผลักดันการตั้งราคาเช่นนี้ ไม่รู้ว่าบริษัทจีนอุดหนุนโมเดลมากกว่าสหรัฐ หรือเป็นผลจากความต่างของนโยบายพลังงานระหว่างประเทศ
ถ้า MiMo ถูกพอ ๆ กับ Deepseek อ้างอิงจากการคุยก่อนหน้า https://news.ycombinator.com/item?id=48282814 ต่อให้คูณ 3 เพื่อความเร็วระดับสูงมาก ก็ยังถูกจนน่าตกใจอยู่ดี
- ไม่ใช่เพราะ MiMo กับ DeepSeek ถูก แต่เป็นเพราะ Anthropic กับ OpenAI แพงเกินไปเมื่อเทียบกับคุณค่าที่ให้
MiMo V2.5 Pro เวอร์ชันความเร็วปกติยังคงเป็นโมเดลเขียนโค้ดแบบเอเจนต์ที่มี open weights ที่แข็งแกร่งที่สุดในบรรดาที่เราทดสอบมา น่าสนใจที่มันได้รับความสนใจน้อยกว่ารุ่นปล่อยออกมาที่ประสิทธิภาพต่ำกว่าอย่างมาก
ราคา “fast mode” ตรงนี้ก็แข่งขันได้มากเช่นกัน ข้อมูลอยู่ที่ https://gertlabs.com/rankings
- ทำไม deepseek v4 pro ถึงออกมาต่ำกว่า flash มาก? แล้ว mimo 2.5 อยู่ตรงไหน?
มันอาจฟังดูเหมือนการโฆษณา แต่การเติบโตแบบเอ็กซ์โปเนนเชียลมีอยู่จริง เรากำลังจะไปถึงขั้นที่สามารถสร้างซอฟต์แวร์หลายตัวจากพรอมป์ต์ได้แทบจะทันที แล้วเลือกตัวที่ดีที่สุดจากนั้น
การถกกันว่าจะเลือกไลบรารีที่มีชื่อเมธอดแบบ syntactic sugar ที่ดีที่สุด จะดูแปลกพอ ๆ กับการเสนอให้ป้อนข้อมูลด้วยแอสเซมบลี
- ฟังดูเหมือน การเติบโตแบบเอ็กซ์โปเนนเชียล ของซอฟต์แวร์ห่วย ๆ เมื่อก่อนก็ใช่ว่าวงการซอฟต์แวร์จะไม่มีขยะผลิตจำนวนมาก แต่ต่อไปมันจะล้นทะลักแบบระเบิด
- เมื่อก่อนเคยมีช่วงที่มี เฟรมเวิร์กฟรอนต์เอนด์ ใหม่ออกมาทุก 3 เดือน ตอนนี้แทบหยุดไปแล้วและไม่มีใครสนใจ
- ไม่แน่ใจนะ วิศวกรก็ยังทำซอฟต์แวร์แบบเดิมได้อยู่ อย่างเช่นใช้เวลาหลายเดือนสร้างอะไรแบบ Obsidian หรือ Ghostty โดยใส่ใจโค้ดทีละบรรทัด ดูแล dependency และสถาปัตยกรรมที่ดี
  เป็นวิธีแบบดั้งเดิมจริง ๆ และถ้าผลิตภัณฑ์ดี มันก็จะประสบความสำเร็จ
- ฉันมองในแง่บวกมากกว่า ถ้า AI ดีขึ้นและเร็วขึ้น เราจะปรับปรุงโค้ดที่เมื่อก่อนเลี่ยงเพราะปริมาณงานได้เร็วขึ้นและทำซ้ำได้มากขึ้น
  จริง ๆ แล้วเพราะ AI ฉันได้ทำ รีแฟกเตอร์ หลายรอบในระดับที่ปกติคงเป็นไปไม่ได้ ไม่ใช่แค่เพราะปริมาณงาน แต่บางครั้งยังไม่รู้ด้วยซ้ำว่าจะสำเร็จไหม จึงมีแรงเสียดทานซ้อนกันอยู่ ถ้ามี AI ก็แค่โยนงานรีแฟกเตอร์ไป แล้วไปดื่มกาแฟสักแก้ว ระหว่างนั้นก็ดูได้ว่ามันติดตรงไหน โดยรวมแล้ว AI จะทำให้มนุษย์แสดงตัวตนของตัวเองออกมาแบบสุดโต่งยิ่งขึ้น ทั้งด้านดีและด้านแย่ เพียงแต่ฉันคิดว่าด้านแย่จะมีมากกว่า
- แนวโน้มแบบเอ็กซ์โปเนนเชียลจะนำไปสู่ การประมวลผลในหน่วยความจำทั้งหมด ภายในไม่กี่ปี และมันจะมีประสิทธิภาพมากขึ้น 100 เท่า นั่นหมายความว่าจะมีโมเดลที่ใหญ่ขึ้นอย่างน้อย 10 เท่า ฉลาดขึ้นมาก และยังเร็วมากด้วย
  สำหรับธุรกิจขนาดเล็ก เราอาจข้ามโค้ดไปเลย แล้วเรนเดอร์ UI โดยตรงจากข้อมูลตามบริบทและพรอมป์ต์ในความเร็วระดับโต้ตอบได้ คล้ายกับที่ Google Genie ทำในเกม แต่แม่นยำกว่ามาก
เรื่องนี้จะทรงพลังมากใน งานเสียง แม้ความสามารถในการให้เหตุผลจะทำให้ LLM ฉลาดขึ้นมาก แต่เสียงมีงบหน่วงเวลาที่ตึงมากจนปกติใช้เวลาส่วนนั้นไม่ได้
Cerebras กำลังทดสอบ Kimi K2.6 ที่ 3000t/s แบบเฉพาะผู้ได้รับเชิญ ฉันตั้งตารอวันที่ฮาร์ดแวร์เร็ว ๆ จะกลายเป็นเรื่องปกติมากขึ้นในโมเดลแนวหน้า
โมเดลที่ Nvidia ออกแบบมาให้สอดคล้องกับความเร็วก็อาจเป็นส่วนเสริมที่ดีในการอุดช่องว่างนั้น
- ต้นฉบับบอกว่าจนถึงตอนนี้ หากจะไปถึงความเร็วระดับนี้ต้องใช้ฮาร์ดแวร์เฉพาะทางและราคาแพงมากอย่าง Cerebras
  ความใหม่ของผลลัพธ์ครั้งนี้คือ ใช้ฮาร์ดแวร์มาตรฐาน คือเซิร์ฟเวอร์ที่มี GPU 8 ตัวเพียงเครื่องเดียว ก็ทำความเร็วเกิน 1000 token/s ได้แล้วบน โมเดลที่มีพารามิเตอร์มากกว่า 1 ล้านล้านตัว
- อยากรู้แหล่งที่มา บนเว็บไซต์ Cerebras เขียนว่า 1000t/s https://www.cerebras.ai/blog/which-is-faster-gemini-3-5-flas...
- Cerebras โชคดีที่เข้าตลาดหลักทรัพย์เมื่อเดือนที่แล้ว ถ้าเป็นตอนนี้คงต่างออกไป
- ตอนนี้ Cerebras ยังไม่มีส่วนลด prefix caching ทำให้ในงานแบบเอเจนต์ ต้นทุนใช้งานแพงกว่าตาม sqr(n_turns)
น่าสนใจ โมเดล frontier ตอนนี้น่าประทับใจมากแล้ว แต่ทั้งหมดก็ยังช้าไปหน่อยสำหรับการเขียนโค้ดแบบโต้ตอบที่มี human-in-the-loop coding เลยผลักให้คนไปทาง vibe coding และรันหลายเอเจนต์แบบขนาน เอเจนต์ที่เร็วให้ความรู้สึกเหมือนเป็นพาร์ตเนอร์มากกว่า
อยู่พักหนึ่งเคยใช้ Cerebras GLM 4.7 กับหลายงาน มันไม่ใช่โมเดลที่ฉลาดมาก แต่ประสบการณ์ที่เปิดโปรโตไทป์สดของเว็บทิ้งไว้แล้วพิมพ์ว่า “ช่วยเพิ่มขนาดฟอนต์หน่อย ไม่ใช่เยอะขนาดนั้น” แล้วเห็นมันเปลี่ยนแบบเรียลไทม์นั้นยอดเยี่ยมมาก และ MiMo 2.5 ก็มีความสามารถเหนือกว่า GLM 4.7 มาก
- เคยลองใช้ GLM 4.7 เป็นเอเจนต์เขียนโค้ดแล้ว แต่แม้แต่สคริปต์ง่าย ๆ ยาว 200~1000 บรรทัดก็แย่มาก ๆ ต้องเลิกใช้โมเดลที่ Cerebras ให้มา และโมเดลที่ฉลาดกว่านั้นมีอยู่แค่ในแพลน enterprise
- MiMo 2.5 ไม่ใช่โมเดลเดียวกับ MiMo 2.5 Pro
  GLM 5.1 เป็นรุ่นวนซ้ำล่าสุดของ z.ai และเป็นหนึ่งในโมเดลเขียนโค้ดแบบ open weight ที่ได้รับความนิยม ถ้าเคยใช้มา ก็น่าสนใจว่า GLM 5.1 ที่ตอนนี้ยังแพงกว่า MiMo 2.5 Pro แม้เพิ่งลดราคา 70% ไป จะเทียบกันอย่างไร
1k TPS ก็ยอดเยี่ยม แต่สิ่งที่น่าสนใจกว่า คือในเธรดนี้มีคอมเมนต์ที่ AI สร้างขึ้นอยู่กี่อัน

MiMo-V2.5-Pro-UltraSpeed: โมเดล 1T ที่สร้าง 1000 โทเค็นต่อวินาที

เปิดตัว Xiaomi MiMo-V2.5-Pro-UltraSpeed

เปิดให้ใช้งานแบบจำกัดเวลา · สมัครขอสิทธิ์

วิธีสมัคร

ทดลองใช้ Chat (ฟรีระหว่างช่วงทดลอง)

1000 tokens/s — การเปลี่ยนกระบวนทัศน์ที่มากกว่าความเร็ว

เมื่อความเร็วแปรเปลี่ยนเป็นความฉลาด

ปลดล็อกข้อจำกัดด้านผลิตภาพของ Coding Agent

ก้าวเข้าสู่วงจรการตัดสินใจแบบเรียลไทม์

model-system codesign ขั้นสุด

3.1 FP4 Quantization

3.2 DFlash Speculative Decoding

3.3 TileRT เคอร์เนล / ระบบอนุมานความหน่วงต่ำระดับพิเศษ

นวัตกรรมโมเดลการรันระดับเปลี่ยนเกมของ TileRT

การหลอมรวมฮาร์ดแวร์-ซอฟต์แวร์เชิงลึกระดับไมโครวินาที (Codesign)

เดโมวิดีโอเพิ่มเติม

โอเพนซอร์สและแนวโน้ม

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News