- Anthropic และ OpenAI ต่างก็เปิดตัว ‘fast mode’ สำหรับโมเดลเขียนโค้ดระดับท็อปของตนเอง เพื่อเพิ่มความเร็วในการอนุมานอย่างมาก
- Anthropic ใช้ โมเดล Opus 4.6 เดิมตามเดิม แต่ลดขนาดแบตช์ลง เพื่อให้ได้ ความเร็วในการประมวลผลโทเค็นสูงสุด 2.5 เท่า
- OpenAI เปิดตัว โมเดลใหม่ GPT-5.3-Codex-Spark ที่ใช้ชิป Cerebras ซึ่งสร้างได้ มากกว่า 1000 โทเค็นต่อวินาที แต่ ความแม่นยำค่อนข้างต่ำกว่า
- ทั้งสองแนวทางใช้หลักการทางเทคนิคที่ต่างกันโดยสิ้นเชิง ได้แก่ การอนุมานแบบแบตช์ต่ำ และ การอนุมานในหน่วยความจำบนชิปขนาดมหึมา
- แม้การอนุมานแบบรวดเร็วจะน่าประทับใจในเชิงเทคนิค แต่ก็มีข้อชี้ให้เห็นว่า ความแม่นยำสำคัญกว่าความเร็ว และ ความคุ้มค่าทางเศรษฐกิจรวมถึงการใช้งานจริงยังไม่แน่นอน
โครงสร้าง Fast Mode ของ Anthropic
- แนวทางของ Anthropic คือ ลดขนาดแบตช์เพื่อลด latency ให้ต่ำที่สุด
- คอขวดหลักของ GPU คือ การรับส่งหน่วยความจำ และการ batching ที่รวมคำขอจากผู้ใช้หลายคนเข้าด้วยกัน แม้จะเพิ่ม throughput ได้ แต่ก็ทำให้เวลารอสูงขึ้น
- Fast mode คล้ายกับ ‘รถบัสออกทันที’ ที่พร้อมออกเดินทางทันทีที่ผู้ใช้ส่งคำขอ
- วิธีนี้ให้ ความเร็วเพิ่มขึ้น 2.5 เท่า แต่มีต้นทุนสูงขึ้น 6 เท่า
- เมื่อไม่ต้องรอคิวแบตช์ latency จนถึงโทเค็นแรกจึงลดลง
- อย่างไรก็ตาม throughput รวมของ GPU จะลดลง
- ผู้ใช้บางส่วนชี้ว่า หลังจากโทเค็นแรกแล้ว latency ไม่ได้สูงมากนัก และผลของแบตช์ขนาดเล็กอาจใกล้เคียงกับ ความเร็วการรันที่ดีขึ้นจากภาระการคำนวณที่ลดลง มากกว่า
โครงสร้าง Fast Mode ของ OpenAI
- OpenAI ใช้ ชิป Cerebras เพื่อเลือกแนวทางที่แตกต่างออกไปโดยสิ้นเชิง
- แทนที่จะใช้โมเดลเดิม กลับใช้ โมเดล distilled แบบเบา ชื่อ GPT-5.3-Codex-Spark
- Spark มีความประณีตน้อยกว่าต้นฉบับ แต่ทำ ความเร็วในการอนุมานได้มากกว่า 15 เท่า
- ชิป Cerebras คือ ชิปแบบ wafer-scale ขนาดมหึมา 70 ตารางนิ้ว พร้อม SRAM 44GB ในตัว
- สามารถโหลดทั้งโมเดลไว้ใน SRAM และทำ การอนุมานในหน่วยความจำโดยไม่ต้องเข้าถึงหน่วยความจำภายนอก
- แตกต่างอย่างชัดเจนจาก SRAM ระดับหลายสิบ MB ของ GPU ทั่วไป
- คาดว่าโมเดล Spark ถูก sharding และกระจายค้างอยู่บนชิป Cerebras หลายตัว ซึ่งเป็นปัจจัยสำคัญของการเพิ่มความเร็ว
การเปรียบเทียบและประเมินทางเทคนิค
- Anthropic คงโมเดลเดิมไว้เหมือนเดิม แล้วปรับเพียงนโยบายการ batching
- OpenAI ผสาน สถาปัตยกรรมฮาร์ดแวร์ใหม่และการออกแบบโมเดลใหม่ เพื่อให้ได้การยกระดับประสิทธิภาพที่ลึกกว่า
- การรันโมเดลบนชิป Cerebras เป็น ความท้าทายทางเทคนิคที่ซับซ้อน และการฝึกโมเดล Spark เองก็ไม่ใช่งานง่าย
- แนวทางของทั้งสองบริษัทเป็นตัวอย่างของการไปสู่เป้าหมายเดียวกันคือ การเพิ่มความเร็ว ผ่านเส้นทางเทคนิคที่ต่างกัน โดยแนวทางของ OpenAI ดู น่าประทับใจในเชิงเทคนิคมากกว่า
ความหมายและข้อจำกัดของการอนุมานแบบรวดเร็ว
- จากการประกาศของทั้งสองบริษัท ทำให้ดูเหมือนว่า ‘การอนุมาน AI แบบรวดเร็ว’ กำลังเป็นแกนการแข่งขันถัดไป แต่ในความเป็นจริงมีลักษณะเป็น การตอบโต้เชิงกลยุทธ์ ค่อนข้างมาก
- Anthropic ดูเหมือนจะรีบตอบสนองต่อการประกาศของ OpenAI
- OpenAI ยังอยู่ในขั้นของการเปิดเผย ผลลัพธ์เชิงทดลองจากความร่วมมือกับ Cerebras
- โมเดลที่เร็วแต่ประณีตน้อยกว่า มี ข้อจำกัดในการใช้งานจริง
- ผู้ใช้ต้องใช้เวลามากขึ้นในการจัดการกับข้อผิดพลาดของโมเดล ดังนั้น ความแม่นยำจึงสำคัญกว่าความเร็ว
- อย่างไรก็ตาม โมเดลแบบ ‘ความแม่นยำต่ำแต่เร็ว’ เหล่านี้อาจมีบทบาทเป็น องค์ประกอบย่อยในระบบ AI
- ตัวอย่างเช่น กรณีการใช้ Haiku ใน Claude Code หรือความเป็นไปได้ที่ OpenAI จะนำ Spark ไปใช้งานภายใน
การถกเถียงในชุมชนและข้อสังเกตเพิ่มเติม
- ใน Hacker News มีการเสนอความเห็นหลากหลายเกี่ยวกับ ลักษณะประสิทธิภาพของ batching และ คอขวดจากการสื่อสารระหว่างชิป
- บางคนอ้างว่า continuous batching ทำให้แทบไม่มีเวลารอ
- ขณะที่บางคนโต้แย้งว่า การเชื่อมต่อระหว่างชิปส่งผลต่อความเร็วในการอนุมาน
- ความสัมพันธ์แบบแลกกันระหว่างขนาดแบตช์กับ latency ยังคงมีอยู่
- Anthropic ระบุชัดว่า latency ของโทเค็นแรกอาจยังช้าได้ ส่วน OpenAI พยายามลดปัญหานี้ด้วย การเชื่อมต่อถาวรแบบ WebSocket
- โดยรวมแล้ว โครงสร้างของการอนุมาน LLM แบบรวดเร็วมีความซับซ้อน และอธิบายด้วยโมเดลอย่างง่ายได้ยาก
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ผู้คนกำลังเข้าใจ fast mode ของ Anthropic ผิดไป น่าจะเป็นเพราะชื่อ
จริง ๆ แล้วมัน มีต้นทุนสูงกว่า และทำงานกับปัญหายาก ๆ ได้ฉลาดกว่า
แนวทาง parallel distill and refine ในงานวิจัยนี้ตรงกับสิ่งนี้พอดี
โครงสร้างคือสร้างหลายเส้นทางแบบขนาน จากนั้นกลั่น (distill) และปรับแต่ง (refine) อย่างรวดเร็วก่อนให้ผลลัพธ์
วิธีนี้ใช้โทเค็นมากกว่า แต่ทำให้ได้เอาต์พุตที่ทั้งเร็วกว่าและฉลาดกว่า
ส่วน speculative decoding ไม่ได้เกี่ยวกับการเพิ่มคุณภาพ และการ batching แบบธรรมดาจะเพิ่มความเร็วแต่ลดต้นทุน
Gemini Deepthink กับ GPT-5.2-pro ก็ใช้การอนุมานแบบขนานคล้ายกัน แต่จะคำนวณทุกเส้นทางจนจบก่อนแล้วค่อยปรับผลลัพธ์
ไอเดียใช้ ชิป Cerebras ที่มี SRAM 44GB เพื่อยกโมเดลทั้งตัวขึ้นไปไว้ในหน่วยความจำสำหรับรัน inference นั้นน่าสนใจ
ขนาดของ GPT-5.3-Codex-Spark จึงถูกจำกัดไม่ใช่ด้วยหน่วยความจำของชิปเดี่ยว แต่ด้วย จำนวนชิปที่เชื่อมต่อกันได้
Cerebras รองรับโมเดลใหญ่กว่า 40B ได้เร็วกว่าเช่นกัน ดังนั้น Spark น่าจะใกล้กับ GLM 4.7 (355B พารามิเตอร์, active 32B) มากกว่า
ดู หน้าราคา Cerebras
โซลูชันของ Groq, TPU และ Nvidia ดีกว่าในแง่ประสิทธิภาพพลังงาน
มีความเป็นไปได้สูงที่ Anthropic จะ route คำขอแบบ fast ไปยังฮาร์ดแวร์รุ่นใหม่ที่สุด
บริษัทมีทั้ง TPU, GPU และอุปกรณ์หลายเจเนอเรชัน จึงเดาว่า fast mode น่าจะถูกรันบนเครื่องที่เร็วที่สุดเท่านั้น
เทคนิคอย่าง speculative decoding ก็น่าจะถูกใช้อยู่แล้ว จึงไม่น่าใช่ผลจากการปรับปรุง batching
อย่างที่ข้อสรุปท้ายบทความบอก ตอนนี้คำกล่าวที่ว่า ความแม่นยำ สำคัญกว่าความเร็วนั้นอาจยังถูกต้อง
แต่ถ้าความร่วมมือ OpenAI–Cerebras ทำให้โมเดลใหญ่แบบ Codex-5.3 รันบนชิปได้โดยตรง
ก็อาจได้โมเดลที่ทั้งเร็วและแม่นพอจะทดแทนงานตอบลูกค้าได้
หากต่อไปมี ซิลิคอนเฉพาะทางสำหรับ LLM ยุคที่มีประสิทธิภาพกว่านี้มากก็น่าจะมาถึง
ปัญหาที่ต้องรอให้ batching ครบถูกแก้ไปแล้วด้วย continuous batching
เทคโนโลยีนี้เองที่ช่วยให้ Claude Code ให้บริการได้ในราคาถูก
บทความที่เกี่ยวข้อง
อุปมาเรื่องรถบัสดูแปลก ๆ เพราะในความเป็นจริง fast mode คือการกินสัดส่วนใน batch มากขึ้นเพื่อ เพิ่ม throughput
เมื่อดูจากขนาดทราฟฟิกของ Anthropic ก็คาดได้ว่า batch น่าจะเต็มแทบจะทันที
สงสัยว่าทำไม ChatGPT ตอบกลับแทบจะทันทีหลังส่งข้อความ
ที่ไม่ต้องรอ batching อาจเป็นเพราะทราฟฟิกสูงมากอยู่แล้ว หรือไม่ก็เพราะมีการ สตรีมอินพุตผ่าน WebSocket ไปยัง GPU ล่วงหน้า
หลายคนมักสับสนเรื่อง ความต่างระหว่าง SRAM กับ HBM
HBM มีพื้นฐานเป็น DRAM ความจุสูงกว่าแต่ช้ากว่า ส่วน SRAM เร็วกว่ามากแต่แพง
Cerebras รวม SRAM ขนาดมหึมา 44GB ไว้ในชิปเดียวเพื่อให้ได้ ความเร็วระดับสุดขั้ว
แต่การออกแบบก็ไม่ได้เรียบง่ายนัก ดังนั้นประสิทธิภาพจริงจึงขึ้นกับหลายปัจจัย
OpenAI อาจออกแบบโมเดลให้พอดีกับ 44GB หรือไม่ก็อาจ เชื่อมหลายชิปเป็นสายโซ่
ใน AI เสียงแบบเรียลไทม์ นั้น latency คือหัวใจสำคัญ
มนุษย์จะเริ่มรู้สึกแปลกเมื่อรอนานเกิน 800ms ดังนั้นเวลาที่เหลือให้ LLM inference ใช้ได้จะอยู่ราว 400~500ms
ที่ความเร็วระดับ Sonnet (80 tok/s) แค่ประโยคเดียวก็ยังยาก แต่ถ้าเป็นความเร็วของ Cerebras หรือ Groq (มากกว่า 1000 tok/s) จะทำได้เกิน 400 โทเค็น
เพราะแบบนี้ การจูนโมเดลขนาดเล็กให้ เฉพาะทางตามโดเมน อาจมีประสิทธิภาพกว่าโมเดลใหญ่
แนวทาง council ที่ผสมเอเจนต์ขนาดเล็กหลายตัวเข้าด้วยกันคือวิธีที่ได้ทั้งความเร็วและคุณภาพ
นอกจากนี้ หากใช้ speculative decoding เพื่อคาดเดาคำตอบที่ใช้บ่อยล่วงหน้าและเตรียม TTS ไว้ ก็อาจทำให้ 60% ของบทสนทนาตอบได้ภายใน 200ms