6 คะแนน โดย GN⁺ 2026-02-16 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Anthropic และ OpenAI ต่างก็เปิดตัว ‘fast mode’ สำหรับโมเดลเขียนโค้ดระดับท็อปของตนเอง เพื่อเพิ่มความเร็วในการอนุมานอย่างมาก
  • Anthropic ใช้ โมเดล Opus 4.6 เดิมตามเดิม แต่ลดขนาดแบตช์ลง เพื่อให้ได้ ความเร็วในการประมวลผลโทเค็นสูงสุด 2.5 เท่า
  • OpenAI เปิดตัว โมเดลใหม่ GPT-5.3-Codex-Spark ที่ใช้ชิป Cerebras ซึ่งสร้างได้ มากกว่า 1000 โทเค็นต่อวินาที แต่ ความแม่นยำค่อนข้างต่ำกว่า
  • ทั้งสองแนวทางใช้หลักการทางเทคนิคที่ต่างกันโดยสิ้นเชิง ได้แก่ การอนุมานแบบแบตช์ต่ำ และ การอนุมานในหน่วยความจำบนชิปขนาดมหึมา
  • แม้การอนุมานแบบรวดเร็วจะน่าประทับใจในเชิงเทคนิค แต่ก็มีข้อชี้ให้เห็นว่า ความแม่นยำสำคัญกว่าความเร็ว และ ความคุ้มค่าทางเศรษฐกิจรวมถึงการใช้งานจริงยังไม่แน่นอน

โครงสร้าง Fast Mode ของ Anthropic

  • แนวทางของ Anthropic คือ ลดขนาดแบตช์เพื่อลด latency ให้ต่ำที่สุด
    • คอขวดหลักของ GPU คือ การรับส่งหน่วยความจำ และการ batching ที่รวมคำขอจากผู้ใช้หลายคนเข้าด้วยกัน แม้จะเพิ่ม throughput ได้ แต่ก็ทำให้เวลารอสูงขึ้น
    • Fast mode คล้ายกับ ‘รถบัสออกทันที’ ที่พร้อมออกเดินทางทันทีที่ผู้ใช้ส่งคำขอ
  • วิธีนี้ให้ ความเร็วเพิ่มขึ้น 2.5 เท่า แต่มีต้นทุนสูงขึ้น 6 เท่า
    • เมื่อไม่ต้องรอคิวแบตช์ latency จนถึงโทเค็นแรกจึงลดลง
    • อย่างไรก็ตาม throughput รวมของ GPU จะลดลง
  • ผู้ใช้บางส่วนชี้ว่า หลังจากโทเค็นแรกแล้ว latency ไม่ได้สูงมากนัก และผลของแบตช์ขนาดเล็กอาจใกล้เคียงกับ ความเร็วการรันที่ดีขึ้นจากภาระการคำนวณที่ลดลง มากกว่า

โครงสร้าง Fast Mode ของ OpenAI

  • OpenAI ใช้ ชิป Cerebras เพื่อเลือกแนวทางที่แตกต่างออกไปโดยสิ้นเชิง
    • แทนที่จะใช้โมเดลเดิม กลับใช้ โมเดล distilled แบบเบา ชื่อ GPT-5.3-Codex-Spark
    • Spark มีความประณีตน้อยกว่าต้นฉบับ แต่ทำ ความเร็วในการอนุมานได้มากกว่า 15 เท่า
  • ชิป Cerebras คือ ชิปแบบ wafer-scale ขนาดมหึมา 70 ตารางนิ้ว พร้อม SRAM 44GB ในตัว
    • สามารถโหลดทั้งโมเดลไว้ใน SRAM และทำ การอนุมานในหน่วยความจำโดยไม่ต้องเข้าถึงหน่วยความจำภายนอก
    • แตกต่างอย่างชัดเจนจาก SRAM ระดับหลายสิบ MB ของ GPU ทั่วไป
  • คาดว่าโมเดล Spark ถูก sharding และกระจายค้างอยู่บนชิป Cerebras หลายตัว ซึ่งเป็นปัจจัยสำคัญของการเพิ่มความเร็ว

การเปรียบเทียบและประเมินทางเทคนิค

  • Anthropic คงโมเดลเดิมไว้เหมือนเดิม แล้วปรับเพียงนโยบายการ batching
  • OpenAI ผสาน สถาปัตยกรรมฮาร์ดแวร์ใหม่และการออกแบบโมเดลใหม่ เพื่อให้ได้การยกระดับประสิทธิภาพที่ลึกกว่า
  • การรันโมเดลบนชิป Cerebras เป็น ความท้าทายทางเทคนิคที่ซับซ้อน และการฝึกโมเดล Spark เองก็ไม่ใช่งานง่าย
  • แนวทางของทั้งสองบริษัทเป็นตัวอย่างของการไปสู่เป้าหมายเดียวกันคือ การเพิ่มความเร็ว ผ่านเส้นทางเทคนิคที่ต่างกัน โดยแนวทางของ OpenAI ดู น่าประทับใจในเชิงเทคนิคมากกว่า

ความหมายและข้อจำกัดของการอนุมานแบบรวดเร็ว

  • จากการประกาศของทั้งสองบริษัท ทำให้ดูเหมือนว่า ‘การอนุมาน AI แบบรวดเร็ว’ กำลังเป็นแกนการแข่งขันถัดไป แต่ในความเป็นจริงมีลักษณะเป็น การตอบโต้เชิงกลยุทธ์ ค่อนข้างมาก
    • Anthropic ดูเหมือนจะรีบตอบสนองต่อการประกาศของ OpenAI
    • OpenAI ยังอยู่ในขั้นของการเปิดเผย ผลลัพธ์เชิงทดลองจากความร่วมมือกับ Cerebras
  • โมเดลที่เร็วแต่ประณีตน้อยกว่า มี ข้อจำกัดในการใช้งานจริง
    • ผู้ใช้ต้องใช้เวลามากขึ้นในการจัดการกับข้อผิดพลาดของโมเดล ดังนั้น ความแม่นยำจึงสำคัญกว่าความเร็ว
  • อย่างไรก็ตาม โมเดลแบบ ‘ความแม่นยำต่ำแต่เร็ว’ เหล่านี้อาจมีบทบาทเป็น องค์ประกอบย่อยในระบบ AI
    • ตัวอย่างเช่น กรณีการใช้ Haiku ใน Claude Code หรือความเป็นไปได้ที่ OpenAI จะนำ Spark ไปใช้งานภายใน

การถกเถียงในชุมชนและข้อสังเกตเพิ่มเติม

  • ใน Hacker News มีการเสนอความเห็นหลากหลายเกี่ยวกับ ลักษณะประสิทธิภาพของ batching และ คอขวดจากการสื่อสารระหว่างชิป
    • บางคนอ้างว่า continuous batching ทำให้แทบไม่มีเวลารอ
    • ขณะที่บางคนโต้แย้งว่า การเชื่อมต่อระหว่างชิปส่งผลต่อความเร็วในการอนุมาน
  • ความสัมพันธ์แบบแลกกันระหว่างขนาดแบตช์กับ latency ยังคงมีอยู่
  • Anthropic ระบุชัดว่า latency ของโทเค็นแรกอาจยังช้าได้ ส่วน OpenAI พยายามลดปัญหานี้ด้วย การเชื่อมต่อถาวรแบบ WebSocket
  • โดยรวมแล้ว โครงสร้างของการอนุมาน LLM แบบรวดเร็วมีความซับซ้อน และอธิบายด้วยโมเดลอย่างง่ายได้ยาก

1 ความคิดเห็น

 
GN⁺ 2026-02-16
ความคิดเห็นจาก Hacker News
  • ผู้คนกำลังเข้าใจ fast mode ของ Anthropic ผิดไป น่าจะเป็นเพราะชื่อ
    จริง ๆ แล้วมัน มีต้นทุนสูงกว่า และทำงานกับปัญหายาก ๆ ได้ฉลาดกว่า
    แนวทาง parallel distill and refine ในงานวิจัยนี้ตรงกับสิ่งนี้พอดี
    โครงสร้างคือสร้างหลายเส้นทางแบบขนาน จากนั้นกลั่น (distill) และปรับแต่ง (refine) อย่างรวดเร็วก่อนให้ผลลัพธ์
    วิธีนี้ใช้โทเค็นมากกว่า แต่ทำให้ได้เอาต์พุตที่ทั้งเร็วกว่าและฉลาดกว่า
    ส่วน speculative decoding ไม่ได้เกี่ยวกับการเพิ่มคุณภาพ และการ batching แบบธรรมดาจะเพิ่มความเร็วแต่ลดต้นทุน
    Gemini Deepthink กับ GPT-5.2-pro ก็ใช้การอนุมานแบบขนานคล้ายกัน แต่จะคำนวณทุกเส้นทางจนจบก่อนแล้วค่อยปรับผลลัพธ์

    • ตามเอกสารทางการของ Anthropic fast mode ยังคงเป็น โมเดล Opus 4.6 เดิม เพียงแต่เปลี่ยนการตั้งค่า API เพื่อให้ความสำคัญกับความเร็ว คุณภาพเท่าเดิม
  • ไอเดียใช้ ชิป Cerebras ที่มี SRAM 44GB เพื่อยกโมเดลทั้งตัวขึ้นไปไว้ในหน่วยความจำสำหรับรัน inference นั้นน่าสนใจ
    ขนาดของ GPT-5.3-Codex-Spark จึงถูกจำกัดไม่ใช่ด้วยหน่วยความจำของชิปเดี่ยว แต่ด้วย จำนวนชิปที่เชื่อมต่อกันได้
    Cerebras รองรับโมเดลใหญ่กว่า 40B ได้เร็วกว่าเช่นกัน ดังนั้น Spark น่าจะใกล้กับ GLM 4.7 (355B พารามิเตอร์, active 32B) มากกว่า
    ดู หน้าราคา Cerebras

    • ถ้าแบ่งโมเดลเป็น shard ความเร็วจะตกลงมาก จุดเด่นของชิปแบบ wafer-scale คือ แบนด์วิดท์หน่วยความจำบนชิป และถ้าต้องเสียสิ่งนี้ไปก็แทบไม่มีความหมาย
      โซลูชันของ Groq, TPU และ Nvidia ดีกว่าในแง่ประสิทธิภาพพลังงาน
    • จากที่ Cerebras รันโมเดลใหญ่กว่า 40B ได้เร็วกว่า ข้ออ้างในโพสต์ต้นฉบับจึงไม่น่าเชื่อถือ
    • ถ้าเชื่อมชิปแบบอนุกรม จะเพิ่มแค่ latency แต่ throughput ไม่ได้ลดลง
    • แม้ SRAM บนชิปจะเล็กแบบชิปของ Groq ก็ยังรันโมเดลขนาดใหญ่ได้ ดังนั้นการต่อชิปเข้าด้วยกันไม่ได้แปลว่าความเร็วจะลดเสมอไป
  • มีความเป็นไปได้สูงที่ Anthropic จะ route คำขอแบบ fast ไปยังฮาร์ดแวร์รุ่นใหม่ที่สุด
    บริษัทมีทั้ง TPU, GPU และอุปกรณ์หลายเจเนอเรชัน จึงเดาว่า fast mode น่าจะถูกรันบนเครื่องที่เร็วที่สุดเท่านั้น

    • แบนด์วิดท์หน่วยความจำของ GB200 เร็วกว่า H100 2.4 เท่า ดังนั้น fast mode อาจเป็นแค่ความต่างของฮาร์ดแวร์
      เทคนิคอย่าง speculative decoding ก็น่าจะถูกใช้อยู่แล้ว จึงไม่น่าใช่ผลจากการปรับปรุง batching
  • อย่างที่ข้อสรุปท้ายบทความบอก ตอนนี้คำกล่าวที่ว่า ความแม่นยำ สำคัญกว่าความเร็วนั้นอาจยังถูกต้อง
    แต่ถ้าความร่วมมือ OpenAI–Cerebras ทำให้โมเดลใหญ่แบบ Codex-5.3 รันบนชิปได้โดยตรง
    ก็อาจได้โมเดลที่ทั้งเร็วและแม่นพอจะทดแทนงานตอบลูกค้าได้

    • แต่ถ้าจะรันโมเดลระดับ 5~7TB ด้วย SRAM 40GB ก็จะต้องใช้ พลังงานระดับหลายเมกะวัตต์ เพราะ Cerebras กินไฟมาก
      หากต่อไปมี ซิลิคอนเฉพาะทางสำหรับ LLM ยุคที่มีประสิทธิภาพกว่านี้มากก็น่าจะมาถึง
    • ถ้ายังแก้ปัญหา คุณภาพลดลงเมื่อฝึกด้วยข้อมูลที่ AI สร้างขึ้น ไม่ได้ การอัปเดตโมเดลก็จะยิ่งยากขึ้นเรื่อย ๆ
  • ปัญหาที่ต้องรอให้ batching ครบถูกแก้ไปแล้วด้วย continuous batching
    เทคโนโลยีนี้เองที่ช่วยให้ Claude Code ให้บริการได้ในราคาถูก
    บทความที่เกี่ยวข้อง

  • อุปมาเรื่องรถบัสดูแปลก ๆ เพราะในความเป็นจริง fast mode คือการกินสัดส่วนใน batch มากขึ้นเพื่อ เพิ่ม throughput
    เมื่อดูจากขนาดทราฟฟิกของ Anthropic ก็คาดได้ว่า batch น่าจะเต็มแทบจะทันที

  • สงสัยว่าทำไม ChatGPT ตอบกลับแทบจะทันทีหลังส่งข้อความ
    ที่ไม่ต้องรอ batching อาจเป็นเพราะทราฟฟิกสูงมากอยู่แล้ว หรือไม่ก็เพราะมีการ สตรีมอินพุตผ่าน WebSocket ไปยัง GPU ล่วงหน้า

  • หลายคนมักสับสนเรื่อง ความต่างระหว่าง SRAM กับ HBM
    HBM มีพื้นฐานเป็น DRAM ความจุสูงกว่าแต่ช้ากว่า ส่วน SRAM เร็วกว่ามากแต่แพง
    Cerebras รวม SRAM ขนาดมหึมา 44GB ไว้ในชิปเดียวเพื่อให้ได้ ความเร็วระดับสุดขั้ว
    แต่การออกแบบก็ไม่ได้เรียบง่ายนัก ดังนั้นประสิทธิภาพจริงจึงขึ้นกับหลายปัจจัย

    • 80GB HBM ของ Nvidia เป็นหน่วยความจำภายนอก ส่วน 44GB ของ Cerebras เป็น SRAM ภายใน
      OpenAI อาจออกแบบโมเดลให้พอดีกับ 44GB หรือไม่ก็อาจ เชื่อมหลายชิปเป็นสายโซ่
  • ใน AI เสียงแบบเรียลไทม์ นั้น latency คือหัวใจสำคัญ
    มนุษย์จะเริ่มรู้สึกแปลกเมื่อรอนานเกิน 800ms ดังนั้นเวลาที่เหลือให้ LLM inference ใช้ได้จะอยู่ราว 400~500ms
    ที่ความเร็วระดับ Sonnet (80 tok/s) แค่ประโยคเดียวก็ยังยาก แต่ถ้าเป็นความเร็วของ Cerebras หรือ Groq (มากกว่า 1000 tok/s) จะทำได้เกิน 400 โทเค็น
    เพราะแบบนี้ การจูนโมเดลขนาดเล็กให้ เฉพาะทางตามโดเมน อาจมีประสิทธิภาพกว่าโมเดลใหญ่
    แนวทาง council ที่ผสมเอเจนต์ขนาดเล็กหลายตัวเข้าด้วยกันคือวิธีที่ได้ทั้งความเร็วและคุณภาพ
    นอกจากนี้ หากใช้ speculative decoding เพื่อคาดเดาคำตอบที่ใช้บ่อยล่วงหน้าและเตรียม TTS ไว้ ก็อาจทำให้ 60% ของบทสนทนาตอบได้ภายใน 200ms

    • OpenAI เป็นแล็บวิจัยหลักเพียงแห่งเดียวที่โฟกัสกับ โมเดลเสียง จริงจัง จึงดูมีแนวโน้มว่าจะไปได้ไกลในทิศทางนี้