- Cerebras เปิดตัวโมเดล AI Qwen3-235B พร้อมประสิทธิภาพการอนุมานแบบตอบสนองทันทีด้วยการสร้าง 1,500 โทเค็นต่อวินาที
- ให้ ประสิทธิภาพการทำงานและการสร้างโค้ด ที่เร็วขึ้น 30 เท่า ด้วยต้นทุนเพียง 1/10 เมื่อเทียบกับโมเดลปิดแบบเดิม
- รองรับคอนเท็กซ์ 131K เพื่อรองรับ โค้ดเบสขนาดใหญ่และการประมวลผลเอกสารซับซ้อน
- ร่วมมือกับ Cline เพื่อขยายประสบการณ์การสร้างโค้ดแบบเรียลไทม์ใน Microsoft VS Code
- การเปิดตัวครั้งนี้ทำให้เกิดทางเลือกแบบโอเพนซอร์สที่มีประสิทธิภาพสูงและต้นทุนสมเหตุสมผล แทน OpenAI และ Anthropic
Qwen3-235B: การเปิดตัวโมเดล AI สำหรับการอนุมานความเร็วสูงพิเศษของ Cerebras และผลลัพธ์สำคัญ
โมเดล AI สำหรับการอนุมานที่เร็วที่สุดในโลก เปิดตัวบน Cerebras Inference Cloud
- Cerebras Systems เปิดตัว Qwen3-235B อย่างเป็นทางการเมื่อวันที่ 8 กรกฎาคม 2025 พร้อมเผยโฉมโมเดล AI สำหรับการอนุมานรุ่นใหม่ที่รองรับคอนเท็กซ์ได้สูงสุด 131K อย่างเต็มรูปแบบ
- โมเดลนี้ผสาน ความสามารถระดับฟรอนเทียร์ของปัญญาประดิษฐ์และสมรรถนะการอนุมานความเร็วสูงพิเศษ เข้ากับ ต้นทุนเพียง 1/10 เมื่อเทียบกับทางเลือกแบบปิด และนำเสนอการเปลี่ยนแปลงต่อการนำ AI ไปใช้ในองค์กร
ความฉลาดระดับโมเดลฟรอนเทียร์
- Qwen3-235B ของ Alibaba ได้รับการยืนยันจากการประเมินอิสระของ Artificial Analysis ว่ามี ประสิทธิภาพบนเบนช์มาร์กด้านวิทยาศาสตร์ โค้ด และความรู้ทั่วไป ทัดเทียมกับโมเดลชั้นนำอย่าง Claude 4 Sonnet, Gemini 2.5 Flash และ DeepSeek R1
- ด้วยสถาปัตยกรรม Mixture-of-Experts ที่เพิ่มประสิทธิภาพการคำนวณสูงสุด จึงให้บริการในราคา 0.60 ดอลลาร์ต่อโทเค็นอินพุต 1 ล้านโทเค็น และ 1.20 ดอลลาร์ต่อโทเค็นเอาต์พุต 1 ล้านโทเค็น ทำให้ใช้งานได้ในต้นทุนที่ต่ำมากเมื่อเทียบกับโมเดลปิดเดิม
ความเร็วในการอนุมาน: พลิกจากระดับนาทีสู่ระดับวินาที
- AI สำหรับการอนุมานแบบดั้งเดิมมักใช้เวลาหลายนาทีแม้กับคำถามทั่วไป
- ด้วยการใช้ Wafer Scale Engine ทำให้ Qwen3-235B สามารถสร้างเอาต์พุตได้ 1,500 โทเค็นต่อวินาที ลดเวลาตอบคำถามจาก 1–2 นาทีเหลือ 0.6 วินาที
- ส่งผลให้ การสร้างโค้ด การให้เหตุผล และเวิร์กโฟลว์ RAG ขนาดใหญ่ ตอบสนองได้ทันที และสร้างมาตรฐานใหม่ให้กับสมรรถนะ AI แบบเรียลไทม์
- จากผลการวัดของ Artificial Analysis โมเดลนี้ได้รับการประเมินว่าเป็น โมเดล AI ระดับฟรอนเทียร์เพียงรายเดียวในโลกที่สร้างได้เกิน 1,000 โทเค็นต่อวินาที
คอนเท็กซ์ 131K: รองรับการสร้างโค้ดในสภาพแวดล้อมจริง
- พร้อมกับการเปิดตัว Qwen3-235B ทาง Cerebras ยังขยายการรองรับ จากคอนเท็กซ์เดิม 32K เป็น 131K หรือเพิ่มขึ้น 4 เท่า
- สิ่งนี้ทำให้สามารถอนุมานโค้ดเบสขนาดใหญ่และเอกสารซับซ้อนได้ในครั้งเดียว และเพิ่มศักยภาพของ การพัฒนาสำหรับสภาพแวดล้อมโปรดักชัน อย่างมาก ด้วยการสร้างโค้ดพร้อมกันจากหลายสิบไฟล์หรือหลายหมื่นบรรทัด
- หากคอนเท็กซ์ 32K เดิมรองรับได้เพียงการสร้างโค้ดแบบง่าย ๆ คอนเท็กซ์ 131K ก็รองรับการพัฒนาแอปพลิเคชันขนาดใหญ่ได้โดยตรง
- ด้วยเหตุนี้ จึงสามารถตอบโจทย์ ตลาดการสร้างโค้ดสำหรับองค์กร ซึ่งเป็นหนึ่งในภาคส่วนที่ใหญ่ที่สุดและเติบโตเร็วที่สุดของ generative AI ได้โดยตรง
เสริมประสบการณ์การผสานรวมกับ VS Code ผ่านความร่วมมือเชิงกลยุทธ์กับ Cline
- Cerebras จับมือเป็นพาร์ตเนอร์กับ Cline ซึ่งเป็นเอเจนต์สำหรับเขียนโค้ดบน VS Code ที่มีการติดตั้งมากกว่า 1.8 ล้านครั้ง
- ผู้ใช้ Cline ทุกคนสามารถใช้งาน Qwen3-32B (คอนเท็กซ์ 64K, ฟรี) ได้โดยตรงจากเอดิเตอร์ และมีแผนรองรับ Qwen3-235B (คอนเท็กซ์ 131K) ในลำดับถัดไป
- คาดว่าจะให้ ความเร็วในการสร้างโค้ดเร็วกว่า 10–20 เท่า เมื่อเทียบกับคู่แข่งอย่าง DeepSeek R1
- Saoud Rizwan ซีอีโอของ Cline เน้นว่า “ด้วยการอนุมานแบบเรียลไทม์ นักพัฒนาสามารถสำรวจโค้ดและปัญหาต่าง ๆ พร้อมรักษาเวิร์กโฟลว์ให้เดินหน้าไปด้วยความเร็วเดียวกับกระบวนการคิด”
มอบทางเลือก AI ระดับฟรอนเทียร์ที่เร็วกว่า 30 เท่าและมีต้นทุนเพียง 1/10
- การเปิดตัวครั้งนี้ของ Cerebras มอบทางเลือกใหม่ให้แก่นักพัฒนาที่ต้องการ ความฉลาดและการสร้างโค้ดของโมเดลแบบโอเพน ในระดับใกล้เคียงกับโมเดลเชิงพาณิชย์อย่าง OpenAI และ Anthropic
- โดยเฉพาะอย่างยิ่ง บริษัทอ้างว่าเป็นรายเดียวในโลกที่ทำ ความเร็วการอนุมานแบบตอบสนองทันทีเกิน 1,500 โทเค็นต่อวินาที ได้สำเร็จ และเพิ่ม ประสิทธิภาพการทำงาน 10 เท่า เมื่อเทียบกับระบบที่ใช้ GPU
- ต้นทุนต่อโทเค็นยังต่ำกว่าคู่แข่งถึง 1/10 หรือน้อยกว่า จึงมอบ AI ความเร็วสูงพิเศษในราคาที่สมเหตุสมผล
เกี่ยวกับ Cerebras Systems
- Cerebras Systems คือทีมผู้เชี่ยวชาญด้าน สถาปัตยกรรมคอมพิวเตอร์ ดีปเลิร์นนิง งานวิจัย และวิศวกรรม ที่มุ่งเน้นการปฏิวัติโครงสร้างพื้นฐานการประมวลผลขนาดใหญ่สำหรับ AI
- ผลิตภัณฑ์หลัก CS-3 system ติดตั้งโปรเซสเซอร์ AI เชิงพาณิชย์ที่ใหญ่ที่สุดในโลก (Wafer-Scale Engine-3) และสามารถสร้างซูเปอร์คอมพิวเตอร์ AI ขนาดใหญ่ได้ผ่านการคลัสเตอร์ที่ง่ายและรวดเร็ว
- Cerebras Inference มอบความเร็วในการอนุมานที่ล้ำหน้า และถูกใช้งานในสถาบันวิจัย องค์กร และภาครัฐ สำหรับการพัฒนาโมเดลเฉพาะทางประสิทธิภาพสูงและการเทรนแบบโอเพนซอร์ส
- ให้บริการโซลูชันทั้งบน Cerebras Cloud และสภาพแวดล้อมแบบ on-premises
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
ข่าวนี้อาจเป็น "ข่าวเก่า" ดูเหมือนว่าจะออกมาตั้งแต่วันที่ 8 กรกฎาคม และน่าจะถูกนำมาแนะนำแบบสับสนกับการเปิดตัว Qwen 3 coder 405B ที่ประกาศเมื่อวานนี้ สเปกของทั้งสองโมเดลไม่เหมือนกัน
ถ้านี่เป็นการ quantize แบบ fp16 เต็มรูปแบบจริง การใช้งานด้วยคอนเท็กซ์เต็ม 131k จะต้องใช้หน่วยความจำ 2TB เนื่องจากชิป Cerebras หนึ่งตัวมี SRAM 44GB จึงต้องต่ออนุกรม 45 ตัว และถ้าตัวละ $3M ก็รวมเป็น $135M เทียบกันแล้ว DGX B200 สองเครื่องก็ให้ได้ 2.8TB และใช้เงินเพียง $1M หรือก็คือ $1M เทียบกับ $135M ดังนั้นถ้าไม่ใช่งานมูลค่าสูงที่ต้องการความเร็ว inference ระดับมหาศาลจริง ๆ เช่น hedge fund หรือการเงินตลาดทุน ก็ดูไม่คุ้มเท่าไร ถ้าวันหนึ่งสามารถรันโมเดลระดับ Claude Opus 4 (หรือดีกว่านั้น) ด้วยคอนเท็กซ์หลายสิบล้านโทเค็นที่ 1500 โทเค็นต่อวินาทีได้ในราคาถูกมาก คงนึกภาพไม่ออกเลยว่าจะเกิดอะไรขึ้น ดูเหมือนฮาร์ดแวร์ยังต้องพัฒนาไปอีกหลายเจเนอเรชัน
ผมลองตั้งค่า litellm proxy แล้วเชื่อม Aider เข้ากับ Cerebras API ตัวใหม่ที่มี Qwen-235B เพื่อทดสอบ ดูแล้วอาจยังไม่ดีเท่า Claude code แต่เร็วมาก ผมยังลองรัน Aider ด้วย leaked claude code prompt ด้วย แต่ทำงานไม่ได้ตามที่อยากได้ ดูเหมือน Claude code prompt จะถูกปรับมาสำหรับ Claude โดยเฉพาะ ถึงอย่างนั้นก็ยังคุ้มที่จะลอง และรู้สึกว่ามีศักยภาพสูง Aider พ่นข้อความออกมาเร็วมาก ติดตั้งของ เรียกเว็บ แล้วก็จบ แทบจะทันทีเลย ถ้าอยากจำลองสภาพแวดล้อมของผม ใช้การตั้งค่าดังนี้:
วิธีรัน:
แล้วก็
แพ็กเกจที่ต้องใช้ให้ติดตั้งด้วย pip หรือวิธีอื่นตามสะดวก ส่วน prompt.txt ให้ไปหา leaked claude code prompt แล้วบันทึกไว้เอง
ผมรอให้ Qwen 3 coder ได้รับการรองรับบน Cerebras อย่างใจจดใจจ่อ ผมรัน agent loop บ่อยมาก และความเร็วในการรันให้ผลเหมือนการบีบอัดเวลาอย่างมาก ถ้าได้โมเดลระดับ Claude 4 Sonnet ที่วิ่งได้ 1000~1500 โทเค็นต่อวินาที นั่นจะเป็นนวัตกรรมเปลี่ยนเกมจริง ๆ ถ้าอยากสัมผัสความเร็วแบบนี้ ลองใช้หน้า Cerebras Inference หรือ API หรือแม้แต่ "Flash Answers" ของ Mistral / Le Chat (ที่ทำงานบน Cerebras) ได้เลย พอวนลูปรันโค้ดที่ 1000tok/s แล้วมันเหมือนเวทมนตร์
ความเร็วนี้น่าประทับใจจริง แต่จากประสบการณ์ของผม การจะได้ rate limit หรือโควตาโทเค็นในระดับพร้อมใช้งานจริงบนโปรดักชันจาก Cerebras นั้นยากมาก เพราะอย่างนี้เราจึงออกแบบระบบบนพวกเขาไม่ได้และต้องไปใช้ผู้ให้บริการรายอื่น ผมคุยกับทีมเซลส์หลายครั้งแล้ว แต่ก็ได้คำตอบว่าไม่ได้
มีใครที่ใช้ Claude Code กับ sonnet-4 บ่อย ๆ แล้วเคยเทียบกับ Qwen3-Coder บน Claude Code บ้างไหม ผมสนใจความเร็วที่ Cerebras ให้มาก แต่ถึงจะเร็วแค่ไหน ถ้าคุณภาพโมเดลแย่กว่า ผมก็ยังไม่คิดจะย้าย
บอกว่าเป็นคอนเท็กซ์ "Full 131k" แต่จริง ๆ แล้วมันคือ 262144 ซึ่งมากกว่าสองเท่า และถ้าใช้ YaRN แบบ 8x ก็ไปได้ถึง 2 ล้าน ดูเหมือนว่า Cerebras เองก็มีข้อจำกัดเชิงทฤษฎีเรื่องความยาวคอนเท็กซ์อยู่เหมือนกัน ซึ่งเป็นข้อจำกัดของสถาปัตยกรรม Transformer เพราะความต้องการหน่วยความจำโตเกือบเชิงเส้น และความต้องการคำนวณโตแบบกำลังสอง ดังนั้นจึงดูเหมือนว่า Cerebras ก็ยังใช้ความยาวคอนเท็กซ์ได้ไม่เต็ม 100% เพราะข้อจำกัดนี้เหมือนกัน อีกอย่างผมก็สงสัยว่าลูกค้ารู้ได้ไหมว่าใช้วิธี quantize แบบไหนกันแน่
ความเร็วนี้น่าประทับใจมาก ขอยกอีกประเด็นที่ต่างออกไปเล็กน้อย ผมสงสัยว่าโมเดลอย่าง Qwen หรือ Kimi มีการเซ็นเซอร์หรืออคติจากประเทศต้นทางมากน้อยแค่ไหน
Cerebras เป็นหนึ่งในความสำเร็จทางเทคนิคที่บ้าคลั่งที่สุด (ในทางที่ดี) จากซิลิคอนวัลเลย์ตลอดสิบปีที่ผ่านมา ตอนผมเจอ Andy เมื่อ 7~8 ปีก่อน เขาพูดถึงชิปขนาดเท่าจานอาหารค่ำกับการหนีบยึดหนัก 6 ตัน ตอนนั้นผมคิดว่าเป็นไปไม่ได้เลย แต่พวกเขาก็ทำได้จริง และตอนนี้พอมองย้อนกลับไป มันเป็นการมองอนาคตได้ไกลมาก
ผมกำลังหาสภาพแวดล้อมพัฒนา qwen แบบโลคัลบน Macbook อยู่ ลองใช้ localforge + mlx_lm.server แล้ว แม้หน้าเว็บจะบอกว่ามี proof-of-concept ที่สำเร็จ แต่ของจริงกลับเจอข้อผิดพลาด “empty response” ถ้าใครมีประสบการณ์คล้ายกัน รบกวนแนะนำหน่อย