ไฮไลต์ของ Llama 3.1 405B บน Cerebras Inference
- สร้างโทเคนเอาต์พุตได้ 969 โทเคนต่อวินาที - เร็วกว่าผลลัพธ์ GPU ที่ดีที่สุด 12 เท่า
- เวลาจนถึงโทเคนแรก 240ms - สั้นกว่า API ส่วนใหญ่
- รองรับคอนเท็กซ์ยาว 128K - ประสิทธิภาพสูงสุดเท่าที่เคยบันทึกไว้
- น้ำหนักแบบ 16 บิต - คงความแม่นยำของโมเดลเต็มรูปแบบ
- เตรียมเปิดให้ใช้งานทั่วไปในไตรมาส 1 ปี 2025, ราคา $6 ต่อหนึ่งล้านโทเคนอินพุต และ $12 ต่อหนึ่งล้านโทเคนเอาต์พุต
Frontier AI ที่เร็วระดับฉับพลัน
- ปีนี้ Cerebras ได้ดัน Llama 3.1 8B และ 70B ให้ทำงานได้เกิน 2,000 โทเคนต่อวินาที
- โมเดลระดับ frontier อย่าง GPT-4o, Claude 3.5 Sonnet และ Llama 3.1 405B ไม่เคยทำความเร็วเกิน 200 โทเคนต่อวินาทีบน GPU, ASIC หรือคลาวด์มาก่อน
- Cerebras Inference เข้ามาแก้ปัญหานี้ ทำให้ Llama 3.1 405B แสดงประสิทธิภาพเต็มที่บนคอนเท็กซ์ 128K
- สร้างโทเคนเอาต์พุตได้ 969 โทเคนต่อวินาทีจากพรอมป์ต์ 1,000 โทเคน ทำลายสถิติเดิม
- ทำได้ 539 โทเคน/วินาทีบนพรอมป์ต์อินพุต 100,000 โทเคน เร็วกว่า Fireworks 11 เท่า และ AWS 44 เท่า
ความหน่วงต่ำที่สุด
- เวลาจนถึงโทเคนแรกเป็นหนึ่งในตัวชี้วัดที่สำคัญที่สุดสำหรับแอปพลิเคชันจริง
- Cerebras ทำเวลาได้ 240 มิลลิวินาที มอบเวลาจนถึงโทเคนแรกที่เร็วที่สุดในบรรดาทุกแพลตฟอร์มที่รัน Llama 3.1-405B
- เวลาตอบสนองที่เร็วกว่าโซลูชันที่ใช้ GPU อย่างมาก ช่วยยกระดับประสบการณ์ผู้ใช้ได้ชัดเจน
การเปิดให้ใช้งาน
- Cerebras Inference สำหรับ Llama 3.1-405B กำลังอยู่ในช่วงทดสอบกับลูกค้า และมีกำหนดเปิดให้ใช้งานทั่วไปในไตรมาส 1 ปี 2025
- ราคาเอาต์พุตถูกกว่า AWS, Azure และ GCP อยู่ 20%
โมเดลเปิดคือโมเดลที่เร็วที่สุด
- ด้วยแนวทางแบบเปิดของ Meta และเทคโนโลยี inference ที่ล้ำสมัยของ Cerebras ทำให้ Llama 3.1-405B ทำงานได้เร็วกว่าโมเดล frontier แบบปิดมากกว่า 10 เท่า
- มอบรากฐานที่เหมาะสำหรับแอปพลิเคชันด้านเสียง วิดีโอ และการให้เหตุผล
1 ความคิดเห็น
ความเห็นจาก Hacker News
การรันโมเดล Llama 3.1 70b บนคลัสเตอร์ 8x H100 ให้เกิน 100 tok/s ทำได้ยาก
ไม่แน่ใจว่าการเปรียบเทียบ latency ยุติธรรมหรือไม่
หากต้องการให้ throughput สูงพร้อม latency ที่ดี ก็ต้องมีการจัดสรรทรัพยากรเกินความจำเป็น
เมื่อใช้โมเดลรุ่นปัจจุบันร่วมกับ RAG, multi-agent และ code interpreter ความหน่วงของโมเดลกลายเป็นคอขวด
ชิปของ Cerebras ใช้เวเฟอร์ทั้งแผ่นและมีเพียง SRAM 44GB
มี waiting list สำหรับการลองใช้ API
คิดว่ามีโอกาสสูงที่ Nvidia จะเข้าซื้อ Cerebras
น่าประทับใจที่ฮาร์ดแวร์ใหม่ยังสามารถเพิ่มประสิทธิภาพได้
อยากเห็นการเปรียบเทียบ tokens/second/watt
ไม่มีการกล่าวถึง Groq ซึ่งเป็นคู่แข่ง
สงสัยว่าต้นทุนที่ต้องใช้เพื่อให้บริการด้วย latency ระดับนี้จะเป็นเท่าไร