3 คะแนน โดย GN⁺ 2024-11-20 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ไฮไลต์ของ Llama 3.1 405B บน Cerebras Inference

  • สร้างโทเคนเอาต์พุตได้ 969 โทเคนต่อวินาที - เร็วกว่าผลลัพธ์ GPU ที่ดีที่สุด 12 เท่า
  • เวลาจนถึงโทเคนแรก 240ms - สั้นกว่า API ส่วนใหญ่
  • รองรับคอนเท็กซ์ยาว 128K - ประสิทธิภาพสูงสุดเท่าที่เคยบันทึกไว้
  • น้ำหนักแบบ 16 บิต - คงความแม่นยำของโมเดลเต็มรูปแบบ
  • เตรียมเปิดให้ใช้งานทั่วไปในไตรมาส 1 ปี 2025, ราคา $6 ต่อหนึ่งล้านโทเคนอินพุต และ $12 ต่อหนึ่งล้านโทเคนเอาต์พุต

Frontier AI ที่เร็วระดับฉับพลัน

  • ปีนี้ Cerebras ได้ดัน Llama 3.1 8B และ 70B ให้ทำงานได้เกิน 2,000 โทเคนต่อวินาที
  • โมเดลระดับ frontier อย่าง GPT-4o, Claude 3.5 Sonnet และ Llama 3.1 405B ไม่เคยทำความเร็วเกิน 200 โทเคนต่อวินาทีบน GPU, ASIC หรือคลาวด์มาก่อน
  • Cerebras Inference เข้ามาแก้ปัญหานี้ ทำให้ Llama 3.1 405B แสดงประสิทธิภาพเต็มที่บนคอนเท็กซ์ 128K
  • สร้างโทเคนเอาต์พุตได้ 969 โทเคนต่อวินาทีจากพรอมป์ต์ 1,000 โทเคน ทำลายสถิติเดิม
  • ทำได้ 539 โทเคน/วินาทีบนพรอมป์ต์อินพุต 100,000 โทเคน เร็วกว่า Fireworks 11 เท่า และ AWS 44 เท่า

ความหน่วงต่ำที่สุด

  • เวลาจนถึงโทเคนแรกเป็นหนึ่งในตัวชี้วัดที่สำคัญที่สุดสำหรับแอปพลิเคชันจริง
  • Cerebras ทำเวลาได้ 240 มิลลิวินาที มอบเวลาจนถึงโทเคนแรกที่เร็วที่สุดในบรรดาทุกแพลตฟอร์มที่รัน Llama 3.1-405B
  • เวลาตอบสนองที่เร็วกว่าโซลูชันที่ใช้ GPU อย่างมาก ช่วยยกระดับประสบการณ์ผู้ใช้ได้ชัดเจน

การเปิดให้ใช้งาน

  • Cerebras Inference สำหรับ Llama 3.1-405B กำลังอยู่ในช่วงทดสอบกับลูกค้า และมีกำหนดเปิดให้ใช้งานทั่วไปในไตรมาส 1 ปี 2025
  • ราคาเอาต์พุตถูกกว่า AWS, Azure และ GCP อยู่ 20%

โมเดลเปิดคือโมเดลที่เร็วที่สุด

  • ด้วยแนวทางแบบเปิดของ Meta และเทคโนโลยี inference ที่ล้ำสมัยของ Cerebras ทำให้ Llama 3.1-405B ทำงานได้เร็วกว่าโมเดล frontier แบบปิดมากกว่า 10 เท่า
  • มอบรากฐานที่เหมาะสำหรับแอปพลิเคชันด้านเสียง วิดีโอ และการให้เหตุผล

1 ความคิดเห็น

 
GN⁺ 2024-11-20
ความเห็นจาก Hacker News
  • การรันโมเดล Llama 3.1 70b บนคลัสเตอร์ 8x H100 ให้เกิน 100 tok/s ทำได้ยาก

    • เลยสงสัยว่าทำความเร็วนี้ได้อย่างไร
    • น่าจะต้องใช้การอนุมานแบบหลายโหนดหรือ sparse attention
  • ไม่แน่ใจว่าการเปรียบเทียบ latency ยุติธรรมหรือไม่

    • latency รวมทั้ง throughput ของการประมวลผล context/prompt, เวลาแฝงในการเข้าถึงฮาร์ดแวร์ และ API overhead อื่น ๆ
    • ตัวเลขของ Cerebras อาจแทบไม่ได้รวมเวลา waiting เลย
  • หากต้องการให้ throughput สูงพร้อม latency ที่ดี ก็ต้องมีการจัดสรรทรัพยากรเกินความจำเป็น

    • ยังไม่ชัดเจนว่า latency นับรวมการโหลดโมเดลหรือไม่
    • สำหรับงานแบบ batch สามารถใช้เครื่องของ Cerebras ได้เต็ม 100% เพื่อให้ได้ 1k tokens/s อย่างต่อเนื่อง
  • เมื่อใช้โมเดลรุ่นปัจจุบันร่วมกับ RAG, multi-agent และ code interpreter ความหน่วงของโมเดลกลายเป็นคอขวด

    • throughput ระดับนี้ของโมเดลคลาส 405B ทำให้เกิดประสบการณ์โต้ตอบได้หลากหลายมาก
  • ชิปของ Cerebras ใช้เวเฟอร์ทั้งแผ่นและมีเพียง SRAM 44GB

    • ถ้าจะให้โมเดล 405B พอดีในความละเอียด bf16 จะต้องใช้ 19 ชิป
    • หากดูจากต้นทุนการผลิตเวเฟอร์ ก็เทียบได้กับการใช้ H100 มากกว่า 1,500 ตัว
  • มี waiting list สำหรับการลองใช้ API

    • เมื่อยังซื้อบริการไม่ได้ ก็สมควรตั้งข้อสงสัยต่อคำกล่าวอ้างของบริษัท
  • คิดว่ามีโอกาสสูงที่ Nvidia จะเข้าซื้อ Cerebras

  • น่าประทับใจที่ฮาร์ดแวร์ใหม่ยังสามารถเพิ่มประสิทธิภาพได้

    • สงสัยว่าขีดจำกัดของการเพิ่มประสิทธิภาพการฝึกด้วยฮาร์ดแวร์อยู่ตรงไหน
  • อยากเห็นการเปรียบเทียบ tokens/second/watt

  • ไม่มีการกล่าวถึง Groq ซึ่งเป็นคู่แข่ง

  • สงสัยว่าต้นทุนที่ต้องใช้เพื่อให้บริการด้วย latency ระดับนี้จะเป็นเท่าไร

    • ต้นทุนจะเป็นตัวกำหนดว่าสามารถนำไปใช้อย่างแพร่หลายได้แค่ไหน
    • สงสัยว่านี่จะเหมาะเฉพาะกับธุรกิจที่ต้องการ latency ต่ำจริง ๆ หรือสามารถนำไป deploy ได้ทั่วไป