Cerebras Inference ประมวลผล Llama 3.1 405B ได้ 969 โทเคนต่อวินาที

(cerebras.ai)

3 คะแนน โดย GN⁺ 2024-11-20 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

โมเดล frontier ขนาดใหญ่มักติดคอขวดที่ความเร็วและ latency แต่ Cerebras Inference ทำสถิติได้ 969 output tokens ต่อวินาทีในเวิร์กโหลดลูกค้าบน Llama 3.1 405B
เมื่อใช้พรอมป์ต์ 1,000 โทเคน ผลลัพธ์ออกมาเร็วกว่า SambaNova 8 เท่า, เร็วกว่า GPU cloud ที่เร็วที่สุด 12 เท่า และเร็วกว่า AWS 75 เท่า
สำหรับอินพุต 100,000 โทเคน มีเพียง 6 vendor ที่ส่งผลลัพธ์กลับมาได้ และ Cerebras เป็น vendor ที่ไม่ใช่ GPU รายเดียว ที่ทำ benchmark สำเร็จ โดยทำได้ 539 โทเคนต่อวินาที
Time to first token อยู่ที่ 240ms และลูกค้าที่เปลี่ยนจาก GPT-4 รายงานว่า latency โดยรวมลดลง 75%
Cerebras Inference สำหรับ Llama 3.1 405B เปิดให้ใช้งานแบบ customer preview แล้วในขณะนี้ โดยมีกำหนดเปิดให้ใช้งานทั่วไปในไตรมาส 1 ปี 2025 และตั้งราคา อินพุต $6/M·เอาต์พุต $12/M โทเคน

สถิติประสิทธิภาพของ Llama 3.1 405B

Cerebras Inference ทำได้ 969 output tokens/s ในการรัน Llama 3.1 405B
- เป็นผลลัพธ์จากพรอมป์ต์ 1,000 โทเคน
- ตามการวัดของ Artificial Analysis ทำสถิติด้านความเร็วเอาต์พุต, ประสิทธิภาพในบริบทยาว และ time to first token
ในการเปรียบเทียบเดียวกัน ระบุว่า Llama 3.1 405B on Cerebras เร็วกว่า GPT-4o 12 เท่า และเร็วกว่า Claude 3.5 Sonnet 18 เท่า
ปีนี้ Cerebras ได้ผลักดัน Llama 3.1 8B และ 70B ให้ทำได้มากกว่า 2,000 tokens/s และอธิบายว่าโมเดล frontier อย่าง GPT-4o, Claude 3.5 Sonnet และ Llama 3.1 405B ยังไม่เคยเกิน 200 tokens/s ไม่ว่าจะบน GPU, ASIC หรือ cloud ใดก็ตาม
การเปรียบเทียบโดยใช้พรอมป์ต์ 1,000 โทเคนมีดังนี้
- เร็วกว่า SambaNova 8 เท่า
- เร็วกว่า GPU cloud ที่เร็วที่สุด 12 เท่า
- เร็วกว่า AWS 75 เท่า
สำหรับพรอมป์ต์อินพุต 100,000 โทเคน ทำสถิติได้ 539 tokens/s
- มีเพียง 6 vendor ที่ส่งผลลัพธ์กลับมาได้
- Cerebras เป็น vendor ที่ไม่ใช่ GPU รายเดียวที่ทำ benchmark สำเร็จ
- เร็วกว่า Fireworks 11 เท่า และเร็วกว่า AWS 44 เท่า

Latency, กำหนดการให้บริการ และราคา

Cerebras Inference สำหรับ Llama 3.1 405B ทำสถิติ time to first token 240ms
- Time to first token เป็นตัวชี้วัด latency สำคัญที่ผู้ใช้รับรู้ได้ในแอปพลิเคชันจริง
- ในโซลูชันที่ใช้ GPU เวลาเริ่มตอบกลับอาจยืดไปถึงหลายวินาที
ลูกค้าที่เปลี่ยนจาก GPT-4 มาใช้ Cerebras Inference รายงานว่า latency โดยรวม ลดลง 75%
- นำไปสู่การปรับปรุงประสบการณ์ผู้ใช้ใน use case ที่การโต้ตอบแบบเรียลไทม์มีความสำคัญ เช่น แอปพลิเคชัน AI ด้านเสียงและวิดีโอ
Cerebras Inference สำหรับ Llama 3.1 405B เปิดให้ใช้งานแบบ customer preview แล้วในขณะนี้
- การเปิดให้ใช้งานทั่วไปมีกำหนดในไตรมาส 1 ปี 2025
- ราคาคือ $6 ต่ออินพุต 1 ล้านโทเคน และ $12 ต่อเอาต์พุต 1 ล้านโทเคน
- ราคาเอาต์พุตต่ำกว่า AWS, Azure และ GCP 20%
อธิบายว่า ด้วยการผสานแนวทางแบบเปิดของ Meta กับเทคโนโลยี inference ของ Cerebras ทำให้ Llama 3.1 405B รันได้เร็วกว่าโมเดล frontier แบบปิดมากกว่า 10 เท่า
- ถูกนำเสนอว่าเป็นรากฐานที่เหมาะกับแอปพลิเคชันด้านเสียง, วิดีโอ และ reasoning ซึ่ง latency ต่ำและจำนวนขั้นตอน inference มากมีความสำคัญ

1 ความคิดเห็น

GN⁺ 2024-11-20

ความคิดเห็นจาก Hacker News

เร็วจนน่าทึ่งจริง ๆ คลัสเตอร์ 8x H100 ที่ผมทำ Llama 3.1 70B เองยังยากจะเกิน 100 โทเคน/วินาที เลยสงสัยว่าทำได้อย่างไร
เทคนิคทั่วไป เช่น speculative decoding หรือ FlashAttention อย่างเดียวไม่น่าจะเข้าใกล้ได้ ดูเหมือนอย่างน้อยต้องมีอะไรอย่างการ inference หลายโหนดหรือ sparse attention
- Cerebras สร้าง CPU ที่มีประมาณ 1 ล้านคอร์ และทำ inference บนนั้น ไม่ใช่บน GPU เป็นสถาปัตยกรรมที่ต่างไปโดยสิ้นเชิง จึงไม่มีเครือข่ายเข้ามาเกี่ยว
  เป็นไปได้ด้วยว่าเขาประมวลผลส่วนใหญ่ทางฝั่งแคชของ CPU มากกว่า HBM ถ้าอยากเข้าใจการออกแบบชิป แนะนำวิดีโอ YouTube เกี่ยวกับ Cerebras ของ TechTechPotato
- ใช้ custom silicon ที่มีพื้นที่ใหญ่กว่า 8x H100 หลายเท่า แน่นอนว่าน่าจะมีการปรับแต่ง execution/runtime ด้วย แต่ความต่างหลักน่าจะเป็นจำนวนทรานซิสเตอร์ที่เหนือกว่ามาก
  https://cerebras.ai/product-chip/
- ชิปมี ขนาดเท่าจาน ดูรูปแล้วจะพอนึกภาพออก: https://cerebras.ai/product-chip/
- Cerebras เป็นบริษัทชิปและไม่ใช้ GPU ชิปนี้ใช้ wafer-scale integration จึงมีขนาดทางกายภาพเท่ากับเวเฟอร์ทั้งแผ่น เทียบได้กับการรวม GPU หลายสิบตัวไว้เป็นตัวเดียว
  หน่วยความจำบนชิปมีจำกัดและเป็น SRAM ทั้งหมด ส่วนแบนด์วิดท์ HBM ต่อเวเฟอร์มีเท่าไรนั้นไม่ชัดเจน เป็นโจทย์การปรับแต่งที่ต่างจากการรันบนคลัสเตอร์ GPU อย่างสิ้นเชิง
- เคล็ดลับใหญ่มีสองอย่าง ชิปใหญ่มาก และใช้ SRAM เป็นหน่วยความจำ จึงเร็วกว่า HBM ของ GPU มาก
  จริง ๆ นี่คือเหตุผลหลักที่มันเร็วขนาดนี้ Groq ก็ได้ความเร็วด้วยเหตุผลเดียวกัน
ไม่แน่ใจว่าที่นี่เปรียบเทียบ latency ภายใต้เงื่อนไขเดียวกันจริงหรือไม่ latency แบ่งคร่าว ๆ ได้เป็นสามส่วน คือ throughput สำหรับการประมวลผล context/prompt, เวลารอคิว เพื่อเข้าถึงฮาร์ดแวร์ และ overhead ของ API ทั่วไปอย่างเครือข่าย
เข้าใจว่าบริการที่นำมาเปรียบเทียบหลายราย หรืออาจทั้งหมด ไม่ได้อิง capacity ที่จองไว้ ทำให้ค่าที่วัดรวมเวลารอคิวเข้าไปด้วย สำหรับ LLM เวลาส่วนนี้อาจมากพอสมควร ในทางกลับกัน ตัวเลขของ Cerebras น่าจะได้สิทธิ์เข้าถึงฮาร์ดแวร์แบบการันตี จึงแทบไม่รวมเวลารอคิวที่อาจยืดออกไปไม่จำกัด
throughput เองน่าประทับใจมาก แต่ถ้าจะส่งมอบ throughput นั้นให้ผู้ใช้ปลายทางด้วย latency ต่ำ ก็ต้อง over-provision และยังไม่ชัดเจนว่าคิวจะส่งผลอย่างไร นอกจากนี้ยังอยากรู้ว่าอิงจากเครื่องที่โหลดโมเดลพร้อมแล้วหรือรวมเวลาโหลดโมเดลเมื่อจำเป็นด้วย และถ้าใช้โมเดลที่ fine-tune แล้ว latency จะเปลี่ยนหรือไม่ก็ควรดูด้วย
สำหรับงาน batch ที่ใช้เครื่อง Cerebras ได้ 100% และดึงได้ต่อเนื่อง 1,000 โทเคน/วินาที ดูได้เปรียบชัดเจน
- ต่อให้สมมติว่าทุกฝ่ายอยู่ในเงื่อนไขอุดมคติ ก็ยังสุดยอดอยู่ดี ที่ batch size 1 แล้ว โมเดลพารามิเตอร์ 405B ทำได้ 1,000 โทเคน/วินาที นี่เร็วแบบไม่น่าเชื่อ
เมื่อดูสิ่งที่ทำได้จากโมเดลยุคปัจจุบันเมื่อประกอบกับ RAG, multi-agent และ code interpreter ตอนนี้กำแพงดูจะไม่ใช่ความแม่นยำ แต่ใกล้เคียงกับ latency ของโมเดล มากกว่า
ถ้าโมเดลระดับ 405B มี throughput ระดับนี้ จะเปิดประสบการณ์แบบโต้ตอบได้อีกมาก
- ไม่ค่อยเข้าใจว่า rulebook จะช่วยแก้ incident ได้อย่างไร ผมคิดว่า incident ควรใหม่ทุกครั้ง เพราะเราจะแก้ root cause
  ดังนั้นทุกครั้งต้องขุดดูโค้ดหรือโค้ดที่ deploy ล่าสุด และดู correlation กับ operational metrics ไม่อย่างนั้นก็สงสัยว่า rulebook นั้นหมายถึงแค่ขั้นตอน rollback หรือเปล่า
เพื่อให้ชัดเจน ชิป Cerebras หนึ่งตัวใช้ เวเฟอร์ทั้งแผ่น แต่มี SRAM บนนั้นเพียง 44GB เท่านั้น ถ้าจะใส่โมเดล 405B ที่ความละเอียด bf16 แม้ไม่นับ KV cache และ activation memory ก็ต้องใช้ “ชิป” แบบนี้ 19 ตัว
เมื่อ sequence length ยาวขึ้น ความต้องการจะเพิ่มขึ้นอีกเพราะ KV cache ลองค้นดูพบว่าเวเฟอร์หนึ่งแผ่นใส่ชิป H100 ได้ราว 60–80 ตัว ดังนั้นหากคิดตามต้นทุนการผลิตเวเฟอร์ ก็คล้ายกับใช้ H100 มากกว่า 1,500 ตัว
- งบประมาณที่บริษัทเหล่านี้ทุ่มให้เทคโนโลยีนี้เหนือจินตนาการจริง ๆ
- สงสัยว่าต้นทุนเวเฟอร์เป็นสัดส่วนใหญ่ในราคาชิปจริงหรือไม่
ประสิทธิภาพน่าประทับใจมาก ผมมองว่ามีโอกาสค่อนข้างสูงที่ Nvidia จะพยายามซื้อ Cerebras
- Cerebras กำลังพิจารณา IPO ความเป็นไปได้ที่จะถูกซื้อดูต่ำ แต่ถ้าถูกซื้อจริง ฝั่ง Facebook หรือ MS น่าจะได้คุณค่ามากกว่า
ถ้าจะลองใช้ API ต้องลง waiting list ถ้าบริษัทอ้างแบบนี้แต่ยังไม่ได้เปิดให้ซื้อบริการได้ ก็ควร มองอย่างสงสัย ในระดับหนึ่ง
ในบรรดา AI chip startup Cerebras น่าจะเป็นของจริง
- Groq ก็ของจริงเหมือนกัน เพียงแต่จนถึงตอนนี้ Cerebras ดูเหมือนยังขยายวงกว้างได้ไม่เท่า Groq ต้องรอดูกันต่อไป
- จังหวะออกมาพอดีกับช่วง IPO เลย
ไม่มีการพูดถึง Groq ซึ่งเป็นคู่แข่งโดยตรงหรือ?
- ในฐานะลูกค้าแบบจ่ายเงินของ Groq ผมใช้แล้วพอใจ แต่ในพื้นที่ 405B ยังแข่งกับ Cerebras ไม่ได้
  Groq มีข้อดีคือรับลูกค้าแบบจ่ายเงินที่ยังไม่ถึงระดับ enterprise ด้วย และให้บริการโมเดลหลากหลายอย่างกว้างกว่า ไม่ได้คัดเลือกเข้มมากเหมือน Cerebras แต่ถ้าวัดความเร็วล้วน ๆ และโมเดลขนาดใหญ่ที่สุด Groq เทียบได้ยาก
- Sambanova ก็ไม่ค่อยถูกพูดถึงบ่อยนัก [0] หนึ่งในผู้ร่วมก่อตั้งเป็นที่รู้จักในฐานะ “บิดาแห่งโปรเซสเซอร์มัลติคอร์” [1]
  [0]: https://sambanova.ai/
  [1]: https://en.wikipedia.org/wiki/Kunle_Olukotun
สงสัยว่าการให้บริการด้วย latency แบบนี้มีต้นทุนเท่าไร จากมุมมองลูกค้า fixed cost จะขึ้นกับกลยุทธ์ราคา แต่สุดท้ายต้นทุนจะเป็นตัวกำหนด ขอบเขตการแพร่กระจาย ของเทคโนโลยีนี้
สิ่งสำคัญคือมันเหมาะเฉพาะกับธุรกิจที่ต้องการ latency ต่ำจริง ๆ หรืออยู่ในระดับที่ deploy ได้โดยทั่วไป
- เป็นไปได้ไหมว่าสุดท้ายมาตรฐานจะกลายเป็นทุกคนทำชิปขนาดมหึมาและใช้ SRAM?
  ผู้ผลิต SRAM มีมากแค่ไหน? หรือจำเป็นต้องเป็นโครงสร้างที่ผนวกรวมอยู่ในชิปอย่างสมบูรณ์เท่านั้น?
ถ้าฮาร์ดแวร์ใหม่ทำให้ประสิทธิภาพดีขึ้นแบบนี้ได้ ก็สงสัยว่าจะดันประสิทธิภาพการเทรนด้วยฮาร์ดแวร์ได้อีกเท่าไร
- ถ้าไม่มีการเปลี่ยนแปลงครั้งใหญ่ฝั่ง machine learning ก็คงไม่มากมหาศาลนัก ตรงนี้มีสองแกนคือการเพิ่มประสิทธิภาพและ การเพิ่มปริมาณการคำนวณ
  การเพิ่มปริมาณการคำนวณเป็นวิธีที่ชัดเจนที่สุดในการเพิ่มความเร็ว แต่สำหรับ process node และความละเอียดชนิดข้อมูลหนึ่ง ๆ ดูเหมือนจะใกล้ข้อจำกัดทางฟิสิกส์พอสมควร พิสูจน์ให้ชัดเจนได้ยาก แต่มีเหตุผลอยู่หลายข้อ matrix multiplication ซึ่งเป็นการคำนวณพื้นฐานของ LLM นั้นเรียบง่ายมาก ต่างจากงาน CPU จึงลดส่วนอย่าง control-flow logic ไปมาก พลังงานส่วนใหญ่ถูกใช้กับ matrix multiplication เอง และ matrix multiplication ก็ถูกจำกัดด้วยพลังงานจริง ๆ [1] การเปลี่ยน precision จะได้ประโยชน์ แต่ทำได้ยาก และตอนนี้ก็ใช้ precision ต่ำมากอย่าง fp8 อยู่แล้ว โดย fp8 ยังแทนค่า 17 ไม่ได้ด้วย งานวิจัยล่าสุดก็แสดงให้เห็นข้อจำกัด
  ประสิทธิภาพการเทรน LLM วัดด้วยเกณฑ์ที่โหดมากชื่อ “Model FLOPS Utilization (MFU)” ซึ่งเป็นการเอา FLOPS เชิงทฤษฎีที่ฮาร์ดแวร์ให้ได้ หารด้วย FLOPS เชิงทฤษฎีที่จำเป็นต่อการทำคณิตศาสตร์นั้นให้เกิดขึ้นจริง แค่ใช้ FSDP ก็ทำ 30% ได้ง่าย และ 50–60% ก็ไม่ใช่ระดับเป็นไปไม่ได้หรือไม่เคยมีมาก่อน ความไม่มีประสิทธิภาพส่วนใหญ่เกิดจาก 1) ฮาร์ดแวร์ด้วยเหตุผลหลายอย่างไม่สามารถให้ FLOPS ได้จริงตามที่ระบุ และ 2) ต้องซิงก์ข้อมูลระดับเทราไบต์ระหว่างเครื่องหลายหมื่นเครื่อง ขีดจำกัดเชิงทฤษฎีคือ 2 เท่า แต่ในทางปฏิบัติเหลือพื้นที่ให้รีดเพิ่มไม่มาก
  กำไรในอนาคตน่าจะเน้นไปที่ TPU ที่ลดมาร์จิ้นของ Nvidia, การปรับปรุง process node, การลดชนิดข้อมูลแบบ B100 หรือการเพิ่มขนาดชิปเพื่อลดการสื่อสารระหว่างชิปที่มีต้นทุนสูง ภายใต้ precision เดิมและ process node เดิม ดูไม่มีช่องให้ดีขึ้น 10 เท่า
  [1]: https://www.thonking.ai/p/strangely-matrix-multiplications
- ทางออกสุดท้ายคงเป็นการเปลี่ยน LLM ให้เป็น ASIC ล้วน ๆ
  ประสิทธิภาพน่าจะเพิ่มขึ้นราว 10 เท่า แต่จะเป็นทางออกที่แพงมาก

Cerebras Inference ประมวลผล Llama 3.1 405B ได้ 969 โทเคนต่อวินาที

สถิติประสิทธิภาพของ Llama 3.1 405B

Latency, กำหนดการให้บริการ และราคา

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News