• เปิดตัวโมเดล 8B และ 70B (ทั้งโมเดลพื้นฐานและโมเดลที่ผ่านการ fine-tune) ซึ่งแสดงประสิทธิภาพที่แข็งแกร่งในแต่ละคลาสของโมเดล
  • โมเดล 400B ยังอยู่ระหว่างการฝึก แต่ก็เข้าใกล้ระดับของ GPT-4 แล้ว (เช่น MMLU 84.8 เทียบกับ 86.5 ของ GPT-4)

โทเคไนเซอร์

  • จำนวนโทเคนเพิ่มขึ้น 4 เท่า จาก 32K (Llama 2) เป็น 128K (Llama 3)
  • โทเคนที่มากขึ้นช่วยบีบอัดความยาวลำดับได้มากขึ้น โดยอ้างว่าใช้โทเคนน้อยลง 15% และช่วยให้ประสิทธิภาพ downstream ดีขึ้น

สถาปัตยกรรม

  • ใน Llama 2 มีเพียงโมเดลขนาดใหญ่เท่านั้นที่ใช้ Grouped Query Attention (GQA) แต่ตอนนี้ทุกโมเดลรวมถึงโมเดลเล็กสุด 8B ก็ใช้ GQA แล้ว
  • GQA เป็นรูปแบบการแชร์พารามิเตอร์สำหรับคีย์/แวลูของ Attention ซึ่งช่วยลดขนาดของ KV cache ระหว่างการอนุมาน
  • นี่เป็นการปรับแก้ที่ดีและน่ายินดี เพราะช่วยลดความซับซ้อนและทำให้ปรับแต่งได้ดีขึ้น

ความยาวลำดับ

  • จำนวนโทเคนสูงสุดของ context window เพิ่มจาก 4096 (Llama 2) และ 2048 (Llama 1) เป็น 8192
  • การเพิ่มขึ้นนี้น่ายินดี แต่ก็ยังค่อนข้างเล็กเมื่อเทียบกับมาตรฐานล่าสุด (เช่น GPT-4 มี 128K)
  • หลายคนน่าจะคาดหวังมากกว่านี้ในแกนนี้ อาจจะทำได้ภายหลังด้วยการ fine-tune(?)

ข้อมูลฝึก

  • Llama 2 ฝึกด้วยโทเคน 2T ส่วน Llama 3 เพิ่มเป็นชุดข้อมูลฝึก 15T
  • ให้ความสำคัญอย่างมากกับคุณภาพข้อมูล, โทเคนโค้ดที่มากขึ้น 4 เท่า, และโทเคน non-en 5% ในมากกว่า 30 ภาษา
  • 5% ถือว่าค่อนข้างต่ำเมื่อเทียบกับสัดส่วน non-en:en ดังนั้นโมเดลนี้ยังคงเป็นโมเดลภาษาอังกฤษเป็นหลัก แต่การมีมากกว่า 0 ก็ถือว่าดีพอสมควร

กฎการสเกล

  • 15T เป็นชุดข้อมูลที่ใหญ่มากสำหรับการฝึกโมเดล "ขนาดเล็ก" อย่างพารามิเตอร์ 8B ซึ่งเป็นสิ่งใหม่และน่ายินดีมาก เพราะโดยปกติไม่ได้ทำกันแบบนี้
  • หากจะฝึกโมเดล 8B ที่จุด "compute optimal" ตาม Chinchilla จะต้องใช้การฝึกเพียงประมาณ ~200B โทเคน
  • ถ้าสนใจแค่ความคุ้มค่าต่อประสิทธิภาพของโมเดล ระดับนั้นก็เพียงพอแล้ว
  • แต่ Meta ฝึกเลยจุดนั้นไปประมาณ ~75 เท่า ซึ่งแม้จะผิดปกติ แต่โดยส่วนตัวผมมองว่าเป็นเรื่องที่น่ายินดีมาก
  • เราทุกคนจึงได้โมเดลที่มีความสามารถสูงมาก ขนาดเล็ก ทำงานด้วยง่าย และอนุมานได้ง่าย
  • Meta ยังระบุด้วยว่าแม้จะถึงจุดนี้แล้ว โมเดลก็ดูเหมือนยังไม่ "ลู่เข้า" ในความหมายมาตรฐาน
  • นั่นหมายความว่า LLM ที่เราทำงานกันอยู่เป็นประจำยังขาดการฝึกที่ยาวกว่านี้อีกมากถึง 100-1000 เท่า และยังไม่เข้าใกล้จุดลู่เข้า
  • หวังว่าแนวโน้มของการฝึกให้นานขึ้นแล้วปล่อยโมเดลที่เล็กลงมากจะยังดำเนินต่อไป

ระบบ

  • มีการระบุว่า Llama 3 ถูกฝึกด้วย throughput ที่สังเกตได้ 400 TFLOPS บน GPU จำนวน 16K
  • แม้จะไม่ได้ระบุไว้ แต่คาดกันว่าเป็น H100 fp16 ซึ่งในเอกสารการตลาดของ NVIDIA ระบุไว้ที่ 1,979 TFLOPS
  • แต่เราก็รู้กันว่าหมายเหตุเล็ก ๆ ของพวกเขา (*with sparsity) มีผลอย่างมาก และถ้าจะดู TFLOPS จริงก็ควรหารตัวเลขนี้ด้วย 2 เหลือประมาณ ~990
  • (ทำไม Sparsity ถึงถูกนับเป็น FLOPS?)
  • อย่างไรก็ดี 400/990 ~= อัตราการใช้งาน 40% ซึ่งถือว่าไม่เลวเลยสำหรับ GPU จำนวนมากขนาดนั้น!
  • การจะไปถึงจุดนี้ได้ในสเกลระดับนี้ต้องอาศัยงานวิศวกรรมที่แข็งแกร่งอย่างมาก

สรุป

  • Llama 3 ดูเป็นการปล่อยโมเดลที่มีความสามารถสูงมากและน่ายินดีอย่างยิ่ง
  • ยึดพื้นฐานให้แน่น ใช้เวลากับงานระบบและข้อมูลอย่างจริงจัง และสำรวจขีดจำกัดของโมเดลที่ฝึกระยะยาว
  • โมเดล 400B ก็น่าตื่นเต้นมากเช่นกัน และอาจเป็นโอเพนซอร์สรุ่นแรกที่อยู่ในระดับ GPT-4
  • คิดว่าหลายคนจะเรียกร้อง context length ที่ยาวกว่านี้

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น