การประเมิน Meta Llama 3 ของ Andrej Karpathy

xguru · 2024-04-19T09:17:00+09:00

เปิดตัวโมเดล 8B และ 70B (ทั้งโมเดลพื้นฐานและโมเดลที่ผ่านการ fine-tune) ซึ่งแสดงประสิทธิภาพที่แข็งแกร่งในแต่ละคลาสของโมเดล โมเดล 400B ยังอยู่ระหว่างการฝึก แต่ก็เข้าใกล้ระดับของ GPT-4 แล้ว (เช่น MMLU 84.8 เทียบกับ 86.5 ของ GPT-4) โทเคไนเซอร์ จำนวนโทเคนเพิ่มขึ้น 4 เท่า จาก 32K (Llama 2) เป็น 128K (Llama 3) โทเคนที่มากขึ้นช่วยบีบอัดความยาวลำดับได้มากขึ้น โดยอ้างว่าใช้โทเคนน้อยลง 15% และช่วยให้ประสิทธิภาพ downstream ดีขึ้น สถาปัตยกรรม ใน Llama 2 มีเพียงโมเดลขนาดใหญ่เท่านั้นที่ใช้ Grouped Query Attention (GQA) แต่ตอนนี้ทุกโมเดลรวมถึงโมเดลเล็กสุด 8B ก็ใช้ GQA แล้ว GQA เป็นรูปแบบการแชร์พารามิเตอร์สำหรับคีย์/แวลูของ Attention ซึ่งช่วยลดขนาดของ KV cache ระหว่างการอนุมาน นี่เป็นการปรับแก้ที่ดีและน่ายินดี เพราะช่วยลดความซับซ้อนและทำให้ปรับแต่งได้ดีขึ้น ความยาวลำดับ จำนวนโทเคนสูงสุดของ context window เพิ่มจาก 4096 (Llama 2) และ 2048 (Llama 1) เป็น 8192 การเพิ่มขึ้นนี้น่ายินดี แต่ก็ยังค่อนข้างเล็กเมื่อเทียบกับมาตรฐานล่าสุด (เช่น GPT-4 มี 128K) หลายคนน่าจะคาดหวังมากกว่านี้ในแกนนี้ อาจจะทำได้ภายหลังด้วยการ fine-tune(?) ข้อมูลฝึก Llama 2 ฝึกด้วยโทเคน 2T ส่วน Llama 3 เพิ่มเป็นชุดข้อมูลฝึก 15T ให้ความสำคัญอย่างมากกับคุณภาพข้อมูล, โทเคนโค้ดที่มากขึ้น 4 เท่า, และโทเคน non-en 5% ในมากกว่า 30 ภาษา 5% ถือว่าค่อนข้างต่ำเมื่อเทียบกับสัดส่วน non-en:en ดังนั้นโมเดลนี้ยังคงเป็นโมเดลภาษาอังกฤษเป็นหลัก แต่การมีมากกว่า 0 ก็ถือว่าดีพอสมควร กฎการสเกล 15T เป็นชุดข้อมูลที่ใหญ่มากสำหรับการฝึกโมเดล "ขนาดเล็ก" อย่างพารามิเตอร์ 8B ซึ่งเป็นสิ่งใหม่และน่ายินดีมาก เพราะโดยปกติไม่ได้ทำกันแบบนี้ หากจะฝึกโมเดล 8B ที่จุด "compute optimal" ตาม Chinchilla จะต้องใช้การฝึกเพียงประมาณ ~200B โทเคน ถ้าสนใจแค่ความคุ้มค่าต่อประสิทธิภาพของโมเดล ระดับนั้นก็เพียงพอแล้ว แต่ Meta ฝึกเลยจุดนั้นไปประมาณ ~75 เท่า ซึ่งแม้จะผิดปกติ แต่โดยส่วนตัวผมมองว่าเป็นเรื่องที่น่ายินดีมาก เราทุกคนจึงได้โมเดลที่มีความสามารถสูงมาก ขนาดเล็ก ทำงานด้วยง่าย และอนุมานได้ง่าย Meta ยังระบุด้วยว่าแม้จะถึงจุดนี้แล้ว โมเดลก็ดูเหมือนยังไม่ "ลู่เข้า" ในความหมายมาตรฐาน นั่นหมายความว่า LLM ที่เราทำงานกันอยู่เป็นประจำยังขาดการฝึกที่ยาวกว่านี้อีกมากถึง 100-1000 เท่า และยังไม่เข้าใกล้จุดลู่เข้า หวังว่าแนวโน้มของการฝึกให้นานขึ้นแล้วปล่อยโมเดลที่เล็กลงมากจะยังดำเนินต่อไป ระบบ มีการระบุว่า Llama 3 ถูกฝึกด้วย throughput ที่สังเกตได้ 400 TFLOPS บน GPU จำนวน 16K แม้จะไม่ได้ระบุไว้ แต่คาดกันว่าเป็น H100 fp16 ซึ่งในเอกสารการตลาดของ NVIDIA ระบุไว้ที่ 1,979 TFLOPS แต่เราก็รู้กันว่าหมายเหตุเล็ก ๆ ของพวกเขา (*with sparsity) มีผลอย่างมาก และถ้าจะดู TFLOPS จริงก็ควรหารตัวเลขนี้ด้วย 2 เหลือประมาณ ~990 (ทำไม Sparsity ถึงถูกนับเป็น FLOPS?) อย่างไรก็ดี 400/990 ~= อัตราการใช้งาน 40% ซึ่งถือว่าไม่เลวเลยสำหรับ GPU จำนวนมากขนาดนั้น! การจะไปถึงจุดนี้ได้ในสเกลระดับนี้ต้องอาศัยงานวิศวกรรมที่แข็งแกร่งอย่างมาก สรุป Llama 3 ดูเป็นการปล่อยโมเดลที่มีความสามารถสูงมากและน่ายินดีอย่างยิ่ง ยึดพื้นฐานให้แน่น ใช้เวลากับงานระบบและข้อมูลอย่างจริงจัง และสำรวจขีดจำกัดของโมเดลที่ฝึกระยะยาว โมเดล 400B ก็น่าตื่นเต้นมากเช่นกัน และอาจเป็นโอเพนซอร์สรุ่นแรกที่อยู่ในระดับ GPT-4 คิดว่าหลายคนจะเรียกร้อง context length ที่ยาวกว่านี้

(twitter.com/karpathy)

16 คะแนน โดย xguru 2024-04-19 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

เปิดตัวโมเดล 8B และ 70B (ทั้งโมเดลพื้นฐานและโมเดลที่ผ่านการ fine-tune) ซึ่งแสดงประสิทธิภาพที่แข็งแกร่งในแต่ละคลาสของโมเดล
โมเดล 400B ยังอยู่ระหว่างการฝึก แต่ก็เข้าใกล้ระดับของ GPT-4 แล้ว (เช่น MMLU 84.8 เทียบกับ 86.5 ของ GPT-4)

โทเคไนเซอร์

จำนวนโทเคนเพิ่มขึ้น 4 เท่า จาก 32K (Llama 2) เป็น 128K (Llama 3)
โทเคนที่มากขึ้นช่วยบีบอัดความยาวลำดับได้มากขึ้น โดยอ้างว่าใช้โทเคนน้อยลง 15% และช่วยให้ประสิทธิภาพ downstream ดีขึ้น

สถาปัตยกรรม

ใน Llama 2 มีเพียงโมเดลขนาดใหญ่เท่านั้นที่ใช้ Grouped Query Attention (GQA) แต่ตอนนี้ทุกโมเดลรวมถึงโมเดลเล็กสุด 8B ก็ใช้ GQA แล้ว
GQA เป็นรูปแบบการแชร์พารามิเตอร์สำหรับคีย์/แวลูของ Attention ซึ่งช่วยลดขนาดของ KV cache ระหว่างการอนุมาน
นี่เป็นการปรับแก้ที่ดีและน่ายินดี เพราะช่วยลดความซับซ้อนและทำให้ปรับแต่งได้ดีขึ้น

ความยาวลำดับ

จำนวนโทเคนสูงสุดของ context window เพิ่มจาก 4096 (Llama 2) และ 2048 (Llama 1) เป็น 8192
การเพิ่มขึ้นนี้น่ายินดี แต่ก็ยังค่อนข้างเล็กเมื่อเทียบกับมาตรฐานล่าสุด (เช่น GPT-4 มี 128K)
หลายคนน่าจะคาดหวังมากกว่านี้ในแกนนี้ อาจจะทำได้ภายหลังด้วยการ fine-tune(?)

ข้อมูลฝึก

Llama 2 ฝึกด้วยโทเคน 2T ส่วน Llama 3 เพิ่มเป็นชุดข้อมูลฝึก 15T
ให้ความสำคัญอย่างมากกับคุณภาพข้อมูล, โทเคนโค้ดที่มากขึ้น 4 เท่า, และโทเคน non-en 5% ในมากกว่า 30 ภาษา
5% ถือว่าค่อนข้างต่ำเมื่อเทียบกับสัดส่วน non-en:en ดังนั้นโมเดลนี้ยังคงเป็นโมเดลภาษาอังกฤษเป็นหลัก แต่การมีมากกว่า 0 ก็ถือว่าดีพอสมควร

กฎการสเกล

15T เป็นชุดข้อมูลที่ใหญ่มากสำหรับการฝึกโมเดล "ขนาดเล็ก" อย่างพารามิเตอร์ 8B ซึ่งเป็นสิ่งใหม่และน่ายินดีมาก เพราะโดยปกติไม่ได้ทำกันแบบนี้
หากจะฝึกโมเดล 8B ที่จุด "compute optimal" ตาม Chinchilla จะต้องใช้การฝึกเพียงประมาณ ~200B โทเคน
ถ้าสนใจแค่ความคุ้มค่าต่อประสิทธิภาพของโมเดล ระดับนั้นก็เพียงพอแล้ว
แต่ Meta ฝึกเลยจุดนั้นไปประมาณ ~75 เท่า ซึ่งแม้จะผิดปกติ แต่โดยส่วนตัวผมมองว่าเป็นเรื่องที่น่ายินดีมาก
เราทุกคนจึงได้โมเดลที่มีความสามารถสูงมาก ขนาดเล็ก ทำงานด้วยง่าย และอนุมานได้ง่าย
Meta ยังระบุด้วยว่าแม้จะถึงจุดนี้แล้ว โมเดลก็ดูเหมือนยังไม่ "ลู่เข้า" ในความหมายมาตรฐาน
นั่นหมายความว่า LLM ที่เราทำงานกันอยู่เป็นประจำยังขาดการฝึกที่ยาวกว่านี้อีกมากถึง 100-1000 เท่า และยังไม่เข้าใกล้จุดลู่เข้า
หวังว่าแนวโน้มของการฝึกให้นานขึ้นแล้วปล่อยโมเดลที่เล็กลงมากจะยังดำเนินต่อไป

ระบบ

มีการระบุว่า Llama 3 ถูกฝึกด้วย throughput ที่สังเกตได้ 400 TFLOPS บน GPU จำนวน 16K
แม้จะไม่ได้ระบุไว้ แต่คาดกันว่าเป็น H100 fp16 ซึ่งในเอกสารการตลาดของ NVIDIA ระบุไว้ที่ 1,979 TFLOPS
แต่เราก็รู้กันว่าหมายเหตุเล็ก ๆ ของพวกเขา (*with sparsity) มีผลอย่างมาก และถ้าจะดู TFLOPS จริงก็ควรหารตัวเลขนี้ด้วย 2 เหลือประมาณ ~990
(ทำไม Sparsity ถึงถูกนับเป็น FLOPS?)
อย่างไรก็ดี 400/990 ~= อัตราการใช้งาน 40% ซึ่งถือว่าไม่เลวเลยสำหรับ GPU จำนวนมากขนาดนั้น!
การจะไปถึงจุดนี้ได้ในสเกลระดับนี้ต้องอาศัยงานวิศวกรรมที่แข็งแกร่งอย่างมาก

สรุป

Llama 3 ดูเป็นการปล่อยโมเดลที่มีความสามารถสูงมากและน่ายินดีอย่างยิ่ง
ยึดพื้นฐานให้แน่น ใช้เวลากับงานระบบและข้อมูลอย่างจริงจัง และสำรวจขีดจำกัดของโมเดลที่ฝึกระยะยาว
โมเดล 400B ก็น่าตื่นเต้นมากเช่นกัน และอาจเป็นโอเพนซอร์สรุ่นแรกที่อยู่ในระดับ GPT-4
คิดว่าหลายคนจะเรียกร้อง context length ที่ยาวกว่านี้