- ประกอบด้วย 3 โมเดลคือ Scout, Maverick, Behemoth ซึ่งเป็น โมเดลเนทีฟมัลติโหมดแบบโอเพนเวตชุดแรก
- ทุกโมเดลเข้าใจทั้งภาพ + ข้อความ แบบมัลติโหมด
Llama 4 Scout
- 17B active parameters + 16 Expert
- ความสามารถประมวลผลบริบทยาวพิเศษ รองรับ 10M โทเคน
- โมเดลขนาดเล็กที่มีประสิทธิภาพ ทำงานได้ด้วย GPU เพียงตัวเดียว (H100)
- ประสิทธิภาพเหนือกว่า Gemma 3, Gemini 2.0 Flash-Lite, Mistral 3.1
- ทำผลงานได้ดีในงานอย่างการจัดแนวภาพ การสรุปหลายเอกสาร และการวิเคราะห์โค้ดเบสขนาดใหญ่
Llama 4 Maverick
- 17B active parameters + 128 Expert+ 400B total parameters
- ประสิทธิภาพดีกว่า GPT-4o และ Gemini 2.0 Flash
- โดดเด่นในทุกด้าน ทั้ง Reasoning, การเขียนโค้ด, การเข้าใจภาพ ฯลฯ
- ทำคะแนน ELO ได้ 1417 (อ้างอิงจาก LMArena)
- โครงสร้างต้นทุนมีประสิทธิภาพเมื่อเทียบกับสมรรถนะระดับสูง
Llama 4 Behemoth (พรีวิว)
- 288B active parameters + 16 Expert+ ประมาณ 2T total parameters
- ยังอยู่ระหว่างการฝึก แต่มีประสิทธิภาพเหนือกว่า GPT-4.5, Claude 3.7, Gemini 2.0 Pro
- ถูกใช้เป็น teacher model ในการ pre-train โมเดล Maverick
# คุณลักษณะทางเทคนิค
สถาปัตยกรรม Mixture of Experts (MoE)
- แทนที่จะใช้พารามิเตอร์ทั้งหมด จะ เปิดใช้งานเฉพาะ expert บางส่วน เพื่อเพิ่มประสิทธิภาพการคำนวณสูงสุด
- ทำให้เกิดโครงสร้างการฝึกที่มี การอนุมานเร็ว ต้นทุนต่ำ และคุณภาพสูง
Native มัลติโหมด & Early Fusion
- รวมข้อมูลข้อความและวิชัน ตั้งแต่ต้น เพื่อให้เกิดการเรียนรู้ร่วมกัน
- รับภาพเข้าได้สูงสุด 48 ภาพ และทดสอบสำเร็จที่สูงสุด 8 ภาพ
การจัดการบริบทยาวพิเศษ (10M Tokens)
- โมเดล Scout กำลังสำรวจความเป็นไปได้ของ "บริบทไม่สิ้นสุด" ด้วยโครงสร้าง iRoPE (interleaved Rotary Position Embedding)
- มีความสามารถยอดเยี่ยมในการทำ length generalization สำหรับข้อความและโค้ด
เทคนิคการฝึก MetaP & FP8
- เทคโนโลยีปรับจูนไฮเปอร์พารามิเตอร์แบบใหม่เพื่อการฝึกที่เร็วและมีประสิทธิภาพสูง
- ใช้ประโยชน์จาก FLOPs ได้สูงด้วยความละเอียด FP8 (Behemoth: 390 TFLOPs/GPU)
# กลยุทธ์ post-training และการฝึก RL
- ใช้ไปป์ไลน์ post-training แบบ 3 ขั้นคือ SFT → online RL → DPO
- ตัดข้อมูลที่ง่ายออก และฝึกโดยเน้น พรอมป์ตระดับความยากปานกลางถึงสูง
- นำกลยุทธ์ online RL แบบต่อเนื่อง มาใช้: เพิ่มประสิทธิภาพและขยายประสิทธิผลของการฝึกสูงสุด
# การคำนึงถึงความปลอดภัยและจริยธรรม
กลยุทธ์การป้องกันหลายชั้น
- กรองและคัดกรองข้อมูลในขั้นก่อนและหลังการฝึก
- Llama Guard: ตรวจสอบความปลอดภัยของอินพุต/เอาต์พุต
- Prompt Guard: ตรวจจับการ jailbreak และการโจมตีแบบ prompt injection
- CyberSecEval: มีเครื่องมือประเมินความเสี่ยงด้านความปลอดภัยของ generative AI
ระบบอัตโนมัติสำหรับการตรวจจับความเสี่ยงเชิงปริมาณ
- นำ GOAT (Generative Offensive Agent Testing) มาใช้
- จำลองสถานการณ์ผู้โจมตีระดับกลาง
- ตรวจจับความเสี่ยงได้ตั้งแต่เนิ่นๆ ด้วยการทดสอบหลายเทิร์นอัตโนมัติ
ความพยายามในการลดอคติ
- Llama 4 ปรับปรุงอคติได้อย่างมากเมื่อเทียบกับ Llama 3
- อัตราการปฏิเสธคำตอบ 7% → ต่ำกว่า 2%
- ความไม่สมดุลของคำตอบ < 1%
- รักษาความสมดุลทางการเมืองของคำตอบในระดับเดียวกับ Grok
# แนวทางการใช้งานโมเดล Llama 4
- ทั้ง Scout และ Maverick ดาวน์โหลดและนำไปใช้งานได้
- ผสาน Llama 4 เข้ากับบริการ Meta AI:
- WhatsApp, Messenger, Instagram DM, meta.ai
# กำหนดการถัดไป
- LlamaCon 2025 ซึ่งจะนำเสนอรายละเอียดทางเทคนิคและวิสัยทัศน์เพิ่มเติม มีกำหนดจัดในวันที่ 29 เมษายน
2 ความคิดเห็น
ดูเหมือนว่าจะเหมาะกับ Apple Silicon ที่มี RAM เหลือพอ หรืออุปกรณ์ตระกูล NPU มากกว่า ถ้าจะใช้กับเซิร์ฟเวอร์ GPU ล้วน ๆ แม้แต่โมเดลสเปกขั้นต่ำก็ยังต้องใช้การควอนไทซ์แบบ int4 และต้องมี H100 อยู่ดี..
ความคิดเห็นจาก Hacker News
ภาพรวมของโมเดล Llama 4:
Llama 4 Scout:
Llama 4 Maverick:
Llama 4 Behemoth (พรีวิว):
อื่น ๆ:
เธรดที่สรุปโดย Llama 4 Maverick:
hn-summary.sh 43595585 -m openrouter/meta-llama/llama-4-maverick -o max_tokens 20000ผลลัพธ์ที่ได้จาก Scout นั้นเป็นเอาต์พุตที่ใช้การไม่ได้โดยสิ้นเชิง:
hn-summary.sh 43595585 -m openrouter/meta-llama/llama-4-scout -o max_tokens 20000รัน Scout โดยตรงผ่าน Groq แต่มีข้อจำกัดขนาดเอาต์พุตที่ 2048:
hn-summary.sh 43595585 -m groq/meta-llama/llama-4-scout-17b-16e-instruct -o max_tokens 2048สรุปของโมเดลอื่นใกล้เคียงกับ system prompt มากกว่า ตัวอย่างเช่น ดีกว่ามากเมื่อเทียบกับ Gemini 2.5 Pro:
โมเดล Scout ขนาดเล็กน่าสนใจมากสำหรับ Apple Silicon แม้จะมีขนาด 109B แต่ถูกแบ่งเป็นผู้เชี่ยวชาญ 16 คน กระบวนการประมวลผลจริงเกิดขึ้นที่ 17B บน MacBook Pro M4 Max ได้ความเร็วประมาณ ~60 โทเค็นต่อวินาทีเมื่อถามโมเดลท้องถิ่น 7B (
qwen 2.5 7B instruct) ด้วยคอนเท็กซ์ 2k ดังนั้นจึงอาจไปถึง 30 โทเค็นต่อวินาทีได้ เวลาจนได้โทเค็นแรกอาจยังช้าอยู่โมเดลมีหน้าต่างคอนเท็กซ์ 10M โทเค็น ยังไม่แน่ชัดว่าจะติดตามคอนเท็กซ์ได้ดีแค่ไหนในขนาดนี้ แต่แค่ไม่ถูกจำกัดไว้ที่ ~32k ก็นับว่ายอดเยี่ยมแล้ว
LLM รายใหญ่ทั้งหมดกำลังเผชิญปัญหาอคติ โดยเฉพาะในประเด็นการเมืองและสังคมที่เอนซ้าย อาจเป็นเพราะประเภทของข้อมูลฝึกที่มีอยู่บนอินเทอร์เน็ต
พรอมป์ต์ที่เสนอถูกออกแบบมาเพื่อไม่ให้มีข้อจำกัดแบบรีลีสของ OpenAI:
เปิดตัวเพียงหนึ่งชั่วโมงหลังจากมีการถกเถียงอื่นเกี่ยวกับ Meta:
ใช้งานได้บน Groq:
ตอนนี้เป็นช่วงเวลาที่น่าตื่นเต้นมาก คล้ายกับช่วงที่ JavaScript frameworks เพิ่มขึ้นอย่างระเบิด ตอนนั้นให้ความรู้สึกประมาณว่า "ฉันต้องไปเรียนรู้อีก framework หนึ่งเหรอ?" แต่ตอนนี้นวัตกรรมกำลังเดินหน้าอย่างรวดเร็วอีกครั้ง และครั้งนี้ให้ความรู้สึกเหมือนเป็นการเดินทางที่น่าตื่นเต้นซึ่งเรามีส่วนร่วมได้