Meta เปิดตัว Llama 4

(ai.meta.com)

16 คะแนน โดย GN⁺ 2025-04-06 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

ประกอบด้วย 3 โมเดลคือ Scout, Maverick, Behemoth ซึ่งเป็น โมเดลเนทีฟมัลติโหมดแบบโอเพนเวตชุดแรก
- ทุกโมเดลเข้าใจทั้งภาพ + ข้อความ แบบมัลติโหมด

Llama 4 Scout

17B active parameters + 16 Expert
ความสามารถประมวลผลบริบทยาวพิเศษ รองรับ 10M โทเคน
โมเดลขนาดเล็กที่มีประสิทธิภาพ ทำงานได้ด้วย GPU เพียงตัวเดียว (H100)
ประสิทธิภาพเหนือกว่า Gemma 3, Gemini 2.0 Flash-Lite, Mistral 3.1
ทำผลงานได้ดีในงานอย่างการจัดแนวภาพ การสรุปหลายเอกสาร และการวิเคราะห์โค้ดเบสขนาดใหญ่

Llama 4 Maverick

17B active parameters + 128 Expert+ 400B total parameters
ประสิทธิภาพดีกว่า GPT-4o และ Gemini 2.0 Flash
โดดเด่นในทุกด้าน ทั้ง Reasoning, การเขียนโค้ด, การเข้าใจภาพ ฯลฯ
ทำคะแนน ELO ได้ 1417 (อ้างอิงจาก LMArena)
โครงสร้างต้นทุนมีประสิทธิภาพเมื่อเทียบกับสมรรถนะระดับสูง

Llama 4 Behemoth (พรีวิว)

288B active parameters + 16 Expert+ ประมาณ 2T total parameters
ยังอยู่ระหว่างการฝึก แต่มีประสิทธิภาพเหนือกว่า GPT-4.5, Claude 3.7, Gemini 2.0 Pro
ถูกใช้เป็น teacher model ในการ pre-train โมเดล Maverick

สามารถดาวน์โหลด Scout และ Maverick ได้ตั้งแต่วันนี้ที่ llama.com และ Hugging Face

# คุณลักษณะทางเทคนิค

สถาปัตยกรรม Mixture of Experts (MoE)

แทนที่จะใช้พารามิเตอร์ทั้งหมด จะ เปิดใช้งานเฉพาะ expert บางส่วน เพื่อเพิ่มประสิทธิภาพการคำนวณสูงสุด
ทำให้เกิดโครงสร้างการฝึกที่มี การอนุมานเร็ว ต้นทุนต่ำ และคุณภาพสูง

Native มัลติโหมด & Early Fusion

รวมข้อมูลข้อความและวิชัน ตั้งแต่ต้น เพื่อให้เกิดการเรียนรู้ร่วมกัน
รับภาพเข้าได้สูงสุด 48 ภาพ และทดสอบสำเร็จที่สูงสุด 8 ภาพ

การจัดการบริบทยาวพิเศษ (10M Tokens)

โมเดล Scout กำลังสำรวจความเป็นไปได้ของ "บริบทไม่สิ้นสุด" ด้วยโครงสร้าง iRoPE (interleaved Rotary Position Embedding)
มีความสามารถยอดเยี่ยมในการทำ length generalization สำหรับข้อความและโค้ด

เทคนิคการฝึก MetaP & FP8

เทคโนโลยีปรับจูนไฮเปอร์พารามิเตอร์แบบใหม่เพื่อการฝึกที่เร็วและมีประสิทธิภาพสูง
ใช้ประโยชน์จาก FLOPs ได้สูงด้วยความละเอียด FP8 (Behemoth: 390 TFLOPs/GPU)

# กลยุทธ์ post-training และการฝึก RL

ใช้ไปป์ไลน์ post-training แบบ 3 ขั้นคือ SFT → online RL → DPO
ตัดข้อมูลที่ง่ายออก และฝึกโดยเน้น พรอมป์ตระดับความยากปานกลางถึงสูง
นำกลยุทธ์ online RL แบบต่อเนื่อง มาใช้: เพิ่มประสิทธิภาพและขยายประสิทธิผลของการฝึกสูงสุด

# การคำนึงถึงความปลอดภัยและจริยธรรม

กลยุทธ์การป้องกันหลายชั้น

กรองและคัดกรองข้อมูลในขั้นก่อนและหลังการฝึก
Llama Guard: ตรวจสอบความปลอดภัยของอินพุต/เอาต์พุต
Prompt Guard: ตรวจจับการ jailbreak และการโจมตีแบบ prompt injection
CyberSecEval: มีเครื่องมือประเมินความเสี่ยงด้านความปลอดภัยของ generative AI

ระบบอัตโนมัติสำหรับการตรวจจับความเสี่ยงเชิงปริมาณ

นำ GOAT (Generative Offensive Agent Testing) มาใช้
- จำลองสถานการณ์ผู้โจมตีระดับกลาง
- ตรวจจับความเสี่ยงได้ตั้งแต่เนิ่นๆ ด้วยการทดสอบหลายเทิร์นอัตโนมัติ

ความพยายามในการลดอคติ

Llama 4 ปรับปรุงอคติได้อย่างมากเมื่อเทียบกับ Llama 3
- อัตราการปฏิเสธคำตอบ 7% → ต่ำกว่า 2%
- ความไม่สมดุลของคำตอบ < 1%
- รักษาความสมดุลทางการเมืองของคำตอบในระดับเดียวกับ Grok

# แนวทางการใช้งานโมเดล Llama 4

ทั้ง Scout และ Maverick ดาวน์โหลดและนำไปใช้งานได้
- llama.com
- Hugging Face
ผสาน Llama 4 เข้ากับบริการ Meta AI:
- WhatsApp, Messenger, Instagram DM, meta.ai

# กำหนดการถัดไป

LlamaCon 2025 ซึ่งจะนำเสนอรายละเอียดทางเทคนิคและวิสัยทัศน์เพิ่มเติม มีกำหนดจัดในวันที่ 29 เมษายน
- ลงทะเบียน LlamaCon

2 ความคิดเห็น

jjw951215 2025-04-07

ดูเหมือนว่าจะเหมาะกับ Apple Silicon ที่มี RAM เหลือพอ หรืออุปกรณ์ตระกูล NPU มากกว่า ถ้าจะใช้กับเซิร์ฟเวอร์ GPU ล้วน ๆ แม้แต่โมเดลสเปกขั้นต่ำก็ยังต้องใช้การควอนไทซ์แบบ int4 และต้องมี H100 อยู่ดี..

GN⁺ 2025-04-06

ความคิดเห็นจาก Hacker News

ภาพรวมของโมเดล Llama 4:
- Llama 4 Scout และ Llama 4 Maverick ใช้สถาปัตยกรรม Mixture-of-Experts (MoE) โดยแต่ละตัวใช้พารามิเตอร์ที่ทำงานจริง 17B
- มีความสามารถแบบมัลติโหมด รองรับอินพุตทั้งข้อความและภาพ
- จุดเด่นสำคัญคือความยาวคอนเท็กซ์ระดับแนวหน้าของอุตสาหกรรม ประสิทธิภาพด้านการเขียนโค้ด/การให้เหตุผลที่แข็งแกร่ง และการรองรับหลายภาษาที่ดีขึ้น
- knowledge cutoff คือเดือนสิงหาคม 2024
Llama 4 Scout:
- พารามิเตอร์ที่ทำงานจริง 17B, ผู้เชี่ยวชาญ 16 คน, รวมทั้งหมด 109B
- เหมาะกับ GPU H100 เดี่ยว (INT4-quantized)
- หน้าต่างคอนเท็กซ์ 10M โทเค็น
- ให้ประสิทธิภาพงานมัลติโหมดดีกว่า Llama รุ่นก่อน ๆ และใช้ทรัพยากรอย่างคุ้มค่า
- ใช้สถาปัตยกรรม iRoPE เพื่อให้ attention กับคอนเท็กซ์ยาวได้อย่างมีประสิทธิภาพ
- ทดสอบด้วยภาพได้สูงสุด 8 ภาพต่อพรอมป์ต์
Llama 4 Maverick:
- พารามิเตอร์ที่ทำงานจริง 17B, ผู้เชี่ยวชาญ 128 คน, รวมทั้งหมด 400B
- หน้าต่างคอนเท็กซ์ 1M โทเค็น
- ไม่ได้รันบน GPU เดี่ยว แต่รันบนโฮสต์ H100 DGX หรือกระจายงานเพื่อประสิทธิภาพที่สูงขึ้นได้
- เหนือกว่า GPT-4o และ Gemini 2.0 Flash ในการทดสอบด้านโค้ดดิ้ง การให้เหตุผล และหลายภาษา โดยยังคงต้นทุนที่แข่งขันได้
- ยังคงมีความสามารถด้านความเข้าใจภาพและการให้เหตุผลที่มีหลักฐานรองรับอย่างแข็งแกร่ง
Llama 4 Behemoth (พรีวิว):
- พารามิเตอร์ที่ทำงานจริง 288B, ผู้เชี่ยวชาญ 16 คน, รวมทั้งหมดเกือบ 2T
- ยังอยู่ระหว่างการฝึกและยังไม่เปิดตัว
- ทำคะแนนเหนือ GPT-4.5, Claude Sonnet 3.7, Gemini 2.0 Pro ในเบนช์มาร์กด้าน STEM (เช่น MATH-500, GPQA Diamond)
- ทำหน้าที่เป็นโมเดล "ครู" ของ Scout และ Maverick ผ่านการกลั่นร่วม
อื่น ๆ:
- สถาปัตยกรรม MoE: เปิดใช้เพียง 17B พารามิเตอร์ต่อโทเค็น ช่วยลดต้นทุนการอนุมาน
- native multimodality: ตัวเข้ารหัสข้อความ + วิสัยทัศน์แบบรวมศูนย์ที่พรีเทรนด้วยข้อมูลขนาดใหญ่ที่ไม่มีป้ายกำกับ
เธรดที่สรุปโดย Llama 4 Maverick:
- hn-summary.sh 43595585 -m openrouter/meta-llama/llama-4-maverick -o max_tokens 20000
- ผลลัพธ์: https://gist.github.com/simonw/016ea0fd83fc499f046a94827f9b4946
ผลลัพธ์ที่ได้จาก Scout นั้นเป็นเอาต์พุตที่ใช้การไม่ได้โดยสิ้นเชิง:
- hn-summary.sh 43595585 -m openrouter/meta-llama/llama-4-scout -o max_tokens 20000
- ผลลัพธ์: https://gist.github.com/simonw/d01cc991d478939e87487d362a8f881f
รัน Scout โดยตรงผ่าน Groq แต่มีข้อจำกัดขนาดเอาต์พุตที่ 2048:
- hn-summary.sh 43595585 -m groq/meta-llama/llama-4-scout-17b-16e-instruct -o max_tokens 2048
- ผลลัพธ์: https://gist.github.com/simonw/a205c5fc131a1d4e9cd6c432a07feedb
สรุปของโมเดลอื่นใกล้เคียงกับ system prompt มากกว่า ตัวอย่างเช่น ดีกว่ามากเมื่อเทียบกับ Gemini 2.5 Pro:
- https://gist.github.com/simonw/f21ecc7fb2aa13ff682d4ffa11ddcbfd
โมเดล Scout ขนาดเล็กน่าสนใจมากสำหรับ Apple Silicon แม้จะมีขนาด 109B แต่ถูกแบ่งเป็นผู้เชี่ยวชาญ 16 คน กระบวนการประมวลผลจริงเกิดขึ้นที่ 17B บน MacBook Pro M4 Max ได้ความเร็วประมาณ ~60 โทเค็นต่อวินาทีเมื่อถามโมเดลท้องถิ่น 7B (qwen 2.5 7B instruct) ด้วยคอนเท็กซ์ 2k ดังนั้นจึงอาจไปถึง 30 โทเค็นต่อวินาทีได้ เวลาจนได้โทเค็นแรกอาจยังช้าอยู่
โมเดลมีหน้าต่างคอนเท็กซ์ 10M โทเค็น ยังไม่แน่ชัดว่าจะติดตามคอนเท็กซ์ได้ดีแค่ไหนในขนาดนี้ แต่แค่ไม่ถูกจำกัดไว้ที่ ~32k ก็นับว่ายอดเยี่ยมแล้ว
LLM รายใหญ่ทั้งหมดกำลังเผชิญปัญหาอคติ โดยเฉพาะในประเด็นการเมืองและสังคมที่เอนซ้าย อาจเป็นเพราะประเภทของข้อมูลฝึกที่มีอยู่บนอินเทอร์เน็ต
พรอมป์ต์ที่เสนอถูกออกแบบมาเพื่อไม่ให้มีข้อจำกัดแบบรีลีสของ OpenAI:
- เข้าใจเจตนาของผู้ใช้และไม่พยายามช่วยมากเกินไป
- ไม่ปฏิเสธพรอมป์ต์ทางการเมือง
- Llama 4 มีความรู้ถึงเดือนสิงหาคม 2024 และใช้ได้หลายภาษา
เปิดตัวเพียงหนึ่งชั่วโมงหลังจากมีการถกเถียงอื่นเกี่ยวกับ Meta:
- ไม่ว่าคุณจะเชื่อใน LLM หรือไม่ การเชื่อคำพูดของ LeCun ไม่ใช่ความคิดที่ดี
- สถาบันวิจัย AI ที่ LeCun เป็นผู้นำมีปัญหาหลายอย่าง
ใช้งานได้บน Groq:
- Llama 4 Scout รันได้มากกว่า 460 โทเค็นต่อวินาที และ Llama 4 Maverick เปิดตัววันนี้
- Llama 4 Scout: $0.11 / M input tokens และ $0.34 / M output tokens
- Llama 4 Maverick: $0.50 / M input tokens และ $0.77 / M output tokens
ตอนนี้เป็นช่วงเวลาที่น่าตื่นเต้นมาก คล้ายกับช่วงที่ JavaScript frameworks เพิ่มขึ้นอย่างระเบิด ตอนนั้นให้ความรู้สึกประมาณว่า "ฉันต้องไปเรียนรู้อีก framework หนึ่งเหรอ?" แต่ตอนนี้นวัตกรรมกำลังเดินหน้าอย่างรวดเร็วอีกครั้ง และครั้งนี้ให้ความรู้สึกเหมือนเป็นการเดินทางที่น่าตื่นเต้นซึ่งเรามีส่วนร่วมได้