16 คะแนน โดย GN⁺ 2025-04-06 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • ประกอบด้วย 3 โมเดลคือ Scout, Maverick, Behemoth ซึ่งเป็น โมเดลเนทีฟมัลติโหมดแบบโอเพนเวตชุดแรก
    • ทุกโมเดลเข้าใจทั้งภาพ + ข้อความ แบบมัลติโหมด

Llama 4 Scout

  • 17B active parameters + 16 Expert
  • ความสามารถประมวลผลบริบทยาวพิเศษ รองรับ 10M โทเคน
  • โมเดลขนาดเล็กที่มีประสิทธิภาพ ทำงานได้ด้วย GPU เพียงตัวเดียว (H100)
  • ประสิทธิภาพเหนือกว่า Gemma 3, Gemini 2.0 Flash-Lite, Mistral 3.1
  • ทำผลงานได้ดีในงานอย่างการจัดแนวภาพ การสรุปหลายเอกสาร และการวิเคราะห์โค้ดเบสขนาดใหญ่

Llama 4 Maverick

  • 17B active parameters + 128 Expert+ 400B total parameters
  • ประสิทธิภาพดีกว่า GPT-4o และ Gemini 2.0 Flash
  • โดดเด่นในทุกด้าน ทั้ง Reasoning, การเขียนโค้ด, การเข้าใจภาพ ฯลฯ
  • ทำคะแนน ELO ได้ 1417 (อ้างอิงจาก LMArena)
  • โครงสร้างต้นทุนมีประสิทธิภาพเมื่อเทียบกับสมรรถนะระดับสูง

Llama 4 Behemoth (พรีวิว)

  • 288B active parameters + 16 Expert+ ประมาณ 2T total parameters
  • ยังอยู่ระหว่างการฝึก แต่มีประสิทธิภาพเหนือกว่า GPT-4.5, Claude 3.7, Gemini 2.0 Pro
  • ถูกใช้เป็น teacher model ในการ pre-train โมเดล Maverick
  • สามารถดาวน์โหลด Scout และ Maverick ได้ตั้งแต่วันนี้ที่ llama.com และ Hugging Face

# คุณลักษณะทางเทคนิค

สถาปัตยกรรม Mixture of Experts (MoE)

  • แทนที่จะใช้พารามิเตอร์ทั้งหมด จะ เปิดใช้งานเฉพาะ expert บางส่วน เพื่อเพิ่มประสิทธิภาพการคำนวณสูงสุด
  • ทำให้เกิดโครงสร้างการฝึกที่มี การอนุมานเร็ว ต้นทุนต่ำ และคุณภาพสูง

Native มัลติโหมด & Early Fusion

  • รวมข้อมูลข้อความและวิชัน ตั้งแต่ต้น เพื่อให้เกิดการเรียนรู้ร่วมกัน
  • รับภาพเข้าได้สูงสุด 48 ภาพ และทดสอบสำเร็จที่สูงสุด 8 ภาพ

การจัดการบริบทยาวพิเศษ (10M Tokens)

  • โมเดล Scout กำลังสำรวจความเป็นไปได้ของ "บริบทไม่สิ้นสุด" ด้วยโครงสร้าง iRoPE (interleaved Rotary Position Embedding)
  • มีความสามารถยอดเยี่ยมในการทำ length generalization สำหรับข้อความและโค้ด

เทคนิคการฝึก MetaP & FP8

  • เทคโนโลยีปรับจูนไฮเปอร์พารามิเตอร์แบบใหม่เพื่อการฝึกที่เร็วและมีประสิทธิภาพสูง
  • ใช้ประโยชน์จาก FLOPs ได้สูงด้วยความละเอียด FP8 (Behemoth: 390 TFLOPs/GPU)

# กลยุทธ์ post-training และการฝึก RL

  • ใช้ไปป์ไลน์ post-training แบบ 3 ขั้นคือ SFT → online RL → DPO
  • ตัดข้อมูลที่ง่ายออก และฝึกโดยเน้น พรอมป์ตระดับความยากปานกลางถึงสูง
  • นำกลยุทธ์ online RL แบบต่อเนื่อง มาใช้: เพิ่มประสิทธิภาพและขยายประสิทธิผลของการฝึกสูงสุด

# การคำนึงถึงความปลอดภัยและจริยธรรม

กลยุทธ์การป้องกันหลายชั้น

  • กรองและคัดกรองข้อมูลในขั้นก่อนและหลังการฝึก
  • Llama Guard: ตรวจสอบความปลอดภัยของอินพุต/เอาต์พุต
  • Prompt Guard: ตรวจจับการ jailbreak และการโจมตีแบบ prompt injection
  • CyberSecEval: มีเครื่องมือประเมินความเสี่ยงด้านความปลอดภัยของ generative AI

ระบบอัตโนมัติสำหรับการตรวจจับความเสี่ยงเชิงปริมาณ

  • นำ GOAT (Generative Offensive Agent Testing) มาใช้
    • จำลองสถานการณ์ผู้โจมตีระดับกลาง
    • ตรวจจับความเสี่ยงได้ตั้งแต่เนิ่นๆ ด้วยการทดสอบหลายเทิร์นอัตโนมัติ

ความพยายามในการลดอคติ

  • Llama 4 ปรับปรุงอคติได้อย่างมากเมื่อเทียบกับ Llama 3
    • อัตราการปฏิเสธคำตอบ 7% → ต่ำกว่า 2%
    • ความไม่สมดุลของคำตอบ < 1%
    • รักษาความสมดุลทางการเมืองของคำตอบในระดับเดียวกับ Grok

# แนวทางการใช้งานโมเดล Llama 4

  • ทั้ง Scout และ Maverick ดาวน์โหลดและนำไปใช้งานได้
  • ผสาน Llama 4 เข้ากับบริการ Meta AI:
    • WhatsApp, Messenger, Instagram DM, meta.ai

# กำหนดการถัดไป

  • LlamaCon 2025 ซึ่งจะนำเสนอรายละเอียดทางเทคนิคและวิสัยทัศน์เพิ่มเติม มีกำหนดจัดในวันที่ 29 เมษายน

2 ความคิดเห็น

 
jjw951215 2025-04-07

ดูเหมือนว่าจะเหมาะกับ Apple Silicon ที่มี RAM เหลือพอ หรืออุปกรณ์ตระกูล NPU มากกว่า ถ้าจะใช้กับเซิร์ฟเวอร์ GPU ล้วน ๆ แม้แต่โมเดลสเปกขั้นต่ำก็ยังต้องใช้การควอนไทซ์แบบ int4 และต้องมี H100 อยู่ดี..

 
GN⁺ 2025-04-06
ความคิดเห็นจาก Hacker News
  • ภาพรวมของโมเดล Llama 4:

    • Llama 4 Scout และ Llama 4 Maverick ใช้สถาปัตยกรรม Mixture-of-Experts (MoE) โดยแต่ละตัวใช้พารามิเตอร์ที่ทำงานจริง 17B
    • มีความสามารถแบบมัลติโหมด รองรับอินพุตทั้งข้อความและภาพ
    • จุดเด่นสำคัญคือความยาวคอนเท็กซ์ระดับแนวหน้าของอุตสาหกรรม ประสิทธิภาพด้านการเขียนโค้ด/การให้เหตุผลที่แข็งแกร่ง และการรองรับหลายภาษาที่ดีขึ้น
    • knowledge cutoff คือเดือนสิงหาคม 2024
  • Llama 4 Scout:

    • พารามิเตอร์ที่ทำงานจริง 17B, ผู้เชี่ยวชาญ 16 คน, รวมทั้งหมด 109B
    • เหมาะกับ GPU H100 เดี่ยว (INT4-quantized)
    • หน้าต่างคอนเท็กซ์ 10M โทเค็น
    • ให้ประสิทธิภาพงานมัลติโหมดดีกว่า Llama รุ่นก่อน ๆ และใช้ทรัพยากรอย่างคุ้มค่า
    • ใช้สถาปัตยกรรม iRoPE เพื่อให้ attention กับคอนเท็กซ์ยาวได้อย่างมีประสิทธิภาพ
    • ทดสอบด้วยภาพได้สูงสุด 8 ภาพต่อพรอมป์ต์
  • Llama 4 Maverick:

    • พารามิเตอร์ที่ทำงานจริง 17B, ผู้เชี่ยวชาญ 128 คน, รวมทั้งหมด 400B
    • หน้าต่างคอนเท็กซ์ 1M โทเค็น
    • ไม่ได้รันบน GPU เดี่ยว แต่รันบนโฮสต์ H100 DGX หรือกระจายงานเพื่อประสิทธิภาพที่สูงขึ้นได้
    • เหนือกว่า GPT-4o และ Gemini 2.0 Flash ในการทดสอบด้านโค้ดดิ้ง การให้เหตุผล และหลายภาษา โดยยังคงต้นทุนที่แข่งขันได้
    • ยังคงมีความสามารถด้านความเข้าใจภาพและการให้เหตุผลที่มีหลักฐานรองรับอย่างแข็งแกร่ง
  • Llama 4 Behemoth (พรีวิว):

    • พารามิเตอร์ที่ทำงานจริง 288B, ผู้เชี่ยวชาญ 16 คน, รวมทั้งหมดเกือบ 2T
    • ยังอยู่ระหว่างการฝึกและยังไม่เปิดตัว
    • ทำคะแนนเหนือ GPT-4.5, Claude Sonnet 3.7, Gemini 2.0 Pro ในเบนช์มาร์กด้าน STEM (เช่น MATH-500, GPQA Diamond)
    • ทำหน้าที่เป็นโมเดล "ครู" ของ Scout และ Maverick ผ่านการกลั่นร่วม
  • อื่น ๆ:

    • สถาปัตยกรรม MoE: เปิดใช้เพียง 17B พารามิเตอร์ต่อโทเค็น ช่วยลดต้นทุนการอนุมาน
    • native multimodality: ตัวเข้ารหัสข้อความ + วิสัยทัศน์แบบรวมศูนย์ที่พรีเทรนด้วยข้อมูลขนาดใหญ่ที่ไม่มีป้ายกำกับ
  • เธรดที่สรุปโดย Llama 4 Maverick:

  • ผลลัพธ์ที่ได้จาก Scout นั้นเป็นเอาต์พุตที่ใช้การไม่ได้โดยสิ้นเชิง:

  • รัน Scout โดยตรงผ่าน Groq แต่มีข้อจำกัดขนาดเอาต์พุตที่ 2048:

  • สรุปของโมเดลอื่นใกล้เคียงกับ system prompt มากกว่า ตัวอย่างเช่น ดีกว่ามากเมื่อเทียบกับ Gemini 2.5 Pro:

  • โมเดล Scout ขนาดเล็กน่าสนใจมากสำหรับ Apple Silicon แม้จะมีขนาด 109B แต่ถูกแบ่งเป็นผู้เชี่ยวชาญ 16 คน กระบวนการประมวลผลจริงเกิดขึ้นที่ 17B บน MacBook Pro M4 Max ได้ความเร็วประมาณ ~60 โทเค็นต่อวินาทีเมื่อถามโมเดลท้องถิ่น 7B (qwen 2.5 7B instruct) ด้วยคอนเท็กซ์ 2k ดังนั้นจึงอาจไปถึง 30 โทเค็นต่อวินาทีได้ เวลาจนได้โทเค็นแรกอาจยังช้าอยู่

  • โมเดลมีหน้าต่างคอนเท็กซ์ 10M โทเค็น ยังไม่แน่ชัดว่าจะติดตามคอนเท็กซ์ได้ดีแค่ไหนในขนาดนี้ แต่แค่ไม่ถูกจำกัดไว้ที่ ~32k ก็นับว่ายอดเยี่ยมแล้ว

  • LLM รายใหญ่ทั้งหมดกำลังเผชิญปัญหาอคติ โดยเฉพาะในประเด็นการเมืองและสังคมที่เอนซ้าย อาจเป็นเพราะประเภทของข้อมูลฝึกที่มีอยู่บนอินเทอร์เน็ต

  • พรอมป์ต์ที่เสนอถูกออกแบบมาเพื่อไม่ให้มีข้อจำกัดแบบรีลีสของ OpenAI:

    • เข้าใจเจตนาของผู้ใช้และไม่พยายามช่วยมากเกินไป
    • ไม่ปฏิเสธพรอมป์ต์ทางการเมือง
    • Llama 4 มีความรู้ถึงเดือนสิงหาคม 2024 และใช้ได้หลายภาษา
  • เปิดตัวเพียงหนึ่งชั่วโมงหลังจากมีการถกเถียงอื่นเกี่ยวกับ Meta:

    • ไม่ว่าคุณจะเชื่อใน LLM หรือไม่ การเชื่อคำพูดของ LeCun ไม่ใช่ความคิดที่ดี
    • สถาบันวิจัย AI ที่ LeCun เป็นผู้นำมีปัญหาหลายอย่าง
  • ใช้งานได้บน Groq:

    • Llama 4 Scout รันได้มากกว่า 460 โทเค็นต่อวินาที และ Llama 4 Maverick เปิดตัววันนี้
    • Llama 4 Scout: $0.11 / M input tokens และ $0.34 / M output tokens
    • Llama 4 Maverick: $0.50 / M input tokens และ $0.77 / M output tokens
  • ตอนนี้เป็นช่วงเวลาที่น่าตื่นเต้นมาก คล้ายกับช่วงที่ JavaScript frameworks เพิ่มขึ้นอย่างระเบิด ตอนนั้นให้ความรู้สึกประมาณว่า "ฉันต้องไปเรียนรู้อีก framework หนึ่งเหรอ?" แต่ตอนนี้นวัตกรรมกำลังเดินหน้าอย่างรวดเร็วอีกครั้ง และครั้งนี้ให้ความรู้สึกเหมือนเป็นการเดินทางที่น่าตื่นเต้นซึ่งเรามีส่วนร่วมได้