Llama 3-V - สร้างประสิทธิภาพเทียบเท่า GPT4-V ด้วยโมเดลที่เล็กกว่า 100 เท่าและงบเพียง 500 ดอลลาร์

(aksh-garg.medium.com)

10 คะแนน โดย GN⁺ 2024-05-29 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

Llama3-V คือโมเดลมัลติโหมดตัวแรกที่พัฒนาบนพื้นฐานของ Llama3
Llama3-V ถูกฝึกด้วยต้นทุนต่ำกว่า 500 ดอลลาร์
ในการทดสอบเบนช์มาร์ก มีประสิทธิภาพดีกว่า Llava อยู่ 10-20% และเมื่อเทียบกับโมเดลปิดที่มีขนาดใหญ่กว่า 100 เท่า ก็ให้ผลลัพธ์ใกล้เคียงกันในตัวชี้วัดส่วนใหญ่

SigLIP: โมเดล image embedding ที่คล้ายกับ CLIP แต่ใช้ sigmoid loss
การจัดแนว text embedding: ตรึง SigLIP ไว้ และใช้ projection module เพื่อจัดแนว image embedding ให้สอดคล้องกับ text embedding
การเพิ่ม image token: เพิ่ม image embedding ไว้หน้าข้อความ token แล้วป้อนเข้า Llama3

แคช: คำนวณ image embedding ของโมเดล SigLIP ล่วงหน้าเพื่อเพิ่มการใช้ GPU และประหยัดเวลาฝึก/อนุมาน
การปรับแต่ง MPS/MLX: ปรับแต่งโมเดล SigLIP สำหรับ MPS เพื่อประมวลผลได้ 32 ภาพต่อวินาที

การคำนวณ embedding ล่วงหน้า: ใช้ SigLIP เพื่อคำนวณ image embedding ล่วงหน้า
การฝึก projection layer: ใช้ projection layer เพื่อจัดแนว image embedding และ text embedding ให้อยู่ใน multimodal embedding space เดียวกัน
การเรียนรู้แบบมีผู้สอน: หลังการพรีเทรน ปรับปรุงประสิทธิภาพของโมเดลต่อด้วยการเรียนรู้แบบมีผู้สอน

เพิ่ม vision encoder เข้าไปใน Llama3 8B
ประสิทธิภาพดีกว่า Llava 10-20%
ให้ประสิทธิภาพใกล้เคียงกับโมเดลที่ใหญ่กว่า 100 เท่าอย่าง GPT4v, Gemini Ultra และ Claude Opus
มอบกระบวนการฝึกและ supervised learning pipeline ที่มีประสิทธิภาพด้วยต้นทุนต่ำกว่า 500 ดอลลาร์

ความเห็นของ GN⁺

จุดที่น่าสนใจ: Llama3-V น่าสนใจตรงที่สร้างโมเดลมัลติโหมดประสิทธิภาพสูงได้ด้วยต้นทุนต่ำ
มุมมองเชิงวิพากษ์: ยังน่าตั้งคำถามว่าการลดขนาดโมเดลและต้นทุนลงพร้อมคงประสิทธิภาพไว้จะยั่งยืนได้มากแค่ไหน
เทคโนโลยีที่เกี่ยวข้อง: โมเดลที่ให้ความสามารถคล้ายกันมี CLIP และ DALL-E
ข้อพิจารณาในการนำไปใช้: เมื่อนำเทคโนโลยีใหม่มาใช้ ควรคำนึงถึงทั้งความแม่นยำและความคุ้มค่าด้านต้นทุนของโมเดล
ข้อดีข้อเสียของการเลือกเทคโนโลยี: แม้จะได้ประสิทธิภาพสูงด้วยต้นทุนต่ำ แต่ก็ควรพิจารณาเรื่องความสามารถในการขยายระบบและต้นทุนการบำรุงรักษาด้วย