- Llama3-V คือโมเดลมัลติโหมดตัวแรกที่พัฒนาบนพื้นฐานของ Llama3
- Llama3-V ถูกฝึกด้วยต้นทุนต่ำกว่า 500 ดอลลาร์
- ในการทดสอบเบนช์มาร์ก มีประสิทธิภาพดีกว่า Llava อยู่ 10-20% และเมื่อเทียบกับโมเดลปิดที่มีขนาดใหญ่กว่า 100 เท่า ก็ให้ผลลัพธ์ใกล้เคียงกันในตัวชี้วัดส่วนใหญ่
สถาปัตยกรรมโมเดล
- SigLIP: โมเดล image embedding ที่คล้ายกับ CLIP แต่ใช้ sigmoid loss
- การจัดแนว text embedding: ตรึง SigLIP ไว้ และใช้ projection module เพื่อจัดแนว image embedding ให้สอดคล้องกับ text embedding
- การเพิ่ม image token: เพิ่ม image embedding ไว้หน้าข้อความ token แล้วป้อนเข้า Llama3
การปรับแต่งการอนุมาน
- แคช: คำนวณ image embedding ของโมเดล SigLIP ล่วงหน้าเพื่อเพิ่มการใช้ GPU และประหยัดเวลาฝึก/อนุมาน
- การปรับแต่ง MPS/MLX: ปรับแต่งโมเดล SigLIP สำหรับ MPS เพื่อประมวลผลได้ 32 ภาพต่อวินาที
กระบวนการฝึก
- การคำนวณ embedding ล่วงหน้า: ใช้ SigLIP เพื่อคำนวณ image embedding ล่วงหน้า
- การฝึก projection layer: ใช้ projection layer เพื่อจัดแนว image embedding และ text embedding ให้อยู่ใน multimodal embedding space เดียวกัน
- การเรียนรู้แบบมีผู้สอน: หลังการพรีเทรน ปรับปรุงประสิทธิภาพของโมเดลต่อด้วยการเรียนรู้แบบมีผู้สอน
สรุป
- เพิ่ม vision encoder เข้าไปใน Llama3 8B
- ประสิทธิภาพดีกว่า Llava 10-20%
- ให้ประสิทธิภาพใกล้เคียงกับโมเดลที่ใหญ่กว่า 100 เท่าอย่าง GPT4v, Gemini Ultra และ Claude Opus
- มอบกระบวนการฝึกและ supervised learning pipeline ที่มีประสิทธิภาพด้วยต้นทุนต่ำกว่า 500 ดอลลาร์
ความเห็นของ GN⁺
- จุดที่น่าสนใจ: Llama3-V น่าสนใจตรงที่สร้างโมเดลมัลติโหมดประสิทธิภาพสูงได้ด้วยต้นทุนต่ำ
- มุมมองเชิงวิพากษ์: ยังน่าตั้งคำถามว่าการลดขนาดโมเดลและต้นทุนลงพร้อมคงประสิทธิภาพไว้จะยั่งยืนได้มากแค่ไหน
- เทคโนโลยีที่เกี่ยวข้อง: โมเดลที่ให้ความสามารถคล้ายกันมี CLIP และ DALL-E
- ข้อพิจารณาในการนำไปใช้: เมื่อนำเทคโนโลยีใหม่มาใช้ ควรคำนึงถึงทั้งความแม่นยำและความคุ้มค่าด้านต้นทุนของโมเดล
- ข้อดีข้อเสียของการเลือกเทคโนโลยี: แม้จะได้ประสิทธิภาพสูงด้วยต้นทุนต่ำ แต่ก็ควรพิจารณาเรื่องความสามารถในการขยายระบบและต้นทุนการบำรุงรักษาด้วย
ยังไม่มีความคิดเห็น