- Repo อย่างเป็นทางการของ "FastVLM: Efficient Vision Encoding for Vision Language Models" ที่ Apple นำเสนอในงาน CVPR 2025
- FastViTHD แสดงประสิทธิภาพในการ ลดจำนวนโทเค็นและลดเวลาเข้ารหัสภาพความละเอียดสูง
- โมเดลขนาดเล็กที่สุดทำได้เร็วกว่า LLaVA-OneVision-0.5B ถึง 85 เท่า และมีขนาดเอนโค้ดเดอร์เล็กกว่า 3.4 เท่า
- โมเดลขนาดใหญ่แสดงประสิทธิภาพที่เหนือกว่า Cambrian-1-8B และมีความเร็วมากกว่า 7.9 เท่า
- มี แอปเดโมที่ทำงานบนอุปกรณ์พกพา เช่น iPhone ให้ใช้งาน
ความสำคัญและข้อดีของโปรเจกต์ FastVLM
- FastVLM เป็นโอเพนซอร์ส implementation อย่างเป็นทางการสำหรับ โมเดลวิชัน-ภาษา (Vision Language Model, VLM)
- ให้ข้อได้เปรียบอย่างโดดเด่นในด้าน ความเร็วและประสิทธิภาพ เมื่อเทียบกับวิชันเอนโค้ดเดอร์แบบเดิม
- ใช้งานได้ดีบนฮาร์ดแวร์หลากหลายประเภท โดยเฉพาะ Apple Silicon และสภาพแวดล้อมบนมือถือ
- สามารถเลือกใช้โมเดลพรีเทรนได้โดยตรงหลายขนาดและหลายระดับประสิทธิภาพ
- ด้วยขนาดโมเดลที่เล็กกว่าเมื่อเทียบกับโปรเจกต์อื่น จึงรับประกัน การตอบสนองแบบเรียลไทม์ที่ปรับแต่งมาอย่างเหมาะสม และใช้ทรัพยากรฮาร์ดแวร์น้อย
คุณสมบัติหลัก
- FastViTHD คือ วิชันเอนโค้ดเดอร์แบบนวัตกรรม ที่มีโครงสร้างไฮบริด ซึ่งลดจำนวนโทเค็นเอาต์พุตและช่วยย่นเวลาเข้ารหัสภาพความละเอียดสูงได้อย่างมาก
- โมเดล FastVLM-0.5B ซึ่งเป็นรุ่นเล็กที่สุด มี TTFT (เวลาในการสร้างโทเค็นแรก) เร็วกว่า LLaVA-OneVision-0.5B ถึง 85 เท่า และมีขนาดเอนโค้ดเดอร์เล็กกว่า 3.4 เท่า
- โมเดล FastVLM-7B ขนาดใหญ่ที่จับคู่กับ Qwen2-7B LLM แสดง TTFT เร็วกว่า 7.9 เท่า และให้ประสิทธิภาพยอดเยี่ยมด้วยเอนโค้ดเดอร์ภาพเดี่ยว เมื่อเทียบกับ SOTA ล่าสุดอย่าง Cambrian-1-8B
- มี แอปเดโม ที่ทำงานได้จริงบนสภาพแวดล้อมมือถือ (iOS) มาพร้อมกัน ทำให้ตรวจสอบการใช้งานเทคโนโลยีได้ทันที
ข้อมูลโมเดล (Model Zoo)
- มีโมเดล FastVLM หลายขนาด (FastVLM-0.5B, FastVLM-1.5B, FastVLM-7B) ให้ใช้งานทั้งเวอร์ชันขั้นที่ 2 และขั้นที่ 3
- มีการให้ไฟล์ PyTorch checkpoint อย่างเป็นทางการสำหรับแต่ละโมเดล
- ผู้ใช้สามารถใช้คำสั่งที่ให้มาอย่างเป็นทางการเพื่อดาวน์โหลดหลายโมเดลแบบชุดเดียวไปยังไดเรกทอรี
checkpoints ได้
ตัวอย่างการใช้งาน (Usage Example)
- สามารถทดสอบ inference ได้อย่างง่ายและรวดเร็วด้วยเช็กพอยต์ PyTorch ที่ผ่านการฝึกแล้ว ผ่านสคริปต์ predict.py
- เมื่อป้อนภาพและพรอมป์ต์ (คำถาม) ผ่านคำสั่งตัวอย่าง ก็จะได้คำบรรยายของภาพนั้นหรือคำตอบสำหรับคำถาม
การรองรับ Apple Silicon และอุปกรณ์พกพา
- มีคู่มืออธิบายขั้นตอนการ export โมเดลและการทำ quantization แยกต่างหากสำหรับ inference บน Apple Silicon
- มีการแจกจ่ายไฟล์ checkpoint เวอร์ชันที่ ปรับแต่งตรงสำหรับ Apple Silicon อย่างเป็นทางการ
- มีคู่มือพัฒนาแอปและซอร์สโค้ดสำหรับใช้งานได้ทันทีบน iPhone, iPad, Mac อยู่ในโฟลเดอร์
/app
ข้อมูลเพิ่มเติมและคำแนะนำโอเพนซอร์ส
- มีลิงก์ arXiv อย่างเป็นทางการของงานวิจัย FastVLM และรูปแบบการอ้างอิงบทความจากงานประชุม CVPR 2025
- โค้ดเบสนี้สร้างอยู่บนพื้นฐานของหลายโปรเจกต์โอเพนซอร์ส และมีการแยกแจ้งรายละเอียดการมีส่วนร่วมกับข้อมูลไลเซนส์ไว้ต่างหาก
- ก่อนใช้งานโมเดลและโค้ด ต้องตรวจสอบ ไลเซนส์ (ไฟล์ไลเซนส์และไลเซนส์ของโมเดล) ให้เรียบร้อย
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News