- เปิดโอเพนซอร์สโมเดล VL ใหม่ขนาด 32B พารามิเตอร์ Qwen2.5-VL-32B-Instruct ภายใต้ไลเซนส์ Apache 2.0 โดยปรับแต่งโมเดลด้วย reinforcement learning บนพื้นฐานของซีรีส์ Qwen2.5-VL ที่เปิดตัวในเดือนมกราคม
- เมื่อเทียบกับโมเดลก่อนหน้า จุดเด่นของโมเดล VL 32B รุ่นนี้คือ:
- ตอบสนองได้ตรงกับความชอบของมนุษย์มากขึ้น: ปรับสไตล์เอาต์พุตให้ให้คำตอบที่ละเอียดและเป็นระเบียบมากขึ้น
- การให้เหตุผลทางคณิตศาสตร์: ความแม่นยำในการแก้ปัญหาคณิตศาสตร์ที่ซับซ้อนดีขึ้นอย่างมาก
- ความเข้าใจและการให้เหตุผลจากภาพอย่างละเอียด: เพิ่มความแม่นยำและการวิเคราะห์เชิงลึกในงานอย่างการแยกวิเคราะห์ภาพ การรับรู้เนื้อหา และการให้เหตุผลเชิงตรรกะจากภาพ
ประสิทธิภาพ
- จากการทำ benchmark อย่างกว้างขวางกับโมเดลรุ่นล่าสุดในระดับเดียวกัน Qwen2.5-VL-32B-Instruct ทำได้ดีกว่าโมเดลอ้างอิงอย่าง Mistral-Small-3.1-24B และ Gemma-3-27B-IT รวมถึงทำผลงานเหนือกว่า Qwen2-VL-72B-Instruct ที่มีขนาดใหญ่กว่า
- โดยเฉพาะในงานมัลติโหมดที่ซับซ้อนและต้องใช้การให้เหตุผลหลายขั้นตอน เช่น MMMU, MMMU-Pro, MathVista โมเดลนี้มีข้อได้เปรียบอย่างชัดเจน
- ใน MM-MT-Bench ซึ่งเน้นการประเมินประสบการณ์ผู้ใช้เชิงอัตวิสัย ก็ทำผลงานได้ดีกว่า Qwen2-VL-72B-Instruct อย่างมีนัยสำคัญ
- นอกจากความสามารถด้านภาพแล้ว ยังทำผลงานระดับแนวหน้าด้านความสามารถข้อความล้วนในขนาดโมเดลเดียวกันอีกด้วย
1 ความคิดเห็น
ความเห็นบน Hacker News