รีวิวการใช้งาน QvQ โมเดลอนุมานเชิงภาพใหม่ของ Qwen
(simonwillison.net)- ทีม Alibaba Qwen เปิดตัวโมเดลการอนุมานเชิงภาพใหม่ QvQ-72B-Preview
- รับภาพและพรอมต์เป็นอินพุตเพื่อทำการอนุมานอย่างละเอียด
- เดิมถูกระบุว่าเป็น Apache 2.0 แต่ปัจจุบันได้เปลี่ยนเป็นใบอนุญาต Qwen
- ความแตกต่างจากโมเดล QwQ ก่อนหน้า
- QwQ มุ่งเน้นการอนุมานแบบอิงข้อความและถูกออกแบบด้วยกลไกที่สะท้อน "ขอบเขตความคิด"
- QvQ เพิ่มอินพุตแบบภาพเข้ามา ทำให้สามารถวิเคราะห์เชิงลึกบนพื้นฐานของรูปภาพได้
การใช้งานและการทดสอบ QvQ
- ใช้โมเดล QvQ บน Hugging Face Spaces ได้
- เมื่อป้อนรูปภาพพร้อมพรอมต์เดียว ระบบจะสร้างการตอบกลับที่ค่อนข้างยาว และไม่สามารถเพิ่มพรอมต์ต่อได้
- วิเคราะห์ภาพอินพุตพร้อมอธิบายกระบวนการอนุมานตามลำดับ
- ผลการทดสอบ
- การนับ pelicans: ใช้พรอมต์ "Count the pelicans" เพื่อคำนวณจำนวนนกเพลิกันในภาพ
- คำนวณได้ถูกต้องทั้งหมด 4 ตัว โดยตัดนกที่มองเห็นเพียงบางส่วนออก
- อธิบายการอนุมานด้วยสไตล์ที่เป็นมิตรและเหมือนการสนทนา
- ปริศนา ARC-AGI: พยายามแก้โจทย์ที่ซับซ้อน แต่ยังไม่สามารถสรุปผลลัพธ์ที่แม่นยำได้
- เสนอแนวทางใหม่แปลกใหม่แบบเซลลูลาร์ออโตมาต้า
- การประมาณความสูงของมังกร (ไดโนเสาร์): พยายามประเมินความสูงของมังกรโดยไม่มีวัตถุอ้างอิงที่เปรียบเทียบได้
- เสนอความสูงประมาณ 8-9 ฟุต และแสดงการสังเกตที่ละเอียดอ่อน
- การนับ pelicans: ใช้พรอมต์ "Count the pelicans" เพื่อคำนวณจำนวนนกเพลิกันในภาพ
วิธีการรันโมเดล QvQ
-
สภาพแวดล้อมโฮสต์
- สามารถทดสอบได้บน Hugging Face Spaces โดยใช้ชั่งน้ำหนักโมเดลบน GPU
- ใช้แพ็กเกจ Python qwen-vl-utils ในการรัน
-
การรันบนเครื่องท้องถิ่น
- Prince Canuma แปลงโมเดลสำหรับเฟรมเวิร์ก Apple MLX ให้สามารถรันผ่าน แพ็กเกจ mlx-vlm ได้
- รันบน macOS M2 RAM 64GB ในเวอร์ชันคิวอนติไซเซชัน 4 บิตได้สำเร็จ
- คำสั่งรัน:
uv run --with 'numpy<2.0' --with mlx-vlm python \ -m mlx_vlm.generate \ --model mlx-community/QVQ-72B-Preview-4bit \ --max-tokens 10000 \ --temp 0.0 \ --prompt "describe this" \ --image pelicans-on-bicycles-veo2.jpg
- คำสั่งรัน:
การเปลี่ยนแปลงใบอนุญาตของ QvQ
- ใบอนุญาตของ QvQ เปลี่ยนจาก Apache 2.0 มาเป็น ใบอนุญาต Qwen
- ดูเหมือนเป็นการแก้ไขความผิดพลาดในช่วงแรก
- โมเดล QwQ ยังคงใช้ Apache 2.0
- แสดงให้เห็นถึงนโยบายใบอนุญาตที่แตกต่างกันระหว่างสองโมเดล
สรุป
- QvQ คือโมเดลอนุมานเชิงภาพที่มีพลัง โดยผสานภาพและข้อความเข้าด้วยกัน และสร้างผลลัพธ์ที่น่าสนใจจากการทดลองหลายแบบ
- คาดหวังว่าจะมีการอัปเดตต่อไปและการใช้งานที่หลากหลายมากขึ้นในอนาคต
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
อธิบายวิธีรันโมเดล QVQ-72B-Preview-4bit บนแล็ปท็อป M2 64GB เพื่อวิเคราะห์รูปภาพ
uv run --with 'numpy<2.0' --with mlx-vlm python -m mlx_vlm.generate --model mlx-community/QVQ-72B-Preview-4bit --max-tokens 10000 --temp 0.0 --prompt "describe this" --image pelicans-on-bicycles-veo2.jpgโมเดลนี้น่าสนใจ
ทดสอบกับเกมหาคำต่อกัน และ QvQ ล้มเหลว
เมื่อป้อนรูป "Tank Man" ที่มีชื่อเสียงลงไป ได้รับการตอบกลับว่าไม่พบคำตอบ
ผู้แสดงความคิดเห็นชี้ว่าชุดข้อมูลแบบบันทึกความคิดขณะเห็นภาพคือ PixMo
มีคำถามว่าโมเดล Q* เป็นโอเพ่นซอร์สหรือไม่
สไตล์การตอบคำถามเมื่อถามจำนวนนกเพลิกันในรูปดูมีเสน่ห์
มีการพูดคุยเรื่องปัญหาลิขสิทธิ์ของโมเดล QvQ-72B-Preview
QvQ ทำได้ดีในการวิเคราะห์ภาพของคนดัง, สุนัข และการ์ตูน The New Yorker
ยังสามารถประมวลผลภาพสมการทางคณิตศาสตร์ได้