รีวิวการใช้งาน QvQ โมเดลอนุมานเชิงภาพใหม่ของ Qwen

(simonwillison.net)

5 คะแนน โดย GN⁺ 2024-12-26 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ทีม Alibaba Qwen เปิดตัวโมเดลการอนุมานเชิงภาพใหม่ QvQ-72B-Preview
- รับภาพและพรอมต์เป็นอินพุตเพื่อทำการอนุมานอย่างละเอียด
- เดิมถูกระบุว่าเป็น Apache 2.0 แต่ปัจจุบันได้เปลี่ยนเป็นใบอนุญาต Qwen
ความแตกต่างจากโมเดล QwQ ก่อนหน้า
- QwQ มุ่งเน้นการอนุมานแบบอิงข้อความและถูกออกแบบด้วยกลไกที่สะท้อน "ขอบเขตความคิด"
- QvQ เพิ่มอินพุตแบบภาพเข้ามา ทำให้สามารถวิเคราะห์เชิงลึกบนพื้นฐานของรูปภาพได้

การใช้งานและการทดสอบ QvQ

ใช้โมเดล QvQ บน Hugging Face Spaces ได้
- เมื่อป้อนรูปภาพพร้อมพรอมต์เดียว ระบบจะสร้างการตอบกลับที่ค่อนข้างยาว และไม่สามารถเพิ่มพรอมต์ต่อได้
- วิเคราะห์ภาพอินพุตพร้อมอธิบายกระบวนการอนุมานตามลำดับ
ผลการทดสอบ
- การนับ pelicans: ใช้พรอมต์ "Count the pelicans" เพื่อคำนวณจำนวนนกเพลิกันในภาพ
  - คำนวณได้ถูกต้องทั้งหมด 4 ตัว โดยตัดนกที่มองเห็นเพียงบางส่วนออก
  - อธิบายการอนุมานด้วยสไตล์ที่เป็นมิตรและเหมือนการสนทนา
- ปริศนา ARC-AGI: พยายามแก้โจทย์ที่ซับซ้อน แต่ยังไม่สามารถสรุปผลลัพธ์ที่แม่นยำได้
  - เสนอแนวทางใหม่แปลกใหม่แบบเซลลูลาร์ออโตมาต้า
- การประมาณความสูงของมังกร (ไดโนเสาร์): พยายามประเมินความสูงของมังกรโดยไม่มีวัตถุอ้างอิงที่เปรียบเทียบได้
  - เสนอความสูงประมาณ 8-9 ฟุต และแสดงการสังเกตที่ละเอียดอ่อน

วิธีการรันโมเดล QvQ

สภาพแวดล้อมโฮสต์
- สามารถทดสอบได้บน Hugging Face Spaces โดยใช้ชั่งน้ำหนักโมเดลบน GPU
- ใช้แพ็กเกจ Python qwen-vl-utils ในการรัน
การรันบนเครื่องท้องถิ่น
- Prince Canuma แปลงโมเดลสำหรับเฟรมเวิร์ก Apple MLX ให้สามารถรันผ่าน แพ็กเกจ mlx-vlm ได้
- รันบน macOS M2 RAM 64GB ในเวอร์ชันคิวอนติไซเซชัน 4 บิตได้สำเร็จ
  - คำสั่งรัน:
```
uv run --with 'numpy<2.0' --with mlx-vlm python \  
  -m mlx_vlm.generate \  
  --model mlx-community/QVQ-72B-Preview-4bit \  
  --max-tokens 10000 \  
  --temp 0.0 \  
  --prompt "describe this" \  
  --image pelicans-on-bicycles-veo2.jpg  
```

การเปลี่ยนแปลงใบอนุญาตของ QvQ

ใบอนุญาตของ QvQ เปลี่ยนจาก Apache 2.0 มาเป็น ใบอนุญาต Qwen
- ดูเหมือนเป็นการแก้ไขความผิดพลาดในช่วงแรก
โมเดล QwQ ยังคงใช้ Apache 2.0
- แสดงให้เห็นถึงนโยบายใบอนุญาตที่แตกต่างกันระหว่างสองโมเดล

สรุป

QvQ คือโมเดลอนุมานเชิงภาพที่มีพลัง โดยผสานภาพและข้อความเข้าด้วยกัน และสร้างผลลัพธ์ที่น่าสนใจจากการทดลองหลายแบบ
คาดหวังว่าจะมีการอัปเดตต่อไปและการใช้งานที่หลากหลายมากขึ้นในอนาคต

1 ความคิดเห็น

GN⁺ 2024-12-26

ความคิดเห็นจาก Hacker News

อธิบายวิธีรันโมเดล QVQ-72B-Preview-4bit บนแล็ปท็อป M2 64GB เพื่อวิเคราะห์รูปภาพ
- ใช้คำสั่ง uv run --with 'numpy<2.0' --with mlx-vlm python -m mlx_vlm.generate --model mlx-community/QVQ-72B-Preview-4bit --max-tokens 10000 --temp 0.0 --prompt "describe this" --image pelicans-on-bicycles-veo2.jpg
- ผลลัพธ์สามารถดูได้ที่ ลิงก์
โมเดลนี้น่าสนใจ
- เมื่ออัปโหลดรูปแล้วถามคำถามอย่างเช่น "อธิบายสิ่งที่เห็น" จะได้ผลลัพธ์ที่น่าสนใจมาก
- ตัวอย่างเช่น เมื่อเห็นรูปแซนด์วิชก็จะอธิบายรายละเอียดและจินตนาการกลิ่นรสได้
ทดสอบกับเกมหาคำต่อกัน และ QvQ ล้มเหลว
- รุ่น Gemini บน AI Studio ตอนแรกก็ไม่ผ่านเช่นกัน แต่ภายหลังลองอีกหลายครั้งก็หาคำสำเร็จในที่สุด
- การสั่งให้โมเดลสร้างโปรแกรมเพื่อแก้โจทย์ให้ผลดีกว่าการขอวิธีแก้ตรง ๆ
เมื่อป้อนรูป "Tank Man" ที่มีชื่อเสียงลงไป ได้รับการตอบกลับว่าไม่พบคำตอบ
ผู้แสดงความคิดเห็นชี้ว่าชุดข้อมูลแบบบันทึกความคิดขณะเห็นภาพคือ PixMo
- จึงตั้งข้อสันนิษฐานว่า QvQ อาจถูกฝึกในแนวทางที่คล้ายกัน
มีคำถามว่าโมเดล Q* เป็นโอเพ่นซอร์สหรือไม่
- เมื่อขอคำแนะนำเรื่องการปฏิบัติต่ออำนาจ มันแนะนำการเชื่อฟังอย่างแรงกล้า
สไตล์การตอบคำถามเมื่อถามจำนวนนกเพลิกันในรูปดูมีเสน่ห์
- ให้ความรู้สึกไม่เป็นทางการ แตกต่างจาก GPT-4
มีการพูดคุยเรื่องปัญหาลิขสิทธิ์ของโมเดล QvQ-72B-Preview
- มีความสับสนระหว่าง Apache 2.0 และลิขสิทธิ์ของ Qwen
QvQ ทำได้ดีในการวิเคราะห์ภาพของคนดัง, สุนัข และการ์ตูน The New Yorker
ยังสามารถประมวลผลภาพสมการทางคณิตศาสตร์ได้

รีวิวการใช้งาน QvQ โมเดลอนุมานเชิงภาพใหม่ของ Qwen

การใช้งานและการทดสอบ QvQ

วิธีการรันโมเดล QvQ

การเปลี่ยนแปลงใบอนุญาตของ QvQ

สรุป

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News