5 คะแนน โดย GN⁺ 2024-12-26 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ทีม Alibaba Qwen เปิดตัวโมเดลการอนุมานเชิงภาพใหม่ QvQ-72B-Preview
    • รับภาพและพรอมต์เป็นอินพุตเพื่อทำการอนุมานอย่างละเอียด
    • เดิมถูกระบุว่าเป็น Apache 2.0 แต่ปัจจุบันได้เปลี่ยนเป็นใบอนุญาต Qwen
  • ความแตกต่างจากโมเดล QwQ ก่อนหน้า
    • QwQ มุ่งเน้นการอนุมานแบบอิงข้อความและถูกออกแบบด้วยกลไกที่สะท้อน "ขอบเขตความคิด"
    • QvQ เพิ่มอินพุตแบบภาพเข้ามา ทำให้สามารถวิเคราะห์เชิงลึกบนพื้นฐานของรูปภาพได้

การใช้งานและการทดสอบ QvQ

  • ใช้โมเดล QvQ บน Hugging Face Spaces ได้
    • เมื่อป้อนรูปภาพพร้อมพรอมต์เดียว ระบบจะสร้างการตอบกลับที่ค่อนข้างยาว และไม่สามารถเพิ่มพรอมต์ต่อได้
    • วิเคราะห์ภาพอินพุตพร้อมอธิบายกระบวนการอนุมานตามลำดับ
  • ผลการทดสอบ
    • การนับ pelicans: ใช้พรอมต์ "Count the pelicans" เพื่อคำนวณจำนวนนกเพลิกันในภาพ
      • คำนวณได้ถูกต้องทั้งหมด 4 ตัว โดยตัดนกที่มองเห็นเพียงบางส่วนออก
      • อธิบายการอนุมานด้วยสไตล์ที่เป็นมิตรและเหมือนการสนทนา
    • ปริศนา ARC-AGI: พยายามแก้โจทย์ที่ซับซ้อน แต่ยังไม่สามารถสรุปผลลัพธ์ที่แม่นยำได้
      • เสนอแนวทางใหม่แปลกใหม่แบบเซลลูลาร์ออโตมาต้า
    • การประมาณความสูงของมังกร (ไดโนเสาร์): พยายามประเมินความสูงของมังกรโดยไม่มีวัตถุอ้างอิงที่เปรียบเทียบได้
      • เสนอความสูงประมาณ 8-9 ฟุต และแสดงการสังเกตที่ละเอียดอ่อน

วิธีการรันโมเดล QvQ

  • สภาพแวดล้อมโฮสต์

    • สามารถทดสอบได้บน Hugging Face Spaces โดยใช้ชั่งน้ำหนักโมเดลบน GPU
    • ใช้แพ็กเกจ Python qwen-vl-utils ในการรัน
  • การรันบนเครื่องท้องถิ่น

    • Prince Canuma แปลงโมเดลสำหรับเฟรมเวิร์ก Apple MLX ให้สามารถรันผ่าน แพ็กเกจ mlx-vlm ได้
    • รันบน macOS M2 RAM 64GB ในเวอร์ชันคิวอนติไซเซชัน 4 บิตได้สำเร็จ
      • คำสั่งรัน:
        uv run --with 'numpy<2.0' --with mlx-vlm python \  
          -m mlx_vlm.generate \  
          --model mlx-community/QVQ-72B-Preview-4bit \  
          --max-tokens 10000 \  
          --temp 0.0 \  
          --prompt "describe this" \  
          --image pelicans-on-bicycles-veo2.jpg  
        

การเปลี่ยนแปลงใบอนุญาตของ QvQ

  • ใบอนุญาตของ QvQ เปลี่ยนจาก Apache 2.0 มาเป็น ใบอนุญาต Qwen
    • ดูเหมือนเป็นการแก้ไขความผิดพลาดในช่วงแรก
  • โมเดล QwQ ยังคงใช้ Apache 2.0
    • แสดงให้เห็นถึงนโยบายใบอนุญาตที่แตกต่างกันระหว่างสองโมเดล

สรุป

  • QvQ คือโมเดลอนุมานเชิงภาพที่มีพลัง โดยผสานภาพและข้อความเข้าด้วยกัน และสร้างผลลัพธ์ที่น่าสนใจจากการทดลองหลายแบบ
  • คาดหวังว่าจะมีการอัปเดตต่อไปและการใช้งานที่หลากหลายมากขึ้นในอนาคต

1 ความคิดเห็น

 
GN⁺ 2024-12-26
ความคิดเห็นจาก Hacker News
  • อธิบายวิธีรันโมเดล QVQ-72B-Preview-4bit บนแล็ปท็อป M2 64GB เพื่อวิเคราะห์รูปภาพ

    • ใช้คำสั่ง uv run --with 'numpy<2.0' --with mlx-vlm python -m mlx_vlm.generate --model mlx-community/QVQ-72B-Preview-4bit --max-tokens 10000 --temp 0.0 --prompt "describe this" --image pelicans-on-bicycles-veo2.jpg
    • ผลลัพธ์สามารถดูได้ที่ ลิงก์
  • โมเดลนี้น่าสนใจ

    • เมื่ออัปโหลดรูปแล้วถามคำถามอย่างเช่น "อธิบายสิ่งที่เห็น" จะได้ผลลัพธ์ที่น่าสนใจมาก
    • ตัวอย่างเช่น เมื่อเห็นรูปแซนด์วิชก็จะอธิบายรายละเอียดและจินตนาการกลิ่นรสได้
  • ทดสอบกับเกมหาคำต่อกัน และ QvQ ล้มเหลว

    • รุ่น Gemini บน AI Studio ตอนแรกก็ไม่ผ่านเช่นกัน แต่ภายหลังลองอีกหลายครั้งก็หาคำสำเร็จในที่สุด
    • การสั่งให้โมเดลสร้างโปรแกรมเพื่อแก้โจทย์ให้ผลดีกว่าการขอวิธีแก้ตรง ๆ
  • เมื่อป้อนรูป "Tank Man" ที่มีชื่อเสียงลงไป ได้รับการตอบกลับว่าไม่พบคำตอบ

  • ผู้แสดงความคิดเห็นชี้ว่าชุดข้อมูลแบบบันทึกความคิดขณะเห็นภาพคือ PixMo

    • จึงตั้งข้อสันนิษฐานว่า QvQ อาจถูกฝึกในแนวทางที่คล้ายกัน
  • มีคำถามว่าโมเดล Q* เป็นโอเพ่นซอร์สหรือไม่

    • เมื่อขอคำแนะนำเรื่องการปฏิบัติต่ออำนาจ มันแนะนำการเชื่อฟังอย่างแรงกล้า
  • สไตล์การตอบคำถามเมื่อถามจำนวนนกเพลิกันในรูปดูมีเสน่ห์

    • ให้ความรู้สึกไม่เป็นทางการ แตกต่างจาก GPT-4
  • มีการพูดคุยเรื่องปัญหาลิขสิทธิ์ของโมเดล QvQ-72B-Preview

    • มีความสับสนระหว่าง Apache 2.0 และลิขสิทธิ์ของ Qwen
  • QvQ ทำได้ดีในการวิเคราะห์ภาพของคนดัง, สุนัข และการ์ตูน The New Yorker

  • ยังสามารถประมวลผลภาพสมการทางคณิตศาสตร์ได้