Qwen2.5-VL-32B - โมเดลที่ฉลาดขึ้นและเบาขึ้น

(qwenlm.github.io)

5 คะแนน โดย GN⁺ 2025-03-25 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

เปิดโอเพนซอร์สโมเดล VL ใหม่ขนาด 32B พารามิเตอร์ Qwen2.5-VL-32B-Instruct ภายใต้ไลเซนส์ Apache 2.0 โดยปรับแต่งโมเดลด้วย reinforcement learning บนพื้นฐานของซีรีส์ Qwen2.5-VL ที่เปิดตัวในเดือนมกราคม
เมื่อเทียบกับโมเดลก่อนหน้า จุดเด่นของโมเดล VL 32B รุ่นนี้คือ:
- ตอบสนองได้ตรงกับความชอบของมนุษย์มากขึ้น: ปรับสไตล์เอาต์พุตให้ให้คำตอบที่ละเอียดและเป็นระเบียบมากขึ้น
- การให้เหตุผลทางคณิตศาสตร์: ความแม่นยำในการแก้ปัญหาคณิตศาสตร์ที่ซับซ้อนดีขึ้นอย่างมาก
- ความเข้าใจและการให้เหตุผลจากภาพอย่างละเอียด: เพิ่มความแม่นยำและการวิเคราะห์เชิงลึกในงานอย่างการแยกวิเคราะห์ภาพ การรับรู้เนื้อหา และการให้เหตุผลเชิงตรรกะจากภาพ

ประสิทธิภาพ

จากการทำ benchmark อย่างกว้างขวางกับโมเดลรุ่นล่าสุดในระดับเดียวกัน Qwen2.5-VL-32B-Instruct ทำได้ดีกว่าโมเดลอ้างอิงอย่าง Mistral-Small-3.1-24B และ Gemma-3-27B-IT รวมถึงทำผลงานเหนือกว่า Qwen2-VL-72B-Instruct ที่มีขนาดใหญ่กว่า
โดยเฉพาะในงานมัลติโหมดที่ซับซ้อนและต้องใช้การให้เหตุผลหลายขั้นตอน เช่น MMMU, MMMU-Pro, MathVista โมเดลนี้มีข้อได้เปรียบอย่างชัดเจน
ใน MM-MT-Bench ซึ่งเน้นการประเมินประสบการณ์ผู้ใช้เชิงอัตวิสัย ก็ทำผลงานได้ดีกว่า Qwen2-VL-72B-Instruct อย่างมีนัยสำคัญ
นอกจากความสามารถด้านภาพแล้ว ยังทำผลงานระดับแนวหน้าด้านความสามารถข้อความล้วนในขนาดโมเดลเดียวกันอีกด้วย

1 ความคิดเห็น

GN⁺ 2025-03-25

ความเห็นบน Hacker News

เป็นวันสำคัญของการเปิดตัวโมเดลจีนแบบโอเพนซอร์ส โดยวันนี้ DeepSeek-v3-0324 ออกรุ่นอัปเดตภายใต้สัญญาอนุญาต MIT (ก่อนหน้านี้ใช้สัญญาอนุญาตแบบกำหนดเองของ DeepSeek)
เมื่อไม่กี่เดือนก่อนเคยใช้ Llama vision 3.2 และผิดหวังมากทั้งในด้านความเร็วและคุณภาพของผลลัพธ์ ระหว่างหาทางเลือกใน Hugging Face ก็ไปเจอ Qwen ความแตกต่างด้านความแม่นยำและความเร็วนั้นมหาศาล ถ้าขอให้วิเคราะห์ภาพและตอบกลับ ก็ได้คำตอบที่ถูกต้องเป็นส่วนใหญ่ภายในครึ่งวินาทีบน 4090 ที่น่าทึ่งยิ่งกว่าคือเวลาสกัดชื่อเอนทิตีจากภาพ มันให้ชื่อเต็มได้แม้ชื่อจะถูกตัดไป (เช่น ถ้าเห็น "Coca-C" จาง ๆ อยู่ด้านหลัง ก็จะคืนค่าเป็น "Coca-Cola") และยังจัดการได้ดีแม้เป็นเอนทิตีที่ไม่ค่อยเป็นที่รู้จักหรือรู้จักกันเฉพาะบางภูมิภาค ตั้งแต่ใช้ Qwen มาก็ไม่กลับไปใช้ Llama หรือโมเดล vision อื่นอีกเลย
ตอนนี้โมเดล 32B เป็นหนึ่งในขนาดโมเดลที่ฉันชอบที่สุด ทรงพลังมาก แต่ก็ยังเล็กพอที่จะรันได้บน GPU ตัวเดียวหรือ Mac notebook สเปกพอประมาณ (32GB ขึ้นไป)
ตอนนี้โมเดลนี้ใช้งานบน MLX ได้แล้วในหลายขนาด
- รันด้วย uv โดยไม่ต้องติดตั้งไลบรารี
- ดาวน์โหลดโมเดลขนาดราว 18GB แล้วได้ผลลัพธ์ที่น่าประทับใจมาก
อาจเป็นคำถามงี่เง่า แต่ฉันสงสัยว่า OpenAI, Claude และเจ้าอื่น ๆ ยังถูกประเมินมูลค่าสูงขนาดนั้นได้อย่างไร เมื่อพิจารณาว่ามีโมเดลโอเพนซอร์สมากมายขนาดนี้ ไม่ได้จะบอกว่าพวกเขาจะหายไปหรือเล็กลง แต่สงสัยว่าทำไมถึงยังมีมูลค่าสูงมาก
โมเดลแบบ open weight ออกมาเร็วมากจนตามแทบไม่ทัน เลยสงสัยว่ามีใครดูแลลิสต์ที่คอยอัปเดตว่าอะไรคือของ "ล่าสุด" ในแต่ละโมเดลอยู่ไหม
สงสัยว่าการทำให้โมเดลเป็นมัลติโหมดัลส่งผลต่อความสามารถด้านข้อความอย่างไร บทความอ้างว่ามันทำผลงานได้ดีแม้กับข้อความล้วน แต่ก็อยากรู้ว่าจริง ๆ แล้วได้รับผลกระทบแค่ไหน มีการวิเคราะห์เรื่องนี้หรือไม่ บางคนอ้างว่าโมเดลจะเก่งขึ้นในด้านข้อความ แต่ถ้าไม่มีข้อมูลก็รู้สึกว่ายากจะเชื่อ
อยากรู้ให้ชัดกว่านี้ว่าต้องใช้การ์ดจอขนาดไหน ตามลิงก์ HuggingFace ระบุว่าเป็น bfloat16 ดังนั้นน่าจะต้องมีอย่างน้อย 64GB -7B จะรันบนการ์ด AMD 16GB ของฉันได้ไหม?
Qwen ถูกสร้างโดย Alibaba Cloud (ไม่มีการกล่าวถึงที่ไหนเลยในบล็อกโพสต์)
วันนี้เป็น Qwen พรุ่งนี้เป็นโมเดล SOTA ใหม่ของ Google และสัปดาห์หน้าก็มี R2 กำลังจะมา เรายังไปไม่ถึงขีดจำกัด

Qwen2.5-VL-32B - โมเดลที่ฉลาดขึ้นและเบาขึ้น

ประสิทธิภาพ

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นบน Hacker News