- Qwen3-VL คือเจเนอเรชันล่าสุดของ โมเดลมัลติโหมดแบบ vision-language ที่มอบประสิทธิภาพที่ดีขึ้นในทุกด้าน ทั้งความเข้าใจและการสร้างข้อความ การรับรู้วิดีโอ การให้เหตุผลเชิงพื้นที่ และการเข้าใจบริบทยาว
- โมเดลหลัก Qwen3-VL-235B-A22B เปิดตัวในเวอร์ชัน Instruct และ Thinking โดยแต่ละเวอร์ชันทำผลงาน ระดับล้ำหน้าสุดของวงการ ในด้านการรับรู้ภาพและการให้เหตุผลแบบมัลติโหมดตามลำดับ
- โมเดลได้เสริมความสามารถสำหรับการใช้งานจริงอย่างหลากหลาย เช่น ความสามารถแบบเอเจนต์, visual coding, การให้เหตุผลเชิงพื้นที่ 2D/3D, การเข้าใจข้อความยาวและวิดีโอยาว
- ขยายขอบเขตการรองรับไปถึง OCR 32 ภาษา, การเข้าใจเอกสารซับซ้อน, การประมวลผลหลายภาพและวิดีโอ ทำให้เหมาะทั้งกับการใช้งานในชีวิตประจำวันและงานระดับมืออาชีพ
- สิ่งนี้มอบ รากฐานมัลติโหมดระดับสูงสุด ให้กับชุมชนโอเพนซอร์ส และคาดว่าจะเร่งการแก้ปัญหาในโลกจริงและการพัฒนา AI agent ในอนาคต
แนะนำ Qwen3-VL
- Qwen3-VL เป็น โมเดล AI มัลติโหมดรุ่นล่าสุด ที่พัฒนาโดย QwenTeam โดยมีจุดเด่นด้านการประมวลผลและทำความเข้าใจข้อมูลหลายรูปแบบอย่างครอบคลุม ไม่ว่าจะเป็นภาพ ข้อความ ตาราง เอกสาร สมการ และกราฟ
คุณสมบัติหลัก
- ความสามารถแบบ visual agent: ทำการรับรู้ GUI คลิกปุ่ม เรียกใช้เครื่องมือ ฯลฯ เพื่อทำงานอัตโนมัติได้ในสภาพแวดล้อมคอมพิวเตอร์และมือถือ
- ประสิทธิภาพด้านข้อความที่เสริมขึ้น: จากการเรียนรู้ข้อความและภาพร่วมกันตั้งแต่ระยะต้น ทำให้ได้ความสามารถด้านการประมวลผลข้อความที่แข็งแกร่งระดับเดียวกับโมเดลภาษาเดี่ยว
- Visual coding: แปลงภาพดีไซน์เป็นโค้ด HTML, CSS, JavaScript ทำให้การ “โค้ดตามที่เห็น” เป็นจริง
- ความเข้าใจเชิงพื้นที่: ขยายจากพิกัดสัมบูรณ์แบบ 2D ไปสู่พิกัดสัมพัทธ์ และรองรับ 3D grounding วางรากฐานสำหรับหุ่นยนต์และการขับขี่อัตโนมัติ
- การประมวลผลบริบทยาวและวิดีโอยาว: รองรับ 256K โทเค็นเป็นค่าเริ่มต้น และขยายได้ถึง 1 ล้านโทเค็น พร้อมจดจำและค้นคืนข้อมูลจากวิดีโอความยาว 2 ชั่วโมงได้อย่างแม่นยำ
- ปรับเหมาะสำหรับการให้เหตุผล (เวอร์ชัน Thinking): แข็งแกร่งในการแก้ปัญหาคณิตศาสตร์และ STEM และทำผลงานสูงสุดในเบนช์มาร์กอย่าง MathVision, MMMU, MathVista
การประเมินประสิทธิภาพ
- เวอร์ชัน Instruct: มีประสิทธิภาพด้านการรับรู้ภาพเหนือกว่าโมเดลปิดชั้นนำอย่าง Gemini 2.5 Pro และ GPT-5
- เวอร์ชัน Thinking: ทำผลงานระดับแนวหน้าของโลกในการให้เหตุผลแบบมัลติโหมดด้านคณิตศาสตร์และวิทยาศาสตร์ โดยเฉพาะใน MathVision ที่เหนือกว่า Gemini 2.5 Pro
- งานที่เน้นข้อความ: ให้ประสิทธิภาพระดับเดียวกับ Qwen3-235B-A22B-2507
- การทดสอบวิดีโอยาว: แสดงให้เห็นถึงเสถียรภาพสูงด้วยความแม่นยำ 99.5% แม้รับอินพุต 1 ล้านโทเค็น
- OCR หลายภาษา: ทำความแม่นยำเกิน 70% ได้ใน 32 จาก 39 ภาษา
การปรับปรุงสถาปัตยกรรม
- Interleaved-MRoPE: กระจายมิติเวลา ความสูง และความกว้างแบบสลับกัน เพื่อเสริมประสิทธิภาพการเข้าใจวิดีโอยาว
- DeepStack: หลอมรวมคุณลักษณะหลายเลเยอร์ของ ViT เพื่อยกระดับความแม่นยำในการจัดแนวข้อความ-ภาพ
- การจัดแนวข้อความ-ไทม์สแตมป์: จับคู่ข้อมูลเวลาในระดับเฟรมกับคอนเทนต์ภาพอย่างแม่นยำ ช่วยเพิ่มความแม่นยำในการตรวจจับเหตุการณ์และพฤติกรรม
ความสามารถของโมเดล
- เอเจนต์ควบคุมสมาร์ตโฟน·PC: เปิดแอป คลิกปุ่ม กรอกฟอร์มอัตโนมัติ
- การให้เหตุผลจากภาพ: ทำการวิเคราะห์ซับซ้อนร่วมกับการเรียกใช้เครื่องมือได้
- สนับสนุนการพัฒนาฟรอนต์เอนด์: แปลงสเก็ตช์เป็นเว็บเพจ และช่วยดีบัก UI
- การตรวจจับวัตถุ 2D/3D: สร้างกล่องตรวจจับได้หลายร้อยกล่องพร้อมการประเมินความลึก
- การรับรู้ทั่วไป: จดจำคนดัง แบรนด์ พืช สัตว์ และตัวละครแอนิเมชัน
- สนับสนุนงานสร้างสรรค์: สร้างสตอรีเทลลิงจากภาพ งานเขียนโฆษณา และสคริปต์วิดีโอ
- การแก้ปัญหา STEM: ให้เหตุผลเป็นลำดับขั้น วิเคราะห์ความสัมพันธ์เชิงเหตุและผล และแก้ปัญหาวิทยาศาสตร์
- การทำตามคำสั่งที่ซับซ้อน: รองรับทั้งเงื่อนไขหลายขั้นและคำขอแบบมีโครงสร้าง
- การเข้าใจเอกสาร: ตีความ PDF ยาว เลย์เอาต์เว็บ และรองรับฟอร์แมต QwenVL Markdown
- บทสนทนาหลายภาพ: เปรียบเทียบและเชื่อมโยงหลายภาพพร้อมรักษาบริบท
- การเข้าใจวิดีโอ: รองรับตั้งแต่การตรวจจับเหตุการณ์ในวิดีโอยาวไปจนถึงการสร้างโค้ด
บทสรุป
- Qwen3-VL คือ โมเดลมัลติโหมดโอเพนซอร์สที่เหนือกว่าโมเดลปิด โดยพัฒนาครอบคลุมตั้งแต่การรับรู้ การให้เหตุผล ไปจนถึงการลงมือทำ
- ไม่ได้หยุดอยู่แค่การรับรู้ภาพ แต่ยกระดับเป็นโมเดลที่ ขยายไปสู่ความเข้าใจโลก การให้เหตุผล และการกระทำ พร้อมวางรากฐานสำหรับการใช้งานแบบเอเจนต์ในสภาพแวดล้อมจริง
2 ความคิดเห็น
ก่อนหน้านี้ผมยังคิดว่าแค่วิดีโอโปรโมตของ gemini เมื่อไม่ถึงครึ่งปีก่อนที่แสดงให้เห็นว่าใครเป็นผู้ชนะการแข่งขันกรีฑา และแซงใครมาได้ ก็น่าทึ่งมากแล้ว
> สามารถจดจำและค้นหาวิดีโอยาว 2 ชั่วโมงได้อย่างแม่นยำ
เลยสงสัยจริง ๆ ว่ามันจดจำอะไรได้อย่างแม่นยำกันแน่
ความคิดเห็นจาก Hacker News
อย่างที่พูดไว้เมื่อวาน ไม่นานมานี้ผมต้องจัดการรูปใบแจ้งหนี้ความละเอียดต่ำหลายร้อยภาพสำหรับโปรเจกต์ก่อสร้าง เดิมทีรันสคริปต์ที่ใช้ทั้ง PIL/opencv, pytesseract และ OpenAI แต่ล้มเหลวบ่อยเกินไป วันนี้เลยลองเอาใบแจ้งหนี้คุณภาพเละจริง ๆ ไม่กี่ใบไปรันกับ Qwen ปรากฏว่ามันดึงข้อมูลที่ต้องใช้ได้ครบแบบไม่มีปัญหา ที่น่าทึ่งกว่านั้นคือมันยังให้ข้อมูล bound box ที่เอาไปใช้ปรับปรุง tesseract ต่อได้ด้วย
จีนกำลังทำแบบเดียวกับที่เคยทำในภาคการผลิต คือเอาเทคโนโลยีแกนหลักมาแล้วทำการเพิ่มประสิทธิภาพด้านต้นทุน/ประสิทธิผลแบบ 10 เท่าซ้ำ ๆ น่าทึ่งจริง ๆ มันเป็นโมเดลที่ดังในหมวด benchmark อยู่แล้ว แต่วันนี้ถึงขั้นทำให้รู้สึกว่าเป็นผู้ท้าชิง SOTA โอเพนซอร์สได้เลย แถมวันนี้ยังปล่อยโมเดลปิดขนาด 1 ล้านล้านพารามิเตอร์ออกมาด้วยและขึ้นไปถึงอันดับ 3 บน lm arena ส่วนโมเดล 80GB อยู่อันดับ 17 และ gpt-oss 120b อยู่อันดับ 52
ลิงก์ที่เกี่ยวข้อง
Qwen3-VL Plus
Qwen3-VL-235B
qwen-plus-2025-09-11
qwen3-235b-a22b-instruct-2507
บทความ DeepStack
และแทนที่จะพูดรวม ๆ ว่าเป็น “คนจีน” ผมคิดว่าควรยกความดีความชอบให้ทีม Qwen โดยตรงมากกว่า เพราะทั่วโลกก็มีทั้งแล็บวิจัยที่ยอดเยี่ยมและแล็บธรรมดา
ถ้าอยู่ซานฟรานซิสโก อย่าพลาดโอกาสเข้าร่วมอีเวนต์ทางการครั้งแรกของทีม Qwen ในสหรัฐ รองประธาน Qwen Lab จะขึ้นพูดด้วยตัวเองในงาน SF teach week
ลิงก์งาน
เป็นโอกาสหายากที่จะได้คุยกับสมาชิกทีม Qwen โดยตรง
ประเด็นสำคัญของ Qwen รอบนี้คือมันทำคะแนนด้าน multimodal ได้ระดับ SOTA เหนือกว่าโมเดล proprietary (ปิด) แล้วยังเปิดน้ำหนักโมเดลออกมาด้วย จากการทดสอบช่วงแรกของผมก็ดูเหมือนจะเป็นแบบนั้นจริง ๆ เดี๋ยวจะลองต่อไป น่าประทับใจมาก
ในทางปฏิบัติ โมเดล Qwen3-VL 235B พารามิเตอร์แบบ FP16 น่าจะต้องใช้ RAM อย่างน้อย 512GB และถ้าจะรองรับ context window ที่สมเหตุสมผลก็อาจต้องมากกว่านั้นด้วย ถ้าไม่นับการรันบน CPU อยากรู้ว่ามีทางไหนไหมที่จะรันที่บ้านได้ในงบไม่เกิน 10,000 ดอลลาร์ ถ้า CPU เป็นทางเลือกเดียวจริง ๆ วิธีที่ดีที่สุดคือ vLLM + เชื่อมหลายเครื่องเข้าด้วยกันผ่านเครือข่าย (10/25/100Gbit) หรือมีตัวเลือกที่ดีกว่านั้น
ไม่จำเป็นต้องรันแบบ FP16 เสมอไป ส่วนใหญ่ถ้า quantize ลงมาถึง q8 คุณภาพแทบไม่ตก และแม้แต่ q4 หรือต่ำกว่านั้นก็ยังรันได้โดยเสียประสิทธิภาพไม่มาก q8 อย่างเดียวก็ต้องใช้ RAM 235GB แล้ว ดังนั้นถ้าใช้ RTX 5090 (VRAM 32GB) ก็ต้องมีถึง 8 ใบ และราคาก็ไม่ใช่น้อย ยังต้องคิดเรื่องเมนบอร์ด CPU และการแยกโหลดให้ 8 GPU ด้วย อาจมองหาเซิร์ฟเวอร์ขุดเหมืองมือสองที่ใช้ RTX 3090 รุ่นเก่าหรือ P40 ได้ แต่บน GPU ฝั่งผู้บริโภค การทำให้ต่ำกว่า 10,000 ดอลลาร์แทบไม่สมจริง
ถ้ากระจายโมเดลข้ามหลายเครื่องโดยไม่มี NVLink ความเร็วจะตกฮวบมาก ดังนั้นในทางปฏิบัติแนะนำเครื่องเดียว CPU ก็ไม่ได้แย่ สิ่งสำคัญคือแบนด์วิดท์หน่วยความจำ จึงเหมาะกับ CPU ฝั่งเซิร์ฟเวอร์หรือเวิร์กสเตชันที่มีช่องสัญญาณ DDR5 จำนวนมาก (เช่น AMD Ryzen Threadripper 7965WX, DDR5 8-channel, รองรับ 5200 MT/s, ราคาราว 2,500 ดอลลาร์)
สุดท้าย อยากแนะนำให้คิดอีกทีว่าจำเป็นต้องรันที่บ้านจริงหรือไม่ ขึ้นอยู่กับเป้าหมายของคุณ แต่การทุ่ม 10,000 ดอลลาร์กับฮาร์ดแวร์อาจมูลค่าร่วงแรงภายในไม่กี่ปี ขณะที่เครดิตคลาวด์ 10,000 ดอลลาร์ใช้งานได้นานมาก
การที่ Qwen เปิด weight ของ multimodal SOTA ออกมาทำให้ใจนักพัฒนาหันไปทาง Qwen มากขึ้น อย่างน้อยของผมก็ไปแล้ว
ขอบคุณทีม Qwen สำหรับความใจกว้าง ตอนนี้ผมใช้โมเดล ‘Thinking’ ของพวกเขาสร้างเวิร์กโฟลว์เจ๋ง ๆ เพื่อทำงานน่าเบื่อภายในบริษัทให้เป็นอัตโนมัติอยู่แล้ว
โมเดล thinking ของ Qwen
ทีนี้ด้วยรีลีสใหม่นี้ ผมก็กำลังจะเอาไปทำเวิร์กโฟลว์ใหม่ ๆ เช่น จัดหมวดหมู่และเขียนแคปชันให้ภาพอาหาร ภาพผู้ใช้ ฯลฯ ด้วย เจ๋งมาก
โมเดลที่เกี่ยวข้องจากทีม Qwen
ผมมั่นใจว่านี่คือประกาศที่มีตัวเลข benchmark เยอะที่สุดเท่าที่ผมเคยเห็น อยากชมที่มันไม่ใช่งานเปิดตัวแบบหยิบแต่ตัวเลขโกงเกมมานำเสนอ
น่าเสียดายที่ Qwen3-VL ก็ยังสอบตกกับการทดสอบ “แขนขาเกิน” อยู่ดี ผมเอารูปสัตว์ที่แต่งด้วย Photoshop ให้มีแขนขาเพิ่ม (เช่น หมากับขาที่งอกออกมาจากท้อง หรือแมวที่มีขาหน้าสองคู่) ไปใส่ดู แต่มันก็ยังยืนกรานเหมือนโมเดลอื่นทั้งหมดว่าสัตว์มีจำนวนแขนขาปกติ ต่อให้บอกว่า “ดูเหมือนมีขางอกออกจากท้อง” มันก็ยังบอกว่าผมมองผิดและยืนยันว่าปกติจนสุดทาง Qwen ถึงขั้นตอบว่า 4 ขาถูกต้องทั้งที่บอกแล้วว่ารูปถูกแก้ไขมา
ชุดข้อมูลนาฬิกา
ตัวอย่างลูกเต๋า D20
สรุปคือถ้าไม่สร้างข้อมูลตัวอย่างเป็นล้านภาพสำหรับเคสอย่างแขนขาเกิน มันก็ตอบไม่ถูก และปัญหานี้ก็จะวนซ้ำกับโจทย์อื่น ๆ ที่ต้องสร้างชุดข้อมูลใหม่เรื่อย ๆ