เปิดตัวโมเดล Qwen3-VL - วิสัยทัศน์ที่คมชัดขึ้น การคิดที่ลึกขึ้น และการลงมือทำที่กว้างขึ้น

(qwen.ai)

6 คะแนน โดย GN⁺ 2025-09-26 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

Qwen3-VL คือเจเนอเรชันล่าสุดของ โมเดลมัลติโหมดแบบ vision-language ที่มอบประสิทธิภาพที่ดีขึ้นในทุกด้าน ทั้งความเข้าใจและการสร้างข้อความ การรับรู้วิดีโอ การให้เหตุผลเชิงพื้นที่ และการเข้าใจบริบทยาว
โมเดลหลัก Qwen3-VL-235B-A22B เปิดตัวในเวอร์ชัน Instruct และ Thinking โดยแต่ละเวอร์ชันทำผลงาน ระดับล้ำหน้าสุดของวงการ ในด้านการรับรู้ภาพและการให้เหตุผลแบบมัลติโหมดตามลำดับ
โมเดลได้เสริมความสามารถสำหรับการใช้งานจริงอย่างหลากหลาย เช่น ความสามารถแบบเอเจนต์, visual coding, การให้เหตุผลเชิงพื้นที่ 2D/3D, การเข้าใจข้อความยาวและวิดีโอยาว
ขยายขอบเขตการรองรับไปถึง OCR 32 ภาษา, การเข้าใจเอกสารซับซ้อน, การประมวลผลหลายภาพและวิดีโอ ทำให้เหมาะทั้งกับการใช้งานในชีวิตประจำวันและงานระดับมืออาชีพ
สิ่งนี้มอบ รากฐานมัลติโหมดระดับสูงสุด ให้กับชุมชนโอเพนซอร์ส และคาดว่าจะเร่งการแก้ปัญหาในโลกจริงและการพัฒนา AI agent ในอนาคต

แนะนำ Qwen3-VL

Qwen3-VL เป็น โมเดล AI มัลติโหมดรุ่นล่าสุด ที่พัฒนาโดย QwenTeam โดยมีจุดเด่นด้านการประมวลผลและทำความเข้าใจข้อมูลหลายรูปแบบอย่างครอบคลุม ไม่ว่าจะเป็นภาพ ข้อความ ตาราง เอกสาร สมการ และกราฟ

คุณสมบัติหลัก

ความสามารถแบบ visual agent: ทำการรับรู้ GUI คลิกปุ่ม เรียกใช้เครื่องมือ ฯลฯ เพื่อทำงานอัตโนมัติได้ในสภาพแวดล้อมคอมพิวเตอร์และมือถือ
ประสิทธิภาพด้านข้อความที่เสริมขึ้น: จากการเรียนรู้ข้อความและภาพร่วมกันตั้งแต่ระยะต้น ทำให้ได้ความสามารถด้านการประมวลผลข้อความที่แข็งแกร่งระดับเดียวกับโมเดลภาษาเดี่ยว
Visual coding: แปลงภาพดีไซน์เป็นโค้ด HTML, CSS, JavaScript ทำให้การ “โค้ดตามที่เห็น” เป็นจริง
ความเข้าใจเชิงพื้นที่: ขยายจากพิกัดสัมบูรณ์แบบ 2D ไปสู่พิกัดสัมพัทธ์ และรองรับ 3D grounding วางรากฐานสำหรับหุ่นยนต์และการขับขี่อัตโนมัติ
การประมวลผลบริบทยาวและวิดีโอยาว: รองรับ 256K โทเค็นเป็นค่าเริ่มต้น และขยายได้ถึง 1 ล้านโทเค็น พร้อมจดจำและค้นคืนข้อมูลจากวิดีโอความยาว 2 ชั่วโมงได้อย่างแม่นยำ
ปรับเหมาะสำหรับการให้เหตุผล (เวอร์ชัน Thinking): แข็งแกร่งในการแก้ปัญหาคณิตศาสตร์และ STEM และทำผลงานสูงสุดในเบนช์มาร์กอย่าง MathVision, MMMU, MathVista

การประเมินประสิทธิภาพ

เวอร์ชัน Instruct: มีประสิทธิภาพด้านการรับรู้ภาพเหนือกว่าโมเดลปิดชั้นนำอย่าง Gemini 2.5 Pro และ GPT-5
เวอร์ชัน Thinking: ทำผลงานระดับแนวหน้าของโลกในการให้เหตุผลแบบมัลติโหมดด้านคณิตศาสตร์และวิทยาศาสตร์ โดยเฉพาะใน MathVision ที่เหนือกว่า Gemini 2.5 Pro
งานที่เน้นข้อความ: ให้ประสิทธิภาพระดับเดียวกับ Qwen3-235B-A22B-2507
การทดสอบวิดีโอยาว: แสดงให้เห็นถึงเสถียรภาพสูงด้วยความแม่นยำ 99.5% แม้รับอินพุต 1 ล้านโทเค็น
OCR หลายภาษา: ทำความแม่นยำเกิน 70% ได้ใน 32 จาก 39 ภาษา

การปรับปรุงสถาปัตยกรรม

Interleaved-MRoPE: กระจายมิติเวลา ความสูง และความกว้างแบบสลับกัน เพื่อเสริมประสิทธิภาพการเข้าใจวิดีโอยาว
DeepStack: หลอมรวมคุณลักษณะหลายเลเยอร์ของ ViT เพื่อยกระดับความแม่นยำในการจัดแนวข้อความ-ภาพ
การจัดแนวข้อความ-ไทม์สแตมป์: จับคู่ข้อมูลเวลาในระดับเฟรมกับคอนเทนต์ภาพอย่างแม่นยำ ช่วยเพิ่มความแม่นยำในการตรวจจับเหตุการณ์และพฤติกรรม

ความสามารถของโมเดล

เอเจนต์ควบคุมสมาร์ตโฟน·PC: เปิดแอป คลิกปุ่ม กรอกฟอร์มอัตโนมัติ
การให้เหตุผลจากภาพ: ทำการวิเคราะห์ซับซ้อนร่วมกับการเรียกใช้เครื่องมือได้
สนับสนุนการพัฒนาฟรอนต์เอนด์: แปลงสเก็ตช์เป็นเว็บเพจ และช่วยดีบัก UI
การตรวจจับวัตถุ 2D/3D: สร้างกล่องตรวจจับได้หลายร้อยกล่องพร้อมการประเมินความลึก
การรับรู้ทั่วไป: จดจำคนดัง แบรนด์ พืช สัตว์ และตัวละครแอนิเมชัน
สนับสนุนงานสร้างสรรค์: สร้างสตอรีเทลลิงจากภาพ งานเขียนโฆษณา และสคริปต์วิดีโอ
การแก้ปัญหา STEM: ให้เหตุผลเป็นลำดับขั้น วิเคราะห์ความสัมพันธ์เชิงเหตุและผล และแก้ปัญหาวิทยาศาสตร์
การทำตามคำสั่งที่ซับซ้อน: รองรับทั้งเงื่อนไขหลายขั้นและคำขอแบบมีโครงสร้าง
การเข้าใจเอกสาร: ตีความ PDF ยาว เลย์เอาต์เว็บ และรองรับฟอร์แมต QwenVL Markdown
บทสนทนาหลายภาพ: เปรียบเทียบและเชื่อมโยงหลายภาพพร้อมรักษาบริบท
การเข้าใจวิดีโอ: รองรับตั้งแต่การตรวจจับเหตุการณ์ในวิดีโอยาวไปจนถึงการสร้างโค้ด

บทสรุป

Qwen3-VL คือ โมเดลมัลติโหมดโอเพนซอร์สที่เหนือกว่าโมเดลปิด โดยพัฒนาครอบคลุมตั้งแต่การรับรู้ การให้เหตุผล ไปจนถึงการลงมือทำ
ไม่ได้หยุดอยู่แค่การรับรู้ภาพ แต่ยกระดับเป็นโมเดลที่ ขยายไปสู่ความเข้าใจโลก การให้เหตุผล และการกระทำ พร้อมวางรากฐานสำหรับการใช้งานแบบเอเจนต์ในสภาพแวดล้อมจริง

2 ความคิดเห็น

crawler 2025-09-26

ก่อนหน้านี้ผมยังคิดว่าแค่วิดีโอโปรโมตของ gemini เมื่อไม่ถึงครึ่งปีก่อนที่แสดงให้เห็นว่าใครเป็นผู้ชนะการแข่งขันกรีฑา และแซงใครมาได้ ก็น่าทึ่งมากแล้ว

> สามารถจดจำและค้นหาวิดีโอยาว 2 ชั่วโมงได้อย่างแม่นยำ

เลยสงสัยจริง ๆ ว่ามันจดจำอะไรได้อย่างแม่นยำกันแน่

GN⁺ 2025-09-26

ความคิดเห็นจาก Hacker News

อย่างที่พูดไว้เมื่อวาน ไม่นานมานี้ผมต้องจัดการรูปใบแจ้งหนี้ความละเอียดต่ำหลายร้อยภาพสำหรับโปรเจกต์ก่อสร้าง เดิมทีรันสคริปต์ที่ใช้ทั้ง PIL/opencv, pytesseract และ OpenAI แต่ล้มเหลวบ่อยเกินไป วันนี้เลยลองเอาใบแจ้งหนี้คุณภาพเละจริง ๆ ไม่กี่ใบไปรันกับ Qwen ปรากฏว่ามันดึงข้อมูลที่ต้องใช้ได้ครบแบบไม่มีปัญหา ที่น่าทึ่งกว่านั้นคือมันยังให้ข้อมูล bound box ที่เอาไปใช้ปรับปรุง tesseract ต่อได้ด้วย
- ถ้าต้องทำงานคล้ายกัน ขอแนะนำ Printed Text Recognition API ของ Microsoft ด้วย
- สงสัยว่าทำไมถึงเลือก Qwen เพราะฝั่ง Mistral มีโมเดลเฉพาะทางที่โปรโมตว่าใช้กับ OCR โดยตรง และตอนทดสอบจริงกับหนังสือภาษาอังกฤษเก่า ๆ (ยุค 80-90) มันก็ทำได้ค่อนข้างดี
- ผมชอบเอาโมเดลพวกนี้ไปทดสอบกับการอ่านข้อความจากภาพหน้าจอเกม Apple ][ ยุค 80 เพราะเป็นงานที่ทั้งความละเอียดต่ำมากและความหนาแน่นสูง ซึ่งเป็นจุดที่โมเดลโอเพนซอร์สส่วนใหญ่ไปต่อยาก
- ผมเคยพยายามใช้โมเดล VLLM ประเมิน bound box ของแนวเขตที่ดินจากภาพแผนที่ดาวเทียม แต่ไม่ค่อยได้ผล อยากรู้ว่ามีทิปอะไรที่จะช่วยให้ได้ผลลัพธ์ดีขึ้นไหม
- ผมก็เคยพยายามตรวจจับเลย์เอาต์ของเอกสารสแกนเพื่อเพิ่มประสิทธิภาพ OCR แต่สุดท้าย Qwen 2.5 VLM 7B ที่ fine-tune แล้วกลับทำได้ดีกว่า ผมคิดว่าคำตอบคือการทำ fine-tuning
จีนกำลังทำแบบเดียวกับที่เคยทำในภาคการผลิต คือเอาเทคโนโลยีแกนหลักมาแล้วทำการเพิ่มประสิทธิภาพด้านต้นทุน/ประสิทธิผลแบบ 10 เท่าซ้ำ ๆ น่าทึ่งจริง ๆ มันเป็นโมเดลที่ดังในหมวด benchmark อยู่แล้ว แต่วันนี้ถึงขั้นทำให้รู้สึกว่าเป็นผู้ท้าชิง SOTA โอเพนซอร์สได้เลย แถมวันนี้ยังปล่อยโมเดลปิดขนาด 1 ล้านล้านพารามิเตอร์ออกมาด้วยและขึ้นไปถึงอันดับ 3 บน lm arena ส่วนโมเดล 80GB อยู่อันดับ 17 และ gpt-oss 120b อยู่อันดับ 52
ลิงก์ที่เกี่ยวข้อง
- คำอธิบาย ชื่อสินค้า และการแบ่งเวอร์ชันยังไม่ชัดเจนเหมือนเดิม Qwen3-VL Plus (โมเดลใหม่) กับ Qwen3-VL 235B (อีกโมเดลหนึ่ง) ถึงจะรู้ว่าเป็นคนละโมเดลกัน แต่ข้อมูลที่ให้มาก็ยังคลุมเครือจนไม่รู้ว่าอันไหนเก่งกว่า Qwen-Plus-2025-09-11 กับ qwen3-235b-a22b-instruct-2507 ก็ดูจากชื่อแล้วไม่รู้ว่าต่างกันยังไง สื่อสารชื่อได้ไม่ชัดเจนยิ่งกว่า OpenAI เสียอีก
  Qwen3-VL Plus
  Qwen3-VL-235B
  qwen-plus-2025-09-11
  qwen3-235b-a22b-instruct-2507
- การบอกว่า “แค่ทำ optimization” อย่างเดียวไม่ตรงกับความจริง ทีม Qwen ยังออกไอเดียใหม่อย่าง DeepStack มาด้วย
  บทความ DeepStack
  และแทนที่จะพูดรวม ๆ ว่าเป็น “คนจีน” ผมคิดว่าควรยกความดีความชอบให้ทีม Qwen โดยตรงมากกว่า เพราะทั่วโลกก็มีทั้งแล็บวิจัยที่ยอดเยี่ยมและแล็บธรรมดา
- น่าสนใจตรงที่โมเดลอย่าง Kimi K2 ให้ความรู้สึกว่าสร้างข้อความได้เป็นธรรมชาติกว่าโมเดลฝั่งสหรัฐมาก ถึงคะแนน benchmark จะยังไม่ถึงระดับ SOTA แต่ประสบการณ์ใช้งานจริงต่างออกไป
- สหรัฐเองเมื่อก่อนก็เคยโฟกัสการเพิ่มประสิทธิภาพแบบนี้ แต่ช่วง 10-15 ปีหลังบรรยากาศกลับกลายเป็นทุ่มทรัพยากรเพิ่มขึ้นเรื่อย ๆ แล้วละเลย optimization เช่น เพิ่ม RAM เพื่อรัน progressive web app เปลี่ยน CPU ให้แรงขึ้น หรือเพิ่มไฟเลี้ยงให้มากขึ้น พูดให้ถึงแก่นก็คือไม่เอาสิ่งที่เรียนในวิชาอัลกอริทึมสมัยมหาวิทยาลัยมาใช้จริง ขณะที่จีนลงมือทำเรื่องนี้จริง ๆ และยิ่งทำให้สหรัฐดูน่าขำเข้าไปอีก
ถ้าอยู่ซานฟรานซิสโก อย่าพลาดโอกาสเข้าร่วมอีเวนต์ทางการครั้งแรกของทีม Qwen ในสหรัฐ รองประธาน Qwen Lab จะขึ้นพูดด้วยตัวเองในงาน SF teach week
ลิงก์งาน
เป็นโอกาสหายากที่จะได้คุยกับสมาชิกทีม Qwen โดยตรง
- คนลงทะเบียนเต็มแล้ว ;-(
- ยุคนี้ปัญหาเรื่องการขอวีซ่าทำให้แค่การเข้าประเทศสหรัฐก็อาจเป็นเรื่อง 50:50 แล้ว ก็หวังว่าจะเดินทางมาได้อย่างปลอดภัย
ประเด็นสำคัญของ Qwen รอบนี้คือมันทำคะแนนด้าน multimodal ได้ระดับ SOTA เหนือกว่าโมเดล proprietary (ปิด) แล้วยังเปิดน้ำหนักโมเดลออกมาด้วย จากการทดสอบช่วงแรกของผมก็ดูเหมือนจะเป็นแบบนั้นจริง ๆ เดี๋ยวจะลองต่อไป น่าประทับใจมาก
- การทำ multimodal input ส่วนใหญ่ที่เจอมักให้ประสิทธิภาพต่ำ Qwen เองก็ยังพูดไม่ได้ว่าเหนือกว่าวิธีเชิงพาณิชย์ที่เป็นที่รู้จักอย่างชัดเจนมากนัก แต่แค่ยอมปล่อยผลลัพธ์ออกมาแบบนี้ก็น่ายินดีแล้ว การสร้างโมเดลที่ทำ multimodal input ได้ดีระดับนี้ไม่ใช่เรื่องง่ายเลย
- จริง ๆ แล้วผมรู้สึกว่าโมเดลโอเพนซอร์สมักจะอ้างเสมอว่า “เทียบชั้น commercial SOTA” ไม่ว่าจะมีขนาดเท่าไรก็ตาม
ในทางปฏิบัติ โมเดล Qwen3-VL 235B พารามิเตอร์แบบ FP16 น่าจะต้องใช้ RAM อย่างน้อย 512GB และถ้าจะรองรับ context window ที่สมเหตุสมผลก็อาจต้องมากกว่านั้นด้วย ถ้าไม่นับการรันบน CPU อยากรู้ว่ามีทางไหนไหมที่จะรันที่บ้านได้ในงบไม่เกิน 10,000 ดอลลาร์ ถ้า CPU เป็นทางเลือกเดียวจริง ๆ วิธีที่ดีที่สุดคือ vLLM + เชื่อมหลายเครื่องเข้าด้วยกันผ่านเครือข่าย (10/25/100Gbit) หรือมีตัวเลือกที่ดีกว่านั้น
- Apple Mac Studio ที่มี unified memory 512GB ราคาอยู่ราว 10,000 ดอลลาร์ ถ้าคุณต้องการพลังระดับนั้นที่บ้านและมีงบพอ นี่คือทางที่ง่ายที่สุด
  ไม่จำเป็นต้องรันแบบ FP16 เสมอไป ส่วนใหญ่ถ้า quantize ลงมาถึง q8 คุณภาพแทบไม่ตก และแม้แต่ q4 หรือต่ำกว่านั้นก็ยังรันได้โดยเสียประสิทธิภาพไม่มาก q8 อย่างเดียวก็ต้องใช้ RAM 235GB แล้ว ดังนั้นถ้าใช้ RTX 5090 (VRAM 32GB) ก็ต้องมีถึง 8 ใบ และราคาก็ไม่ใช่น้อย ยังต้องคิดเรื่องเมนบอร์ด CPU และการแยกโหลดให้ 8 GPU ด้วย อาจมองหาเซิร์ฟเวอร์ขุดเหมืองมือสองที่ใช้ RTX 3090 รุ่นเก่าหรือ P40 ได้ แต่บน GPU ฝั่งผู้บริโภค การทำให้ต่ำกว่า 10,000 ดอลลาร์แทบไม่สมจริง
  ถ้ากระจายโมเดลข้ามหลายเครื่องโดยไม่มี NVLink ความเร็วจะตกฮวบมาก ดังนั้นในทางปฏิบัติแนะนำเครื่องเดียว CPU ก็ไม่ได้แย่ สิ่งสำคัญคือแบนด์วิดท์หน่วยความจำ จึงเหมาะกับ CPU ฝั่งเซิร์ฟเวอร์หรือเวิร์กสเตชันที่มีช่องสัญญาณ DDR5 จำนวนมาก (เช่น AMD Ryzen Threadripper 7965WX, DDR5 8-channel, รองรับ 5200 MT/s, ราคาราว 2,500 ดอลลาร์)
  สุดท้าย อยากแนะนำให้คิดอีกทีว่าจำเป็นต้องรันที่บ้านจริงหรือไม่ ขึ้นอยู่กับเป้าหมายของคุณ แต่การทุ่ม 10,000 ดอลลาร์กับฮาร์ดแวร์อาจมูลค่าร่วงแรงภายในไม่กี่ปี ขณะที่เครดิตคลาวด์ 10,000 ดอลลาร์ใช้งานได้นานมาก
- ทางเลือกที่ไม่ใช่ CPU ส่วนใหญ่มักต้องเพิ่มระบบไฟ และถ้าจะตั้งเครื่องหลายตัวที่กินไฟเครื่องละ 2-3kW พร้อมแยกไปคนละวงจรไฟ ก็จะมีค่าใช้จ่ายเพิ่มมหาศาล
การที่ Qwen เปิด weight ของ multimodal SOTA ออกมาทำให้ใจนักพัฒนาหันไปทาง Qwen มากขึ้น อย่างน้อยของผมก็ไปแล้ว
- ผมว่าจริง ๆ เกมมันจบแล้ว ทุกวันนี้ดูรายชื่อผู้เขียนหลักบนงานวิจัยจากสหรัฐระดับท็อป ก็เห็นชื่อเชื้อสายจีนเต็มไปหมด
- อีกเรื่องคือพวกเขาไม่ได้ตั้งเป้าหากำไร เลยเล่นกันคนละเกมภายใต้กติกาคนละแบบ
- ผมเองก็สงสัยว่าเหตุผลอะไรทำให้พวกเขาพยายามเอาใจคนได้ขนาดนี้
ขอบคุณทีม Qwen สำหรับความใจกว้าง ตอนนี้ผมใช้โมเดล ‘Thinking’ ของพวกเขาสร้างเวิร์กโฟลว์เจ๋ง ๆ เพื่อทำงานน่าเบื่อภายในบริษัทให้เป็นอัตโนมัติอยู่แล้ว
โมเดล thinking ของ Qwen
ทีนี้ด้วยรีลีสใหม่นี้ ผมก็กำลังจะเอาไปทำเวิร์กโฟลว์ใหม่ ๆ เช่น จัดหมวดหมู่และเขียนแคปชันให้ภาพอาหาร ภาพผู้ใช้ ฯลฯ ด้วย เจ๋งมาก
โมเดลที่เกี่ยวข้องจากทีม Qwen
- Qwen3-VL-235B-A22B-Thinking
- Qwen3-VL-235B-A22B-Instruct
ผมมั่นใจว่านี่คือประกาศที่มีตัวเลข benchmark เยอะที่สุดเท่าที่ผมเคยเห็น อยากชมที่มันไม่ใช่งานเปิดตัวแบบหยิบแต่ตัวเลขโกงเกมมานำเสนอ
- ในพื้นที่ที่ benchmark เริ่มอิ่มตัวแล้ว ดูเหมือนว่าการชูตัวเลขอย่างเดียวจะไม่ค่อยมีความหมายอีกต่อไป
น่าเสียดายที่ Qwen3-VL ก็ยังสอบตกกับการทดสอบ “แขนขาเกิน” อยู่ดี ผมเอารูปสัตว์ที่แต่งด้วย Photoshop ให้มีแขนขาเพิ่ม (เช่น หมากับขาที่งอกออกมาจากท้อง หรือแมวที่มีขาหน้าสองคู่) ไปใส่ดู แต่มันก็ยังยืนกรานเหมือนโมเดลอื่นทั้งหมดว่าสัตว์มีจำนวนแขนขาปกติ ต่อให้บอกว่า “ดูเหมือนมีขางอกออกจากท้อง” มันก็ยังบอกว่าผมมองผิดและยืนยันว่าปกติจนสุดทาง Qwen ถึงขั้นตอบว่า 4 ขาถูกต้องทั้งที่บอกแล้วว่ารูปถูกแก้ไขมา
- VLM ทุกตัวก็เป็นแบบนี้ คือเปราะบางกับเคสยกเว้น การอ่านนาฬิกาเข็มก็มีแค่กรณีที่ผ่านได้โดยการใส่ข้อมูลสังเคราะห์ที่แก้ไขแล้วเป็นล้านภาพเพื่อฝึกเฉพาะทางในอดีต
  ชุดข้อมูลนาฬิกา
  ตัวอย่างลูกเต๋า D20
  สรุปคือถ้าไม่สร้างข้อมูลตัวอย่างเป็นล้านภาพสำหรับเคสอย่างแขนขาเกิน มันก็ตอบไม่ถูก และปัญหานี้ก็จะวนซ้ำกับโจทย์อื่น ๆ ที่ต้องสร้างชุดข้อมูลใหม่เรื่อย ๆ
- มันไม่เหมาะแน่ ๆ กับการนับจำนวนแขนขาของสิ่งมีชีวิตพันธุ์ประหลาด แต่สำหรับหัวข้อที่มีอยู่เยอะในข้อมูลฝึก มันอาจไม่ได้ด้อยอะไร
- สงสัยว่าถ้าใช้ความสามารถสั่งแก้ภาพของโมเดล Qwen แล้วสั่งให้แก้ส่วนอื่นโดยไม่แตะจำนวนแขนขา สุดท้ายมันจะพยายาม “แก้” ให้จำนวนแขนขากลับมาปกติเองหรือเปล่า