Qwen3.5-Omni: เปิดตัว LLM แบบออมนิโหมดเต็มรูปแบบที่ประมวลผลได้ทั้งข้อความ ภาพ เสียง และวิดีโอ

(qwen.ai)

7 คะแนน โดย GN⁺ 2026-03-31 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

โมเดลล่าสุดจากทีม Alibaba Qwen ที่เข้าใจและสร้างได้ทั้งข้อความ ภาพ เสียง และวิดีโอ โดยนำสถาปัตยกรรม Thinker-Talker มาผสานกับ Hybrid-Attention MoE เพื่อยกระดับความสามารถในการประมวลผลทุกโมดาลิตีอย่างมาก
มีเวอร์ชัน Instruct ให้เลือก 3 ขนาด ได้แก่ Plus·Flash·Light พร้อมรองรับอินพุตแบบ long context 256k, เสียงยาวกว่า 10 ชั่วโมง และวิดีโอมากกว่า 400 วินาทีที่ 720P
Qwen3.5-Omni-Plus ทำสถิติ SOTA ใน 215 เบนช์มาร์กด้านความเข้าใจเสียงและวิดีโอ และเหนือกว่า Gemini-3.1 Pro ในทุกด้านของความเข้าใจเสียงทั่วไป การให้เหตุผล การแปล และการสนทนา
เมื่อเทียบกับรุ่นก่อนหน้า ได้ขยายการรองรับหลายภาษาอย่างมาก โดยรองรับการรู้จำเสียงพูด 74 ภาษาและ 39 สำเนียงภาษาจีน รวมถึงการสังเคราะห์เสียงพูด 36 ภาษา พร้อมเพิ่มความสามารถเชิงโต้ตอบใหม่ เช่น voice clone, การค้นหาเว็บ, การสนทนาแบบเรียลไทม์, และการควบคุมอารมณ์/ความเร็ว/ระดับเสียง
เทคโนโลยี ARIA (Adaptive Rate Interleave Alignment) แก้ปัญหาการตกหล่นและการอ่านผิดที่เกิดจากความต่างด้านประสิทธิภาพการเข้ารหัสโทเค็นข้อความกับเสียง ทำให้ความเป็นธรรมชาติและความเสถียรของการสังเคราะห์เสียงแบบสตรีมมิงดีขึ้นอย่างมาก

ภาพรวมโมเดล

Qwen3.5-Omni คือ LLM แบบออมนิโหมดเต็มรูปแบบรุ่นล่าสุดของ Qwen ที่ประมวลผลได้ทั้งข้อความ ภาพ เสียง และวิดีโอ
ทั้ง Thinker และ Talker ใช้โครงสร้าง Hybrid-Attention MoE เพื่อเพิ่มประสิทธิภาพการประมวลผลมัลติโหมด
มีให้ใช้งานในเวอร์ชัน Instruct 3 แบบคือ Plus, Flash และ Light โดยทั้งหมดรองรับอินพุตแบบ long context 256k
- อินพุตเสียง: มากกว่า 10 ชั่วโมง
- อินพุตวิดีโอที่ 720P·1FPS: มากกว่า 400 วินาที
ผ่านการพรีเทรนแบบออมนิโหมดด้วยข้อมูลข้อความจำนวนมหาศาล ข้อมูลภาพ และ ข้อมูลภาพ-เสียงมากกว่า 100 ล้านชั่วโมง
ใช้งานได้แล้วผ่าน Offline API และ Realtime API

ประสิทธิภาพหลัก (Offline)

Qwen3.5-Omni-Plus ทำ SOTA ใน 215 ซับแทสก์/เบนช์มาร์กด้านความเข้าใจ การให้เหตุผล และอินเทอร์แอ็กชันแบบภาพ-เสียง
- รวมถึงเบนช์มาร์กภาพ-เสียง 3 รายการ, เบนช์มาร์กเสียง 5 รายการ, เบนช์มาร์ก ASR 8 รายการ, S2TT แยกตามภาษา 156 รายการ และ ASR แยกตามภาษา 43 รายการ
เหนือกว่า Gemini-3.1 Pro ในทุกด้านของความเข้าใจ การให้เหตุผล การรู้จำ การแปล และการสนทนาเกี่ยวกับเสียงทั่วไป และระดับความเข้าใจภาพ-เสียงโดยรวมก็ไล่ทัน Gemini-3.1 Pro
ประสิทธิภาพด้านภาพและข้อความอยู่ในระดับเทียบเท่ากับ Qwen3.5 รุ่นขนาดเดียวกัน
ความสามารถ audio-visual captioning: รองรับคำบรรยายแบบละเอียดและมีโครงสร้าง, การแบ่งช่วงและใส่หมายเหตุ timestamp อัตโนมัติ, การอธิบายตัวละครที่ปรากฏและความสัมพันธ์ของเสียง ฯลฯ ในระดับการบรรยายฉาก
Audio-Visual Vibe Coding: ยืนยันความสามารถออมนิโหมดใหม่ที่สร้างโค้ดได้โดยตรงจากคำสั่งแบบภาพ-เสียง

ความสามารถหลัก (Realtime)

Semantic Interruption: ใช้การรู้จำเจตนา turn-taking บนพื้นฐาน Odin เพื่อป้องกันการขัดจังหวะที่ไม่จำเป็นจาก backchanneling และเสียงรบกวนพื้นหลัง; มีมาให้ใน API โดยค่าเริ่มต้น
รองรับ WebSearch และ FunctionCall ที่ซับซ้อนแบบเนทีฟ: โมเดลตัดสินใจได้เองว่าจะเรียกใช้การค้นหาเว็บหรือไม่ เพื่อตอบคำถามแบบเรียลไทม์
การควบคุมเสียงแบบ end-to-end: ทำตามคำสั่งได้เหมือนมนุษย์ พร้อมควบคุมระดับเสียง ความเร็ว และอารมณ์ของการพูดได้อย่างอิสระ
Voice Clone: ผู้ใช้สามารถอัปโหลดเสียงเพื่อปรับแต่งเสียงของ AI assistant ได้; ทั้งหมดให้บริการผ่าน Realtime API
สามารถเปลี่ยนสไตล์การสนทนาและอัตลักษณ์ของโมเดลได้ผ่านการแก้ system prompt

เทคโนโลยี ARIA

เสนอเทคโนโลยี ARIA (Adaptive Rate Interleave Alignment) เพื่อแก้ปัญหาการตกหล่น การอ่านผิด และการออกเสียงไม่ชัด ที่เกิดจากความต่างด้านประสิทธิภาพการเข้ารหัสระหว่างโทเค็นข้อความกับเสียงในการโต้ตอบด้วยเสียงแบบสตรีมมิง
จัดเรียงหน่วยข้อความและเสียงแบบไดนามิก (interleave) เพื่อคงประสิทธิภาพแบบเรียลไทม์ พร้อม ยกระดับความเป็นธรรมชาติและความเสถียรของการสังเคราะห์เสียง อย่างมาก
มาแทนแนวทางอัตราส่วน tokenizer ข้อความ-เสียงคงที่ 1:1 ของ Qwen3-Omni รุ่นก่อน

การเปลี่ยนแปลงด้านสถาปัตยกรรม (เทียบกับ Qwen3-Omni)

แบ็กโบน: MoE → Hybrid-MoE
ความยาวซีเควนซ์: 32k → 256k (เสียง 10 ชั่วโมง, วิดีโอ 400 วินาที)
ขอบเขตการทำ captioning: เฉพาะเสียง → ภาพ-เสียง
Semantic Interruption: ไม่รองรับ → รองรับ
WebSearch/Tool: ไม่รองรับ → รองรับ
การควบคุม/โคลนเสียง: ไม่รองรับ → รองรับ
โครงสร้าง Talker: dual-track autoregression → Interleave + ARIA

การขยายการรองรับหลายภาษา

การรู้จำเสียงพูด (ASR)
- ก่อนหน้า: หลายภาษา 11 ภาษา + สำเนียงภาษาจีน 8 แบบ
- ปัจจุบัน: หลายภาษา 74 ภาษา + สำเนียงภาษาจีน 39 แบบ
การสังเคราะห์เสียงพูด (TTS)
- ก่อนหน้า: หลายภาษา 29 ภาษา + สำเนียงภาษาจีน 7 แบบ
- ปัจจุบัน: สร้างเสียงได้ 36 ภาษา (ต้นฉบับไม่ได้ระบุรายการสังเคราะห์สำเนียงแยกต่างหาก)

ตัวเลขเบนช์มาร์ก (คัดเฉพาะส่วนสำคัญ)

ภาพ-เสียง (Qwen3.5-Omni-Plus vs Gemini-3.1 Pro)
- DailyOmni: 84.6 vs 82.7
- AVUT: 85.0 vs 85.6
- VideoMME (with audio): 83.7 vs 89.0
- OmniGAIA: 57.2 vs 68.9
เสียง (Qwen3.5-Omni-Plus vs Gemini-3.1 Pro)
- MMAU: 82.2 vs 81.1
- VoiceBench: 93.1 vs 88.9
- Fleurs S2TT (xx↔en top59): 35.4 vs 34.6
ความเสถียรของการสังเคราะห์เสียง WER↓ (Custom Voice, Seed-hard)
- Qwen3.5-Omni-Plus: 6.24
- ElevenLabs: 27.70 / Gemini-2.5 Pro: 11.57 / GPT-Audio: 8.19

API และวิธีใช้งาน

Offline API: รองรับการวิเคราะห์วิดีโอและเสียง, การค้นหาเว็บ (enable_search พารามิเตอร์); เรียกใช้ผ่าน Python OpenAI-compatible SDK
Realtime API: การสนทนาแบบเรียลไทม์บน WebSocket; ใช้ dashscope SDK และรองรับการสตรีมอินพุต/เอาต์พุตเสียง
Model ID ที่ใช้งานได้: qwen3.5-omni-plus, qwen3.5-omni-plus-realtime
รองรับการแยก endpoint สำหรับจีนแผ่นดินใหญ่ (ปักกิ่ง) และต่างประเทศ (สิงคโปร์)

รายการเสียง

เสียงคัสตอมภาษาจีนและอังกฤษ: Tina, Cindy, Liora Mira, Sunnybobi, Raymond รวม 5 แบบ
เสียงตามสถานการณ์ เช่น มีอารมณ์ร่วม/โรลเพลย์: Ethan, Harvey, Maia และอื่น ๆ รวม 19 แบบ (ภาษาจีนและอังกฤษ)
เสียงสำเนียงภาษาจีน: เสฉวน, สำเนียงปักกิ่ง, สำเนียงเทียนจิน, กวางตุ้ง และอื่น ๆ รวม 8 แบบ
เสียงหลายภาษา: เกาหลี (Sohee), เยอรมัน (Lenn), ญี่ปุ่น (Ono Anna), สเปน, ฝรั่งเศส, รัสเซีย ฯลฯ รวม 23 ภาษา 23 แบบ

Qwen3.5-Omni: เปิดตัว LLM แบบออมนิโหมดเต็มรูปแบบที่ประมวลผลได้ทั้งข้อความ ภาพ เสียง และวิดีโอ

ภาพรวมโมเดล

ประสิทธิภาพหลัก (Offline)

ความสามารถหลัก (Realtime)

เทคโนโลยี ARIA

การเปลี่ยนแปลงด้านสถาปัตยกรรม (เทียบกับ Qwen3-Omni)

การขยายการรองรับหลายภาษา

ตัวเลขเบนช์มาร์ก (คัดเฉพาะส่วนสำคัญ)

API และวิธีใช้งาน

รายการเสียง

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น