- โมเดลล่าสุดจากทีม Alibaba Qwen ที่เข้าใจและสร้างได้ทั้งข้อความ ภาพ เสียง และวิดีโอ โดยนำสถาปัตยกรรม Thinker-Talker มาผสานกับ Hybrid-Attention MoE เพื่อยกระดับความสามารถในการประมวลผลทุกโมดาลิตีอย่างมาก
- มีเวอร์ชัน Instruct ให้เลือก 3 ขนาด ได้แก่ Plus·Flash·Light พร้อมรองรับอินพุตแบบ long context 256k, เสียงยาวกว่า 10 ชั่วโมง และวิดีโอมากกว่า 400 วินาทีที่ 720P
- Qwen3.5-Omni-Plus ทำสถิติ SOTA ใน 215 เบนช์มาร์กด้านความเข้าใจเสียงและวิดีโอ และเหนือกว่า Gemini-3.1 Pro ในทุกด้านของความเข้าใจเสียงทั่วไป การให้เหตุผล การแปล และการสนทนา
- เมื่อเทียบกับรุ่นก่อนหน้า ได้ขยายการรองรับหลายภาษาอย่างมาก โดยรองรับการรู้จำเสียงพูด 74 ภาษาและ 39 สำเนียงภาษาจีน รวมถึงการสังเคราะห์เสียงพูด 36 ภาษา พร้อมเพิ่มความสามารถเชิงโต้ตอบใหม่ เช่น voice clone, การค้นหาเว็บ, การสนทนาแบบเรียลไทม์, และการควบคุมอารมณ์/ความเร็ว/ระดับเสียง
- เทคโนโลยี ARIA (Adaptive Rate Interleave Alignment) แก้ปัญหาการตกหล่นและการอ่านผิดที่เกิดจากความต่างด้านประสิทธิภาพการเข้ารหัสโทเค็นข้อความกับเสียง ทำให้ความเป็นธรรมชาติและความเสถียรของการสังเคราะห์เสียงแบบสตรีมมิงดีขึ้นอย่างมาก
ภาพรวมโมเดล
- Qwen3.5-Omni คือ LLM แบบออมนิโหมดเต็มรูปแบบรุ่นล่าสุดของ Qwen ที่ประมวลผลได้ทั้งข้อความ ภาพ เสียง และวิดีโอ
- ทั้ง Thinker และ Talker ใช้โครงสร้าง Hybrid-Attention MoE เพื่อเพิ่มประสิทธิภาพการประมวลผลมัลติโหมด
- มีให้ใช้งานในเวอร์ชัน Instruct 3 แบบคือ Plus, Flash และ Light โดยทั้งหมดรองรับอินพุตแบบ long context 256k
- อินพุตเสียง: มากกว่า 10 ชั่วโมง
- อินพุตวิดีโอที่ 720P·1FPS: มากกว่า 400 วินาที
- ผ่านการพรีเทรนแบบออมนิโหมดด้วยข้อมูลข้อความจำนวนมหาศาล ข้อมูลภาพ และ ข้อมูลภาพ-เสียงมากกว่า 100 ล้านชั่วโมง
- ใช้งานได้แล้วผ่าน Offline API และ Realtime API
ประสิทธิภาพหลัก (Offline)
- Qwen3.5-Omni-Plus ทำ SOTA ใน 215 ซับแทสก์/เบนช์มาร์กด้านความเข้าใจ การให้เหตุผล และอินเทอร์แอ็กชันแบบภาพ-เสียง
- รวมถึงเบนช์มาร์กภาพ-เสียง 3 รายการ, เบนช์มาร์กเสียง 5 รายการ, เบนช์มาร์ก ASR 8 รายการ, S2TT แยกตามภาษา 156 รายการ และ ASR แยกตามภาษา 43 รายการ
- เหนือกว่า Gemini-3.1 Pro ในทุกด้านของความเข้าใจ การให้เหตุผล การรู้จำ การแปล และการสนทนาเกี่ยวกับเสียงทั่วไป และระดับความเข้าใจภาพ-เสียงโดยรวมก็ไล่ทัน Gemini-3.1 Pro
- ประสิทธิภาพด้านภาพและข้อความอยู่ในระดับเทียบเท่ากับ Qwen3.5 รุ่นขนาดเดียวกัน
- ความสามารถ audio-visual captioning: รองรับคำบรรยายแบบละเอียดและมีโครงสร้าง, การแบ่งช่วงและใส่หมายเหตุ timestamp อัตโนมัติ, การอธิบายตัวละครที่ปรากฏและความสัมพันธ์ของเสียง ฯลฯ ในระดับการบรรยายฉาก
- Audio-Visual Vibe Coding: ยืนยันความสามารถออมนิโหมดใหม่ที่สร้างโค้ดได้โดยตรงจากคำสั่งแบบภาพ-เสียง
ความสามารถหลัก (Realtime)
- Semantic Interruption: ใช้การรู้จำเจตนา turn-taking บนพื้นฐาน Odin เพื่อป้องกันการขัดจังหวะที่ไม่จำเป็นจาก backchanneling และเสียงรบกวนพื้นหลัง; มีมาให้ใน API โดยค่าเริ่มต้น
- รองรับ WebSearch และ FunctionCall ที่ซับซ้อนแบบเนทีฟ: โมเดลตัดสินใจได้เองว่าจะเรียกใช้การค้นหาเว็บหรือไม่ เพื่อตอบคำถามแบบเรียลไทม์
- การควบคุมเสียงแบบ end-to-end: ทำตามคำสั่งได้เหมือนมนุษย์ พร้อมควบคุมระดับเสียง ความเร็ว และอารมณ์ของการพูดได้อย่างอิสระ
- Voice Clone: ผู้ใช้สามารถอัปโหลดเสียงเพื่อปรับแต่งเสียงของ AI assistant ได้; ทั้งหมดให้บริการผ่าน Realtime API
- สามารถเปลี่ยนสไตล์การสนทนาและอัตลักษณ์ของโมเดลได้ผ่านการแก้ system prompt
เทคโนโลยี ARIA
- เสนอเทคโนโลยี ARIA (Adaptive Rate Interleave Alignment) เพื่อแก้ปัญหาการตกหล่น การอ่านผิด และการออกเสียงไม่ชัด ที่เกิดจากความต่างด้านประสิทธิภาพการเข้ารหัสระหว่างโทเค็นข้อความกับเสียงในการโต้ตอบด้วยเสียงแบบสตรีมมิง
- จัดเรียงหน่วยข้อความและเสียงแบบไดนามิก (interleave) เพื่อคงประสิทธิภาพแบบเรียลไทม์ พร้อม ยกระดับความเป็นธรรมชาติและความเสถียรของการสังเคราะห์เสียง อย่างมาก
- มาแทนแนวทางอัตราส่วน tokenizer ข้อความ-เสียงคงที่ 1:1 ของ Qwen3-Omni รุ่นก่อน
การเปลี่ยนแปลงด้านสถาปัตยกรรม (เทียบกับ Qwen3-Omni)
- แบ็กโบน: MoE → Hybrid-MoE
- ความยาวซีเควนซ์: 32k → 256k (เสียง 10 ชั่วโมง, วิดีโอ 400 วินาที)
- ขอบเขตการทำ captioning: เฉพาะเสียง → ภาพ-เสียง
- Semantic Interruption: ไม่รองรับ → รองรับ
- WebSearch/Tool: ไม่รองรับ → รองรับ
- การควบคุม/โคลนเสียง: ไม่รองรับ → รองรับ
- โครงสร้าง Talker: dual-track autoregression → Interleave + ARIA
การขยายการรองรับหลายภาษา
- การรู้จำเสียงพูด (ASR)
- ก่อนหน้า: หลายภาษา 11 ภาษา + สำเนียงภาษาจีน 8 แบบ
- ปัจจุบัน: หลายภาษา 74 ภาษา + สำเนียงภาษาจีน 39 แบบ
- การสังเคราะห์เสียงพูด (TTS)
- ก่อนหน้า: หลายภาษา 29 ภาษา + สำเนียงภาษาจีน 7 แบบ
- ปัจจุบัน: สร้างเสียงได้ 36 ภาษา (ต้นฉบับไม่ได้ระบุรายการสังเคราะห์สำเนียงแยกต่างหาก)
ตัวเลขเบนช์มาร์ก (คัดเฉพาะส่วนสำคัญ)
- ภาพ-เสียง (Qwen3.5-Omni-Plus vs Gemini-3.1 Pro)
- DailyOmni: 84.6 vs 82.7
- AVUT: 85.0 vs 85.6
- VideoMME (with audio): 83.7 vs 89.0
- OmniGAIA: 57.2 vs 68.9
- เสียง (Qwen3.5-Omni-Plus vs Gemini-3.1 Pro)
- MMAU: 82.2 vs 81.1
- VoiceBench: 93.1 vs 88.9
- Fleurs S2TT (xx↔en top59): 35.4 vs 34.6
- ความเสถียรของการสังเคราะห์เสียง WER↓ (Custom Voice, Seed-hard)
- Qwen3.5-Omni-Plus: 6.24
- ElevenLabs: 27.70 / Gemini-2.5 Pro: 11.57 / GPT-Audio: 8.19
API และวิธีใช้งาน
- Offline API: รองรับการวิเคราะห์วิดีโอและเสียง, การค้นหาเว็บ (
enable_search พารามิเตอร์); เรียกใช้ผ่าน Python OpenAI-compatible SDK
- Realtime API: การสนทนาแบบเรียลไทม์บน WebSocket; ใช้ dashscope SDK และรองรับการสตรีมอินพุต/เอาต์พุตเสียง
- Model ID ที่ใช้งานได้:
qwen3.5-omni-plus, qwen3.5-omni-plus-realtime
- รองรับการแยก endpoint สำหรับจีนแผ่นดินใหญ่ (ปักกิ่ง) และต่างประเทศ (สิงคโปร์)
รายการเสียง
- เสียงคัสตอมภาษาจีนและอังกฤษ: Tina, Cindy, Liora Mira, Sunnybobi, Raymond รวม 5 แบบ
- เสียงตามสถานการณ์ เช่น มีอารมณ์ร่วม/โรลเพลย์: Ethan, Harvey, Maia และอื่น ๆ รวม 19 แบบ (ภาษาจีนและอังกฤษ)
- เสียงสำเนียงภาษาจีน: เสฉวน, สำเนียงปักกิ่ง, สำเนียงเทียนจิน, กวางตุ้ง และอื่น ๆ รวม 8 แบบ
- เสียงหลายภาษา: เกาหลี (Sohee), เยอรมัน (Lenn), ญี่ปุ่น (Ono Anna), สเปน, ฝรั่งเศส, รัสเซีย ฯลฯ รวม 23 ภาษา 23 แบบ
ยังไม่มีความคิดเห็น