• โมเดลล่าสุดจากทีม Alibaba Qwen ที่เข้าใจและสร้างได้ทั้งข้อความ ภาพ เสียง และวิดีโอ โดยนำสถาปัตยกรรม Thinker-Talker มาผสานกับ Hybrid-Attention MoE เพื่อยกระดับความสามารถในการประมวลผลทุกโมดาลิตีอย่างมาก
  • มีเวอร์ชัน Instruct ให้เลือก 3 ขนาด ได้แก่ Plus·Flash·Light พร้อมรองรับอินพุตแบบ long context 256k, เสียงยาวกว่า 10 ชั่วโมง และวิดีโอมากกว่า 400 วินาทีที่ 720P
  • Qwen3.5-Omni-Plus ทำสถิติ SOTA ใน 215 เบนช์มาร์กด้านความเข้าใจเสียงและวิดีโอ และเหนือกว่า Gemini-3.1 Pro ในทุกด้านของความเข้าใจเสียงทั่วไป การให้เหตุผล การแปล และการสนทนา
  • เมื่อเทียบกับรุ่นก่อนหน้า ได้ขยายการรองรับหลายภาษาอย่างมาก โดยรองรับการรู้จำเสียงพูด 74 ภาษาและ 39 สำเนียงภาษาจีน รวมถึงการสังเคราะห์เสียงพูด 36 ภาษา พร้อมเพิ่มความสามารถเชิงโต้ตอบใหม่ เช่น voice clone, การค้นหาเว็บ, การสนทนาแบบเรียลไทม์, และการควบคุมอารมณ์/ความเร็ว/ระดับเสียง
  • เทคโนโลยี ARIA (Adaptive Rate Interleave Alignment) แก้ปัญหาการตกหล่นและการอ่านผิดที่เกิดจากความต่างด้านประสิทธิภาพการเข้ารหัสโทเค็นข้อความกับเสียง ทำให้ความเป็นธรรมชาติและความเสถียรของการสังเคราะห์เสียงแบบสตรีมมิงดีขึ้นอย่างมาก

ภาพรวมโมเดล

  • Qwen3.5-Omni คือ LLM แบบออมนิโหมดเต็มรูปแบบรุ่นล่าสุดของ Qwen ที่ประมวลผลได้ทั้งข้อความ ภาพ เสียง และวิดีโอ
  • ทั้ง Thinker และ Talker ใช้โครงสร้าง Hybrid-Attention MoE เพื่อเพิ่มประสิทธิภาพการประมวลผลมัลติโหมด
  • มีให้ใช้งานในเวอร์ชัน Instruct 3 แบบคือ Plus, Flash และ Light โดยทั้งหมดรองรับอินพุตแบบ long context 256k
    • อินพุตเสียง: มากกว่า 10 ชั่วโมง
    • อินพุตวิดีโอที่ 720P·1FPS: มากกว่า 400 วินาที
  • ผ่านการพรีเทรนแบบออมนิโหมดด้วยข้อมูลข้อความจำนวนมหาศาล ข้อมูลภาพ และ ข้อมูลภาพ-เสียงมากกว่า 100 ล้านชั่วโมง
  • ใช้งานได้แล้วผ่าน Offline API และ Realtime API

ประสิทธิภาพหลัก (Offline)

  • Qwen3.5-Omni-Plus ทำ SOTA ใน 215 ซับแทสก์/เบนช์มาร์กด้านความเข้าใจ การให้เหตุผล และอินเทอร์แอ็กชันแบบภาพ-เสียง
    • รวมถึงเบนช์มาร์กภาพ-เสียง 3 รายการ, เบนช์มาร์กเสียง 5 รายการ, เบนช์มาร์ก ASR 8 รายการ, S2TT แยกตามภาษา 156 รายการ และ ASR แยกตามภาษา 43 รายการ
  • เหนือกว่า Gemini-3.1 Pro ในทุกด้านของความเข้าใจ การให้เหตุผล การรู้จำ การแปล และการสนทนาเกี่ยวกับเสียงทั่วไป และระดับความเข้าใจภาพ-เสียงโดยรวมก็ไล่ทัน Gemini-3.1 Pro
  • ประสิทธิภาพด้านภาพและข้อความอยู่ในระดับเทียบเท่ากับ Qwen3.5 รุ่นขนาดเดียวกัน
  • ความสามารถ audio-visual captioning: รองรับคำบรรยายแบบละเอียดและมีโครงสร้าง, การแบ่งช่วงและใส่หมายเหตุ timestamp อัตโนมัติ, การอธิบายตัวละครที่ปรากฏและความสัมพันธ์ของเสียง ฯลฯ ในระดับการบรรยายฉาก
  • Audio-Visual Vibe Coding: ยืนยันความสามารถออมนิโหมดใหม่ที่สร้างโค้ดได้โดยตรงจากคำสั่งแบบภาพ-เสียง

ความสามารถหลัก (Realtime)

  • Semantic Interruption: ใช้การรู้จำเจตนา turn-taking บนพื้นฐาน Odin เพื่อป้องกันการขัดจังหวะที่ไม่จำเป็นจาก backchanneling และเสียงรบกวนพื้นหลัง; มีมาให้ใน API โดยค่าเริ่มต้น
  • รองรับ WebSearch และ FunctionCall ที่ซับซ้อนแบบเนทีฟ: โมเดลตัดสินใจได้เองว่าจะเรียกใช้การค้นหาเว็บหรือไม่ เพื่อตอบคำถามแบบเรียลไทม์
  • การควบคุมเสียงแบบ end-to-end: ทำตามคำสั่งได้เหมือนมนุษย์ พร้อมควบคุมระดับเสียง ความเร็ว และอารมณ์ของการพูดได้อย่างอิสระ
  • Voice Clone: ผู้ใช้สามารถอัปโหลดเสียงเพื่อปรับแต่งเสียงของ AI assistant ได้; ทั้งหมดให้บริการผ่าน Realtime API
  • สามารถเปลี่ยนสไตล์การสนทนาและอัตลักษณ์ของโมเดลได้ผ่านการแก้ system prompt

เทคโนโลยี ARIA

  • เสนอเทคโนโลยี ARIA (Adaptive Rate Interleave Alignment) เพื่อแก้ปัญหาการตกหล่น การอ่านผิด และการออกเสียงไม่ชัด ที่เกิดจากความต่างด้านประสิทธิภาพการเข้ารหัสระหว่างโทเค็นข้อความกับเสียงในการโต้ตอบด้วยเสียงแบบสตรีมมิง
  • จัดเรียงหน่วยข้อความและเสียงแบบไดนามิก (interleave) เพื่อคงประสิทธิภาพแบบเรียลไทม์ พร้อม ยกระดับความเป็นธรรมชาติและความเสถียรของการสังเคราะห์เสียง อย่างมาก
  • มาแทนแนวทางอัตราส่วน tokenizer ข้อความ-เสียงคงที่ 1:1 ของ Qwen3-Omni รุ่นก่อน

การเปลี่ยนแปลงด้านสถาปัตยกรรม (เทียบกับ Qwen3-Omni)

  • แบ็กโบน: MoE → Hybrid-MoE
  • ความยาวซีเควนซ์: 32k → 256k (เสียง 10 ชั่วโมง, วิดีโอ 400 วินาที)
  • ขอบเขตการทำ captioning: เฉพาะเสียง → ภาพ-เสียง
  • Semantic Interruption: ไม่รองรับ → รองรับ
  • WebSearch/Tool: ไม่รองรับ → รองรับ
  • การควบคุม/โคลนเสียง: ไม่รองรับ → รองรับ
  • โครงสร้าง Talker: dual-track autoregression → Interleave + ARIA

การขยายการรองรับหลายภาษา

  • การรู้จำเสียงพูด (ASR)
    • ก่อนหน้า: หลายภาษา 11 ภาษา + สำเนียงภาษาจีน 8 แบบ
    • ปัจจุบัน: หลายภาษา 74 ภาษา + สำเนียงภาษาจีน 39 แบบ
  • การสังเคราะห์เสียงพูด (TTS)
    • ก่อนหน้า: หลายภาษา 29 ภาษา + สำเนียงภาษาจีน 7 แบบ
    • ปัจจุบัน: สร้างเสียงได้ 36 ภาษา (ต้นฉบับไม่ได้ระบุรายการสังเคราะห์สำเนียงแยกต่างหาก)

ตัวเลขเบนช์มาร์ก (คัดเฉพาะส่วนสำคัญ)

  • ภาพ-เสียง (Qwen3.5-Omni-Plus vs Gemini-3.1 Pro)
    • DailyOmni: 84.6 vs 82.7
    • AVUT: 85.0 vs 85.6
    • VideoMME (with audio): 83.7 vs 89.0
    • OmniGAIA: 57.2 vs 68.9
  • เสียง (Qwen3.5-Omni-Plus vs Gemini-3.1 Pro)
    • MMAU: 82.2 vs 81.1
    • VoiceBench: 93.1 vs 88.9
    • Fleurs S2TT (xx↔en top59): 35.4 vs 34.6
  • ความเสถียรของการสังเคราะห์เสียง WER↓ (Custom Voice, Seed-hard)
    • Qwen3.5-Omni-Plus: 6.24
    • ElevenLabs: 27.70 / Gemini-2.5 Pro: 11.57 / GPT-Audio: 8.19

API และวิธีใช้งาน

  • Offline API: รองรับการวิเคราะห์วิดีโอและเสียง, การค้นหาเว็บ (enable_search พารามิเตอร์); เรียกใช้ผ่าน Python OpenAI-compatible SDK
  • Realtime API: การสนทนาแบบเรียลไทม์บน WebSocket; ใช้ dashscope SDK และรองรับการสตรีมอินพุต/เอาต์พุตเสียง
  • Model ID ที่ใช้งานได้: qwen3.5-omni-plus, qwen3.5-omni-plus-realtime
  • รองรับการแยก endpoint สำหรับจีนแผ่นดินใหญ่ (ปักกิ่ง) และต่างประเทศ (สิงคโปร์)

รายการเสียง

  • เสียงคัสตอมภาษาจีนและอังกฤษ: Tina, Cindy, Liora Mira, Sunnybobi, Raymond รวม 5 แบบ
  • เสียงตามสถานการณ์ เช่น มีอารมณ์ร่วม/โรลเพลย์: Ethan, Harvey, Maia และอื่น ๆ รวม 19 แบบ (ภาษาจีนและอังกฤษ)
  • เสียงสำเนียงภาษาจีน: เสฉวน, สำเนียงปักกิ่ง, สำเนียงเทียนจิน, กวางตุ้ง และอื่น ๆ รวม 8 แบบ
  • เสียงหลายภาษา: เกาหลี (Sohee), เยอรมัน (Lenn), ญี่ปุ่น (Ono Anna), สเปน, ฝรั่งเศส, รัสเซีย ฯลฯ รวม 23 ภาษา 23 แบบ

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น