- Qwen3-Omni-Flash-2025-12-01 เป็นโมเดลมัลติโหมดรุ่นถัดไปที่ประมวลผลข้อความ ภาพ เสียง และวิดีโอพร้อมกัน และสร้างผลลัพธ์เป็นข้อความและเสียงพูดแบบสตรีมมิงเรียลไทม์
- ความสามารถในการเข้าใจคำสั่งเสียงและภาพ รวมถึงเสถียรภาพของการสนทนาได้รับการปรับปรุงอย่างมาก ทำให้เกิดปฏิสัมพันธ์เสียง-วิดีโอที่เป็นธรรมชาติและสอดคล้องกัน
- ฟังก์ชัน ควบคุม system prompt ได้อย่างสมบูรณ์ ช่วยให้ปรับรายละเอียดได้ เช่น สไตล์บุคลิก น้ำเสียงพูด และความยาวของผลลัพธ์
- รองรับข้อความ 119 ภาษา, การรู้จำเสียงพูด 19 ภาษา, การสังเคราะห์เสียงพูด 10 ภาษา และแก้ปัญหาความสอดคล้องในการใช้งานหลายภาษา
- ประสิทธิภาพดีขึ้นในทุกด้าน ทั้งการให้เหตุผลเชิงตรรกะ การสร้างโค้ด และการเข้าใจภาพกับเสียง มอบประสบการณ์ปฏิสัมพันธ์กับ AI ที่เป็นธรรมชาติและแม่นยำ
ภาพรวมของ Qwen3-Omni-Flash-2025-12-01
- Qwen3-Omni คือโมเดลขนาดใหญ่มัลติโหมดแบบเนทีฟที่รองรับอินพุตหลากหลาย เช่น ข้อความ ภาพ เสียง และวิดีโอ พร้อมสร้างข้อความและเสียงพูดที่เป็นธรรมชาติแบบเรียลไทม์
- เวอร์ชัน Qwen3-Omni-Flash-2025-12-01 ครั้งนี้เป็นรุ่นอัปเกรดครั้งใหญ่แบบครบวงจรที่พัฒนาบนพื้นฐานของ Qwen3-Omni เดิม
- มีการปรับปรุงทั้งด้านประสิทธิภาพและประสิทธิผลของโมเดลโดยรวม เพื่อมอบความสามารถในการประมวลผลมัลติโหมดที่เร็วและแม่นยำยิ่งขึ้น
การปรับปรุงความสามารถหลัก
-
เสริมความแข็งแกร่งให้ปฏิสัมพันธ์เสียง-ภาพ
- ความสามารถในการเข้าใจและดำเนินการตามคำสั่งด้วยเสียงและวิดีโอได้รับการปรับปรุงอย่างมาก ช่วยแก้ปัญหาความฉลาดที่ลดลงในสถานการณ์ภาษาพูดในชีวิตประจำวัน
- เสถียรภาพและความสอดคล้องของการสนทนาเสียง-ภาพหลายรอบดีขึ้น ทำให้โต้ตอบได้อย่างเป็นธรรมชาติ
-
เพิ่มความสามารถในการควบคุม system prompt
- สามารถปรับแต่ง system prompt ได้อย่างสมบูรณ์ จึงควบคุมพฤติกรรมของโมเดลได้อย่างละเอียดแม่นยำ
- ปรับองค์ประกอบย่อยได้ละเอียด เช่น สไตล์บุคลิก (เช่น หวาน สุขุม แนวอนิเมะ) น้ำเสียงพูด และความยาวของผลลัพธ์
-
เพิ่มความน่าเชื่อถือของการรองรับหลายภาษา
- รองรับการโต้ตอบแบบข้อความ 119 ภาษา, การรู้จำเสียงพูด 19 ภาษา, และการสังเคราะห์เสียงพูด 10 ภาษา
- ปัญหาความไม่เสถียรของภาษาในเวอร์ชันก่อนถูกแก้ไขแล้ว ทำให้ได้ประสิทธิภาพหลายภาษาที่แม่นยำและสม่ำเสมอ
-
การสังเคราะห์เสียงพูดที่เป็นธรรมชาติ
- ปรับความเร็วการพูด การหยุดเว้น และน้ำเสียงโดยอัตโนมัติตามบริบทของข้อความ เพื่อให้ได้คุณภาพเสียงที่คล้ายมนุษย์
- ขจัดเสียงที่ช้าหรือฟังเป็นเครื่องจักร และมอบผลลัพธ์เสียงพูดที่เป็นธรรมชาติและมีอารมณ์การแสดงออก
ตัวชี้วัดการปรับปรุงประสิทธิภาพ
-
เสริมความสามารถด้านการเข้าใจและสร้างข้อความ
- การให้เหตุผลเชิงตรรกะ ZebraLogic +5.6, การสร้างโค้ด LiveCodeBench-v6 +9.3, MultiPL-E +2.7, และคุณภาพงานเขียน WritingBench +2.2 ดีขึ้น
- เพิ่มความน่าเชื่อถือในการทำตามคำสั่งหลายขั้นตอนที่ซับซ้อน
-
เพิ่มความแม่นยำในการเข้าใจเสียงพูด
- อัตราคำผิดลดลงใน Fleurs-zh และ VoiceBench +3.2 ดีขึ้น
- เสริมความสามารถในการเข้าใจเสียงพูดในสภาพแวดล้อมการสนทนาจริง
-
ปรับปรุงคุณภาพการสังเคราะห์เสียงพูด
- ให้น้ำเสียงและจังหวะที่เป็นธรรมชาติได้ทั้งในภาษาจีนและสภาพแวดล้อมหลายภาษา
- ได้คุณภาพการเปล่งเสียงที่ใกล้เคียงเสียงมนุษย์
-
เสริมความสามารถในการเข้าใจภาพ
- ในงานให้เหตุผลเชิงภาพ MMMU +4.7, MMMU-Pro +4.8, MathVision_full +2.2 ดีขึ้น
- เพิ่มความสามารถในการตีความคอนเทนต์ภาพที่ซับซ้อน เช่น ไดอะแกรม และรูปทรงทางคณิตศาสตร์
-
ปรับปรุงความสามารถในการเข้าใจวิดีโอ
- MLVU +1.6 ดีขึ้น ช่วยเสริมความสามารถในการเข้าใจความหมายของวิดีโอ
- การซิงก์เสียง-ภาพดีขึ้น ทำให้พื้นฐานของการสนทนาผ่านวิดีโอแบบเรียลไทม์แข็งแกร่งยิ่งขึ้น
แผนในอนาคต
- มีแผนรวบรวมฟีดแบ็กจากผู้ใช้และกรณีการใช้งานเชิงนวัตกรรมบนพื้นฐาน Qwen3-Omni
- ในอนาคตมีแผนขยายฟังก์ชัน เช่น การรู้จำเสียงพูดหลายผู้พูด (ASR), วิดีโอ OCR, การเรียนรู้อัตโนมัติเสียง-วิดีโอ, และ เวิร์กโฟลว์แบบเอเจนต์พร้อมการรองรับ function calling
ข้อมูลการอ้างอิง
- หากนำไปใช้ในงานวิจัย แนะนำให้ใช้อ้างอิงต่อไปนี้
@misc{qwen3_omni_20251201, author={{Qwen Team, Alibaba}}, title={{Qwen3-Omni-Flash-2025-12-01:Hear You. See You. Follow Smarter!}}, year={2025}, url={https://qwen.ai/blog?id=qwen3-omni-20251201}}
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
โมเดลนี้ใช้สถาปัตยกรรม 30B พารามิเตอร์ MoE โดยมีพารามิเตอร์ที่ทำงานจริงอยู่ราว 3B
เป็นรุ่นถัดจากโมเดล omni ขนาด 7B ก่อนหน้า จึงคาดหวังประสิทธิภาพใกล้เคียงกับ Qwen2.5-Omni-7B ได้
โมเดล omni ที่เปิดเผยออกมายังมีไม่มาก จึงมองว่าเป็นการเปิดตัวที่มีความหมายพอสมควร
ส่วนตัวอยากใช้โมเดลนี้แทน อินเทอร์เฟซรับเข้า/ส่งออก (คีย์บอร์ด·จอภาพ) แล้วให้แบ็กเอนด์ประมวลผลด้วยเทคโนโลยีอื่น
อีกทั้งยังมีเวอร์ชัน reasoning ที่สามารถออกเสียงโทเคน ‘กำลังคิด’ ระหว่างแชตเสียงได้ ซึ่งน่าจะสนุกดี
มีออดิโอเอนโค้ดเดอร์ 650M, วิชันเอนโค้ดเดอร์ 540M, LLM แบบ 30B-A3B, ออดิโอ LLM แบบ 3B-A0.3B และใช้ 80M Transformer/200M ConvNet ในการแปลงโทเคนออดิโอเป็นคลื่นเสียง
เป็น เวอร์ชันอัปเดตน้ำหนักแบบไม่เปิดเผย ของ Qwen3-Omni โดยก่อนหน้านี้มีการเปิดเผย Qwen/Qwen3-Omni-30B-A3B-Instruct
ตอนนี้ยังไม่ได้รับการรองรับอย่างสมบูรณ์ในเฟรมเวิร์กอนุมานโอเพนซอร์ส จึงทำงานได้ช้ามากบน transformers เท่านั้น
สงสัยว่า Qwen3-Omni รองรับ การสนทนาแบบเรียลไทม์ เหมือน GPT-4o หรือไม่
จากเอกสารเหมือนจะไม่รองรับ แต่ในทางปฏิบัติบอกว่ารองรับ
เลยอยากรู้ว่ามีใครลองรันแบบโลคัลบน สภาพแวดล้อมที่ไม่ใช่ NVIDIA บ้างหรือยัง
ปกติฉันใช้การทดสอบคำพ้องเสียง (record vs record) หรือขอให้เปลี่ยนน้ำเสียงพูดเพื่อตรวจสอบ
อย่าง Silly Tavern ก็แทบจะ unusable
แต่โมเดลเสียงแบบโลคัลเช่นนี้ต่างหากที่จะเป็นแกนหลักของ เวิร์กโฟลว์ที่ใช้ภาษาธรรมชาติ
สงสัยว่าจะ รันโมเดล Omni บน Macbook ด้วย GGUF หรือ MLX ได้หรือไม่
ทำได้ผ่าน LMStudio หรือ Llama.cpp แต่ไม่รองรับการสตรีมจากไมค์หรือเว็บแคม
โดยทั่วไป Qwen มักให้ตัวอย่าง Python ที่อิงกับ Cuda จึงกำลังหาทางเลือกโอเพนซอร์สอยู่
ฉันใช้งาน Gemini Flash Live 2.5 ได้ดีมาก
หวังว่าเวอร์ชัน 3.0 จะออกมาเร็ว ๆ นี้
ในเบนช์มาร์กมันดูดีกว่า Gemini Live แต่คงต้องลองเอง
สำหรับฉัน โมเดล Qwen Omni ยังน่าผิดหวังอยู่เสมอในสภาพแวดล้อมที่เน้นภาษาอังกฤษ
32B ถือว่าค่อนข้างเล็ก จึงน่าจะ รันได้แม้บนเครื่องที่มี RAM 64GB
ถ้าขึ้น Ollama เมื่อไรจะลองทดสอบเอง
แต่ในเบนช์มาร์กของบทความ Qwen3-Omni-Flash-2025-12-01 กลับมีประสิทธิภาพสูงกว่า Qwen3-235B-A22B
เลยสับสนว่ารุ่น 30B ทำแบบนั้นได้อย่างไร
เวอร์ชัน FLASH ไม่มีบน Hugging Face และมีความเป็นไปได้สูงว่าเป็น โมเดลสำหรับ API เท่านั้น
ตอนแรกนึกว่าเป็น API อย่างเดียว แต่ใน คอลเลกชันบน Hugging Face ก็มีโมเดลอยู่
แต่จริง ๆ แล้วเป็น เวอร์ชันก่อนหน้า และเดโมบน HF ก็เรียก API จึงไม่ได้ประมวลผลแบบโลคัล
น่าประทับใจที่ Qwen3-Omni เหนือกว่า 2.5 Flash ในทุกเบนช์มาร์ก
ดูเหมือนถึงเวลาย้ายเวิร์กโหลด LLM ไปยัง GPU แบบโลคัลแล้ว
เบนช์มาร์กสาธารณะเชื่อถือได้ยาก และถ้าเลือกโมเดลตามนั้นตรง ๆ อาจผิดหวังได้
สงสัยว่าทำไมลักษณะการพูดของโมเดลเสียงถึงให้ความรู้สึก ไร้ชีวิตชีวา
โดยเฉพาะช่วงพูดเรื่องราคาผลไม้ แม้จะเป็นธรรมชาติมาก แต่ก็ยังรู้ได้ทันทีว่าเป็น AI
น่าจะเป็นเพราะน้ำเสียงหรือความเร็วในการพูดที่คงที่เกินไป
การแสดงอารมณ์มากไปทำให้รู้สึกประดิษฐ์เกินจริง
แต่ก็น่าเสียดายที่ยังมีข้อผิดพลาดเรื่องการออกเสียงภาษาเยอรมัน
น่าจะมีขั้นตอนสังเคราะห์เสียงแยกออกมา จึงได้ผลลัพธ์แบบนี้
สามารถลองตรวจสอบได้ด้วยการทดสอบเพลงหรือการควบคุมทำนองเสียง
โมเดลเสียงของ ChatGPT ยังฟังดูเป็นธรรมชาติที่สุด
ในการส่งออกเสียงแบบเรียลไทม์ มีปัญหาว่าแยก โทเคน ‘กำลังคิด’ กับคำพูดสำหรับผู้ใช้ ออกจากกันได้ยาก
ส่งโทเคน reasoning/structured ไปทางหนึ่ง และส่งข้อความสำหรับผู้ใช้อีกทางหนึ่ง
จากนั้นสังเคราะห์เสียงเฉพาะส่วนหลัง ก็จะแก้ปัญหาที่ได้ยินเสียง ‘กำลังคิด’ ได้
ดูเหมือน Qwen จะ สื่อสารแบบกำกวมเรื่องการเปิดเผย open weight
ในความเป็นจริงหลายตัวไม่ได้เปิดเผย และแม้จะดูเหมือนเปิดให้ใช้ แต่ก็มักเป็น API เท่านั้น
ทำให้ผู้ใช้ต้องเสียเวลาเปล่ากับการตามหาโมเดล