Qwen3-Omni-Flash-2025-12-01: โมเดลขนาดใหญ่มัลติโหมดแบบเนทีฟรุ่นถัดไป

(qwen.ai)

1 คะแนน โดย GN⁺ 2025-12-12 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Qwen3-Omni-Flash-2025-12-01 เป็นโมเดลมัลติโหมดรุ่นถัดไปที่ประมวลผลข้อความ ภาพ เสียง และวิดีโอพร้อมกัน และสร้างผลลัพธ์เป็นข้อความและเสียงพูดแบบสตรีมมิงเรียลไทม์
ความสามารถในการเข้าใจคำสั่งเสียงและภาพ รวมถึงเสถียรภาพของการสนทนาได้รับการปรับปรุงอย่างมาก ทำให้เกิดปฏิสัมพันธ์เสียง-วิดีโอที่เป็นธรรมชาติและสอดคล้องกัน
ฟังก์ชัน ควบคุม system prompt ได้อย่างสมบูรณ์ ช่วยให้ปรับรายละเอียดได้ เช่น สไตล์บุคลิก น้ำเสียงพูด และความยาวของผลลัพธ์
รองรับข้อความ 119 ภาษา, การรู้จำเสียงพูด 19 ภาษา, การสังเคราะห์เสียงพูด 10 ภาษา และแก้ปัญหาความสอดคล้องในการใช้งานหลายภาษา
ประสิทธิภาพดีขึ้นในทุกด้าน ทั้งการให้เหตุผลเชิงตรรกะ การสร้างโค้ด และการเข้าใจภาพกับเสียง มอบประสบการณ์ปฏิสัมพันธ์กับ AI ที่เป็นธรรมชาติและแม่นยำ

ภาพรวมของ Qwen3-Omni-Flash-2025-12-01

Qwen3-Omni คือโมเดลขนาดใหญ่มัลติโหมดแบบเนทีฟที่รองรับอินพุตหลากหลาย เช่น ข้อความ ภาพ เสียง และวิดีโอ พร้อมสร้างข้อความและเสียงพูดที่เป็นธรรมชาติแบบเรียลไทม์
เวอร์ชัน Qwen3-Omni-Flash-2025-12-01 ครั้งนี้เป็นรุ่นอัปเกรดครั้งใหญ่แบบครบวงจรที่พัฒนาบนพื้นฐานของ Qwen3-Omni เดิม
มีการปรับปรุงทั้งด้านประสิทธิภาพและประสิทธิผลของโมเดลโดยรวม เพื่อมอบความสามารถในการประมวลผลมัลติโหมดที่เร็วและแม่นยำยิ่งขึ้น

การปรับปรุงความสามารถหลัก

เสริมความแข็งแกร่งให้ปฏิสัมพันธ์เสียง-ภาพ
- ความสามารถในการเข้าใจและดำเนินการตามคำสั่งด้วยเสียงและวิดีโอได้รับการปรับปรุงอย่างมาก ช่วยแก้ปัญหาความฉลาดที่ลดลงในสถานการณ์ภาษาพูดในชีวิตประจำวัน
- เสถียรภาพและความสอดคล้องของการสนทนาเสียง-ภาพหลายรอบดีขึ้น ทำให้โต้ตอบได้อย่างเป็นธรรมชาติ
เพิ่มความสามารถในการควบคุม system prompt
- สามารถปรับแต่ง system prompt ได้อย่างสมบูรณ์ จึงควบคุมพฤติกรรมของโมเดลได้อย่างละเอียดแม่นยำ
- ปรับองค์ประกอบย่อยได้ละเอียด เช่น สไตล์บุคลิก (เช่น หวาน สุขุม แนวอนิเมะ) น้ำเสียงพูด และความยาวของผลลัพธ์
เพิ่มความน่าเชื่อถือของการรองรับหลายภาษา
- รองรับการโต้ตอบแบบข้อความ 119 ภาษา, การรู้จำเสียงพูด 19 ภาษา, และการสังเคราะห์เสียงพูด 10 ภาษา
- ปัญหาความไม่เสถียรของภาษาในเวอร์ชันก่อนถูกแก้ไขแล้ว ทำให้ได้ประสิทธิภาพหลายภาษาที่แม่นยำและสม่ำเสมอ
การสังเคราะห์เสียงพูดที่เป็นธรรมชาติ
- ปรับความเร็วการพูด การหยุดเว้น และน้ำเสียงโดยอัตโนมัติตามบริบทของข้อความ เพื่อให้ได้คุณภาพเสียงที่คล้ายมนุษย์
- ขจัดเสียงที่ช้าหรือฟังเป็นเครื่องจักร และมอบผลลัพธ์เสียงพูดที่เป็นธรรมชาติและมีอารมณ์การแสดงออก

ตัวชี้วัดการปรับปรุงประสิทธิภาพ

เสริมความสามารถด้านการเข้าใจและสร้างข้อความ
- การให้เหตุผลเชิงตรรกะ ZebraLogic +5.6, การสร้างโค้ด LiveCodeBench-v6 +9.3, MultiPL-E +2.7, และคุณภาพงานเขียน WritingBench +2.2 ดีขึ้น
- เพิ่มความน่าเชื่อถือในการทำตามคำสั่งหลายขั้นตอนที่ซับซ้อน
เพิ่มความแม่นยำในการเข้าใจเสียงพูด
- อัตราคำผิดลดลงใน Fleurs-zh และ VoiceBench +3.2 ดีขึ้น
- เสริมความสามารถในการเข้าใจเสียงพูดในสภาพแวดล้อมการสนทนาจริง
ปรับปรุงคุณภาพการสังเคราะห์เสียงพูด
- ให้น้ำเสียงและจังหวะที่เป็นธรรมชาติได้ทั้งในภาษาจีนและสภาพแวดล้อมหลายภาษา
- ได้คุณภาพการเปล่งเสียงที่ใกล้เคียงเสียงมนุษย์
เสริมความสามารถในการเข้าใจภาพ
- ในงานให้เหตุผลเชิงภาพ MMMU +4.7, MMMU-Pro +4.8, MathVision_full +2.2 ดีขึ้น
- เพิ่มความสามารถในการตีความคอนเทนต์ภาพที่ซับซ้อน เช่น ไดอะแกรม และรูปทรงทางคณิตศาสตร์
ปรับปรุงความสามารถในการเข้าใจวิดีโอ
- MLVU +1.6 ดีขึ้น ช่วยเสริมความสามารถในการเข้าใจความหมายของวิดีโอ
- การซิงก์เสียง-ภาพดีขึ้น ทำให้พื้นฐานของการสนทนาผ่านวิดีโอแบบเรียลไทม์แข็งแกร่งยิ่งขึ้น

แผนในอนาคต

มีแผนรวบรวมฟีดแบ็กจากผู้ใช้และกรณีการใช้งานเชิงนวัตกรรมบนพื้นฐาน Qwen3-Omni
ในอนาคตมีแผนขยายฟังก์ชัน เช่น การรู้จำเสียงพูดหลายผู้พูด (ASR), วิดีโอ OCR, การเรียนรู้อัตโนมัติเสียง-วิดีโอ, และ เวิร์กโฟลว์แบบเอเจนต์พร้อมการรองรับ function calling

ข้อมูลการอ้างอิง

หากนำไปใช้ในงานวิจัย แนะนำให้ใช้อ้างอิงต่อไปนี้
- @misc{qwen3_omni_20251201, author={{Qwen Team, Alibaba}}, title={{Qwen3-Omni-Flash-2025-12-01：Hear You. See You. Follow Smarter!}}, year={2025}, url={https://qwen.ai/blog?id=qwen3-omni-20251201}}

1 ความคิดเห็น

GN⁺ 2025-12-12

ความคิดเห็นบน Hacker News

โมเดลนี้ใช้สถาปัตยกรรม 30B พารามิเตอร์ MoE โดยมีพารามิเตอร์ที่ทำงานจริงอยู่ราว 3B
เป็นรุ่นถัดจากโมเดล omni ขนาด 7B ก่อนหน้า จึงคาดหวังประสิทธิภาพใกล้เคียงกับ Qwen2.5-Omni-7B ได้
โมเดล omni ที่เปิดเผยออกมายังมีไม่มาก จึงมองว่าเป็นการเปิดตัวที่มีความหมายพอสมควร
ส่วนตัวอยากใช้โมเดลนี้แทน อินเทอร์เฟซรับเข้า/ส่งออก (คีย์บอร์ด·จอภาพ) แล้วให้แบ็กเอนด์ประมวลผลด้วยเทคโนโลยีอื่น
อีกทั้งยังมีเวอร์ชัน reasoning ที่สามารถออกเสียงโทเคน ‘กำลังคิด’ ระหว่างแชตเสียงได้ ซึ่งน่าจะสนุกดี
- โมเดลนี้เป็นการซ้อนกันของหลายองค์ประกอบ
  มีออดิโอเอนโค้ดเดอร์ 650M, วิชันเอนโค้ดเดอร์ 540M, LLM แบบ 30B-A3B, ออดิโอ LLM แบบ 3B-A0.3B และใช้ 80M Transformer/200M ConvNet ในการแปลงโทเคนออดิโอเป็นคลื่นเสียง
  เป็น เวอร์ชันอัปเดตน้ำหนักแบบไม่เปิดเผย ของ Qwen3-Omni โดยก่อนหน้านี้มีการเปิดเผย Qwen/Qwen3-Omni-30B-A3B-Instruct
  ตอนนี้ยังไม่ได้รับการรองรับอย่างสมบูรณ์ในเฟรมเวิร์กอนุมานโอเพนซอร์ส จึงทำงานได้ช้ามากบน transformers เท่านั้น
- จาก เอกสาร Alibaba Cloud โมเดลนี้ ไม่ใช่โอเพนซอร์ส
- หาเวอร์ชันน้ำหนักใหม่ไม่เจอจากที่ไหนเลย ตรวจทั้ง Modelscope และ Hugging Face แล้วก็ไม่มี และดูเหมือนว่า context window ขยายเป็น 200K+ โทเคน
- น่าสนใจที่เวอร์ชัน reasoning ออกเสียงโทเคนความคิดได้ ก่อนหน้านี้ Claude ก็เคยทำงานลักษณะนี้
- ถ้าใส่เอฟเฟกต์อย่าง reverb ให้โทเคนความคิด ก็อาจได้ยิน ‘เสียงคิด’ ของโมเดล ซึ่งฟังดูน่าสนุกดี
สงสัยว่า Qwen3-Omni รองรับ การสนทนาแบบเรียลไทม์ เหมือน GPT-4o หรือไม่
จากเอกสารเหมือนจะไม่รองรับ แต่ในทางปฏิบัติบอกว่ารองรับ
เลยอยากรู้ว่ามีใครลองรันแบบโลคัลบน สภาพแวดล้อมที่ไม่ใช่ NVIDIA บ้างหรือยัง
- ในเว็บไซต์แชตทางการยังไม่มี โมเดล audio→audio
  ปกติฉันใช้การทดสอบคำพ้องเสียง (record vs record) หรือขอให้เปลี่ยนน้ำเสียงพูดเพื่อตรวจสอบ
- เฟรมเวิร์กอนุมานอย่าง vLLM หรือ SGLang ยังรองรับไม่สมบูรณ์ จึง ทำไม่ได้ในสภาพแวดล้อมที่ไม่ใช่ NVIDIA
- ถึงอย่างนั้นก็ดูเหมือนว่าจะมีความสามารถแบบ speech-to-speech ในตัว
- ยังคิดว่าแอปแชตเสียงแบบโลคัลที่ใช้งานได้ดีจริงยังไม่มี
  อย่าง Silly Tavern ก็แทบจะ unusable
  แต่โมเดลเสียงแบบโลคัลเช่นนี้ต่างหากที่จะเป็นแกนหลักของ เวิร์กโฟลว์ที่ใช้ภาษาธรรมชาติ
สงสัยว่าจะ รันโมเดล Omni บน Macbook ด้วย GGUF หรือ MLX ได้หรือไม่
ทำได้ผ่าน LMStudio หรือ Llama.cpp แต่ไม่รองรับการสตรีมจากไมค์หรือเว็บแคม
โดยทั่วไป Qwen มักให้ตัวอย่าง Python ที่อิงกับ Cuda จึงกำลังหาทางเลือกโอเพนซอร์สอยู่
- หากอ้างอิง คู่มือการใช้ vLLM และ เดโม local web UI ก็น่าจะเชื่อมต่อได้
- ทำได้โดยใช้ whisper.cpp
ฉันใช้งาน Gemini Flash Live 2.5 ได้ดีมาก
หวังว่าเวอร์ชัน 3.0 จะออกมาเร็ว ๆ นี้
ในเบนช์มาร์กมันดูดีกว่า Gemini Live แต่คงต้องลองเอง
สำหรับฉัน โมเดล Qwen Omni ยังน่าผิดหวังอยู่เสมอในสภาพแวดล้อมที่เน้นภาษาอังกฤษ
32B ถือว่าค่อนข้างเล็ก จึงน่าจะ รันได้แม้บนเครื่องที่มี RAM 64GB
ถ้าขึ้น Ollama เมื่อไรจะลองทดสอบเอง
- โมเดล Qwen3-Omni-30B-A3B บน Hugging Face ดูเหมือนจะอัปเดตเมื่อเดือนกันยายน
  แต่ในเบนช์มาร์กของบทความ Qwen3-Omni-Flash-2025-12-01 กลับมีประสิทธิภาพสูงกว่า Qwen3-235B-A22B
  เลยสับสนว่ารุ่น 30B ทำแบบนั้นได้อย่างไร
  เวอร์ชัน FLASH ไม่มีบน Hugging Face และมีความเป็นไปได้สูงว่าเป็น โมเดลสำหรับ API เท่านั้น
- ฉันรันได้ดีบน Mac RAM 48GB ด้วยหน่วยความจำแบบยูนิเวอร์แซล
ตอนแรกนึกว่าเป็น API อย่างเดียว แต่ใน คอลเลกชันบน Hugging Face ก็มีโมเดลอยู่
แต่จริง ๆ แล้วเป็น เวอร์ชันก่อนหน้า และเดโมบน HF ก็เรียก API จึงไม่ได้ประมวลผลแบบโลคัล
น่าประทับใจที่ Qwen3-Omni เหนือกว่า 2.5 Flash ในทุกเบนช์มาร์ก
ดูเหมือนถึงเวลาย้ายเวิร์กโหลด LLM ไปยัง GPU แบบโลคัลแล้ว
- แต่ยังไงก็ต้อง เบนช์มาร์กด้วยชุดข้อมูลของตัวเอง
  เบนช์มาร์กสาธารณะเชื่อถือได้ยาก และถ้าเลือกโมเดลตามนั้นตรง ๆ อาจผิดหวังได้
- ถ้าเป็นงานข้อความล้วน การใช้ Qwen3-30B-A3B จะมีประสิทธิภาพมากกว่า Omni
- เบนช์มาร์กด้านภาพดูเหมือนเทียบกับ Qwen 2.0 จึงน่าสงสัยอยู่บ้าง
สงสัยว่าทำไมลักษณะการพูดของโมเดลเสียงถึงให้ความรู้สึก ไร้ชีวิตชีวา
โดยเฉพาะช่วงพูดเรื่องราคาผลไม้ แม้จะเป็นธรรมชาติมาก แต่ก็ยังรู้ได้ทันทีว่าเป็น AI
น่าจะเป็นเพราะน้ำเสียงหรือความเร็วในการพูดที่คงที่เกินไป
- ฉันกลับคิดว่าการไม่ใส่อารมณ์มากเกินไปนั้นดีกว่า
  การแสดงอารมณ์มากไปทำให้รู้สึกประดิษฐ์เกินจริง
  แต่ก็น่าเสียดายที่ยังมีข้อผิดพลาดเรื่องการออกเสียงภาษาเยอรมัน
- มันอาจไม่ได้เป็น มัลติโหมดแบบ end-to-end อย่างแท้จริง
  น่าจะมีขั้นตอนสังเคราะห์เสียงแยกออกมา จึงได้ผลลัพธ์แบบนี้
  สามารถลองตรวจสอบได้ด้วยการทดสอบเพลงหรือการควบคุมทำนองเสียง
- อาจเป็นเพราะยัดความสามารถมากเกินไป ทั้งวิชัน ออดิโอ หลายภาษา และการควบคุมทำนองเสียง ลงใน 30B พารามิเตอร์
  โมเดลเสียงของ ChatGPT ยังฟังดูเป็นธรรมชาติที่สุด
- การที่ฟังออกทันทีว่าเป็นสไตล์การพูดของ AI อาจเป็น เรื่องดี ก็ได้
- สำหรับฉันกลับชอบที่มันมี สำเนียง (accent) แบบ AI โดยเฉพาะ
ในการส่งออกเสียงแบบเรียลไทม์ มีปัญหาว่าแยก โทเคน ‘กำลังคิด’ กับคำพูดสำหรับผู้ใช้ ออกจากกันได้ยาก
- วิธีง่าย ๆ คือแยกสตรีมผลลัพธ์ก่อนทำ TTS
  ส่งโทเคน reasoning/structured ไปทางหนึ่ง และส่งข้อความสำหรับผู้ใช้อีกทางหนึ่ง
  จากนั้นสังเคราะห์เสียงเฉพาะส่วนหลัง ก็จะแก้ปัญหาที่ได้ยินเสียง ‘กำลังคิด’ ได้
ดูเหมือน Qwen จะ สื่อสารแบบกำกวมเรื่องการเปิดเผย open weight
ในความเป็นจริงหลายตัวไม่ได้เปิดเผย และแม้จะดูเหมือนเปิดให้ใช้ แต่ก็มักเป็น API เท่านั้น
ทำให้ผู้ใช้ต้องเสียเวลาเปล่ากับการตามหาโมเดล

Qwen3-Omni-Flash-2025-12-01: โมเดลขนาดใหญ่มัลติโหมดแบบเนทีฟรุ่นถัดไป

ภาพรวมของ Qwen3-Omni-Flash-2025-12-01

การปรับปรุงความสามารถหลัก

ตัวชี้วัดการปรับปรุงประสิทธิภาพ

แผนในอนาคต

ข้อมูลการอ้างอิง

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News