Qwen3-Omni: โมเดล Omni AI แบบเนทีฟสำหรับข้อความ รูปภาพ และวิดีโอ

(github.com/QwenLM)

12 คะแนน โดย GN⁺ 2025-09-23 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

Multimodal LLM ล้ำสมัย ที่ประมวลผลข้อความ รูปภาพ เสียง และวิดีโอได้ใน โมเดล เดียว พร้อมรองรับการสร้างเสียงแบบเรียลไทม์
รองรับ 119 ภาษาข้อความ, 19 ภาษาสำหรับอินพุตเสียง และ 10 ภาษาสำหรับเอาต์พุตเสียง จึงเหมาะอย่างยิ่งสำหรับการสร้างบริการระดับโลก
สถาปัตยกรรมโมเดลเป็นแบบ Thinker–Talker บนพื้นฐาน MoE ช่วยเสริมทั้งประสิทธิภาพและความคุ้มค่า พร้อมรองรับการสนทนาแบบสตรีมมิงและการควบคุมพฤติกรรมตามผู้ใช้
Qwen3-Omni-30B-A3B-Captioner ที่เปิดซอร์สให้ใช้งาน ให้ความสามารถด้าน audio caption ที่ละเอียดและมีอัตรา hallucination ต่ำ
รองรับเส้นทางการนำไปใช้จริงอย่างหลากหลายและยืดหยุ่น ทั้ง Hugging Face Transformers, vLLM, Docker, API และฟังก์ชันอำนวยความสะดวกสำหรับนักพัฒนา

ภาพรวมและความสำคัญของ Qwen3-Omni

Qwen3-Omni คือ LLM แบบ omnimodal หลายภาษาแบบ end-to-end ที่พัฒนาโดยทีม Qwen ของ Alibaba Cloud
โปรเจกต์นี้มีจุดเด่นว่าเป็นหนึ่งใน AI แบบ multimodal โอเพนซอร์สไม่กี่ตัวในปัจจุบันที่สามารถ เข้าใจข้อความ รูปภาพ เสียง และวิดีโอแบบบูรณาการ พร้อมสร้างการตอบสนองแบบเรียลไทม์
มีจุดแข็งเหนือโอเพนซอร์สคู่แข่งในด้านการรองรับภาษาที่กว้างขวาง การสตรีมแบบเรียลไทม์ และ audio captioning ความแม่นยำสูง
สามารถนำไปต่อยอดบริการใหม่ได้อย่างรวดเร็ว เช่น การถามตอบภาษาธรรมชาติ การวิเคราะห์สถานการณ์จากเสียงและภาพ และอินเทอร์เฟซแบบ multimodal ตามเวลา

คุณสมบัติหลัก

การประมวลผลหลายโมดัล: รองรับอินพุตข้อความ รูปภาพ เสียง และวิดีโอ พร้อมเอาต์พุตการตอบกลับแบบข้อความ/เสียงเรียลไทม์
ประสิทธิภาพล้ำสมัย: ทำสถิติ SOTA 22 รายการจาก 36 benchmark ด้านเสียง/วิดีโอ, 32 SOTA ในกลุ่มโอเพนซอร์ส และประสิทธิภาพ ASR/การสนทนาด้วยเสียงใกล้เคียง Gemini 2.5 Pro
รองรับภาษากว้างขวาง: รองรับ 119 ภาษาข้อความ, 19 ภาษาสำหรับอินพุตเสียง และ 10 ภาษาสำหรับเอาต์พุตเสียง
สตรีมมิงแบบเรียลไทม์: สนับสนุนการผลัดกันพูดอย่างเป็นธรรมชาติและการตอบสนองฉับไว
การควบคุมแบบปรับตามผู้ใช้: ปรับพฤติกรรมได้ละเอียดผ่าน system prompt และมีความยืดหยุ่นสูง
สถาปัตยกรรมบนพื้นฐาน MoE: ใช้ดีไซน์ Thinker–Talker, การ pretrain แบบ AuT และโครงสร้าง multi-codebook เพื่อให้ได้ latency ต่ำมากและมีประสิทธิภาพสูง
เปิดซอร์สโมเดล audio caption: ใช้ Qwen3-Omni-30B-A3B-Captioner เพื่อสร้างคำอธิบายเสียงแบบละเอียดและช่วยลด hallucination

ตัวอย่างสถานการณ์ใช้งานตามโดเมนที่รองรับ

เสียง: การรู้จำเสียงพูด การแปลเสียง การวิเคราะห์ดนตรี/เสียง และ audio caption
ภาพ: OCR ภาพซับซ้อน การรู้จำวัตถุ QA จากภาพ การแก้โจทย์คณิตศาสตร์ คำอธิบายวิดีโอ/การนำทาง และการวิเคราะห์การเปลี่ยนฉาก
เสียง+ภาพ: multimodal QA การสนทนา และการเรียกใช้งาน agent ด้วยเสียง
การทำ downstream fine-tuning: fine-tune โมเดล caption โดยใช้ Qwen3-Omni-30B-A3B-Instruct

คำอธิบายแต่ละโมเดล

Qwen3-Omni-30B-A3B-Instruct: อินพุตเสียง·วิดีโอ·ข้อความ + เอาต์พุตข้อความ/เสียง (thinker+talker)
Qwen3-Omni-30B-A3B-Thinking: อินพุตเสียง·วิดีโอ·ข้อความ + เอาต์พุตข้อความ (เฉพาะ thinker, chain-of-thought reasoning)
Qwen3-Omni-30B-A3B-Captioner: อินพุตเสียง → เอาต์พุตข้อความ, เน้นคำอธิบายละเอียดและลด hallucination ให้ต่ำที่สุด (เฉพาะทางด้าน caption)

สภาพแวดล้อมหลักในการใช้งานและข้อดี

ผสานกับ Hugging Face Transformers: ฝังในโค้ดได้ง่าย จัดการช่องทางอินพุตหลากหลาย (B64, URL ฯลฯ) ได้ยืดหยุ่น และรองรับ FlashAttention 2
vLLM: เหมาะกับงานบริการขนาดใหญ่ที่ต้องการ latency ต่ำและ concurrency สูง, ทำ batch inference ได้รวดเร็ว, ขยายไปยังสภาพแวดล้อม multi-GPU ได้ง่าย และเด่นด้านการรวมเซิร์ฟเวอร์-API
มี Docker image ให้ใช้งาน: ลดปัญหาความขัดแย้งของสภาพแวดล้อม และช่วยให้ทดลอง/ดีพลอยได้สะดวก
DashScope API: API อย่างเป็นทางการจาก Alibaba ที่รองรับทั้งแบบเรียลไทม์และออฟไลน์
เดโมแบบเว็บ/ออนพรีมิส: สามารถทดลองใช้งานผ่านเว็บได้โดยไม่ต้องติดตั้งระบบเพิ่มเติม

ตัวอย่างการใช้งานจริงและเคล็ดลับ

อัลกอริทึมแกนหลักและฟังก์ชัน

โครงสร้าง Thinker–Talker ช่วยแยกการให้เหตุผลขั้นสูงและการสังเคราะห์เสียงออกจากกัน
รองรับการจัดการ API และ explicit prompt อย่างสม่ำเสมอสำหรับชุดอินพุตหลากหลาย (ข้อความล้วน/ข้อความ+ภาพ/เสียง/วิดีโอ ฯลฯ)
หากไม่ต้องการ เอาต์พุตเสียง มีตัวเลือกประหยัดหน่วยความจำให้ใช้ (ประหยัดได้มากกว่า 10GB)
รองรับตัวเลือก การสังเคราะห์เสียงหลากหลาย (Ethan, Chelsie, Aiden ฯลฯ) และเลือกได้ผ่านพารามิเตอร์ speaker

ตัวอย่างขั้นสูงสำหรับงาน batch/การสนทนา

สามารถรวมข้อความแบบ multimodal หลายรายการเพื่อประมวลผลพร้อมกันในครั้งเดียว จึงมีประสิทธิภาพสำหรับข้อมูลปริมาณมาก benchmark และบริการเชิงโต้ตอบ
สร้างคำตอบแบบปรับเฉพาะให้กับแต่ละข้อความได้ (ทั้งข้อความ รูปภาพ เสียง และวิดีโอในรูปแบบต่าง ๆ)

การดีพลอยใช้งานจริงด้วย vLLM

ปรับแต่งการอนุมานพร้อมกันและการจูนหน่วยความจำได้ผ่านการตั้งค่าพารามิเตอร์ (tensor_parallel_size, max_num_seqs, limit_mm_per_prompt ฯลฯ)
รองรับการสนทนาแบบ API ใน vLLM serve และมีแผนรองรับเอาต์พุตเสียงของโมเดล Instruct ในอนาคต

API และสภาพแวดล้อม

มีเอกสาร API สำหรับ DashScope API ทั้งแบบคลาวด์เรียลไทม์ ออฟไลน์ และ captioning (จีน/โกลบอล)
ยืดหยุ่นต่อวัตถุประสงค์ทั้งงานบริการจริงและงานวิจัย โดยครอบคลุมสภาพแวดล้อม vLLM, Official API และ Transformers

ข้อกำหนดระบบ/คำแนะนำ

สำหรับความละเอียด BF16 และวิดีโอความยาว 15~120 วินาที มีคำแนะนำหน่วยความจำขั้นต่ำอยู่ที่ 68~145GB
ต้องใช้สภาพแวดล้อม GPU และรองรับ FlashAttention 2
เคล็ดลับการใช้ prompt: ควรใช้คำสั่งข้อความที่ชัดเจนร่วมกับอินพุตแบบ multimodal

การประยุกต์ใช้กับ agent และ downstream

สามารถสร้าง agent ได้หลากหลาย เช่น การเรียกใช้ฟังก์ชันจากเสียง การสนทนา/วิเคราะห์แบบ multimodal เรียลไทม์ ผู้ช่วยอัจฉริยะ และ audio caption แบบละเอียด
มีตัวอย่างการควบคุมบทบาทผ่าน system prompt และการตั้งค่าสไตล์การสนทนา/กรอบการทำงาน

สรุป

Qwen3-Omni เป็นโอเพนซอร์ส LLM ที่ผสาน ข้อความ+เสียง+รูปภาพ+วิดีโอ แบบอเนกประสงค์ระดับใหญ่ที่สุดกลุ่มหนึ่งของโลก เหมาะอย่างยิ่งสำหรับบริการเว็บขนาดใหญ่แบบเรียลไทม์ งานวิจัย และการติดตั้งใช้งานภายในองค์กร อีกทั้งยังมีจุดเด่นมากในด้านการผสานรวมอย่างแนบแน่นกับ vLLM, API, Docker และสภาพแวดล้อมอื่น ๆ รวมถึงความเข้ากันได้สูงและตัวอย่างการใช้งานที่ละเอียด ช่วยเพิ่มทั้งประสิทธิภาพการพัฒนาและความได้เปรียบในการแข่งขัน

2 ความคิดเห็น

yeorinhieut 2025-09-24

ภาษาเกาหลี - รองรับภาษาเกาหลีด้วยนะ!

GN⁺ 2025-09-23

ความคิดเห็นจาก Hacker News

ตอนคุยเป็นภาษาอังกฤษรู้สึกว่าช้ามาก แต่พอลองคุยเป็นภาษาสเปนกลับรู้สึกว่าเร็วขึ้นมาก เรื่องที่ว่าอีกไม่นานเราน่าจะได้ใช้ความสามารถสุดโหดอย่างการแปลแบบเรียลไทม์นั้นน่าประทับใจจริง ๆ และก็ทำให้นึกว่าถ้าห้องแล็บในอเมริกาไม่ลงมาแข่งเรื่องโอเพนเวตอย่างจริงจัง สุดท้ายจีนอาจครองตลาด AI ไปเลยก็ได้ คนอเมริกันที่อ่อนไหวเรื่องความเป็นส่วนตัวหรือกรรมสิทธิ์ข้อมูล อาจลงเอยด้วยการมีอุปกรณ์ราคา 1,000~2,000 ดอลลาร์ไว้รันโมเดลจีนแบบเปิดในบ้านตัวเอง ซึ่งรู้สึกว่าเป็นการเปลี่ยนแปลงที่น่าทึ่งมาก
- อยู่ในอเมริกาแล้วก็เห็นข่าวว่าจีนสนับสนุน Linux อย่างหนัก ทั้งสถาปัตยกรรม CPU แบบเปิดอย่าง RISC-V และโมเดลเปิดที่โฮสต์เอง ทำเอารู้สึกว่าเรานี่แหละอาจเป็น “ตัวร้าย” เสียเอง
- ผมรัน 3090 สองใบกับ Qwen3 ที่บ้านจริง ๆ และเอาไปเชื่อมกับ Home Assistant ใช้ร่วมกับอุปกรณ์เสียงดาวเทียม esp32 ด้วย จากที่ลองคือทำงานได้ดีอย่างน่าทึ่ง
- คนอเมริกันทั่วไปดูแทบไม่มีความตั้งใจจะจ่ายเพิ่ม 1,000~2,000 ดอลลาร์เพื่อเทคโนโลยีที่รับประกันความเป็นส่วนตัวอยู่แล้ว ทุกวันนี้คนส่วนใหญ่ยอมให้เสียงและวิดีโอทุกอย่างในบ้านผ่านกล้อง IoT อย่าง Ring ไปถึงรัฐบาลโดยไม่ต้องมีหมายค้น เพียงเพื่อประหยัดเงิน 20~200 ดอลลาร์
ลองใช้ได้โดยตรงที่ https://chat.qwen.ai/ ต้องล็อกอินด้วย Google หรือ GitHub ถึงจะใช้โหมดเสียงได้ มีเสียงให้เลือกหลายแบบ เช่น Dylan (วัยรุ่นที่โตมาในตรอกซอกซอยปักกิ่ง), Peter (ผู้เชี่ยวชาญด้านตลกสั้นเทียนจิน), Cherry (หญิงสาววัยรุ่นสดใสร่าเริง), Ethan (เด็กหนุ่มที่กระตือรือร้นและอบอุ่น), Eric (ผู้ชายจากเฉิงตู เสฉวนที่มีเอกลักษณ์เฉพาะตัว), Jada (พี่สาวสายคาริสมาจากเซี่ยงไฮ้) เป็นต้น
- โดยเฉพาะถ้าสลับภาษาเพื่อทดสอบเสียงนี่ขำมาก พอเป็นภาษารัสเซีย Ryan ฟังเหมือนชาวตะวันตกที่เพิ่งเริ่มเรียนรัสเซียมาได้เดือนเดียว ส่วน Dylan ฟังเป็นธรรมชาติกว่า และเสียงอื่น ๆ ก็เป็นภาษารัสเซียที่มีสำเนียงเอเชียแรง ๆ ทำให้แต่ละเสียงมีคาแรกเตอร์สนุกดี
- ผมเห็นแค่ Omni Flash เลยสงสัยว่านั่นใช่ตัวที่ถูกต้องหรือเปล่า
เวตของโมเดลมีขนาด 70GB และใน Hugging Face ก็ระบุขนาดไฟล์ไว้ด้วย (Qwen/Qwen3-Omni-30B-A3B-Instruct) ถือว่าเป็นขนาดที่เข้าถึงได้พอสมควรสำหรับการรันโลคัล เลยสงสัยว่าเวอร์ชันพอร์ตสำหรับ macOS จะมาเร็ว ๆ นี้ไหม เพราะตอนนี้ดูเหมือนว่ายังต้องใช้ NVIDIA GPU เท่านั้น
- ถ้าอิง BF16 แล้วทำ quantization เป็น Q4 ก็น่าจะยัดลง GPU 24GB ได้สบาย น่าจะใกล้เคียงกับโมเดลตระกูล 30B-A3B ตัวอื่น ๆ ตอนแรกกังวลว่าจะใหญ่ระดับ 200B+ แต่ก็โล่งใจที่ไม่ใช่
- ผมไม่มีเวลาเลยยังไม่ได้ลอง แต่การพยายามเอาไปทำงานร่วมกับ Mojo stuff สำหรับ Apple ที่เพิ่งออกเมื่อวานก็น่าจะน่าสนใจ ถึงตอนนี้ยังไม่แน่ใจเรื่องความสมบูรณ์ แต่ก็น่าจะเป็นความท้าทายที่สนุก
- สงสัยว่ามี inference engine ที่รันบน macOS ได้หรือยัง
- อยากรู้ว่ารันบน 5090 ได้ไหม หรือสามารถต่อหลาย GPU เข้าด้วยกันได้หรือเปล่า หรือว่า NVIDIA ล็อกไว้
มีวิดีโอเดโมอยู่ตรงนี้ โดยเฉพาะฉากที่รับอินพุตวิดีโอ+เสียงแล้วแปลเป็นอีกภาษาพร้อมส่งออกเป็นเสียงด้วย เป็นสิ่งที่น่าประทับใจที่สุดเท่าที่ผมเคยเห็นมา
วิดีโอเดโมบน YouTube
จุดได้เปรียบที่แท้จริงในสายนี้คือประสิทธิภาพต่อขนาด ถ้ามีการแข่งขันด้านโอเพนเวตเกิดขึ้น ผมคิดว่านวัตกรรมด้านประสิทธิภาพจะถูกบีบให้เดินหน้า และอาจเกิดจุดแข็งที่โมเดลปิดเวตคาดไม่ถึงด้วย ถ้ากลไกอนุมานแบบกลุ่มคลัสเตอร์พัฒนาไปไกลพอ ก็สงสัยว่าเมื่อไร 8 โมเดลขนาด 30B บนเซิร์ฟเวอร์ H100 เครื่องเดียวจะมีความแม่นยำเหนือกว่าโมเดล 240B เพียงตัวเดียวได้
ด้วยความอยากรู้อยากเห็น ผมเลยลองใส่คลิปเสียงสั้น ๆ ไปสองสามอัน ปรากฏว่าแยกได้แม้กระทั่งเครื่องดนตรีอย่างเปียโนหรือกลอง รู้สึกว่ายังไม่ค่อยเห็นงานวิจัย multimodal LLM ที่โฟกัสการรู้จำเสียงที่ไม่ใช่เสียงพูดมากนัก เลยอยากเห็นการวิเคราะห์เชิงลึกเกี่ยวกับสถานะล้ำสมัยล่าสุด (SOTA)
สงสัยว่า "native video support" จริง ๆ แล้วหมายถึงอะไร เป็นแค่การตีความภาพนิ่งเต็มเฟรมที่ต่อเนื่องกันซึ่งอาจพลาดเหตุการณ์ที่เกิดเร็ว ๆ หรือหมายถึงเทคนิคที่ซับซ้อนกว่านั้น
ผมคิดว่าอินพุตเสียง + เอาต์พุตเสียงเป็นการเปลี่ยนเกมครั้งใหญ่ ในทางทฤษฎีแล้วมันทำให้เราคุยด้วยเสียงและแปลเป็นภาษาของเราหรือของคู่สนทนาได้ทันที ตอนนี้ปกติยังต้องมีหลายเทคโนโลยีคั่นกลาง เช่น wake word, speech-to-text, text-to-speech เป็นต้น แต่โมเดลนี้ดูเหมือนอย่างน้อยก็มีเวอร์ชันระดับ 32b ราว 3 ตัวที่รองรับทั้งอินพุตและเอาต์พุตเสียง และขึ้นกับสถาปัตยกรรมด้วยว่าอนาคตอาจเอาไปรันเองที่บ้านหรือบนอุปกรณ์อย่าง “AI toaster” ได้โดยตรง
- ถ้าเอาโมเดลแบบนี้ไปต่อกับระบบบ้านอัตโนมัติผ่าน tool calls ผมว่ามีโอกาสมหาศาล รอให้บริการอื่นรองรับแบบนี้มาตั้งแต่ ChatGPT มีฟีเจอร์นี้แล้ว โดยเฉพาะเวลาอยู่ในสถานการณ์ที่มือไม่ว่างอย่างการทำอาหาร ("อ่านขั้นตอนถัดไปให้หน่อย มือเปื้อนเนื้ออยู่", "ทำรูส์ต้องใช้แป้งเท่าไหร่", "ไม่มีมะนาว ใช้อะไรแทนดี") มันน่าจะพลิกเกมได้เลย
- ที่สำคัญกว่านั้นคือมันน่าจะช่วยเรื่องการเรียนภาษาได้มาก และดูเหมือนจะรันโลคัลได้ด้วย โดยเฉพาะถ้านักพัฒนา unsloth เข้ามาจับก็น่ายิ่งคาดหวัง
สถาปัตยกรรม thinker/speaker ของ Qwen น่าสนใจมาก มันคล้ายกับภาพที่ผมจินตนาการว่าการรับรู้แบบหลายสื่อของมนุษย์ทำงานอย่างไร เช่น รูปแอปเปิล การสะกดคำว่า "apple" และเสียงของมัน ล้วนแมปไปยังแนวคิดเดียวกันได้โดยไม่จำเป็นต้องผ่านข้อความตรงกลาง
- สงสัยว่า LLM ทุกตัวทำงานแบบนั้นอยู่แล้วหรือเปล่า
สงสัยว่ามีแหล่งข้อมูลไหนที่เหมาะสำหรับการเรียนรู้โมเดล multimodal บ้าง ไม่ค่อยรู้ว่าจะเริ่มจากตรงไหนดี