Qwen3-Omni: โมเดล Omni AI แบบเนทีฟสำหรับข้อความ รูปภาพ และวิดีโอ
(github.com/QwenLM)- Multimodal LLM ล้ำสมัย ที่ประมวลผลข้อความ รูปภาพ เสียง และวิดีโอได้ใน โมเดล เดียว พร้อมรองรับการสร้างเสียงแบบเรียลไทม์
- รองรับ 119 ภาษาข้อความ, 19 ภาษาสำหรับอินพุตเสียง และ 10 ภาษาสำหรับเอาต์พุตเสียง จึงเหมาะอย่างยิ่งสำหรับการสร้างบริการระดับโลก
- สถาปัตยกรรมโมเดลเป็นแบบ Thinker–Talker บนพื้นฐาน MoE ช่วยเสริมทั้งประสิทธิภาพและความคุ้มค่า พร้อมรองรับการสนทนาแบบสตรีมมิงและการควบคุมพฤติกรรมตามผู้ใช้
- Qwen3-Omni-30B-A3B-Captioner ที่เปิดซอร์สให้ใช้งาน ให้ความสามารถด้าน audio caption ที่ละเอียดและมีอัตรา hallucination ต่ำ
- รองรับเส้นทางการนำไปใช้จริงอย่างหลากหลายและยืดหยุ่น ทั้ง Hugging Face Transformers, vLLM, Docker, API และฟังก์ชันอำนวยความสะดวกสำหรับนักพัฒนา
ภาพรวมและความสำคัญของ Qwen3-Omni
- Qwen3-Omni คือ LLM แบบ omnimodal หลายภาษาแบบ end-to-end ที่พัฒนาโดยทีม Qwen ของ Alibaba Cloud
- โปรเจกต์นี้มีจุดเด่นว่าเป็นหนึ่งใน AI แบบ multimodal โอเพนซอร์สไม่กี่ตัวในปัจจุบันที่สามารถ เข้าใจข้อความ รูปภาพ เสียง และวิดีโอแบบบูรณาการ พร้อมสร้างการตอบสนองแบบเรียลไทม์
- มีจุดแข็งเหนือโอเพนซอร์สคู่แข่งในด้านการรองรับภาษาที่กว้างขวาง การสตรีมแบบเรียลไทม์ และ audio captioning ความแม่นยำสูง
- สามารถนำไปต่อยอดบริการใหม่ได้อย่างรวดเร็ว เช่น การถามตอบภาษาธรรมชาติ การวิเคราะห์สถานการณ์จากเสียงและภาพ และอินเทอร์เฟซแบบ multimodal ตามเวลา
คุณสมบัติหลัก
- การประมวลผลหลายโมดัล: รองรับอินพุตข้อความ รูปภาพ เสียง และวิดีโอ พร้อมเอาต์พุตการตอบกลับแบบข้อความ/เสียงเรียลไทม์
- ประสิทธิภาพล้ำสมัย: ทำสถิติ SOTA 22 รายการจาก 36 benchmark ด้านเสียง/วิดีโอ, 32 SOTA ในกลุ่มโอเพนซอร์ส และประสิทธิภาพ ASR/การสนทนาด้วยเสียงใกล้เคียง Gemini 2.5 Pro
- รองรับภาษากว้างขวาง: รองรับ 119 ภาษาข้อความ, 19 ภาษาสำหรับอินพุตเสียง และ 10 ภาษาสำหรับเอาต์พุตเสียง
- สตรีมมิงแบบเรียลไทม์: สนับสนุนการผลัดกันพูดอย่างเป็นธรรมชาติและการตอบสนองฉับไว
- การควบคุมแบบปรับตามผู้ใช้: ปรับพฤติกรรมได้ละเอียดผ่าน system prompt และมีความยืดหยุ่นสูง
- สถาปัตยกรรมบนพื้นฐาน MoE: ใช้ดีไซน์ Thinker–Talker, การ pretrain แบบ AuT และโครงสร้าง multi-codebook เพื่อให้ได้ latency ต่ำมากและมีประสิทธิภาพสูง
- เปิดซอร์สโมเดล audio caption: ใช้ Qwen3-Omni-30B-A3B-Captioner เพื่อสร้างคำอธิบายเสียงแบบละเอียดและช่วยลด hallucination
ตัวอย่างสถานการณ์ใช้งานตามโดเมนที่รองรับ
- เสียง: การรู้จำเสียงพูด การแปลเสียง การวิเคราะห์ดนตรี/เสียง และ audio caption
- ภาพ: OCR ภาพซับซ้อน การรู้จำวัตถุ QA จากภาพ การแก้โจทย์คณิตศาสตร์ คำอธิบายวิดีโอ/การนำทาง และการวิเคราะห์การเปลี่ยนฉาก
- เสียง+ภาพ: multimodal QA การสนทนา และการเรียกใช้งาน agent ด้วยเสียง
- การทำ downstream fine-tuning: fine-tune โมเดล caption โดยใช้ Qwen3-Omni-30B-A3B-Instruct
คำอธิบายแต่ละโมเดล
- Qwen3-Omni-30B-A3B-Instruct: อินพุตเสียง·วิดีโอ·ข้อความ + เอาต์พุตข้อความ/เสียง (thinker+talker)
- Qwen3-Omni-30B-A3B-Thinking: อินพุตเสียง·วิดีโอ·ข้อความ + เอาต์พุตข้อความ (เฉพาะ thinker, chain-of-thought reasoning)
- Qwen3-Omni-30B-A3B-Captioner: อินพุตเสียง → เอาต์พุตข้อความ, เน้นคำอธิบายละเอียดและลด hallucination ให้ต่ำที่สุด (เฉพาะทางด้าน caption)
สภาพแวดล้อมหลักในการใช้งานและข้อดี
- ผสานกับ Hugging Face Transformers: ฝังในโค้ดได้ง่าย จัดการช่องทางอินพุตหลากหลาย (B64, URL ฯลฯ) ได้ยืดหยุ่น และรองรับ FlashAttention 2
- vLLM: เหมาะกับงานบริการขนาดใหญ่ที่ต้องการ latency ต่ำและ concurrency สูง, ทำ batch inference ได้รวดเร็ว, ขยายไปยังสภาพแวดล้อม multi-GPU ได้ง่าย และเด่นด้านการรวมเซิร์ฟเวอร์-API
- มี Docker image ให้ใช้งาน: ลดปัญหาความขัดแย้งของสภาพแวดล้อม และช่วยให้ทดลอง/ดีพลอยได้สะดวก
- DashScope API: API อย่างเป็นทางการจาก Alibaba ที่รองรับทั้งแบบเรียลไทม์และออฟไลน์
- เดโมแบบเว็บ/ออนพรีมิส: สามารถทดลองใช้งานผ่านเว็บได้โดยไม่ต้องติดตั้งระบบเพิ่มเติม
ตัวอย่างการใช้งานจริงและเคล็ดลับ
อัลกอริทึมแกนหลักและฟังก์ชัน
- โครงสร้าง Thinker–Talker ช่วยแยกการให้เหตุผลขั้นสูงและการสังเคราะห์เสียงออกจากกัน
- รองรับการจัดการ API และ explicit prompt อย่างสม่ำเสมอสำหรับชุดอินพุตหลากหลาย (ข้อความล้วน/ข้อความ+ภาพ/เสียง/วิดีโอ ฯลฯ)
- หากไม่ต้องการ เอาต์พุตเสียง มีตัวเลือกประหยัดหน่วยความจำให้ใช้ (ประหยัดได้มากกว่า 10GB)
- รองรับตัวเลือก การสังเคราะห์เสียงหลากหลาย (Ethan, Chelsie, Aiden ฯลฯ) และเลือกได้ผ่านพารามิเตอร์ speaker
ตัวอย่างขั้นสูงสำหรับงาน batch/การสนทนา
- สามารถรวมข้อความแบบ multimodal หลายรายการเพื่อประมวลผลพร้อมกันในครั้งเดียว จึงมีประสิทธิภาพสำหรับข้อมูลปริมาณมาก benchmark และบริการเชิงโต้ตอบ
- สร้างคำตอบแบบปรับเฉพาะให้กับแต่ละข้อความได้ (ทั้งข้อความ รูปภาพ เสียง และวิดีโอในรูปแบบต่าง ๆ)
การดีพลอยใช้งานจริงด้วย vLLM
- ปรับแต่งการอนุมานพร้อมกันและการจูนหน่วยความจำได้ผ่านการตั้งค่าพารามิเตอร์ (tensor_parallel_size, max_num_seqs, limit_mm_per_prompt ฯลฯ)
- รองรับการสนทนาแบบ API ใน vLLM serve และมีแผนรองรับเอาต์พุตเสียงของโมเดล Instruct ในอนาคต
API และสภาพแวดล้อม
- มีเอกสาร API สำหรับ DashScope API ทั้งแบบคลาวด์เรียลไทม์ ออฟไลน์ และ captioning (จีน/โกลบอล)
- ยืดหยุ่นต่อวัตถุประสงค์ทั้งงานบริการจริงและงานวิจัย โดยครอบคลุมสภาพแวดล้อม vLLM, Official API และ Transformers
ข้อกำหนดระบบ/คำแนะนำ
- สำหรับความละเอียด BF16 และวิดีโอความยาว 15~120 วินาที มีคำแนะนำหน่วยความจำขั้นต่ำอยู่ที่ 68~145GB
- ต้องใช้สภาพแวดล้อม GPU และรองรับ FlashAttention 2
- เคล็ดลับการใช้ prompt: ควรใช้คำสั่งข้อความที่ชัดเจนร่วมกับอินพุตแบบ multimodal
การประยุกต์ใช้กับ agent และ downstream
- สามารถสร้าง agent ได้หลากหลาย เช่น การเรียกใช้ฟังก์ชันจากเสียง การสนทนา/วิเคราะห์แบบ multimodal เรียลไทม์ ผู้ช่วยอัจฉริยะ และ audio caption แบบละเอียด
- มีตัวอย่างการควบคุมบทบาทผ่าน system prompt และการตั้งค่าสไตล์การสนทนา/กรอบการทำงาน
สรุป
Qwen3-Omni เป็นโอเพนซอร์ส LLM ที่ผสาน ข้อความ+เสียง+รูปภาพ+วิดีโอ แบบอเนกประสงค์ระดับใหญ่ที่สุดกลุ่มหนึ่งของโลก เหมาะอย่างยิ่งสำหรับบริการเว็บขนาดใหญ่แบบเรียลไทม์ งานวิจัย และการติดตั้งใช้งานภายในองค์กร อีกทั้งยังมีจุดเด่นมากในด้านการผสานรวมอย่างแนบแน่นกับ vLLM, API, Docker และสภาพแวดล้อมอื่น ๆ รวมถึงความเข้ากันได้สูงและตัวอย่างการใช้งานที่ละเอียด ช่วยเพิ่มทั้งประสิทธิภาพการพัฒนาและความได้เปรียบในการแข่งขัน
2 ความคิดเห็น
ภาษาเกาหลี - รองรับภาษาเกาหลีด้วยนะ!
ความคิดเห็นจาก Hacker News
ตอนคุยเป็นภาษาอังกฤษรู้สึกว่าช้ามาก แต่พอลองคุยเป็นภาษาสเปนกลับรู้สึกว่าเร็วขึ้นมาก เรื่องที่ว่าอีกไม่นานเราน่าจะได้ใช้ความสามารถสุดโหดอย่างการแปลแบบเรียลไทม์นั้นน่าประทับใจจริง ๆ และก็ทำให้นึกว่าถ้าห้องแล็บในอเมริกาไม่ลงมาแข่งเรื่องโอเพนเวตอย่างจริงจัง สุดท้ายจีนอาจครองตลาด AI ไปเลยก็ได้ คนอเมริกันที่อ่อนไหวเรื่องความเป็นส่วนตัวหรือกรรมสิทธิ์ข้อมูล อาจลงเอยด้วยการมีอุปกรณ์ราคา 1,000~2,000 ดอลลาร์ไว้รันโมเดลจีนแบบเปิดในบ้านตัวเอง ซึ่งรู้สึกว่าเป็นการเปลี่ยนแปลงที่น่าทึ่งมาก
อยู่ในอเมริกาแล้วก็เห็นข่าวว่าจีนสนับสนุน Linux อย่างหนัก ทั้งสถาปัตยกรรม CPU แบบเปิดอย่าง RISC-V และโมเดลเปิดที่โฮสต์เอง ทำเอารู้สึกว่าเรานี่แหละอาจเป็น “ตัวร้าย” เสียเอง
ผมรัน 3090 สองใบกับ Qwen3 ที่บ้านจริง ๆ และเอาไปเชื่อมกับ Home Assistant ใช้ร่วมกับอุปกรณ์เสียงดาวเทียม esp32 ด้วย จากที่ลองคือทำงานได้ดีอย่างน่าทึ่ง
คนอเมริกันทั่วไปดูแทบไม่มีความตั้งใจจะจ่ายเพิ่ม 1,000~2,000 ดอลลาร์เพื่อเทคโนโลยีที่รับประกันความเป็นส่วนตัวอยู่แล้ว ทุกวันนี้คนส่วนใหญ่ยอมให้เสียงและวิดีโอทุกอย่างในบ้านผ่านกล้อง IoT อย่าง Ring ไปถึงรัฐบาลโดยไม่ต้องมีหมายค้น เพียงเพื่อประหยัดเงิน 20~200 ดอลลาร์
ลองใช้ได้โดยตรงที่ https://chat.qwen.ai/ ต้องล็อกอินด้วย Google หรือ GitHub ถึงจะใช้โหมดเสียงได้ มีเสียงให้เลือกหลายแบบ เช่น Dylan (วัยรุ่นที่โตมาในตรอกซอกซอยปักกิ่ง), Peter (ผู้เชี่ยวชาญด้านตลกสั้นเทียนจิน), Cherry (หญิงสาววัยรุ่นสดใสร่าเริง), Ethan (เด็กหนุ่มที่กระตือรือร้นและอบอุ่น), Eric (ผู้ชายจากเฉิงตู เสฉวนที่มีเอกลักษณ์เฉพาะตัว), Jada (พี่สาวสายคาริสมาจากเซี่ยงไฮ้) เป็นต้น
โดยเฉพาะถ้าสลับภาษาเพื่อทดสอบเสียงนี่ขำมาก พอเป็นภาษารัสเซีย Ryan ฟังเหมือนชาวตะวันตกที่เพิ่งเริ่มเรียนรัสเซียมาได้เดือนเดียว ส่วน Dylan ฟังเป็นธรรมชาติกว่า และเสียงอื่น ๆ ก็เป็นภาษารัสเซียที่มีสำเนียงเอเชียแรง ๆ ทำให้แต่ละเสียงมีคาแรกเตอร์สนุกดี
ผมเห็นแค่ Omni Flash เลยสงสัยว่านั่นใช่ตัวที่ถูกต้องหรือเปล่า
เวตของโมเดลมีขนาด 70GB และใน Hugging Face ก็ระบุขนาดไฟล์ไว้ด้วย (Qwen/Qwen3-Omni-30B-A3B-Instruct) ถือว่าเป็นขนาดที่เข้าถึงได้พอสมควรสำหรับการรันโลคัล เลยสงสัยว่าเวอร์ชันพอร์ตสำหรับ macOS จะมาเร็ว ๆ นี้ไหม เพราะตอนนี้ดูเหมือนว่ายังต้องใช้ NVIDIA GPU เท่านั้น
ถ้าอิง BF16 แล้วทำ quantization เป็น Q4 ก็น่าจะยัดลง GPU 24GB ได้สบาย น่าจะใกล้เคียงกับโมเดลตระกูล 30B-A3B ตัวอื่น ๆ ตอนแรกกังวลว่าจะใหญ่ระดับ 200B+ แต่ก็โล่งใจที่ไม่ใช่
ผมไม่มีเวลาเลยยังไม่ได้ลอง แต่การพยายามเอาไปทำงานร่วมกับ Mojo stuff สำหรับ Apple ที่เพิ่งออกเมื่อวานก็น่าจะน่าสนใจ ถึงตอนนี้ยังไม่แน่ใจเรื่องความสมบูรณ์ แต่ก็น่าจะเป็นความท้าทายที่สนุก
สงสัยว่ามี inference engine ที่รันบน macOS ได้หรือยัง
อยากรู้ว่ารันบน 5090 ได้ไหม หรือสามารถต่อหลาย GPU เข้าด้วยกันได้หรือเปล่า หรือว่า NVIDIA ล็อกไว้
มีวิดีโอเดโมอยู่ตรงนี้ โดยเฉพาะฉากที่รับอินพุตวิดีโอ+เสียงแล้วแปลเป็นอีกภาษาพร้อมส่งออกเป็นเสียงด้วย เป็นสิ่งที่น่าประทับใจที่สุดเท่าที่ผมเคยเห็นมา
วิดีโอเดโมบน YouTube
จุดได้เปรียบที่แท้จริงในสายนี้คือประสิทธิภาพต่อขนาด ถ้ามีการแข่งขันด้านโอเพนเวตเกิดขึ้น ผมคิดว่านวัตกรรมด้านประสิทธิภาพจะถูกบีบให้เดินหน้า และอาจเกิดจุดแข็งที่โมเดลปิดเวตคาดไม่ถึงด้วย ถ้ากลไกอนุมานแบบกลุ่มคลัสเตอร์พัฒนาไปไกลพอ ก็สงสัยว่าเมื่อไร 8 โมเดลขนาด 30B บนเซิร์ฟเวอร์ H100 เครื่องเดียวจะมีความแม่นยำเหนือกว่าโมเดล 240B เพียงตัวเดียวได้
ด้วยความอยากรู้อยากเห็น ผมเลยลองใส่คลิปเสียงสั้น ๆ ไปสองสามอัน ปรากฏว่าแยกได้แม้กระทั่งเครื่องดนตรีอย่างเปียโนหรือกลอง รู้สึกว่ายังไม่ค่อยเห็นงานวิจัย multimodal LLM ที่โฟกัสการรู้จำเสียงที่ไม่ใช่เสียงพูดมากนัก เลยอยากเห็นการวิเคราะห์เชิงลึกเกี่ยวกับสถานะล้ำสมัยล่าสุด (SOTA)
สงสัยว่า "native video support" จริง ๆ แล้วหมายถึงอะไร เป็นแค่การตีความภาพนิ่งเต็มเฟรมที่ต่อเนื่องกันซึ่งอาจพลาดเหตุการณ์ที่เกิดเร็ว ๆ หรือหมายถึงเทคนิคที่ซับซ้อนกว่านั้น
ผมคิดว่าอินพุตเสียง + เอาต์พุตเสียงเป็นการเปลี่ยนเกมครั้งใหญ่ ในทางทฤษฎีแล้วมันทำให้เราคุยด้วยเสียงและแปลเป็นภาษาของเราหรือของคู่สนทนาได้ทันที ตอนนี้ปกติยังต้องมีหลายเทคโนโลยีคั่นกลาง เช่น wake word, speech-to-text, text-to-speech เป็นต้น แต่โมเดลนี้ดูเหมือนอย่างน้อยก็มีเวอร์ชันระดับ 32b ราว 3 ตัวที่รองรับทั้งอินพุตและเอาต์พุตเสียง และขึ้นกับสถาปัตยกรรมด้วยว่าอนาคตอาจเอาไปรันเองที่บ้านหรือบนอุปกรณ์อย่าง “AI toaster” ได้โดยตรง
ถ้าเอาโมเดลแบบนี้ไปต่อกับระบบบ้านอัตโนมัติผ่าน tool calls ผมว่ามีโอกาสมหาศาล รอให้บริการอื่นรองรับแบบนี้มาตั้งแต่ ChatGPT มีฟีเจอร์นี้แล้ว โดยเฉพาะเวลาอยู่ในสถานการณ์ที่มือไม่ว่างอย่างการทำอาหาร ("อ่านขั้นตอนถัดไปให้หน่อย มือเปื้อนเนื้ออยู่", "ทำรูส์ต้องใช้แป้งเท่าไหร่", "ไม่มีมะนาว ใช้อะไรแทนดี") มันน่าจะพลิกเกมได้เลย
ที่สำคัญกว่านั้นคือมันน่าจะช่วยเรื่องการเรียนภาษาได้มาก และดูเหมือนจะรันโลคัลได้ด้วย โดยเฉพาะถ้านักพัฒนา unsloth เข้ามาจับก็น่ายิ่งคาดหวัง
สถาปัตยกรรม thinker/speaker ของ Qwen น่าสนใจมาก มันคล้ายกับภาพที่ผมจินตนาการว่าการรับรู้แบบหลายสื่อของมนุษย์ทำงานอย่างไร เช่น รูปแอปเปิล การสะกดคำว่า "apple" และเสียงของมัน ล้วนแมปไปยังแนวคิดเดียวกันได้โดยไม่จำเป็นต้องผ่านข้อความตรงกลาง
สงสัยว่ามีแหล่งข้อมูลไหนที่เหมาะสำหรับการเรียนรู้โมเดล multimodal บ้าง ไม่ค่อยรู้ว่าจะเริ่มจากตรงไหนดี