1 คะแนน โดย GN⁺ 2025-12-12 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Qwen3-Omni-Flash-2025-12-01 เป็นโมเดลมัลติโหมดรุ่นถัดไปที่ประมวลผลข้อความ ภาพ เสียง และวิดีโอพร้อมกัน และสร้างผลลัพธ์เป็นข้อความและเสียงพูดแบบสตรีมมิงเรียลไทม์
  • ความสามารถในการเข้าใจคำสั่งเสียงและภาพ รวมถึงเสถียรภาพของการสนทนาได้รับการปรับปรุงอย่างมาก ทำให้เกิดปฏิสัมพันธ์เสียง-วิดีโอที่เป็นธรรมชาติและสอดคล้องกัน
  • ฟังก์ชัน ควบคุม system prompt ได้อย่างสมบูรณ์ ช่วยให้ปรับรายละเอียดได้ เช่น สไตล์บุคลิก น้ำเสียงพูด และความยาวของผลลัพธ์
  • รองรับข้อความ 119 ภาษา, การรู้จำเสียงพูด 19 ภาษา, การสังเคราะห์เสียงพูด 10 ภาษา และแก้ปัญหาความสอดคล้องในการใช้งานหลายภาษา
  • ประสิทธิภาพดีขึ้นในทุกด้าน ทั้งการให้เหตุผลเชิงตรรกะ การสร้างโค้ด และการเข้าใจภาพกับเสียง มอบประสบการณ์ปฏิสัมพันธ์กับ AI ที่เป็นธรรมชาติและแม่นยำ

ภาพรวมของ Qwen3-Omni-Flash-2025-12-01

  • Qwen3-Omni คือโมเดลขนาดใหญ่มัลติโหมดแบบเนทีฟที่รองรับอินพุตหลากหลาย เช่น ข้อความ ภาพ เสียง และวิดีโอ พร้อมสร้างข้อความและเสียงพูดที่เป็นธรรมชาติแบบเรียลไทม์
  • เวอร์ชัน Qwen3-Omni-Flash-2025-12-01 ครั้งนี้เป็นรุ่นอัปเกรดครั้งใหญ่แบบครบวงจรที่พัฒนาบนพื้นฐานของ Qwen3-Omni เดิม
  • มีการปรับปรุงทั้งด้านประสิทธิภาพและประสิทธิผลของโมเดลโดยรวม เพื่อมอบความสามารถในการประมวลผลมัลติโหมดที่เร็วและแม่นยำยิ่งขึ้น

การปรับปรุงความสามารถหลัก

  • เสริมความแข็งแกร่งให้ปฏิสัมพันธ์เสียง-ภาพ

    • ความสามารถในการเข้าใจและดำเนินการตามคำสั่งด้วยเสียงและวิดีโอได้รับการปรับปรุงอย่างมาก ช่วยแก้ปัญหาความฉลาดที่ลดลงในสถานการณ์ภาษาพูดในชีวิตประจำวัน
    • เสถียรภาพและความสอดคล้องของการสนทนาเสียง-ภาพหลายรอบดีขึ้น ทำให้โต้ตอบได้อย่างเป็นธรรมชาติ
  • เพิ่มความสามารถในการควบคุม system prompt

    • สามารถปรับแต่ง system prompt ได้อย่างสมบูรณ์ จึงควบคุมพฤติกรรมของโมเดลได้อย่างละเอียดแม่นยำ
    • ปรับองค์ประกอบย่อยได้ละเอียด เช่น สไตล์บุคลิก (เช่น หวาน สุขุม แนวอนิเมะ) น้ำเสียงพูด และความยาวของผลลัพธ์
  • เพิ่มความน่าเชื่อถือของการรองรับหลายภาษา

    • รองรับการโต้ตอบแบบข้อความ 119 ภาษา, การรู้จำเสียงพูด 19 ภาษา, และการสังเคราะห์เสียงพูด 10 ภาษา
    • ปัญหาความไม่เสถียรของภาษาในเวอร์ชันก่อนถูกแก้ไขแล้ว ทำให้ได้ประสิทธิภาพหลายภาษาที่แม่นยำและสม่ำเสมอ
  • การสังเคราะห์เสียงพูดที่เป็นธรรมชาติ

    • ปรับความเร็วการพูด การหยุดเว้น และน้ำเสียงโดยอัตโนมัติตามบริบทของข้อความ เพื่อให้ได้คุณภาพเสียงที่คล้ายมนุษย์
    • ขจัดเสียงที่ช้าหรือฟังเป็นเครื่องจักร และมอบผลลัพธ์เสียงพูดที่เป็นธรรมชาติและมีอารมณ์การแสดงออก

ตัวชี้วัดการปรับปรุงประสิทธิภาพ

  • เสริมความสามารถด้านการเข้าใจและสร้างข้อความ

    • การให้เหตุผลเชิงตรรกะ ZebraLogic +5.6, การสร้างโค้ด LiveCodeBench-v6 +9.3, MultiPL-E +2.7, และคุณภาพงานเขียน WritingBench +2.2 ดีขึ้น
    • เพิ่มความน่าเชื่อถือในการทำตามคำสั่งหลายขั้นตอนที่ซับซ้อน
  • เพิ่มความแม่นยำในการเข้าใจเสียงพูด

    • อัตราคำผิดลดลงใน Fleurs-zh และ VoiceBench +3.2 ดีขึ้น
    • เสริมความสามารถในการเข้าใจเสียงพูดในสภาพแวดล้อมการสนทนาจริง
  • ปรับปรุงคุณภาพการสังเคราะห์เสียงพูด

    • ให้น้ำเสียงและจังหวะที่เป็นธรรมชาติได้ทั้งในภาษาจีนและสภาพแวดล้อมหลายภาษา
    • ได้คุณภาพการเปล่งเสียงที่ใกล้เคียงเสียงมนุษย์
  • เสริมความสามารถในการเข้าใจภาพ

    • ในงานให้เหตุผลเชิงภาพ MMMU +4.7, MMMU-Pro +4.8, MathVision_full +2.2 ดีขึ้น
    • เพิ่มความสามารถในการตีความคอนเทนต์ภาพที่ซับซ้อน เช่น ไดอะแกรม และรูปทรงทางคณิตศาสตร์
  • ปรับปรุงความสามารถในการเข้าใจวิดีโอ

    • MLVU +1.6 ดีขึ้น ช่วยเสริมความสามารถในการเข้าใจความหมายของวิดีโอ
    • การซิงก์เสียง-ภาพดีขึ้น ทำให้พื้นฐานของการสนทนาผ่านวิดีโอแบบเรียลไทม์แข็งแกร่งยิ่งขึ้น

แผนในอนาคต

  • มีแผนรวบรวมฟีดแบ็กจากผู้ใช้และกรณีการใช้งานเชิงนวัตกรรมบนพื้นฐาน Qwen3-Omni
  • ในอนาคตมีแผนขยายฟังก์ชัน เช่น การรู้จำเสียงพูดหลายผู้พูด (ASR), วิดีโอ OCR, การเรียนรู้อัตโนมัติเสียง-วิดีโอ, และ เวิร์กโฟลว์แบบเอเจนต์พร้อมการรองรับ function calling

ข้อมูลการอ้างอิง

  • หากนำไปใช้ในงานวิจัย แนะนำให้ใช้อ้างอิงต่อไปนี้

1 ความคิดเห็น

 
GN⁺ 2025-12-12
ความคิดเห็นบน Hacker News
  • โมเดลนี้ใช้สถาปัตยกรรม 30B พารามิเตอร์ MoE โดยมีพารามิเตอร์ที่ทำงานจริงอยู่ราว 3B
    เป็นรุ่นถัดจากโมเดล omni ขนาด 7B ก่อนหน้า จึงคาดหวังประสิทธิภาพใกล้เคียงกับ Qwen2.5-Omni-7B ได้
    โมเดล omni ที่เปิดเผยออกมายังมีไม่มาก จึงมองว่าเป็นการเปิดตัวที่มีความหมายพอสมควร
    ส่วนตัวอยากใช้โมเดลนี้แทน อินเทอร์เฟซรับเข้า/ส่งออก (คีย์บอร์ด·จอภาพ) แล้วให้แบ็กเอนด์ประมวลผลด้วยเทคโนโลยีอื่น
    อีกทั้งยังมีเวอร์ชัน reasoning ที่สามารถออกเสียงโทเคน ‘กำลังคิด’ ระหว่างแชตเสียงได้ ซึ่งน่าจะสนุกดี

    • โมเดลนี้เป็นการซ้อนกันของหลายองค์ประกอบ
      มีออดิโอเอนโค้ดเดอร์ 650M, วิชันเอนโค้ดเดอร์ 540M, LLM แบบ 30B-A3B, ออดิโอ LLM แบบ 3B-A0.3B และใช้ 80M Transformer/200M ConvNet ในการแปลงโทเคนออดิโอเป็นคลื่นเสียง
      เป็น เวอร์ชันอัปเดตน้ำหนักแบบไม่เปิดเผย ของ Qwen3-Omni โดยก่อนหน้านี้มีการเปิดเผย Qwen/Qwen3-Omni-30B-A3B-Instruct
      ตอนนี้ยังไม่ได้รับการรองรับอย่างสมบูรณ์ในเฟรมเวิร์กอนุมานโอเพนซอร์ส จึงทำงานได้ช้ามากบน transformers เท่านั้น
    • จาก เอกสาร Alibaba Cloud โมเดลนี้ ไม่ใช่โอเพนซอร์ส
    • หาเวอร์ชันน้ำหนักใหม่ไม่เจอจากที่ไหนเลย ตรวจทั้ง Modelscope และ Hugging Face แล้วก็ไม่มี และดูเหมือนว่า context window ขยายเป็น 200K+ โทเคน
    • น่าสนใจที่เวอร์ชัน reasoning ออกเสียงโทเคนความคิดได้ ก่อนหน้านี้ Claude ก็เคยทำงานลักษณะนี้
    • ถ้าใส่เอฟเฟกต์อย่าง reverb ให้โทเคนความคิด ก็อาจได้ยิน ‘เสียงคิด’ ของโมเดล ซึ่งฟังดูน่าสนุกดี
  • สงสัยว่า Qwen3-Omni รองรับ การสนทนาแบบเรียลไทม์ เหมือน GPT-4o หรือไม่
    จากเอกสารเหมือนจะไม่รองรับ แต่ในทางปฏิบัติบอกว่ารองรับ
    เลยอยากรู้ว่ามีใครลองรันแบบโลคัลบน สภาพแวดล้อมที่ไม่ใช่ NVIDIA บ้างหรือยัง

    • ในเว็บไซต์แชตทางการยังไม่มี โมเดล audio→audio
      ปกติฉันใช้การทดสอบคำพ้องเสียง (record vs record) หรือขอให้เปลี่ยนน้ำเสียงพูดเพื่อตรวจสอบ
    • เฟรมเวิร์กอนุมานอย่าง vLLM หรือ SGLang ยังรองรับไม่สมบูรณ์ จึง ทำไม่ได้ในสภาพแวดล้อมที่ไม่ใช่ NVIDIA
    • ถึงอย่างนั้นก็ดูเหมือนว่าจะมีความสามารถแบบ speech-to-speech ในตัว
    • ยังคิดว่าแอปแชตเสียงแบบโลคัลที่ใช้งานได้ดีจริงยังไม่มี
      อย่าง Silly Tavern ก็แทบจะ unusable
      แต่โมเดลเสียงแบบโลคัลเช่นนี้ต่างหากที่จะเป็นแกนหลักของ เวิร์กโฟลว์ที่ใช้ภาษาธรรมชาติ
  • สงสัยว่าจะ รันโมเดล Omni บน Macbook ด้วย GGUF หรือ MLX ได้หรือไม่
    ทำได้ผ่าน LMStudio หรือ Llama.cpp แต่ไม่รองรับการสตรีมจากไมค์หรือเว็บแคม
    โดยทั่วไป Qwen มักให้ตัวอย่าง Python ที่อิงกับ Cuda จึงกำลังหาทางเลือกโอเพนซอร์สอยู่

  • ฉันใช้งาน Gemini Flash Live 2.5 ได้ดีมาก
    หวังว่าเวอร์ชัน 3.0 จะออกมาเร็ว ๆ นี้
    ในเบนช์มาร์กมันดูดีกว่า Gemini Live แต่คงต้องลองเอง
    สำหรับฉัน โมเดล Qwen Omni ยังน่าผิดหวังอยู่เสมอในสภาพแวดล้อมที่เน้นภาษาอังกฤษ

  • 32B ถือว่าค่อนข้างเล็ก จึงน่าจะ รันได้แม้บนเครื่องที่มี RAM 64GB
    ถ้าขึ้น Ollama เมื่อไรจะลองทดสอบเอง

    • โมเดล Qwen3-Omni-30B-A3B บน Hugging Face ดูเหมือนจะอัปเดตเมื่อเดือนกันยายน
      แต่ในเบนช์มาร์กของบทความ Qwen3-Omni-Flash-2025-12-01 กลับมีประสิทธิภาพสูงกว่า Qwen3-235B-A22B
      เลยสับสนว่ารุ่น 30B ทำแบบนั้นได้อย่างไร
      เวอร์ชัน FLASH ไม่มีบน Hugging Face และมีความเป็นไปได้สูงว่าเป็น โมเดลสำหรับ API เท่านั้น
    • ฉันรันได้ดีบน Mac RAM 48GB ด้วยหน่วยความจำแบบยูนิเวอร์แซล
  • ตอนแรกนึกว่าเป็น API อย่างเดียว แต่ใน คอลเลกชันบน Hugging Face ก็มีโมเดลอยู่
    แต่จริง ๆ แล้วเป็น เวอร์ชันก่อนหน้า และเดโมบน HF ก็เรียก API จึงไม่ได้ประมวลผลแบบโลคัล

  • น่าประทับใจที่ Qwen3-Omni เหนือกว่า 2.5 Flash ในทุกเบนช์มาร์ก
    ดูเหมือนถึงเวลาย้ายเวิร์กโหลด LLM ไปยัง GPU แบบโลคัลแล้ว

    • แต่ยังไงก็ต้อง เบนช์มาร์กด้วยชุดข้อมูลของตัวเอง
      เบนช์มาร์กสาธารณะเชื่อถือได้ยาก และถ้าเลือกโมเดลตามนั้นตรง ๆ อาจผิดหวังได้
    • ถ้าเป็นงานข้อความล้วน การใช้ Qwen3-30B-A3B จะมีประสิทธิภาพมากกว่า Omni
    • เบนช์มาร์กด้านภาพดูเหมือนเทียบกับ Qwen 2.0 จึงน่าสงสัยอยู่บ้าง
  • สงสัยว่าทำไมลักษณะการพูดของโมเดลเสียงถึงให้ความรู้สึก ไร้ชีวิตชีวา
    โดยเฉพาะช่วงพูดเรื่องราคาผลไม้ แม้จะเป็นธรรมชาติมาก แต่ก็ยังรู้ได้ทันทีว่าเป็น AI
    น่าจะเป็นเพราะน้ำเสียงหรือความเร็วในการพูดที่คงที่เกินไป

    • ฉันกลับคิดว่าการไม่ใส่อารมณ์มากเกินไปนั้นดีกว่า
      การแสดงอารมณ์มากไปทำให้รู้สึกประดิษฐ์เกินจริง
      แต่ก็น่าเสียดายที่ยังมีข้อผิดพลาดเรื่องการออกเสียงภาษาเยอรมัน
    • มันอาจไม่ได้เป็น มัลติโหมดแบบ end-to-end อย่างแท้จริง
      น่าจะมีขั้นตอนสังเคราะห์เสียงแยกออกมา จึงได้ผลลัพธ์แบบนี้
      สามารถลองตรวจสอบได้ด้วยการทดสอบเพลงหรือการควบคุมทำนองเสียง
    • อาจเป็นเพราะยัดความสามารถมากเกินไป ทั้งวิชัน ออดิโอ หลายภาษา และการควบคุมทำนองเสียง ลงใน 30B พารามิเตอร์
      โมเดลเสียงของ ChatGPT ยังฟังดูเป็นธรรมชาติที่สุด
    • การที่ฟังออกทันทีว่าเป็นสไตล์การพูดของ AI อาจเป็น เรื่องดี ก็ได้
    • สำหรับฉันกลับชอบที่มันมี สำเนียง (accent) แบบ AI โดยเฉพาะ
  • ในการส่งออกเสียงแบบเรียลไทม์ มีปัญหาว่าแยก โทเคน ‘กำลังคิด’ กับคำพูดสำหรับผู้ใช้ ออกจากกันได้ยาก

    • วิธีง่าย ๆ คือแยกสตรีมผลลัพธ์ก่อนทำ TTS
      ส่งโทเคน reasoning/structured ไปทางหนึ่ง และส่งข้อความสำหรับผู้ใช้อีกทางหนึ่ง
      จากนั้นสังเคราะห์เสียงเฉพาะส่วนหลัง ก็จะแก้ปัญหาที่ได้ยินเสียง ‘กำลังคิด’ ได้
  • ดูเหมือน Qwen จะ สื่อสารแบบกำกวมเรื่องการเปิดเผย open weight
    ในความเป็นจริงหลายตัวไม่ได้เปิดเผย และแม้จะดูเหมือนเปิดให้ใช้ แต่ก็มักเป็น API เท่านั้น
    ทำให้ผู้ใช้ต้องเสียเวลาเปล่ากับการตามหาโมเดล