สวัสดีครับ/ค่ะ ขอแนะนำ Dynin-Omni(https://dynin.ai/omni/) โมเดล foundation แบบ omnimodal ที่ห้องปฏิบัติการ AIDAS แห่งมหาวิทยาลัยแห่งชาติโซล (https://aidas.snu.ac.kr/) เปิดเผยครับ/ค่ะ เป็นสถาปัตยกรรมแบบรวมศูนย์ที่สามารถทั้งเข้าใจและสร้างข้อความ ภาพ เสียง และวิดีโอได้ในโมเดลเดียว
ทุกวันนี้เมื่อดูโมเดลมัลติโหมดแบบรวมศูนย์หลายตัว จะพบว่าโครงสร้างจำนวนมากเป็นการนำตัวสร้างภาพหรือโมเดล TTS ไปต่อเข้ากับ LLM แต่เมื่อใช้งานจริง pipeline มักซับซ้อน ทำให้ช้าลง และบางครั้ง orchestration ก็เกิดความผิดพลาดได้
ยิ่งไปกว่านั้น แม้โมเดลจะรองรับทั้งความเข้าใจและการสร้างได้แบบ native โดยไม่ต้องพึ่งตัวสร้างภายนอก ส่วนใหญ่ก็มักอิงกับ Autoregressive (AR) ที่ต้องสร้างโทเคนตามลำดับ แต่ภาพและวิดีโอจริง ๆ แล้วไม่ได้เป็นข้อมูลเชิงลำดับ จึงรู้สึกว่าวิธีนี้ค่อนข้างไม่เป็นธรรมชาติ
เราเลยลองเปลี่ยนแนวทางใหม่ทั้งหมด
แทนที่จะสร้างโทเคนทีละตัว เราเลือกใช้ masked diffusion ที่มาสก์ไว้ก่อนแล้วค่อยกู้คืนพร้อมกันในครั้งเดียว ทำให้ทุกงานถูกทำให้เป็นรูปแบบเดียวกันว่า “จะซ่อนโทเคนใด และจะกู้คืนอย่างไร”
ตัวอย่างเช่น:
- ดูภาพแล้วอธิบาย → เติมเฉพาะข้อความ
- สร้างภาพจากข้อความ → เติมโทเคนของภาพ
- สร้างเสียง → เติมโทเคนของเสียง
เป็นลักษณะนี้
ด้วยเหตุนี้จึงไม่จำเป็นต้องต่อโมเดลสร้างภาพหรือโมเดล TTS แยกต่างหาก และทำให้โมเดลเดียวสามารถจัดการทั้งความเข้าใจและการสร้างได้พร้อมกัน ประสิทธิภาพก็ถือว่าทำได้ดีมากเมื่อพิจารณาในฐานะโมเดลเดี่ยว
สมรรถนะด้านการอนุมานข้อความอยู่ในระดับที่เทียบเคียง LLM รุ่นใหม่ได้ ส่วนความเข้าใจภาพและวิดีโออยู่ในระดับที่แข่งขันกับโมเดล vision อย่าง InternVL และ Qwen2.5-VL ได้ การสร้างภาพไปได้ใกล้เคียงโมเดลเฉพาะทางอย่าง FLUX และด้านเสียงก็เข้าใกล้โมเดลเฉพาะทางสาย Qwen-TTS เช่นกัน
ในด้านความเร็วก็มีประสิทธิภาพที่ดี ความเร็วการสร้างข้อความเร็วกว่าทั้ง Qwen2.5-Omni และ MiniCPM-o4.5 ประมาณ 4~5 เท่า และยังเร็วกว่า Qwen3-8B ซึ่งเป็นโมเดลภาษาที่ปรับแต่งบน vLLM แล้วราว 2.5 เท่า สำหรับการสร้างภาพก็สามารถได้คุณภาพใกล้เคียงกันโดยใช้จำนวนสเต็ปน้อยกว่าโมเดลสร้างเฉพาะทางเดิมประมาณ 2 เท่า
ขณะที่โมเดล omnimodal แบบเน้นการรับรู้ซึ่งอิง AR อย่าง Qwen3.5-Omni ที่เพิ่งเปิดตัวไปไม่นาน มักโฟกัสที่ความเข้าใจเป็นหลัก แต่ Dynin-Omni รวมทั้งความเข้าใจและการสร้างไว้ในสถาปัตยกรรมเดียว เนื่องจากเป็นวิธีกู้คืนทั้งชุดในครั้งเดียวแทนการสร้างโทเคนตามลำดับ จึงตอบสนองต่อข้อมูลที่ไม่เป็นลำดับอย่างภาพหรือวิดีโอได้รวดเร็วและเป็นธรรมชาติมากกว่า
โครงสร้างแบบนี้มีความสำคัญมากยิ่งขึ้นในโดเมนอย่างเอเจนต์หรือโรบอติกส์ ที่ต้องเข้าใจอินพุตหลากหลายพร้อมกันและสร้างการกระทำหรือผลลัพธ์จริงออกมา ต่างจากแนวทางที่ต้องประกอบหลายโมเดลเข้าด้วยกัน โมเดลเดียวที่ประมวลผลได้โดยตรงช่วยลดความซับซ้อนของระบบ และให้ข้อได้เปรียบด้านต้นทุนกับความเร็ว
อีกทั้งด้วยการรวมความเข้าใจและการสร้างไว้ใน framework เดียว แม้จะมีการเพิ่ม modality หรือ task ใหม่ ก็ไม่จำเป็นต้องผนวกโมเดลแยกเพิ่มเติม และสามารถขยายไปยังโดเมนหลากหลายภายใต้โครงสร้างเดิมได้อย่างเป็นธรรมชาติ
เพื่อให้โครงสร้างนี้สามารถนำไปใช้ในสภาพแวดล้อมบริการจริงได้ ขณะนี้กำลังดำเนินการผสานเข้ากับ serving infrastructure ที่อิง vLLM, dInfer และ SGLang เนื่องจากเมื่อใช้โมเดลเดียวจัดการทั้งอินพุตมัลติโหมดและการสร้าง ประสิทธิภาพของโครงสร้างพื้นฐานด้านการอนุมานก็เป็นองค์ประกอบสำคัญเช่นกัน
ยิ่งไปกว่านั้น ขณะนี้ยังมีการวิจัย Dynin-Robotics ซึ่งขยายจากโมเดลนี้ไปสู่ physical AI model ที่ครอบคลุมสภาพแวดล้อมด้านโรบอติกส์และเอเจนต์ โดยมีเป้าหมายเป็นโครงสร้าง end-to-end ที่เข้าใจอินพุตจากเซนเซอร์หลากหลายแบบอย่างบูรณาการและนำไปสู่การกระทำจริง
ต่อจากนี้มีแผนจะพัฒนาต่อเนื่องผ่านการวิจัยและพัฒนาอย่างสม่ำเสมอ คล้ายกับ GLM series ของมหาวิทยาลัยชิงหวาในจีน และ InternLM ของ Shanghai AI Laboratory หากมีไอเดียปรับปรุงใด ๆ หลังจากได้ดูแล้ว ก็ยินดีรับฟังอย่างสบาย ๆ ครับ/ค่ะ 👍
4 ความคิดเห็น
ขอบคุณครับ แน่นอนว่าควรรองรับภาษาเกาหลีได้ดีใช่ไหมครับ?
ดูเหมือนว่าจะเกิดข้อผิดพลาด ไม่แน่ใจว่าเป็นปัญหาจาก huggingface.co หรือไม่ คงต้องลองรันบนเครื่องโลคัลดูครับ
ขณะนี้ยังไม่รองรับฟีเจอร์ภาษาเกาหลีในเวอร์ชันปัจจุบัน โดยมีแผนจะ release เวอร์ชันที่ผ่านการฝึกรวมภาษาเกาหลีในเร็ว ๆ นี้ ขอบคุณครับ!
มีแผนจะขยายสเกลประมาณไหนครับ?
ขณะนี้แผนการขยายสเกลอย่างเป็นรูปธรรมกำลังอยู่ระหว่างการวางแนวทางภายในทีม เรามีแผนที่จะพัฒนาโมเดลอย่างต่อเนื่องต่อไป ขอบคุณครับ