- Ovi ที่พัฒนาโดย Character AI เป็นโมเดล AI ที่สามารถสร้างทั้งออดิโอและวิดีโอพร้อมกันจากข้อความหรือภาพนำเข้า
- Ovi ผสาน ออดิโอสาขาขนาด 5B ที่สร้างขึ้นเองเข้ากับวิดีโอสาขาที่อิง Wan2.2 เพื่อสร้างคอนเทนต์ภาพและเสียงที่ซิงก์กันและมีคุณภาพสูง
- โมเดลถูกฝึกที่ความละเอียด 720×720 แต่สามารถสร้างผลลัพธ์ที่เป็นธรรมชาติได้แม้ที่ความละเอียด 960×960 ขึ้นไป และรองรับอัตราส่วนภาพหลากหลาย (เช่น 9:16, 16:9)
- มีตัวเลือกการใช้งานและฟีเจอร์เพิ่มประสิทธิภาพหลากหลาย เช่น Gradio UI, การรวมกับ ComfyUI (WIP), การอนุมานแบบหลาย GPU, และ การควอนไทซ์ qint8/fp8
- โปรเจกต์นี้เป็นตัวอย่างล่าสุดของความก้าวหน้าในเทคโนโลยี การสร้างข้อความเป็นวิดีโอ (T2V) และ การสร้างภาพเป็นวิดีโอ (I2V) และนำเสนอมาตรฐานใหม่ของการสร้างแบบผสานออดิโอ-วิดีโอ
ภาพรวมของ Ovi
- Ovi เป็น โมเดลการสร้างข้ามโมดัล ที่พัฒนาโดย Character AI ร่วมกับนักวิจัยจาก Yale University เป็นระบบที่สามารถสร้างออดิโอและวิดีโอที่ซิงก์กันพร้อมกันจากอินพุตแบบข้อความ หรือข้อความ+ภาพ
- สถาปัตยกรรมของโมเดลใช้ชื่อว่า Twin Backbone Cross-Modal Fusion โดยใช้วิธีฝึกและผสานออดิโอและวิดีโอสาขาแบบขนาน
- ผู้นำโปรเจกต์คือ Weimin Wang และผู้ร่วมพัฒนาคือ Chetwin Low กับ Calder Katyal
- มีการแนะนำว่าเป็น โมเดลลักษณะคล้าย Veo-3 และใช้ชุดข้อมูลออดิโอภายในของ Character AI เพื่อพรีเทรนออดิโอสาขาขนาด 5B พารามิเตอร์ ตั้งแต่ต้น
- วิดีโอที่สร้างขึ้นมีค่าเริ่มต้นเป็น ความยาว 5 วินาที, 24FPS, ความละเอียด 720×720 และรองรับสัดส่วนหลากหลาย เช่น 9:16, 16:9, 1:1
ฟีเจอร์และจุดเด่นหลัก
- 🎬 Video+Audio Generation: สร้างออดิโอและวิดีโอพร้อมกันจากข้อความหรือภาพนำเข้า
- 🎵 High-Quality Audio Branch: มีออดิโอสาขาที่ฝึกด้วยชุดข้อมูลออดิโอขนาดใหญ่ที่สร้างขึ้นเอง
- 📝 Flexible Input: รองรับทั้งข้อความล้วนและข้อความ+ภาพ
- ⏱️ สร้างวิดีโอ 5 วินาที: สร้างวิดีโอสั้นความยาว 5 วินาทีที่ 24FPS
- 🎯 รองรับความละเอียดสูง: สามารถสร้างผลลัพธ์ที่เป็นธรรมชาติได้แม้ที่ความละเอียด 960×960 ขึ้นไป
- ตัวอย่างเช่น วิดีโอในสัดส่วนและความละเอียดต่าง ๆ อย่าง 1280×704, 1504×608, 1344×704
- 🚀 ความสามารถในการอัปสเกล: แม้จะฝึกที่ 720×720 แต่ยังคงรักษาความสอดคล้องเชิงเวลาและเชิงพื้นที่ได้ที่ความละเอียดสูง
แพลตฟอร์มและเดโมที่ใช้งานได้
- สามารถสร้างข้อความ→วิดีโอ และภาพ→วิดีโอได้บน Wavespeed.ai
- มีเดโมบน HuggingFace Spaces ด้วย
- การรวมกับ ComfyUI (WIP): สามารถรวมโมเดล Ovi เข้ากับเวิร์กโฟลว์ผ่าน
ComfyUI-WanVideoWrapper
การฝึกและประสิทธิภาพ
- ความละเอียดในการฝึก: 720×720
- การขยายความละเอียดตอนอนุมาน: รองรับ 960×960 และอัตราส่วนภาพหลากหลาย
- การรักษาความสอดคล้องเชิงเวลา: ทำให้การเปลี่ยนผ่านระหว่างเฟรมเป็นธรรมชาติ
- คุณภาพการซิงก์ออดิโอ-วิดีโอ: สามารถควบคุมคุณภาพการซิงก์ได้ด้วยการปรับ audio guidance scale
การรันและการตั้งค่า
- ขั้นตอนการติดตั้ง
- ติดตั้ง PyTorch 2.6.0, Flash Attention และ dependency ใน requirements.txt
- ดาวน์โหลด checkpoint ด้วย
download_weights.py (รวม T5, VAE, MMAudio)
- หาก GPU VRAM มี 24GB สามารถใช้เวอร์ชันควอนไทซ์
fp8 หรือ qint8 ได้
- ไฟล์คอนฟิกสำหรับอนุมาน:
ovi/configs/inference/inference_fusion.yaml
- รายการตั้งค่าหลัก:
num_steps: จำนวนขั้นตอน denoising (30~50)
audio_guidance_scale, video_guidance_scale: ความเข้มของการซิงก์ออดิโอ·วิดีโอ
sp_size: ขนาด sequence parallel (ตั้งให้เท่ากับจำนวน GPU)
cpu_offload: โหมดประหยัด GPU VRAM
fp8: รันได้ในสภาพแวดล้อม VRAM 24GB
- ตัวอย่างการรันอนุมาน
- GPU เดี่ยว:
python3 inference.py --config-file ...
- หลาย GPU:
torchrun --nnodes 1 --nproc_per_node 8 inference.py ...
ประสิทธิภาพและความต้องการหน่วยความจำ
- การรันโมเดลพื้นฐานต้องใช้ VRAM ขั้นต่ำ 32GB และในโหมด fp8 สามารถใช้ได้ที่ 24GB
- เมื่อเปิดใช้ FlashAttention-3 จะช่วยเพิ่มความเร็วในการประมวลผล
- ด้วย การประมวลผลแบบ sequence parallel เมื่อใช้ 4~8 GPU เวลาประมวลผลอยู่ที่ประมาณ 40~55 วินาที
- เมื่อใช้ CPU offloading จะช่วยประหยัด VRAM ได้ แต่เวลาในการประมวลผลจะเพิ่มขึ้นประมาณ 20 วินาที
การรัน Gradio UI
- สามารถรันอินเทอร์เฟซที่อิง Gradio ได้ด้วยคำสั่งง่าย ๆ
python3 gradio_app.py
- รองรับสภาพแวดล้อมหลากหลายด้วยออปชัน
--cpu_offload, --use_image_gen, --qint8, --fp8
- ในโหมด I2V ระบบจะเปิดใช้งานโมเดลสร้างภาพโดยอัตโนมัติเพื่อสร้างเฟรมแรก
โครงสร้างพรอมป์ต์และตัวอย่าง
- Text-to-Audio-Video (T2AV):
example_prompts/gpt_examples_t2v.csv
- Image-to-Audio-Video (I2AV):
example_prompts/gpt_examples_i2v.csv
- การใช้แท็กพิเศษ
...: ข้อความสำหรับการแปลงเป็นเสียงพูด
...: คำอธิบายเสียงพื้นหลังและเอฟเฟกต์เสียง
- การสร้างพรอมป์ต์ด้วย GPT
- อ้างอิงจาก CSV ตัวอย่าง แล้วขอให้ GPT ปรับบทพูดตามหัวข้อที่ต้องการ (เช่น “การเผชิญหน้าระหว่าง AI กับมนุษย์”)
- จากนั้นนำพรอมป์ต์ที่แก้ไขแล้วไปป้อนให้ Ovi เพื่อสร้างวิดีโอตามหัวข้อ
แผนในอนาคต (Todo List)
- มีแผนเผยแพร่บทความวิจัยและเว็บไซต์เดโม
- เปิดเผย checkpoint ของโมเดล 11B และ โค้ดอนุมานแบบหลาย GPU
- มีแผนพัฒนา น้ำหนัก fp8, การปรับปรุงประสิทธิภาพ sequence parallel, และ การอนุมานแบบ FSDP sharding
- กำลังวิจัย การ fine-tune ด้วยข้อมูลความละเอียดสูง และ การเพิ่มประสิทธิภาพด้วย RL
- มีแผนพัฒนา การสร้างวิดีโอยาว, เงื่อนไขอ้างอิงเสียงพูด, และ โมเดล Distilled เพื่อเร่งความเร็วการอนุมาน
คำขอบคุณทางเทคนิคและความร่วมมือ
- Wan2.2: ใช้สำหรับเริ่มต้นวิดีโอสาขา
- MMAudio: นำ audio VAE กลับมาใช้
- ผู้มีส่วนร่วม: @rkfg (การเพิ่มประสิทธิภาพ fp8), @gluttony-10 (การควอนไทซ์ qint8)
- ข้อเสนอความร่วมมือและการติดต่อ: สามารถติดต่อ Weimin Wang ได้
ข้อมูลการอ้างอิง
- บทความ: Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation
- arXiv: https://arxiv.org/abs/2510.01284
- มี BibTeX ให้ และแนะนำให้อ้างอิงเมื่อนำงานวิจัยไปใช้
เมทาดาทาของโปรเจกต์
- ไลเซนส์: Apache-2.0
- องค์ประกอบภาษา: Python 96.3%, CUDA 2.1%, C 1.4%, C++ 0.2%
- สถิติ GitHub: ★955, ฟอร์ก 92, อิสชู 20, PR 2
- ผู้พัฒนา: ทีม Character AI และนักวิจัยจาก Yale University
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ช่วงหลายเดือนมานี้ผมลองใช้ เครื่องมือสร้างด้วย AI มาหลายตัว แล้วก็ทึ่งที่แต่ละเครื่องมือกำลังถูกรวมเข้าด้วยกันอย่างรวดเร็ว จนสามารถใช้บนเครื่องโลคัลได้ด้วย
ตั้งแต่สัปดาห์ที่แล้วผมลองใช้ Ovi แล้วสนุกมาก ผลงานที่ AI สร้างออกมาจะคล้ายสล็อตแมชชีนชนิดหนึ่ง คือแม้จะใส่อินพุตดี ผลลัพธ์ก็อาจเละได้ แต่ถ้าลองรันหลายครั้งก็จะได้อะไรที่พอใช้ได้ออกมา
ผมทำวิดีโอที่ ดูและฟังเหมือนของจริงพอตัว ได้ด้วย I2V และ T2V ส่วน T2V บางครั้งก็ดูเหมือนคุณภาพภาพทีวียุค 90 แต่กลับทำให้รู้สึกสมจริงขึ้นไปอีก
ถ้าใช้ Flux SPRO เป็นแหล่งภาพต้นทาง ก็จะได้วิดีโอที่ค่อนข้างสมจริง GPU ของผมคือ 5090 และใช้เวลาประมาณ 4~5 นาทีในการสร้างคลิปยาว 5 วินาที
ดูเหมือนว่าโมเดลวิดีโอจะอิงกับ Wan 2.2
ช่วงนี้ความเคลื่อนไหวรอบ Wan คึกคักมาก และก็น่ายินดีที่มี โมเดลเปิดที่ยืดหยุ่น โผล่ขึ้นมาสู้กับโมเดลปิดของทุนยักษ์ใหญ่อย่าง OpenAI หรือ Runway
Wan 2.5 ก็มี แต่จะถูกทำ anonymous routing ผ่านผู้ให้บริการทางการ ราคาถูกกว่าตัวเลือกแบบผ่านคนกลางอย่าง Kling, Veo, Sora มาก
ผมเคยทำงานที่ Ovi ของ Nokia มาก่อน ตอนนั้น Ovi เป็นแนวคิดคล้าย GSuite สำหรับโทรศัพท์ Nokia และคำอธิบายทางการคือ “Ovi แปลว่าประตู (Door) ในภาษาฟินแลนด์” แต่ในมุกภายในบริษัทเราจะเรียกมันว่า “อนุบาล (Kindergarten) ในภาษาฮังการี” ผมหาที่มาของชื่อ Ovi ตัวนี้ไม่เจอ
แต่สุดท้ายก็ดิ่งลงเพราะขาดกลยุทธ์แบรนด์และติดกับนโยบายซอฟต์แวร์อุปกรณ์ที่ล้มเหลว น่าจะปิดฉากไปอย่างสมบูรณ์ราวปี 2013 ตอนนั้นผมออกจากบริษัทไปแล้ว
หูของผมน่าจะเป็น คนรุ่นก่อนยุค AutoTune เลยยังจับได้ถึงร่องรอยของ pitch ที่เป๊ะเกินไปกับการบีบอัดเสียง (companding) ในออดิโอ
โดยเฉพาะมันฟังคล้ายเสียงของตัวละคร Machine Head ในซีรีส์ Invincible
ถึงอย่างนั้นโดยรวมก็ยังเป็นงานที่ยอดเยี่ยม
ตัวโปรเจกต์เองน่าสนใจ แต่ผมยังไม่ค่อยแน่ใจกับ ประโยชน์ใช้สอยของคอนเทนต์โสตทัศน์เชิงกำเนิด
ณ ตอนนี้มันดูมีความน่ารำคาญมากกว่าผลดี
ถ้าไปเร็วขนาดนี้ ภายในไม่กี่เดือนเราอาจได้เห็น หนังสั้นคุณภาพสูง ที่สร้างแบบ generative ทั้งหมดก็ได้
ผมสงสัยว่าโปรเจกต์พวกนี้เกี่ยวข้องกันหรือเปล่า เลยลองเทียบ เธรดนี้ กับ เธรดนี้ ดู
ทุกวันนี้ด้วยเครื่องมือเขียนโค้ดด้วย AI การ สร้างหน้าแลนดิ้งเพจอัตโนมัติ แบบนี้ยิ่งทำได้ง่ายขึ้นมาก
สำหรับ I2V ถ้ามี GPU NVIDIA 4070 ขึ้นไป และมี VRAM เพียงพอ ก็สามารถได้ร่างต้นฉบับที่ใช้ได้ในความละเอียด 440x440 ภายใน 1~2 นาที
ส่วน T2V คุณภาพยังเสถียรเฉพาะแถวความละเอียดที่ใช้ฝึกมาเท่านั้น ถึงอย่างนั้นที่ความละเอียดที่ทราบกันของ Wan ก็ยังมีผลลัพธ์ดี ๆ โผล่มาเป็นระยะ
เมื่อใช้ CUDA 12.8 ขึ้นไป, Torch 2.8 ขึ้นไป และใช้ SageAttention แทน Flash 2 คุณภาพจะดีขึ้นอย่างเห็นได้ชัด
เป็นพัฒนาการที่น่าสนใจ แต่ก็น่าเสียดายที่บริษัทอย่าง CAI เป็นฝ่ายได้ของนี้ไป
ใช้ AI กับคนหนุ่มสาวที่โดดเดี่ยว