Ovi - การผสานข้ามโมดัลแบบ Twin Backbone สำหรับการสร้างออดิโอ-วิดีโอ

(github.com/character-ai)

1 คะแนน โดย GN⁺ 2025-10-24 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Ovi ที่พัฒนาโดย Character AI เป็นโมเดล AI ที่สามารถสร้างทั้งออดิโอและวิดีโอพร้อมกันจากข้อความหรือภาพนำเข้า
Ovi ผสาน ออดิโอสาขาขนาด 5B ที่สร้างขึ้นเองเข้ากับวิดีโอสาขาที่อิง Wan2.2 เพื่อสร้างคอนเทนต์ภาพและเสียงที่ซิงก์กันและมีคุณภาพสูง
โมเดลถูกฝึกที่ความละเอียด 720×720 แต่สามารถสร้างผลลัพธ์ที่เป็นธรรมชาติได้แม้ที่ความละเอียด 960×960 ขึ้นไป และรองรับอัตราส่วนภาพหลากหลาย (เช่น 9:16, 16:9)
มีตัวเลือกการใช้งานและฟีเจอร์เพิ่มประสิทธิภาพหลากหลาย เช่น Gradio UI, การรวมกับ ComfyUI (WIP), การอนุมานแบบหลาย GPU, และ การควอนไทซ์ qint8/fp8
โปรเจกต์นี้เป็นตัวอย่างล่าสุดของความก้าวหน้าในเทคโนโลยี การสร้างข้อความเป็นวิดีโอ (T2V) และ การสร้างภาพเป็นวิดีโอ (I2V) และนำเสนอมาตรฐานใหม่ของการสร้างแบบผสานออดิโอ-วิดีโอ

ภาพรวมของ Ovi

Ovi เป็น โมเดลการสร้างข้ามโมดัล ที่พัฒนาโดย Character AI ร่วมกับนักวิจัยจาก Yale University เป็นระบบที่สามารถสร้างออดิโอและวิดีโอที่ซิงก์กันพร้อมกันจากอินพุตแบบข้อความ หรือข้อความ+ภาพ
- สถาปัตยกรรมของโมเดลใช้ชื่อว่า Twin Backbone Cross-Modal Fusion โดยใช้วิธีฝึกและผสานออดิโอและวิดีโอสาขาแบบขนาน
- ผู้นำโปรเจกต์คือ Weimin Wang และผู้ร่วมพัฒนาคือ Chetwin Low กับ Calder Katyal
มีการแนะนำว่าเป็น โมเดลลักษณะคล้าย Veo-3 และใช้ชุดข้อมูลออดิโอภายในของ Character AI เพื่อพรีเทรนออดิโอสาขาขนาด 5B พารามิเตอร์ ตั้งแต่ต้น
วิดีโอที่สร้างขึ้นมีค่าเริ่มต้นเป็น ความยาว 5 วินาที, 24FPS, ความละเอียด 720×720 และรองรับสัดส่วนหลากหลาย เช่น 9:16, 16:9, 1:1

ฟีเจอร์และจุดเด่นหลัก

🎬 Video+Audio Generation: สร้างออดิโอและวิดีโอพร้อมกันจากข้อความหรือภาพนำเข้า
🎵 High-Quality Audio Branch: มีออดิโอสาขาที่ฝึกด้วยชุดข้อมูลออดิโอขนาดใหญ่ที่สร้างขึ้นเอง
📝 Flexible Input: รองรับทั้งข้อความล้วนและข้อความ+ภาพ
⏱️ สร้างวิดีโอ 5 วินาที: สร้างวิดีโอสั้นความยาว 5 วินาทีที่ 24FPS
🎯 รองรับความละเอียดสูง: สามารถสร้างผลลัพธ์ที่เป็นธรรมชาติได้แม้ที่ความละเอียด 960×960 ขึ้นไป
- ตัวอย่างเช่น วิดีโอในสัดส่วนและความละเอียดต่าง ๆ อย่าง 1280×704, 1504×608, 1344×704
🚀 ความสามารถในการอัปสเกล: แม้จะฝึกที่ 720×720 แต่ยังคงรักษาความสอดคล้องเชิงเวลาและเชิงพื้นที่ได้ที่ความละเอียดสูง

แพลตฟอร์มและเดโมที่ใช้งานได้

สามารถสร้างข้อความ→วิดีโอ และภาพ→วิดีโอได้บน Wavespeed.ai
- https://wavespeed.ai/models/character-ai/ovi/image-to-video
- https://wavespeed.ai/models/character-ai/ovi/text-to-video
มีเดโมบน HuggingFace Spaces ด้วย
- https://huggingface.co/spaces/akhaliq/Ovi
การรวมกับ ComfyUI (WIP): สามารถรวมโมเดล Ovi เข้ากับเวิร์กโฟลว์ผ่าน ComfyUI-WanVideoWrapper

การฝึกและประสิทธิภาพ

ความละเอียดในการฝึก: 720×720
การขยายความละเอียดตอนอนุมาน: รองรับ 960×960 และอัตราส่วนภาพหลากหลาย
การรักษาความสอดคล้องเชิงเวลา: ทำให้การเปลี่ยนผ่านระหว่างเฟรมเป็นธรรมชาติ
คุณภาพการซิงก์ออดิโอ-วิดีโอ: สามารถควบคุมคุณภาพการซิงก์ได้ด้วยการปรับ audio guidance scale

การรันและการตั้งค่า

ขั้นตอนการติดตั้ง
- ติดตั้ง PyTorch 2.6.0, Flash Attention และ dependency ใน requirements.txt
- ดาวน์โหลด checkpoint ด้วย download_weights.py (รวม T5, VAE, MMAudio)
- หาก GPU VRAM มี 24GB สามารถใช้เวอร์ชันควอนไทซ์ fp8 หรือ qint8 ได้
ไฟล์คอนฟิกสำหรับอนุมาน: ovi/configs/inference/inference_fusion.yaml
- รายการตั้งค่าหลัก:
  - num_steps: จำนวนขั้นตอน denoising (30~50)
  - audio_guidance_scale, video_guidance_scale: ความเข้มของการซิงก์ออดิโอ·วิดีโอ
  - sp_size: ขนาด sequence parallel (ตั้งให้เท่ากับจำนวน GPU)
  - cpu_offload: โหมดประหยัด GPU VRAM
  - fp8: รันได้ในสภาพแวดล้อม VRAM 24GB
ตัวอย่างการรันอนุมาน
- GPU เดี่ยว: python3 inference.py --config-file ...
- หลาย GPU: torchrun --nnodes 1 --nproc_per_node 8 inference.py ...

ประสิทธิภาพและความต้องการหน่วยความจำ

การรันโมเดลพื้นฐานต้องใช้ VRAM ขั้นต่ำ 32GB และในโหมด fp8 สามารถใช้ได้ที่ 24GB
เมื่อเปิดใช้ FlashAttention-3 จะช่วยเพิ่มความเร็วในการประมวลผล
ด้วย การประมวลผลแบบ sequence parallel เมื่อใช้ 4~8 GPU เวลาประมวลผลอยู่ที่ประมาณ 40~55 วินาที
เมื่อใช้ CPU offloading จะช่วยประหยัด VRAM ได้ แต่เวลาในการประมวลผลจะเพิ่มขึ้นประมาณ 20 วินาที

การรัน Gradio UI

สามารถรันอินเทอร์เฟซที่อิง Gradio ได้ด้วยคำสั่งง่าย ๆ
- python3 gradio_app.py
- รองรับสภาพแวดล้อมหลากหลายด้วยออปชัน --cpu_offload, --use_image_gen, --qint8, --fp8
ในโหมด I2V ระบบจะเปิดใช้งานโมเดลสร้างภาพโดยอัตโนมัติเพื่อสร้างเฟรมแรก

โครงสร้างพรอมป์ต์และตัวอย่าง

Text-to-Audio-Video (T2AV): example_prompts/gpt_examples_t2v.csv
Image-to-Audio-Video (I2AV): example_prompts/gpt_examples_i2v.csv
การใช้แท็กพิเศษ
- ...: ข้อความสำหรับการแปลงเป็นเสียงพูด
- ...: คำอธิบายเสียงพื้นหลังและเอฟเฟกต์เสียง
การสร้างพรอมป์ต์ด้วย GPT
- อ้างอิงจาก CSV ตัวอย่าง แล้วขอให้ GPT ปรับบทพูดตามหัวข้อที่ต้องการ (เช่น “การเผชิญหน้าระหว่าง AI กับมนุษย์”)
- จากนั้นนำพรอมป์ต์ที่แก้ไขแล้วไปป้อนให้ Ovi เพื่อสร้างวิดีโอตามหัวข้อ

แผนในอนาคต (Todo List)

มีแผนเผยแพร่บทความวิจัยและเว็บไซต์เดโม
เปิดเผย checkpoint ของโมเดล 11B และ โค้ดอนุมานแบบหลาย GPU
มีแผนพัฒนา น้ำหนัก fp8, การปรับปรุงประสิทธิภาพ sequence parallel, และ การอนุมานแบบ FSDP sharding
กำลังวิจัย การ fine-tune ด้วยข้อมูลความละเอียดสูง และ การเพิ่มประสิทธิภาพด้วย RL
มีแผนพัฒนา การสร้างวิดีโอยาว, เงื่อนไขอ้างอิงเสียงพูด, และ โมเดล Distilled เพื่อเร่งความเร็วการอนุมาน

คำขอบคุณทางเทคนิคและความร่วมมือ

Wan2.2: ใช้สำหรับเริ่มต้นวิดีโอสาขา
MMAudio: นำ audio VAE กลับมาใช้
ผู้มีส่วนร่วม: @rkfg (การเพิ่มประสิทธิภาพ fp8), @gluttony-10 (การควอนไทซ์ qint8)
ข้อเสนอความร่วมมือและการติดต่อ: สามารถติดต่อ Weimin Wang ได้

ข้อมูลการอ้างอิง

บทความ: Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation
arXiv: https://arxiv.org/abs/2510.01284
มี BibTeX ให้ และแนะนำให้อ้างอิงเมื่อนำงานวิจัยไปใช้

เมทาดาทาของโปรเจกต์

ไลเซนส์: Apache-2.0
องค์ประกอบภาษา: Python 96.3%, CUDA 2.1%, C 1.4%, C++ 0.2%
สถิติ GitHub: ★955, ฟอร์ก 92, อิสชู 20, PR 2
ผู้พัฒนา: ทีม Character AI และนักวิจัยจาก Yale University

1 ความคิดเห็น

GN⁺ 2025-10-24

ความคิดเห็นจาก Hacker News

ช่วงหลายเดือนมานี้ผมลองใช้ เครื่องมือสร้างด้วย AI มาหลายตัว แล้วก็ทึ่งที่แต่ละเครื่องมือกำลังถูกรวมเข้าด้วยกันอย่างรวดเร็ว จนสามารถใช้บนเครื่องโลคัลได้ด้วย
ตั้งแต่สัปดาห์ที่แล้วผมลองใช้ Ovi แล้วสนุกมาก ผลงานที่ AI สร้างออกมาจะคล้ายสล็อตแมชชีนชนิดหนึ่ง คือแม้จะใส่อินพุตดี ผลลัพธ์ก็อาจเละได้ แต่ถ้าลองรันหลายครั้งก็จะได้อะไรที่พอใช้ได้ออกมา
ผมทำวิดีโอที่ ดูและฟังเหมือนของจริงพอตัว ได้ด้วย I2V และ T2V ส่วน T2V บางครั้งก็ดูเหมือนคุณภาพภาพทีวียุค 90 แต่กลับทำให้รู้สึกสมจริงขึ้นไปอีก
ถ้าใช้ Flux SPRO เป็นแหล่งภาพต้นทาง ก็จะได้วิดีโอที่ค่อนข้างสมจริง GPU ของผมคือ 5090 และใช้เวลาประมาณ 4~5 นาทีในการสร้างคลิปยาว 5 วินาที
ดูเหมือนว่าโมเดลวิดีโอจะอิงกับ Wan 2.2
ช่วงนี้ความเคลื่อนไหวรอบ Wan คึกคักมาก และก็น่ายินดีที่มี โมเดลเปิดที่ยืดหยุ่น โผล่ขึ้นมาสู้กับโมเดลปิดของทุนยักษ์ใหญ่อย่าง OpenAI หรือ Runway
- ตัวหลักคือ โมเดลวิดีโอโอเพนซอร์สที่เน้นความเป็นส่วนตัว ซึ่ง VeniceAI เป็นผู้ให้บริการ โดย Ovi รองรับ image→video, Wan 2.1 รองรับ image→video, และ Wan 2.2 รองรับ text→video
  Wan 2.5 ก็มี แต่จะถูกทำ anonymous routing ผ่านผู้ให้บริการทางการ ราคาถูกกว่าตัวเลือกแบบผ่านคนกลางอย่าง Kling, Veo, Sora มาก
- ประเด็นที่เกี่ยวข้องก็มีพูดถึงในเธรด Wan – Open-source alternative to VEO 3 เช่นกัน
- แล้ว Google ก็มีเอี่ยวกับเรื่องนี้ด้วย
ผมเคยทำงานที่ Ovi ของ Nokia มาก่อน ตอนนั้น Ovi เป็นแนวคิดคล้าย GSuite สำหรับโทรศัพท์ Nokia และคำอธิบายทางการคือ “Ovi แปลว่าประตู (Door) ในภาษาฟินแลนด์” แต่ในมุกภายในบริษัทเราจะเรียกมันว่า “อนุบาล (Kindergarten) ในภาษาฮังการี” ผมหาที่มาของชื่อ Ovi ตัวนี้ไม่เจอ
- ผมก็เคยทำงานในโปรเจกต์เกี่ยวกับ Ovi เหมือนกัน ในการประชุมช่วงแรก ๆ ที่สำนักงานใหญ่เฮลซิงกิ ผมได้ยินผู้บริหารพูดว่าจะตั้ง Google เป็นคู่แข่งโดยตรง ซึ่งถือว่าเป็น ความพยายามที่กล้ามาก
  แต่สุดท้ายก็ดิ่งลงเพราะขาดกลยุทธ์แบรนด์และติดกับนโยบายซอฟต์แวร์อุปกรณ์ที่ล้มเหลว น่าจะปิดฉากไปอย่างสมบูรณ์ราวปี 2013 ตอนนั้นผมออกจากบริษัทไปแล้ว
หูของผมน่าจะเป็น คนรุ่นก่อนยุค AutoTune เลยยังจับได้ถึงร่องรอยของ pitch ที่เป๊ะเกินไปกับการบีบอัดเสียง (companding) ในออดิโอ
โดยเฉพาะมันฟังคล้ายเสียงของตัวละคร Machine Head ในซีรีส์ Invincible
ถึงอย่างนั้นโดยรวมก็ยังเป็นงานที่ยอดเยี่ยม
ตัวโปรเจกต์เองน่าสนใจ แต่ผมยังไม่ค่อยแน่ใจกับ ประโยชน์ใช้สอยของคอนเทนต์โสตทัศน์เชิงกำเนิด
ณ ตอนนี้มันดูมีความน่ารำคาญมากกว่าผลดี
ถ้าไปเร็วขนาดนี้ ภายในไม่กี่เดือนเราอาจได้เห็น หนังสั้นคุณภาพสูง ที่สร้างแบบ generative ทั้งหมดก็ได้
- แต่ในขณะเดียวกันก็น่าจะมีกรณีที่ชีวิตคนพังเพราะ การนำดีปเฟกไปใช้ในทางที่ผิด ตามมาด้วย
- หรือไม่อนาคตก็อาจกลายเป็นแบบ prompt party ที่เพื่อน ๆ มารวมตัวกัน เขียนพรอมป์ต์คนละช่วงแล้วเอามาต่อเป็นหนังดูด้วยกัน แค่คิดก็ขำแล้ว
- ถึงอย่างนั้นผมกลับคิดว่ามีโอกาสเห็น ภาพยนตร์ขนาดยาว ก่อนหนังสั้นเสียอีก เพราะยิ่งเป็นวิดีโอสั้นยิ่งทำให้ออกมาสมบูรณ์ได้ยาก
ผมสงสัยว่าโปรเจกต์พวกนี้เกี่ยวข้องกันหรือเปล่า เลยลองเทียบ เธรดนี้ กับ เธรดนี้ ดู
- เวลา โมเดลแบบ open weight ตัวใหม่ออกมา มักจะมีพวกฉวยโอกาสรีบไปจดโดเมนชื่อนั้นแล้วหาเงินจาก SEO
  ทุกวันนี้ด้วยเครื่องมือเขียนโค้ดด้วย AI การ สร้างหน้าแลนดิ้งเพจอัตโนมัติ แบบนี้ยิ่งทำได้ง่ายขึ้นมาก
สำหรับ I2V ถ้ามี GPU NVIDIA 4070 ขึ้นไป และมี VRAM เพียงพอ ก็สามารถได้ร่างต้นฉบับที่ใช้ได้ในความละเอียด 440x440 ภายใน 1~2 นาที
ส่วน T2V คุณภาพยังเสถียรเฉพาะแถวความละเอียดที่ใช้ฝึกมาเท่านั้น ถึงอย่างนั้นที่ความละเอียดที่ทราบกันของ Wan ก็ยังมีผลลัพธ์ดี ๆ โผล่มาเป็นระยะ
เมื่อใช้ CUDA 12.8 ขึ้นไป, Torch 2.8 ขึ้นไป และใช้ SageAttention แทน Flash 2 คุณภาพจะดีขึ้นอย่างเห็นได้ชัด
เป็นพัฒนาการที่น่าสนใจ แต่ก็น่าเสียดายที่บริษัทอย่าง CAI เป็นฝ่ายได้ของนี้ไป
ใช้ AI กับคนหนุ่มสาวที่โดดเดี่ยว

Ovi - การผสานข้ามโมดัลแบบ Twin Backbone สำหรับการสร้างออดิโอ-วิดีโอ

ภาพรวมของ Ovi

ฟีเจอร์และจุดเด่นหลัก

แพลตฟอร์มและเดโมที่ใช้งานได้

การฝึกและประสิทธิภาพ

การรันและการตั้งค่า

ประสิทธิภาพและความต้องการหน่วยความจำ

การรัน Gradio UI

โครงสร้างพรอมป์ต์และตัวอย่าง

แผนในอนาคต (Todo List)

คำขอบคุณทางเทคนิคและความร่วมมือ

ข้อมูลการอ้างอิง

เมทาดาทาของโปรเจกต์

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News