Goku - โมเดลสร้างวิดีโอที่อิงกับ Flow ของ ByteDance

xguru · 2025-02-14T10:02:01+09:00

Goku คือชุดโมเดลใหม่สำหรับการสร้างภาพและวิดีโอที่พัฒนาบนพื้นฐานของ "Rectified Flow Transformer" โดยมุ่งเป้าสู่ประสิทธิภาพระดับแนวหน้าของอุตสาหกรรม มีการใช้การปรับแต่งหลายด้าน เช่น "การคัดเลือกข้อมูล, การออกแบบโมเดล, การทำให้สูตรของ flow สมบูรณ์" เพื่อให้ได้เทคโนโลยีการสร้างภาพคุณภาพสูง คุณสมบัติหลัก การสร้างภาพและวิดีโอที่แม่นยำด้วยการคัดเลือกข้อมูลคุณภาพสูง เสริมปฏิสัมพันธ์ระหว่างโทเคนของภาพและวิดีโอด้วยเทคนิค Rectified Flow มอบประสิทธิภาพที่ยอดเยี่ยมในการสร้างภาพและวิดีโอ งานสร้างที่รองรับ ข้อความ → วิดีโอ ภาพ → วิดีโอ ข้อความ → ภาพ เกณฑ์วัดประสิทธิภาพ: ทำคะแนนได้สูงในเบนช์มาร์กหลัก 0.76 (GenEval - ข้อความ → ภาพ) 83.65 (DPG-Bench - ข้อความ → ภาพ) 84.85 (VBench - ข้อความ → วิดีโอ) Goku-T2V ทำคะแนน 84.85 ในการเปรียบเทียบประสิทธิภาพของ VBench และอยู่อันดับ 2 ณ วันที่ 7 ตุลาคม 2024 มีผลงานเหนือกว่าโมเดลข้อความ-สู่วิดีโอเชิงพาณิชย์หลายตัว (AnimateDiff-V2, OpenSora, Gen-3, Kling เป็นต้น)

(github.com/Saiyan-World)

6 คะแนน โดย xguru 2025-02-14 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

Goku คือชุดโมเดลใหม่สำหรับการสร้างภาพและวิดีโอที่พัฒนาบนพื้นฐานของ "Rectified Flow Transformer" โดยมุ่งเป้าสู่ประสิทธิภาพระดับแนวหน้าของอุตสาหกรรม
มีการใช้การปรับแต่งหลายด้าน เช่น "การคัดเลือกข้อมูล, การออกแบบโมเดล, การทำให้สูตรของ flow สมบูรณ์" เพื่อให้ได้เทคโนโลยีการสร้างภาพคุณภาพสูง
คุณสมบัติหลัก
- การสร้างภาพและวิดีโอที่แม่นยำด้วยการคัดเลือกข้อมูลคุณภาพสูง
- เสริมปฏิสัมพันธ์ระหว่างโทเคนของภาพและวิดีโอด้วยเทคนิค Rectified Flow
- มอบประสิทธิภาพที่ยอดเยี่ยมในการสร้างภาพและวิดีโอ
งานสร้างที่รองรับ
- ข้อความ → วิดีโอ
- ภาพ → วิดีโอ
- ข้อความ → ภาพ
เกณฑ์วัดประสิทธิภาพ: ทำคะแนนได้สูงในเบนช์มาร์กหลัก
- 0.76 (GenEval - ข้อความ → ภาพ)
- 83.65 (DPG-Bench - ข้อความ → ภาพ)
- 84.85 (VBench - ข้อความ → วิดีโอ)
Goku-T2V ทำคะแนน 84.85 ในการเปรียบเทียบประสิทธิภาพของ VBench และอยู่อันดับ 2 ณ วันที่ 7 ตุลาคม 2024
- มีผลงานเหนือกว่าโมเดลข้อความ-สู่วิดีโอเชิงพาณิชย์หลายตัว (AnimateDiff-V2, OpenSora, Gen-3, Kling เป็นต้น)

2 ความคิดเห็น

kimhj 2025-02-14

ช่วงนี้ ByteDance ดูจะปล่อยงานวิจัยด้านเทคโนโลยีที่เกี่ยวข้องออกมาเยอะมาก.. คิดว่าอีกไม่นานก็น่าจะถูกนำไปใช้กับ TikTok ด้วย

xguru 2025-02-14

Goku+: Video Ads Foundation Models

ด้านล่างนี้มีกรณีการใช้งานจริงที่น่าสนใจกว่ามาก

สามารถสร้างอวตารสำหรับการตลาด หรือสร้างคลิปวิดีโอจากภาพสินค้าก็ได้
จากนั้นก็นำสิ่งนั้นมาผสานคนกับสินค้าเข้าด้วยกัน จนสร้างเป็นวิดีโอแนะนำสินค้าได้เลย
เลยทำได้ทั้งวิดีโอที่กำลังกินอาหาร สวมเสื้อผ้าแล้วเดิน แต่งหน้า ไปจนถึงสระผมได้อย่างคล่องแคล่ว
คิดว่าน่าจะเป็นตัวอย่างที่ออกแบบมาเฉพาะสำหรับโซเชียลคอมเมิร์ซของจีน

Goku - โมเดลสร้างวิดีโอที่อิงกับ Flow ของ ByteDance

บทความที่เกี่ยวข้อง

2 ความคิดเห็น