- Goku คือชุดโมเดลใหม่สำหรับการสร้างภาพและวิดีโอที่พัฒนาบนพื้นฐานของ "Rectified Flow Transformer" โดยมุ่งเป้าสู่ประสิทธิภาพระดับแนวหน้าของอุตสาหกรรม
- มีการใช้การปรับแต่งหลายด้าน เช่น "การคัดเลือกข้อมูล, การออกแบบโมเดล, การทำให้สูตรของ flow สมบูรณ์" เพื่อให้ได้เทคโนโลยีการสร้างภาพคุณภาพสูง
- คุณสมบัติหลัก
- การสร้างภาพและวิดีโอที่แม่นยำด้วยการคัดเลือกข้อมูลคุณภาพสูง
- เสริมปฏิสัมพันธ์ระหว่างโทเคนของภาพและวิดีโอด้วยเทคนิค Rectified Flow
- มอบประสิทธิภาพที่ยอดเยี่ยมในการสร้างภาพและวิดีโอ
- งานสร้างที่รองรับ
- ข้อความ → วิดีโอ
- ภาพ → วิดีโอ
- ข้อความ → ภาพ
- เกณฑ์วัดประสิทธิภาพ: ทำคะแนนได้สูงในเบนช์มาร์กหลัก
- 0.76 (GenEval - ข้อความ → ภาพ)
- 83.65 (DPG-Bench - ข้อความ → ภาพ)
- 84.85 (VBench - ข้อความ → วิดีโอ)
- Goku-T2V ทำคะแนน 84.85 ในการเปรียบเทียบประสิทธิภาพของ VBench และอยู่อันดับ 2 ณ วันที่ 7 ตุลาคม 2024
- มีผลงานเหนือกว่าโมเดลข้อความ-สู่วิดีโอเชิงพาณิชย์หลายตัว (AnimateDiff-V2, OpenSora, Gen-3, Kling เป็นต้น)
2 ความคิดเห็น
ช่วงนี้ ByteDance ดูจะปล่อยงานวิจัยด้านเทคโนโลยีที่เกี่ยวข้องออกมาเยอะมาก.. คิดว่าอีกไม่นานก็น่าจะถูกนำไปใช้กับ TikTok ด้วย
Goku+: Video Ads Foundation Models
ด้านล่างนี้มีกรณีการใช้งานจริงที่น่าสนใจกว่ามาก
สามารถสร้างอวตารสำหรับการตลาด หรือสร้างคลิปวิดีโอจากภาพสินค้าก็ได้
จากนั้นก็นำสิ่งนั้นมาผสานคนกับสินค้าเข้าด้วยกัน จนสร้างเป็นวิดีโอแนะนำสินค้าได้เลย
เลยทำได้ทั้งวิดีโอที่กำลังกินอาหาร สวมเสื้อผ้าแล้วเดิน แต่งหน้า ไปจนถึงสระผมได้อย่างคล่องแคล่ว
คิดว่าน่าจะเป็นตัวอย่างที่ออกแบบมาเฉพาะสำหรับโซเชียลคอมเมิร์ซของจีน