6 คะแนน โดย xguru 2025-02-14 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • Goku คือชุดโมเดลใหม่สำหรับการสร้างภาพและวิดีโอที่พัฒนาบนพื้นฐานของ "Rectified Flow Transformer" โดยมุ่งเป้าสู่ประสิทธิภาพระดับแนวหน้าของอุตสาหกรรม
  • มีการใช้การปรับแต่งหลายด้าน เช่น "การคัดเลือกข้อมูล, การออกแบบโมเดล, การทำให้สูตรของ flow สมบูรณ์" เพื่อให้ได้เทคโนโลยีการสร้างภาพคุณภาพสูง
  • คุณสมบัติหลัก
    • การสร้างภาพและวิดีโอที่แม่นยำด้วยการคัดเลือกข้อมูลคุณภาพสูง
    • เสริมปฏิสัมพันธ์ระหว่างโทเคนของภาพและวิดีโอด้วยเทคนิค Rectified Flow
    • มอบประสิทธิภาพที่ยอดเยี่ยมในการสร้างภาพและวิดีโอ
  • งานสร้างที่รองรับ
    • ข้อความ → วิดีโอ
    • ภาพ → วิดีโอ
    • ข้อความ → ภาพ
  • เกณฑ์วัดประสิทธิภาพ: ทำคะแนนได้สูงในเบนช์มาร์กหลัก
    • 0.76 (GenEval - ข้อความ → ภาพ)
    • 83.65 (DPG-Bench - ข้อความ → ภาพ)
    • 84.85 (VBench - ข้อความ → วิดีโอ)
  • Goku-T2V ทำคะแนน 84.85 ในการเปรียบเทียบประสิทธิภาพของ VBench และอยู่อันดับ 2 ณ วันที่ 7 ตุลาคม 2024
    • มีผลงานเหนือกว่าโมเดลข้อความ-สู่วิดีโอเชิงพาณิชย์หลายตัว (AnimateDiff-V2, OpenSora, Gen-3, Kling เป็นต้น)

2 ความคิดเห็น

 
kimhj 2025-02-14

ช่วงนี้ ByteDance ดูจะปล่อยงานวิจัยด้านเทคโนโลยีที่เกี่ยวข้องออกมาเยอะมาก.. คิดว่าอีกไม่นานก็น่าจะถูกนำไปใช้กับ TikTok ด้วย

 
xguru 2025-02-14

Goku+: Video Ads Foundation Models

ด้านล่างนี้มีกรณีการใช้งานจริงที่น่าสนใจกว่ามาก

สามารถสร้างอวตารสำหรับการตลาด หรือสร้างคลิปวิดีโอจากภาพสินค้าก็ได้
จากนั้นก็นำสิ่งนั้นมาผสานคนกับสินค้าเข้าด้วยกัน จนสร้างเป็นวิดีโอแนะนำสินค้าได้เลย
เลยทำได้ทั้งวิดีโอที่กำลังกินอาหาร สวมเสื้อผ้าแล้วเดิน แต่งหน้า ไปจนถึงสระผมได้อย่างคล่องแคล่ว
คิดว่าน่าจะเป็นตัวอย่างที่ออกแบบมาเฉพาะสำหรับโซเชียลคอมเมิร์ซของจีน