11 คะแนน โดย GN⁺ 2024-05-15 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • Veo คือโมเดลสร้างวิดีโอที่ทรงพลังที่สุดเท่าที่มีมาในตอนนี้
  • สามารถสร้างวิดีโอความละเอียดสูงระดับ 1080p ที่ยาวเกิน 1 นาทีได้
  • รองรับสไตล์ภาพและสไตล์เชิงภาพยนตร์ที่หลากหลาย
  • จับนัยยะและโทนของพรอมป์ต์ได้อย่างแม่นยำ พร้อมให้การควบคุมเชิงสร้างสรรค์
  • เข้าใจเอฟเฟกต์แบบภาพยนตร์ เช่น การถ่ายแบบ time-lapse หรือภาพมุมสูงของทิวทัศน์
  • ช่วยให้การผลิตวิดีโอเข้าถึงได้สำหรับทุกคน
  • เปิดโอกาสใหม่ให้กับผู้สร้างภาพยนตร์ที่มีประสบการณ์ ครีเอเตอร์ และนักการศึกษา
  • มีแผนจะเปิดให้ใช้บางความสามารถผ่านเครื่องมือทดลองใหม่ชื่อ VideoFX
  • ในอนาคตมีแผนจะนำความสามารถของ Veo ไปใช้กับ YouTube Shorts และผลิตภัณฑ์อื่น ๆ ด้วย

ความเข้าใจภาษาและภาพที่ลึกซึ้งยิ่งขึ้น

  • ต้องตีความ text prompt ได้อย่างแม่นยำและผสานเข้ากับข้อมูลอ้างอิงด้านภาพที่เกี่ยวข้อง
  • เข้าใจภาษาธรรมชาติและความหมายเชิงภาพในระดับสูง เพื่อสร้างวิดีโอที่ทำตามพรอมป์ต์ได้อย่างซื่อตรง
  • เรนเดอร์รายละเอียดในฉากที่ซับซ้อนได้อย่างประณีต

ความสามารถด้านการควบคุมสำหรับการสร้างภาพยนตร์

  • เมื่อป้อนวิดีโอต้นทางและคำสั่งแก้ไข Veo จะนำไปใช้เพื่อสร้างวิดีโอเวอร์ชันแก้ไขใหม่
  • รองรับการแก้ไขแบบ mask ทำให้เปลี่ยนเฉพาะบางพื้นที่ของวิดีโอได้
  • เมื่อให้ทั้งภาพและ text prompt ร่วมกัน จะสร้างวิดีโอที่เป็นไปตามสไตล์และคำสั่งนั้น
  • สามารถสร้างและขยายคลิปวิดีโอที่ยาวเกิน 60 วินาทีได้จากพรอมป์ต์เดียวหรือชุดของพรอมป์ต์

การรักษาความสม่ำเสมอระหว่างเฟรมวิดีโอ

  • การรักษาความสม่ำเสมอของภาพในโมเดลสร้างวิดีโอเป็นโจทย์ที่ท้าทาย
  • latent diffusion transformer รุ่นล่าสุดของ Veo ช่วยลดการเกิดความไม่สอดคล้องเหล่านี้
  • รักษาคาแรกเตอร์ วัตถุ และสไตล์ให้คงอยู่ได้อย่างสมจริง

สร้างบนฐานงานวิจัยด้านการสร้างวิดีโอมานานหลายปี

  • Veo สร้างต่อยอดจากงานวิจัยอย่าง Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet และ Lumiere
  • ใช้สถาปัตยกรรม Transformer และ Gemini
  • เพิ่มรายละเอียดให้กับคำบรรยายของแต่ละวิดีโอมากขึ้น เพื่อให้เข้าใจและทำตามพรอมป์ต์ได้แม่นยำยิ่งขึ้น
  • ใช้การแทนข้อมูลวิดีโอแบบบีบอัดคุณภาพสูงเพื่อปรับปรุงประสิทธิภาพ

การออกแบบอย่างมีความรับผิดชอบ

  • การนำ Veo ออกสู่โลกอย่างมีความรับผิดชอบเป็นเรื่องสำคัญ
  • วิดีโอที่ Veo สร้างจะฝังลายน้ำด้วย SynthID
  • บรรเทาความเสี่ยงด้านความเป็นส่วนตัว ลิขสิทธิ์ และอคติ ผ่านตัวกรองความปลอดภัยและกระบวนการตรวจสอบความจำ
  • ออกแบบอนาคตของ Veo ผ่านความร่วมมือกับครีเอเตอร์และผู้สร้างภาพยนตร์ชั้นนำ
  • ใช้ข้อเสนอแนะของพวกเขาในการปรับปรุงเทคโนโลยีสร้างวิดีโอและส่งต่อประโยชน์ไปยังชุมชนครีเอเตอร์ในวงกว้าง

ความเห็นของ GN⁺

  • ความก้าวล้ำของ Veo: Veo เป็นโมเดลสร้างวิดีโอคุณภาพสูงที่เปิดความเป็นไปได้ใหม่ให้กับครีเอเตอร์
  • การใช้งานด้านการศึกษา: สามารถช่วยนักการศึกษาถ่ายทอดความรู้ผ่านวิดีโอได้อย่างมาก
  • การนำเทคโนโลยีมาใช้อย่างรับผิดชอบ: Veo สามารถถูกใช้งานอย่างมีความรับผิดชอบได้ผ่านลายน้ำและตัวกรองความปลอดภัย
  • ผลิตภัณฑ์คู่แข่ง: ควรมีการเปรียบเทียบกับโมเดลสร้างวิดีโออื่นที่มีความสามารถคล้ายกัน
  • ข้อพิจารณาในการนำเทคโนโลยีมาใช้: เมื่อนำ Veo มาใช้ควรคำนึงถึงประเด็นความเป็นส่วนตัวและลิขสิทธิ์อย่างเพียงพอ

2 ความคิดเห็น

 
xguru 2024-05-15

ถ้าไม่มี Sora ก็คงยอดเยี่ยมมากตามเคยนั่นแหละ.. แต่มันอดถูกเอาไปเปรียบเทียบไม่ได้เลยนะ Google นี่เกิดอะไรขึ้นถึงเป็นแบบนี้ T_T

 
GN⁺ 2024-05-15
ความคิดเห็นจาก Hacker News

สรุปรวมความคิดเห็นจาก Hacker News

  • ข้อจำกัดในมุมมองของการสร้างภาพยนตร์

    • ความเห็น: ด้วยเทคโนโลยีปัจจุบัน ยังไม่สามารถส่งผลกระทบต่อการสร้างภาพยนตร์ได้มากนัก จำเป็นต้องมีความสามารถที่ผู้กำกับจะออกคำสั่งได้อย่างเฉพาะเจาะจง ปัจจุบันยังอยู่ในระดับคอนเทนต์แบบ B-roll เป็นหลัก
  • เทคโนโลยี SynthID ของ Google

    • ความเห็น: Google ใช้เทคโนโลยี SynthID เพื่อเพิ่มลายน้ำให้กับวิดีโอที่สร้างด้วย AI เทคโนโลยีนี้ไม่ได้ใช้กับวิดีโอเท่านั้น แต่ยังใช้กับภาพ ข้อความ และเสียงด้วย
  • การเปรียบเทียบกับ Sora

    • ความเห็น: Sora ดูน่าประทับใจกว่า Sora จัดการกับคลิปยาวและการเคลื่อนไหวที่รวดเร็วได้ดี ขณะที่เดโมปัจจุบันมีเพียงคลิปสั้นและการเคลื่อนไหวช้า สิ่งเดียวที่พอจะนำมาเทียบได้คือวิดีโอไซเบอร์พังก์ แต่ก็ยังขาดความสม่ำเสมอ
  • วิดีโอตัวอย่าง 60 วินาที

    • ความเห็น: มีการให้ลิงก์วิดีโอตัวอย่างความยาว 60 วินาที ลิงก์ YouTube
  • การไม่มีวิดีโอมนุษย์

    • ความเห็น: การไม่มีวิดีโอที่มีมนุษย์อาจบ่งชี้ว่าเทคโนโลยียังมีความยากลำบากในการสร้างมนุษย์
  • การเปลี่ยนแปลงของเวลาถ่ายทำภาพยนตร์

    • ความเห็น: ตามบทความของ Wired ในปี 2014 ระบุว่า ระยะเวลาเฉลี่ยของช็อตในภาพยนตร์ภาษาอังกฤษลดลงจาก 12 วินาทีในช่วงทศวรรษ 1930 เหลือ 2.5 วินาทีในปัจจุบัน เทคโนโลยีนี้อาจส่งผลกระทบต่อโลกจริงได้มากกว่า ลิงก์บทความ Wired
  • ความประทับใจต่อวิดีโอเดโม

    • ความเห็น: วิดีโอเดโมน่าสนใจ แต่เมื่อเทียบกับเดโมของ Sora แล้วไม่น่าประทับใจนัก สำหรับสิ่งที่ Google เปิดตัว ถือว่ายังต่ำกว่าความคาดหวัง Sora ยังไม่เปิดให้ใช้งานจริง และ Veo อาจแสดงให้เห็นได้มากกว่านี้
  • วิธีรักษาความสม่ำเสมอ

    • ความเห็น: มีความสงสัยว่าเทคโนโลยีล่าสุดของ Veo รักษาความสม่ำเสมอได้อย่างไร และสงสัยว่ามี temporal memory ระหว่างเฟรมหรือไม่
  • ความคล้ายกับ Westworld

    • ความเห็น: ภาพตัวอย่างของพรอมป์แรกมีความคล้ายกับหุ่นยนต์ Gunslinger จาก Westworld ปี 1973 ซึ่งเป็นหนึ่งในกรณีการใช้คอมพิวเตอร์กราฟิกยุคแรก ๆ ลิงก์ YouTube
  • ความสับสนกับเซกเมนต์ Donald Glover

    • ความเห็น: เซกเมนต์ Donald Glover ทำให้สับสน เพราะมีเพียงคลิปสั้น ๆ ไม่กี่คลิป จึงคาดหวังว่าจะได้เห็นหนังสั้น แต่สุดท้ายกลับรู้สึกผิดหวัง