- Veo คือโมเดลสร้างวิดีโอที่ทรงพลังที่สุดเท่าที่มีมาในตอนนี้
- สามารถสร้างวิดีโอความละเอียดสูงระดับ 1080p ที่ยาวเกิน 1 นาทีได้
- รองรับสไตล์ภาพและสไตล์เชิงภาพยนตร์ที่หลากหลาย
- จับนัยยะและโทนของพรอมป์ต์ได้อย่างแม่นยำ พร้อมให้การควบคุมเชิงสร้างสรรค์
- เข้าใจเอฟเฟกต์แบบภาพยนตร์ เช่น การถ่ายแบบ time-lapse หรือภาพมุมสูงของทิวทัศน์
- ช่วยให้การผลิตวิดีโอเข้าถึงได้สำหรับทุกคน
- เปิดโอกาสใหม่ให้กับผู้สร้างภาพยนตร์ที่มีประสบการณ์ ครีเอเตอร์ และนักการศึกษา
- มีแผนจะเปิดให้ใช้บางความสามารถผ่านเครื่องมือทดลองใหม่ชื่อ VideoFX
- ในอนาคตมีแผนจะนำความสามารถของ Veo ไปใช้กับ YouTube Shorts และผลิตภัณฑ์อื่น ๆ ด้วย
ความเข้าใจภาษาและภาพที่ลึกซึ้งยิ่งขึ้น
- ต้องตีความ text prompt ได้อย่างแม่นยำและผสานเข้ากับข้อมูลอ้างอิงด้านภาพที่เกี่ยวข้อง
- เข้าใจภาษาธรรมชาติและความหมายเชิงภาพในระดับสูง เพื่อสร้างวิดีโอที่ทำตามพรอมป์ต์ได้อย่างซื่อตรง
- เรนเดอร์รายละเอียดในฉากที่ซับซ้อนได้อย่างประณีต
ความสามารถด้านการควบคุมสำหรับการสร้างภาพยนตร์
- เมื่อป้อนวิดีโอต้นทางและคำสั่งแก้ไข Veo จะนำไปใช้เพื่อสร้างวิดีโอเวอร์ชันแก้ไขใหม่
- รองรับการแก้ไขแบบ mask ทำให้เปลี่ยนเฉพาะบางพื้นที่ของวิดีโอได้
- เมื่อให้ทั้งภาพและ text prompt ร่วมกัน จะสร้างวิดีโอที่เป็นไปตามสไตล์และคำสั่งนั้น
- สามารถสร้างและขยายคลิปวิดีโอที่ยาวเกิน 60 วินาทีได้จากพรอมป์ต์เดียวหรือชุดของพรอมป์ต์
การรักษาความสม่ำเสมอระหว่างเฟรมวิดีโอ
- การรักษาความสม่ำเสมอของภาพในโมเดลสร้างวิดีโอเป็นโจทย์ที่ท้าทาย
- latent diffusion transformer รุ่นล่าสุดของ Veo ช่วยลดการเกิดความไม่สอดคล้องเหล่านี้
- รักษาคาแรกเตอร์ วัตถุ และสไตล์ให้คงอยู่ได้อย่างสมจริง
สร้างบนฐานงานวิจัยด้านการสร้างวิดีโอมานานหลายปี
- Veo สร้างต่อยอดจากงานวิจัยอย่าง Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet และ Lumiere
- ใช้สถาปัตยกรรม Transformer และ Gemini
- เพิ่มรายละเอียดให้กับคำบรรยายของแต่ละวิดีโอมากขึ้น เพื่อให้เข้าใจและทำตามพรอมป์ต์ได้แม่นยำยิ่งขึ้น
- ใช้การแทนข้อมูลวิดีโอแบบบีบอัดคุณภาพสูงเพื่อปรับปรุงประสิทธิภาพ
การออกแบบอย่างมีความรับผิดชอบ
- การนำ Veo ออกสู่โลกอย่างมีความรับผิดชอบเป็นเรื่องสำคัญ
- วิดีโอที่ Veo สร้างจะฝังลายน้ำด้วย SynthID
- บรรเทาความเสี่ยงด้านความเป็นส่วนตัว ลิขสิทธิ์ และอคติ ผ่านตัวกรองความปลอดภัยและกระบวนการตรวจสอบความจำ
- ออกแบบอนาคตของ Veo ผ่านความร่วมมือกับครีเอเตอร์และผู้สร้างภาพยนตร์ชั้นนำ
- ใช้ข้อเสนอแนะของพวกเขาในการปรับปรุงเทคโนโลยีสร้างวิดีโอและส่งต่อประโยชน์ไปยังชุมชนครีเอเตอร์ในวงกว้าง
ความเห็นของ GN⁺
- ความก้าวล้ำของ Veo: Veo เป็นโมเดลสร้างวิดีโอคุณภาพสูงที่เปิดความเป็นไปได้ใหม่ให้กับครีเอเตอร์
- การใช้งานด้านการศึกษา: สามารถช่วยนักการศึกษาถ่ายทอดความรู้ผ่านวิดีโอได้อย่างมาก
- การนำเทคโนโลยีมาใช้อย่างรับผิดชอบ: Veo สามารถถูกใช้งานอย่างมีความรับผิดชอบได้ผ่านลายน้ำและตัวกรองความปลอดภัย
- ผลิตภัณฑ์คู่แข่ง: ควรมีการเปรียบเทียบกับโมเดลสร้างวิดีโออื่นที่มีความสามารถคล้ายกัน
- ข้อพิจารณาในการนำเทคโนโลยีมาใช้: เมื่อนำ Veo มาใช้ควรคำนึงถึงประเด็นความเป็นส่วนตัวและลิขสิทธิ์อย่างเพียงพอ
2 ความคิดเห็น
ถ้าไม่มี Sora ก็คงยอดเยี่ยมมากตามเคยนั่นแหละ.. แต่มันอดถูกเอาไปเปรียบเทียบไม่ได้เลยนะ Google นี่เกิดอะไรขึ้นถึงเป็นแบบนี้ T_T
ความคิดเห็นจาก Hacker News
สรุปรวมความคิดเห็นจาก Hacker News
ข้อจำกัดในมุมมองของการสร้างภาพยนตร์
เทคโนโลยี SynthID ของ Google
การเปรียบเทียบกับ Sora
วิดีโอตัวอย่าง 60 วินาที
การไม่มีวิดีโอมนุษย์
การเปลี่ยนแปลงของเวลาถ่ายทำภาพยนตร์
ความประทับใจต่อวิดีโอเดโม
วิธีรักษาความสม่ำเสมอ
ความคล้ายกับ Westworld
ความสับสนกับเซกเมนต์ Donald Glover