Google DeepMind เปิดตัว Veo 2 โมเดลสร้างวิดีโอ

(deepmind.google)

7 คะแนน โดย GN⁺ 2024-12-17 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Veo 2 เป็นโมเดลสร้างวิดีโอระดับล้ำสมัย ที่ให้การเคลื่อนไหวสมจริงและเอาต์พุตคุณภาพสูงสูงสุดถึง 4K
สามารถสำรวจสไตล์ที่หลากหลายและค้นหาสไตล์ของตัวเองได้ผ่านการควบคุมกล้องอย่างกว้างขวาง
นิยามใหม่ของคุณภาพและการควบคุม
- Veo 2 ปฏิบัติตามคำสั่งได้อย่างแม่นยำทั้งแบบง่ายและซับซ้อน พร้อมจำลองฟิสิกส์ของโลกจริงและสไตล์ภาพที่หลากหลายได้อย่างน่าเชื่อถือ
- ความสมจริงและความเที่ยงตรงที่ดีขึ้น: ปรับปรุงอย่างมากเหนือกว่าโมเดลวิดีโอ AI อื่น ๆ ในด้านรายละเอียด ความสมจริง และการลดอาร์ติแฟกต์
- ความสามารถด้านการเคลื่อนไหวขั้นสูง: แสดงการเคลื่อนไหวได้อย่างแม่นยำสูง ด้วยความเข้าใจด้านฟิสิกส์และความสามารถในการทำตามคำสั่งที่ละเอียด
- ตัวเลือกการควบคุมกล้องที่มากขึ้น: ตีความและสร้างสรรค์สไตล์ช็อต มุมกล้อง และการเคลื่อนไหวที่หลากหลายได้อย่างแม่นยำ
เบนช์มาร์ก
- Veo ทำผลลัพธ์ระดับล้ำสมัยในการเปรียบเทียบกับโมเดลสร้างวิดีโอชั้นนำอื่น ๆ โดยผู้ประเมินที่เป็นมนุษย์
- มีการประเมินพรอมป์ต์ 1003 รายการและวิดีโอที่เกี่ยวข้องบน MovieGenBench โดย Veo 2 แสดงประสิทธิภาพสูงสุดทั้งในด้านความชอบโดยรวมและความสามารถในการทำตามพรอมป์ต์ได้อย่างแม่นยำ
โฆษณา
ข้อจำกัด
- Veo 2 แสดงให้เห็นถึงความก้าวหน้าอย่างน่าทึ่งในการสร้างวิดีโอที่สมจริง มีความเคลื่อนไหว และซับซ้อน แต่การรักษาความสอดคล้องอย่างสมบูรณ์ในฉากที่ซับซ้อนหรือฉากที่มีการเคลื่อนไหวซับซ้อนยังคงเป็นความท้าทาย
- มีแผนจะพัฒนาและปรับปรุงประสิทธิภาพในด้านเหล่านี้ต่อไป

1 ความคิดเห็น

GN⁺ 2024-12-17

ความเห็นจาก Hacker News

มีการแชร์ฟีดแบ็กเกี่ยวกับวิดีโอที่ผู้ใช้สร้างจากพรอมป์ต์ว่า "A pelican riding a bicycle along a coastal path overlooking a harbor" โดยจาก 4 เวอร์ชัน มี 2 เวอร์ชันเป็นนกกระทุงขี่จักรยาน, 1 เวอร์ชันเป็นนกกระทุงวิ่งบนถนน, 1 เวอร์ชันเป็นนกกระทุงนั่งอยู่บนจักรยาน และอีกอันสุดท้ายเป็นนกกระทุงสวมหมวกกันน็อกแปลก ๆ ผลลัพธ์ดีกว่า Sora
การที่มันชนะ Sora Turbo ด้วยอัตรา 2:1 ในด้านความชอบของผู้ใช้นั้นน่าประทับใจ แม้จะมีข้อจำกัดคล้ายกับ Sora แต่ดูเหมือนว่าจะเลียนแบบการเคลื่อนไหวตามธรรมชาติและฟิสิกส์ได้ดีกว่าเล็กน้อย โดยในบล็อกโพสต์อธิบายว่าสามารถขยายได้ถึงความละเอียด 4K และความยาวอาจเพิ่มได้ถึงระดับหลายนาที
มีการตั้งข้อสงสัยเกี่ยวกับความคล้ายคลึงกันระหว่างตัวอย่างที่นำเสนอในการประกาศกับข้อมูลฝึก และสงสัยว่ารายละเอียดในพรอมป์ต์ถูกสะท้อนในผลลัพธ์มากน้อยแค่ไหน ตัวอย่างเช่น คำอธิบายเกี่ยวกับเสน่ห์ดึงดูดของ DJ และพลังของดนตรีส่งผลต่อวิดีโออย่างไร
วิดีโอสเก็ตบอร์ดดูไม่สมจริง แต่บางวิดีโอก็ดูน่าเชื่อมาก
มีการบอกว่าหน้าเว็บล่มบน Chrome ของ iPad
หลังการประกาศใหญ่ของ Google ทาง OpenAI ก็ปล่อยพรีวิว Sora ออกมาและกลบกระแส Google ไป แต่ Veo 2 ดูเหมือนจะก้าวหน้ากว่า Sora
เพื่อนที่ทำงานอยู่สถานีโทรทัศน์กำลังใช้เครื่องมือประเภทนี้กับโครงการโฆษณาสาธารณะอยู่แล้ว
มีความเห็นว่า Google อาจครองตลาดการเปลี่ยนจากข้อความ/ภาพไปเป็นวิดีโอได้ ด้วยการเข้าถึง Youtube
มีการแสดงความสับสนว่าตัวอย่างของ Veo 2 ยาว 8 วินาที, ตัวอย่างของ VideoGen ยาว 10 วินาที และตัวอย่างของโมเดลอื่นยาว 5 วินาที และสงสัยว่าผลลัพธ์เชิงบวกของ Veo 2 มาจากการที่ผู้ประเมินชอบวิดีโอที่ยาวกว่าหรือไม่
มีการเปรียบแผนก AI ของ Google ว่าเหมือนเรือดำน้ำนิวเคลียร์ขนาดมหึมา เมื่อเทียบกับเรือยอชต์หรูหราของ OpenAI พร้อมทั้งตั้งประเด็นว่า Google อาจเข้าใกล้ AGI มากขึ้นแล้ว และยังกล่าวถึงสถานการณ์ของ Microsoft และ Amazon ด้วย

Google DeepMind เปิดตัว Veo 2 โมเดลสร้างวิดีโอ

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News