สร้างวิดีโอใน Gemini และ Whisk ด้วยโมเดลสร้างวิดีโอ Veo 2

(blog.google)

1 คะแนน โดย GN⁺ 2025-04-17 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

เปิดให้ใช้งานฟีเจอร์ที่แปลงพรอมป์ต์ข้อความเป็นวิดีโอความละเอียดสูงความยาว 8 วินาทีผ่าน Gemini และ Whisk
สามารถสร้างวิดีโอที่สมจริงได้ด้วยโมเดล Veo 2 และเปิดให้ผู้สมัครสมาชิก Google One AI Premium ใช้งาน
Whisk Animate สามารถแปลงภาพเป็นคลิปแอนิเมชันความยาว 8 วินาทีได้
เพื่อความปลอดภัย วิดีโอที่สร้างทั้งหมดจะมีลายน้ำดิจิทัล SynthID ฝังอยู่

วิธีสร้างวิดีโอใน Gemini

Veo 2 เป็นโมเดลที่สามารถสร้างวิดีโอความละเอียดสูงและมีรายละเอียดได้ โดยเข้าใจทั้งฟิสิกส์ที่สมจริงและการเคลื่อนไหวของมนุษย์ จึงสร้างการเคลื่อนไหวของตัวละครที่มีชีวิตชีวาและฉากที่ดูสมจริงได้
ผู้ใช้สามารถเลือก Veo 2 ใน Gemini เพื่อสร้างคลิปวิดีโอความยาว 8 วินาทีที่ความละเอียด 720p ได้
เพียงอธิบายฉาก Gemini ก็จะนำไอเดียไปสร้างเป็นวิดีโอ และยิ่งอธิบายละเอียดเท่าไร ก็ยิ่งควบคุมผลลัพธ์สุดท้ายของวิดีโอได้มากขึ้น
วิดีโอที่สร้างขึ้นสามารถแชร์ไปยังแพลตฟอร์มอย่าง TikTok หรือ YouTube Shorts ได้อย่างง่ายดาย

เติมชีวิตให้ภาพด้วย Whisk Animate

Whisk เป็นการทดลองของ Google Labs ที่ช่วยให้มองเห็นไอเดียใหม่ ๆ ผ่านการใช้พรอมป์ต์ทั้งข้อความและภาพ
ผ่าน Whisk Animate สามารถแปลงภาพให้เป็นวิดีโอความยาว 8 วินาทีที่มีชีวิตชีวาได้ และเปิดให้ผู้สมัครสมาชิก Google One AI Premium ใช้งาน

แนวทางด้านความปลอดภัย

เพื่อความปลอดภัยของการสร้างวิดีโอ วิดีโอทั้งหมดที่สร้างด้วย Veo 2 จะมีลายน้ำดิจิทัล SynthID ฝังอยู่
จะมีการปรับปรุงอย่างต่อเนื่องผ่านฟีดแบ็กจากผู้ใช้ และมีการประเมินเพื่อป้องกันการสร้างเนื้อหาที่ละเมิดนโยบาย

2 ความคิดเห็น

xguru 2025-04-17

Google DeepMind เปิดตัว Veo 2 โมเดลสร้างวิดีโอ

GN⁺ 2025-04-17

ความคิดเห็นจาก Hacker News

Whisk เปิดตัวแบบเงียบ ๆ เมื่อหลายเดือนก่อนในฐานะเดโมของ Imagen 3 น่าแปลกที่มันสนุกและทำมาได้แข็งแรงดี
- ใช้กลเม็ดแปลงรูปภาพที่อัปโหลดเป็นคำอธิบายข้อความ
- อาศัยจุดแข็งของ text encoder สมัยใหม่ของ Imagen 3 ที่สามารถทำตามคำอธิบายที่ถูกแปลงมายาว ๆ ได้
อยากซื้อหุ้น "ใช่" ในอีเวนต์ของ Polymarket ที่ทำนายว่าภายในปี 2027 จะมีภาพยนตร์ที่สร้างโดยคนคนเดียวทำรายได้เกิน 100 ล้านดอลลาร์
สร้างวิดีโอ 8 วินาที 12 คลิปใน Veo2 แล้วใช้ GCP เครดิตไป 48 ดอลลาร์ ต้องระวังให้ดี
ไม่คิดว่าจะสามารถสร้างวิดีโอ 8 วินาทีได้นอกเหนือจาก API แบบเสียเงิน
ไม่ได้เชี่ยวชาญด้านเทคนิคในสายนี้ แต่สงสัยว่าทำไมทุกอย่างถึงเป็น text-to-X
- คิดว่าน่าจะทำอะไรอย่างการใช้ตัวแก้ไขสไตล์ keyframe แบบดั้งเดิม พร้อมสเก็ตช์ภูมิประเทศคร่าว ๆ ใส่รูปตัวละคร และวาด 3D spline เพื่อให้ควบคุมรายละเอียดเชิงสร้างสรรค์ได้มากขึ้น
การทำโฆษณาในสไตล์ Ghibli ถือว่ากล้ามาก นึกว่าสไตล์นั้นคงถูกใช้จนหมดแล้วตอนนี้
Google Vids ก็ใช้ Veo 2 เช่นกัน มีความสับสนด้านผลิตภัณฑ์อยู่
การกลั่นกรองเนื้อหาน่าหงุดหงิดมาก อาจเป็นเหตุผลหลักที่ทำให้ Veo2 และ Gemini ล้มเหลวในท้ายที่สุด
- อยากทำวิดีโอตลก ๆ ของเด็กที่เล่นเป็นซูเปอร์ฮีโร่ แต่ก็ล้มเหลวซ้ำ ๆ
ทั้งหมดนี้น่าทึ่งมากในเชิงเทคนิค แต่สำหรับคนที่ทุ่มเททำงานในสายนี้ มันเป็นสัญญาณเตือนใหญ่
- text-to-anything นั้นเหนื่อยล้ามาก ต่อให้ผลลัพธ์ดูเท่ ก็ไม่รู้สึกอะไรเพราะไม่ใช่สิ่งที่ฉันทำเอง
- 97% ของกรณี ผลลัพธ์ไม่ใช่สิ่งที่ต้องการ และถ้าเปลี่ยนข้อความนิดเดียวก็ได้ผลลัพธ์ผิดแบบใหม่อีก
- กระบวนการทั้งหมดนี้เผาผลาญทั้งเงินในกระเป๋า ความอดทน และจิตวิญญาณของฉัน
- ไม่รู้ว่า "เครื่องมือ" พวกนี้จะช่วยครีเอเตอร์ได้อย่างไร จนถึงตอนนี้ผลิตภัณฑ์ที่ออกมาจากเครื่องมือเหล่านี้มีแต่บริษัทสแปมบน TikTok/อินเทอร์เน็ตทั่วไป
Krita-ai-diffusion ที่เชื่อมกับ Krita และผสาน img2img, masking และ txt2img คือเครื่องมือที่ใกล้เคียงที่สุดกับการเสริมพลังให้ศิลปิน
เป็นการเปิดตัวที่น่าประทับใจมากเมื่อเทียบกับหนึ่งปีก่อน ตอนนี้ในวงการ ML บริษัทใหญ่ทุกเจ้ากำลังแข่งกันและผลักดันเทคโนโลยีให้ก้าวหน้า ซึ่งเป็นสถานการณ์ที่ดี นี่เป็นเรื่องที่พบได้ไม่บ่อยในสหรัฐฯ (หรือโดยทั่วไป)

สร้างวิดีโอใน Gemini และ Whisk ด้วยโมเดลสร้างวิดีโอ Veo 2

วิธีสร้างวิดีโอใน Gemini

เติมชีวิตให้ภาพด้วย Whisk Animate

แนวทางด้านความปลอดภัย

บทความที่เกี่ยวข้อง

2 ความคิดเห็น

ความคิดเห็นจาก Hacker News