1 คะแนน โดย GN⁺ 2025-04-17 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • เปิดให้ใช้งานฟีเจอร์ที่แปลงพรอมป์ต์ข้อความเป็นวิดีโอความละเอียดสูงความยาว 8 วินาทีผ่าน Gemini และ Whisk
  • สามารถสร้างวิดีโอที่สมจริงได้ด้วยโมเดล Veo 2 และเปิดให้ผู้สมัครสมาชิก Google One AI Premium ใช้งาน
  • Whisk Animate สามารถแปลงภาพเป็นคลิปแอนิเมชันความยาว 8 วินาทีได้
  • เพื่อความปลอดภัย วิดีโอที่สร้างทั้งหมดจะมีลายน้ำดิจิทัล SynthID ฝังอยู่

วิธีสร้างวิดีโอใน Gemini

  • Veo 2 เป็นโมเดลที่สามารถสร้างวิดีโอความละเอียดสูงและมีรายละเอียดได้ โดยเข้าใจทั้งฟิสิกส์ที่สมจริงและการเคลื่อนไหวของมนุษย์ จึงสร้างการเคลื่อนไหวของตัวละครที่มีชีวิตชีวาและฉากที่ดูสมจริงได้
  • ผู้ใช้สามารถเลือก Veo 2 ใน Gemini เพื่อสร้างคลิปวิดีโอความยาว 8 วินาทีที่ความละเอียด 720p ได้
  • เพียงอธิบายฉาก Gemini ก็จะนำไอเดียไปสร้างเป็นวิดีโอ และยิ่งอธิบายละเอียดเท่าไร ก็ยิ่งควบคุมผลลัพธ์สุดท้ายของวิดีโอได้มากขึ้น
  • วิดีโอที่สร้างขึ้นสามารถแชร์ไปยังแพลตฟอร์มอย่าง TikTok หรือ YouTube Shorts ได้อย่างง่ายดาย

เติมชีวิตให้ภาพด้วย Whisk Animate

  • Whisk เป็นการทดลองของ Google Labs ที่ช่วยให้มองเห็นไอเดียใหม่ ๆ ผ่านการใช้พรอมป์ต์ทั้งข้อความและภาพ
  • ผ่าน Whisk Animate สามารถแปลงภาพให้เป็นวิดีโอความยาว 8 วินาทีที่มีชีวิตชีวาได้ และเปิดให้ผู้สมัครสมาชิก Google One AI Premium ใช้งาน

แนวทางด้านความปลอดภัย

  • เพื่อความปลอดภัยของการสร้างวิดีโอ วิดีโอทั้งหมดที่สร้างด้วย Veo 2 จะมีลายน้ำดิจิทัล SynthID ฝังอยู่
  • จะมีการปรับปรุงอย่างต่อเนื่องผ่านฟีดแบ็กจากผู้ใช้ และมีการประเมินเพื่อป้องกันการสร้างเนื้อหาที่ละเมิดนโยบาย

2 ความคิดเห็น

 
GN⁺ 2025-04-17
ความคิดเห็นจาก Hacker News
  • Whisk เปิดตัวแบบเงียบ ๆ เมื่อหลายเดือนก่อนในฐานะเดโมของ Imagen 3 น่าแปลกที่มันสนุกและทำมาได้แข็งแรงดี

    • ใช้กลเม็ดแปลงรูปภาพที่อัปโหลดเป็นคำอธิบายข้อความ
    • อาศัยจุดแข็งของ text encoder สมัยใหม่ของ Imagen 3 ที่สามารถทำตามคำอธิบายที่ถูกแปลงมายาว ๆ ได้
  • อยากซื้อหุ้น "ใช่" ในอีเวนต์ของ Polymarket ที่ทำนายว่าภายในปี 2027 จะมีภาพยนตร์ที่สร้างโดยคนคนเดียวทำรายได้เกิน 100 ล้านดอลลาร์

  • สร้างวิดีโอ 8 วินาที 12 คลิปใน Veo2 แล้วใช้ GCP เครดิตไป 48 ดอลลาร์ ต้องระวังให้ดี

  • ไม่คิดว่าจะสามารถสร้างวิดีโอ 8 วินาทีได้นอกเหนือจาก API แบบเสียเงิน

  • ไม่ได้เชี่ยวชาญด้านเทคนิคในสายนี้ แต่สงสัยว่าทำไมทุกอย่างถึงเป็น text-to-X

    • คิดว่าน่าจะทำอะไรอย่างการใช้ตัวแก้ไขสไตล์ keyframe แบบดั้งเดิม พร้อมสเก็ตช์ภูมิประเทศคร่าว ๆ ใส่รูปตัวละคร และวาด 3D spline เพื่อให้ควบคุมรายละเอียดเชิงสร้างสรรค์ได้มากขึ้น
  • การทำโฆษณาในสไตล์ Ghibli ถือว่ากล้ามาก นึกว่าสไตล์นั้นคงถูกใช้จนหมดแล้วตอนนี้

  • Google Vids ก็ใช้ Veo 2 เช่นกัน มีความสับสนด้านผลิตภัณฑ์อยู่

  • การกลั่นกรองเนื้อหาน่าหงุดหงิดมาก อาจเป็นเหตุผลหลักที่ทำให้ Veo2 และ Gemini ล้มเหลวในท้ายที่สุด

    • อยากทำวิดีโอตลก ๆ ของเด็กที่เล่นเป็นซูเปอร์ฮีโร่ แต่ก็ล้มเหลวซ้ำ ๆ
  • ทั้งหมดนี้น่าทึ่งมากในเชิงเทคนิค แต่สำหรับคนที่ทุ่มเททำงานในสายนี้ มันเป็นสัญญาณเตือนใหญ่

    • text-to-anything นั้นเหนื่อยล้ามาก ต่อให้ผลลัพธ์ดูเท่ ก็ไม่รู้สึกอะไรเพราะไม่ใช่สิ่งที่ฉันทำเอง
    • 97% ของกรณี ผลลัพธ์ไม่ใช่สิ่งที่ต้องการ และถ้าเปลี่ยนข้อความนิดเดียวก็ได้ผลลัพธ์ผิดแบบใหม่อีก
    • กระบวนการทั้งหมดนี้เผาผลาญทั้งเงินในกระเป๋า ความอดทน และจิตวิญญาณของฉัน
    • ไม่รู้ว่า "เครื่องมือ" พวกนี้จะช่วยครีเอเตอร์ได้อย่างไร จนถึงตอนนี้ผลิตภัณฑ์ที่ออกมาจากเครื่องมือเหล่านี้มีแต่บริษัทสแปมบน TikTok/อินเทอร์เน็ตทั่วไป
  • Krita-ai-diffusion ที่เชื่อมกับ Krita และผสาน img2img, masking และ txt2img คือเครื่องมือที่ใกล้เคียงที่สุดกับการเสริมพลังให้ศิลปิน

  • เป็นการเปิดตัวที่น่าประทับใจมากเมื่อเทียบกับหนึ่งปีก่อน ตอนนี้ในวงการ ML บริษัทใหญ่ทุกเจ้ากำลังแข่งกันและผลักดันเทคโนโลยีให้ก้าวหน้า ซึ่งเป็นสถานการณ์ที่ดี นี่เป็นเรื่องที่พบได้ไม่บ่อยในสหรัฐฯ (หรือโดยทั่วไป)