- Google DeepMind เปิดตัว Veo 3, Imagen 4 และ Flow พร้อมขยายขีดความสามารถของเครื่องมือสร้างวิดีโอ ภาพ และภาพยนตร์อย่างก้าวกระโดด
- Veo 3 มาพร้อมความสามารถอย่าง การสร้างวิดีโอพร้อมเสียง, การสะท้อนฟิสิกส์โลกจริง และ การซิงก์ริมฝีปาก
- Imagen 4 เหมาะกับงานสร้างสรรค์ชิ้นงานมากขึ้นด้วย การถ่ายทอดรายละเอียดที่ประณีต และ ความสามารถด้านไทโปกราฟีที่ดีขึ้น
- Flow คือเครื่องมือสร้างสรรค์ใหม่ที่รวมหลายโมเดลเข้าไว้ด้วยกัน เพื่อให้สามารถ สร้างภาพยนตร์ด้วยภาษาธรรมชาติ ได้
- คอนเทนต์ที่สร้างทั้งหมดจะมีการฝัง ลายน้ำ SynthID และมีการเปิดตัวเครื่องมือตรวจจับควบคู่กันเพื่อเพิ่มความโปร่งใส
ปลดปล่อยพลังความคิดสร้างสรรค์ด้วยโมเดลและเครื่องมือสื่อเชิงกำเนิดใหม่
- Google ประกาศเปิดตัว โมเดลสื่อเชิงกำเนิดรุ่นล่าสุด ได้แก่ Veo 3, Imagen 4 และ Flow เครื่องมือใหม่สำหรับการสร้างภาพยนตร์
- โมเดลเหล่านี้สามารถ สร้างภาพ วิดีโอ และเพลง เพื่อช่วยให้ครีเอเตอร์ทำให้โลกในจินตนาการกลายเป็นจริง
- Google DeepMind ได้ร่วมออกแบบเครื่องมือกับ ผู้สร้างวิดีโอ นักดนตรี และศิลปิน พร้อมเน้นย้ำการใช้ AI อย่างรับผิดชอบ
Veo 3: การสร้างวิดีโอขั้นสูงพร้อมเสียง
- Veo 3 สร้างวิดีโอคุณภาพสูงกว่า Veo 2 และ เป็นครั้งแรกที่สามารถสร้างวิดีโอที่มีทั้งเสียงบรรยากาศ บทพูด และองค์ประกอบเสียงอื่น ๆ ได้
- สามารถสร้างวิดีโอที่อิงฟิสิกส์สมจริงได้จาก พรอมต์แบบข้อความหรือภาพ และยังมี การซิงก์ริมฝีปาก ที่แม่นยำ
- พร้อมให้บริการในแอป Gemini, Flow และ Vertex AI สำหรับผู้ใช้แพ็กเกจ Ultra ในสหรัฐอเมริกา
Veo 2: เพิ่มฟีเจอร์ตามเสียงตอบรับจากครีเอเตอร์
-
Veo 2 ได้เพิ่มความสามารถต่อไปนี้จากฟีดแบ็กของครีเอเตอร์:
- การสร้างวิดีโอจากข้อมูลอ้างอิง: ป้อนภาพของตัวละคร สไตล์ หรือวัตถุ เพื่อสร้างวิดีโอที่มีความสอดคล้องกันได้
- การควบคุมกล้อง: ตั้งค่าการเคลื่อนไหวของกล้อง เช่น หมุน ซูม และดอลลี่
- Outpainting: ขยายเฟรมเพื่อเปลี่ยนจากแนวตั้งเป็นแนวนอน และขยายฉากอย่างเป็นธรรมชาติ
- การเพิ่มและลบวัตถุ: แก้ไขได้อย่างเป็นธรรมชาติโดยคำนึงถึงขนาด เงา และการโต้ตอบของวัตถุ
-
ฟีเจอร์เหล่านี้ใช้งานได้ใน Flow และจะทยอยนำไปใช้กับ Vertex AI API
Flow: เครื่องมือสร้างภาพยนตร์ด้วย AI ที่ออกแบบมาเพื่อ Veo โดยเฉพาะ
- Flow ผสาน Veo, Imagen และ Gemini เข้าด้วยกัน ทำให้สามารถกำหนดฉาก ตัวละคร และสไตล์ด้วยภาษาธรรมชาติ แล้วสร้างออกมาเป็นวิดีโอได้
- พร้อมให้บริการแก่ผู้ใช้แพ็กเกจ AI Pro และ Ultra ในสหรัฐอเมริกา และมีแผนขยายไปยังประเทศอื่น ๆ ต่อไป
Imagen 4: ยกระดับความละเอียด รายละเอียด และไทโปกราฟี
- Imagen 4 มอบ การถ่ายทอดพื้นผิวอย่างละเอียด, รองรับทั้งสไตล์โฟโตเรียลลิสติกและนามธรรม และ เอาต์พุตความละเอียด 2K
- ความสามารถด้านไทโปกราฟีได้รับการปรับปรุง ทำให้เหมาะกับการสร้าง การ์ด โปสเตอร์ และคอมิก
- ใช้งานได้ในแอป Gemini, Vertex AI, Slides, Docs และ Whisk และเวอร์ชันที่เร็วขึ้นสูงสุด 10 เท่าจะเปิดตัวในเร็ว ๆ นี้
Lyria 2: การสร้างดนตรีแบบอินเทอร์แอกทีฟ
- เป็นโมเดลใน Music AI Sandbox สำหรับนักดนตรี ช่วยสนับสนุนการทดลองสร้างสรรค์และเปิดทางให้ค้นพบดนตรีรูปแบบใหม่
- ใช้งานได้บน YouTube Shorts, Vertex AI และ MusicFX DJ พร้อมรองรับ การโต้ตอบแบบเรียลไทม์ผ่าน API และ AI Studio
ระบุคอนเทนต์ที่สร้างด้วย AI ได้ด้วย SynthID
- SynthID ที่เริ่มต้นมาตั้งแต่ปี 2023 ได้ฝังลายน้ำในคอนเทนต์ที่สร้างด้วย AI มากกว่า 10,000 ล้านรายการ ครอบคลุมทั้ง ภาพ วิดีโอ เสียง และข้อความ
- ผู้ใช้สามารถตรวจสอบได้ว่าคอนเทนต์ถูกสร้างขึ้นหรือไม่ผ่าน SynthID Detector ที่เปิดตัวใหม่
- Google ยังคงเดินหน้าด้าน การออกแบบเครื่องมืออย่างรับผิดชอบและความร่วมมือแบบเปิดเผย เพื่อให้ generative AI ถูกนำไปใช้ในทิศทางที่ช่วยเสริมงานสร้างสรรค์
1 ความคิดเห็น
ความเห็นจาก Hacker News
เมื่อลองทดสอบด้วยตัวเอง พบว่าประสิทธิภาพของ Imagen 4 ไม่ได้ดีขึ้นจาก Imagen 3 อย่างมีนัยสำคัญ และความแม่นยำในการทำตามพรอมป์ต์อยู่ราว ๆ 60%
เลยสงสัยว่าการทดสอบนี้กำลังวัดว่า “โมเดลทำได้ไหม” หรือ “ทำได้บ่อยแค่ไหน”
คิดว่าน่าจะเหมาะกว่าถ้ากำหนดอัตราความสำเร็จหรือเกณฑ์ขั้นต่ำของความสำเร็จ แล้วคงจำนวนครั้งที่ลองให้ตายตัวเพื่อวัดผล
มองว่านี่เป็นแหล่งข้อมูลที่น่าสนใจสำหรับให้เห็นขีดจำกัดของโมเดลในปัจจุบัน
ใน Gemini ก็ไม่ได้บอกว่าใช้โมเดลอะไร และก็สงสัยว่าใช้ Vertex AI หรือไม่
ตอนนี้เริ่มรู้สึกว่าเครื่องมือระดับมืออาชีพทิ้งห่างเวอร์ชันโอเพนซอร์สไปมาก
โมเดลฟรีอย่าง wan หรือ hunyuan ก็ยอดเยี่ยม แต่ผลงานล่าสุดของ Google หรือ Runway ดูเหนือกว่าอีกขั้น
โดยเฉพาะเครื่องมือแก้ไขอย่างการควบคุมการเคลื่อนไหว ทิศทาง คัต และการใส่เสียง ซึ่งเป็นจุดต่างที่สำคัญยิ่งกว่าความสามารถในการสร้างล้วน ๆ
บรรยากาศเหมือนบริษัทใหญ่กำลังรุกเป้าหมายฝั่งเอเจนซีโฆษณา/ฮอลลีวูดอย่างชัดเจน
คาดว่าวันที่เครื่องมือเหล่านี้กลายเป็นมาตรฐานอุตสาหกรรมอาจมาเร็วกว่าที่คิด
แม้ยังต้องพัฒนาอีกสัก 1-2 รุ่น แต่ก็ประเมินว่าผลงานออกมาดีมากแล้ว
การสร้างแบบโลคัลยังช่วยหลีกเลี่ยงการตรวจกรองเนื้อหาของแพลตฟอร์มที่อาจเข้มงวดเกินไปได้
แม้ comfy UI จะยากสำหรับมือใหม่ แต่เมื่อเทียบกับการใช้เครื่องมือปิดที่ควบคุมอะไรไม่ได้มากนัก ก็มองว่าช่อง YouTube เล็ก ๆ หรือโปรดักชันขนาดเล็กยังน่าจะเลือกใช้เครื่องมือโอเพนซอร์สกันมาก
และเมื่อถึงตอนนั้นก็หมายความว่าสามารถเขียนโค้ดอะไรก็ได้ในคุณภาพระดับใดก็ได้
Hunyuan Image 2.0 ถูกประกาศออกมาแล้ว และคุณภาพกับความเร็วของทั้ง text-to-image/image-to-image น่าประทับใจมาก
ถึงขั้นทำแอปแคนวาสวาดภาพ 2D แบบเรียลไทม์ที่ทำได้ครบทุกอย่างที่ Krea เคยมี
น่าเสียดายที่รอบนี้เป็น closed source ไม่เหมือนก่อน
Hunyuan 3D 2.0 ก็ดีมาก แต่ 3D 2.5 ยังไม่เปิดเผย
Hunyuan Video ยังไม่มีความคืบหน้าเมื่อเทียบกับ Wan แต่ Wan เพิ่งได้รับความสนใจจาก VACE ซึ่งเป็นเลเยอร์มัลติโมดัล/เอดิทติ้ง
และยังวิเคราะห์ต่อว่าชุมชน Comfy ก็กำลังสร้างผลงานเจ๋ง ๆ ด้วย VACE และ Wan เช่นกัน
เหตุผลที่หนังอินดี้ทุนต่ำซึ่งทั้งการกำกับและการแสดงอาจไม่ได้ดีมาก ยังทำให้ผู้ชมอิน หัวเราะ และซาบซึ้งได้ ก็เพราะมันรักษาความสม่ำเสมอของคุณภาพโดยรวมไว้ได้
ในทางกลับกัน คอนเทนต์วิดีโอ AI แม้แต่ละคลิปจะสมบูรณ์ในตัวเองมาก แต่ยังมีข้อจำกัดในการเชื่อมหลายคลิปให้เป็นงานชิ้นเดียวโดยยังคงความดื่มด่ำเอาไว้
มองว่าวิดีโอ AI อาจใช้ได้กับคอนเทนต์ที่รักษา ‘เส้นด้ายสีแดง’ ของเรื่องราวไว้ผ่านบทนำหรือเสียง แต่ก็ยังไม่ถึงขั้นที่ฮอลลีวูดต้องกังวล
ยังมีการพูดถึงเหตุผลที่องค์ประกอบอย่างเกรนฟิล์ม และฟอร์แมต 24p ยังเป็นทางเลือกเชิงศิลปะอยู่เสมอ
ช่องนี้กำลังสร้างจักรวาลภาพยนตร์ด้วยวิดีโอ AI มีผู้ติดตาม 180,000 คน และเป็นรายการที่สนุกมาก
พร้อมยืนยันว่าคำกล่าวที่ว่า “การเอาคลิปวิดีโอ AI หลายคลิปมาเรียงให้คนดูอินเป็นเรื่องอนาคตอันไกล” นั้น ถูกความจริงปัจจุบันหักล้างไปแล้ว
วิดีโอแบบ AI-native อาจต่างจากโครงสร้าง 3 องก์แบบฮอลลีวูดดั้งเดิมมาก แต่ถ้าผู้ชมย้ายไปจริง ฮอลลีวูดก็สุดท้ายคงต้องเดินตามเส้นทางเดียวกัน
ปัญหาจริงไม่ใช่คุณภาพของคอนเทนต์ แต่คืออำนาจด้านการกระจายและการเผยแพร่ และก็วิจารณ์ว่า Google ซึ่งเป็นหนึ่งในผู้จัดจำหน่ายวัฒนธรรมรายใหญ่ที่สุดของโลก กลับเมินต้นตอของความทุกข์ในวงการศิลปะ แล้วไปทุ่มแรงกับเรื่องผิดจุด
ตอนนี้น่าจะมาถึงจุดที่ทุกคนเคยเห็นวิดีโอที่ AI สร้างอย่างน้อยสักครั้ง และคิดว่ามันเป็นของจริง
ตัวอย่างที่หลอกตาเกินไปอาจดูออกง่าย แต่ยิ่งเจอบ่อยขึ้น วิดีโอ AI ก็ยิ่งค่อย ๆ เข้ามาอยู่รอบตัวเราอย่างเป็นธรรมชาติมากขึ้น
ขณะนี้ Google กำลังร่วมมือกับ Primordial Soup ซึ่งเป็น AI studio ของ Darren Aronofsky
มีความสงสัยว่าในเมื่อช่วงการประท้วงของ SAG-AFTRA มีการพูดถึงการห้ามใช้ AI ในฮอลลีวูด แล้วทำไมสตูดิโอใหม่นี้ถึงไม่โดนผลกระทบ
ดังนั้นแม้จะจ้างนักแสดงที่อยู่ในสหภาพไม่ได้ แต่ดูแล้วก็ไม่น่าเป็นปัญหาใหญ่สำหรับลักษณะของบริษัทนี้
ทึ่งกับระดับทางเทคนิคของงานครั้งนี้อย่างมาก ซิงก์ระหว่างเสียงกับวิดีโอยอดเยี่ยมจริง ๆ และบทสนทนาก็ดีไม่แพ้โมเดลเสียงเฉพาะทางเลย
รู้สึกถึง uncanny valley เล็กน้อยในวิดีโอนกฮูกและวิดีโอชายสูงอายุ ส่วนวิดีโอพับกระดาษให้ความรู้สึกคุกคามและก้าวร้าวนิด ๆ
เมื่อก่อนหากอยากทำวิดีโอที่ให้ความรู้สึกแปลกแยกแบบนี้ ต้องใช้ทีมพัฒนาขนาดใหญ่ ศิลปินจำนวนมาก ซูเปอร์คอมพิวเตอร์คลัสเตอร์ และเวลาเรนเดอร์นานมาก แต่ตอนนี้ขอแค่มีคลัสเตอร์ใหญ่และเวลาในการอนุมานก็พอ
รู้สึกชื่นชมทีมพัฒนาอย่างจริงใจต่อเทคโนโลยีที่น่าทึ่งนี้
แต่ขณะเดียวกันก็เสียดายมาก
อยากให้ AI ไปช่วยทำงานที่ไม่สร้างสรรค์ให้เป็นอัตโนมัติมากขึ้น และไม่อยากให้ผู้สร้างสรรค์ถูกกระแสคอนเทนต์ AI ท่วมกลบ
ตอนนี้ความแม่นยำของ AI ยังอยู่แถว 80% แต่การเติมเต็ม 20% ที่เหลือนั้นเป็นการเดินทางที่หนักหนามาก
เปรียบเหมือนถึงจุดหมายด้วยเครื่องบินที่เร็วแล้ว แต่ก้าวสุดท้ายไปสู่ความสมบูรณ์ยังติดปัญหาเหมือนรถติด
และคาดหวังถึงความเป็นไปได้ใหม่ ๆ ของงานสร้างสรรค์ที่ AI จะเปิดขึ้นในอนาคต
ดนตรีก็เช่นกัน ก่อนมีเทคโนโลยีการบันทึก มีแต่การแสดงสดเท่านั้นที่เป็นของจริง
มุมมองหนึ่งคือยุคดิจิทัลในปัจจุบันอาจกลับเป็นช่วงเวลาแปลกประหลาดในประวัติศาสตร์ศิลปะก็ได้
และในความเป็นจริง การนั่งทำโมเดลและ rigging ด้วยมือเป็นสิบ ๆ ชั่วโมงต่างหาก ที่อาจเป็นแรงงานแบบไม่สร้างสรรค์ยิ่งกว่า
มองว่าน่าสนใจที่มีตรรกะว่าโมเดล AI สร้างความคิดสร้างสรรค์ขึ้นมาเพื่อช่วยให้ศิลปินทำให้วิสัยทัศน์เชิงสร้างสรรค์ของตนเป็นจริง
ในยุคใหม่ บทบาทกำลังเปลี่ยนจาก ‘การสร้างอะไรบางอย่าง’ ไปเป็น ‘การชักนำให้มันเกิดขึ้น’
จึงเกิดคำถามต่อแก่นแท้ของการสร้างสรรค์ เช่น งานสร้างจาก text prompt จะนับเป็น ‘วิสัยทัศน์’ จริงหรือไม่ และถ้าไม่มี ‘กระบวนการ’ ยังเหลือหนทางของศิลปะอยู่หรือเปล่า
แนวคิดเรื่องการสร้างสรรค์เองก็กำลังถูกนิยามใหม่อย่างแยบคาย
ซึ่งเป็นการนิยามใหม่ที่สะดวกมากสำหรับพวกเขา
แก่นแท้ของศิลปะ ตัวผลงาน กระบวนการ และความสัมพันธ์ระหว่างสิ่งเหล่านี้ เป็นเรื่องที่ถกเถียงกันอย่างไรก็ไม่สิ้นสุด
มีอุปมาที่น่าสนใจว่าเรื่องนี้คล้ายกับการสับสนระหว่าง pointer ในโครงสร้างข้อมูลกับตัวข้อมูลจริง
เช่นเดียวกับที่วิศวกรซอฟต์แวร์ทำให้วิสัยทัศน์ของตนเป็นจริงผ่านซอร์สโค้ด วงการสร้างสรรค์ก็น่าจะเปลี่ยนตามไปด้วย
(ดนตรีดิจิทัล/ทีวี/ศิลปะดิจิทัล)
จนเหลือเพียงคนส่วนน้อยที่ยังมองวิธีแบบเดิมว่าเป็นศิลปะชั้นสูง
สงสัยว่ามีใครได้ลองใช้ Veo3 จริง ๆ บ้างไหม
วิดีโอเดโมดูน่าประทับใจ แต่จากประสบการณ์ส่วนตัวตอนใช้ Sora นั้น ประสบการณ์ใช้งานจริงน่าผิดหวังมากและมีทั้งช่วงที่เวิร์กกับไม่เวิร์กสลับกันไป