- Stable Video Diffusion เป็นโมเดลวิดีโอเชิงกำเนิดตัวแรกที่สร้างบนพื้นฐานของโมเดลภาพ Stable Diffusion
- เปิดให้ใช้งานในรูปแบบพรีวิวสำหรับงานวิจัย และโมเดลวิดีโอ Generative AI รุ่นใหม่นี้ถือเป็นก้าวสำคัญในการเดินทางสู่การสร้างโมเดลหลากหลายประเภท
- โค้ดสามารถดูได้ในที่เก็บ GitHub และค่าน้ำหนักที่จำเป็นสำหรับการรันโมเดลแบบโลคัลสามารถดูได้ที่หน้า Hugging Face
นำไปใช้กับแอปพลิเคชันวิดีโอได้หลากหลาย
- โมเดลวิดีโอสามารถนำไปประยุกต์ใช้กับงานปลายน้ำได้อย่างง่ายดายหลากหลายแบบ รวมถึงการสังเคราะห์หลายมุมมองจากภาพเดี่ยว
- เช่นเดียวกับระบบนิเวศที่สร้างขึ้นรอบ Stable Diffusion มีแผนสำหรับโมเดลหลากหลายแบบที่จะสร้างและขยายต่อบนฐานนี้
- สามารถลงทะเบียน Waitlist สำหรับประสบการณ์เว็บใหม่ที่มาพร้อมอินเทอร์เฟซ text-to-video ได้ตั้งแต่วันนี้
มีความสามารถในการแข่งขันด้านประสิทธิภาพ
- Stable Video Diffusion เปิดตัวด้วยโมเดล image-to-video สองรุ่นที่สามารถสร้างเฟรมได้ 14 และ 25 เฟรม โดยปรับอัตราเฟรมได้ตั้งแต่ 3 ถึง 30 เฟรมต่อวินาที
- ตั้งแต่ช่วงที่เปิดตัวในรูปแบบพื้นฐาน การประเมินจากภายนอกแสดงให้เห็นว่าโมเดลเหล่านี้เหนือกว่าโมเดลปิดชั้นนำในการศึกษาความพึงพอใจของผู้ใช้
สำหรับงานวิจัยเท่านั้น
- แม้จะมุ่งมั่นอย่างมากในการอัปเดตโมเดลด้วยความก้าวหน้าล่าสุดและผสานรวมข้อเสนอแนะ แต่ขอเน้นว่าในระยะปัจจุบันยังไม่ใช่สำหรับการใช้งานจริงหรือการประยุกต์ใช้เชิงพาณิชย์
- มุมมองและข้อเสนอแนะเกี่ยวกับความปลอดภัยและคุณภาพมีความสำคัญต่อการปรับแต่งโมเดลเพื่อการเปิดตัวขั้นสุดท้าย
การขยายตัวอย่างต่อเนื่องของโมเดล AI
- Stable Video Diffusion เป็นส่วนเสริมที่น่าภาคภูมิใจของชุดโมเดลโอเพนซอร์สที่ครอบคลุมหลายโมดาลิตี รวมถึงภาพ ภาษา เสียง 3D และโค้ด
- เป็นพอร์ตโฟลิโอที่พิสูจน์ถึงความมุ่งมั่นของ Stability AI ในการเสริมศักยภาพสติปัญญามนุษย์
ความเห็นของ GN⁺
- สิ่งสำคัญที่สุดในบทความนี้คือการเปิดตัวโมเดล Stable Video Diffusion ซึ่งแสดงให้เห็นถึงความก้าวหน้าของเทคโนโลยี AI และเปิดโอกาสให้ประยุกต์ใช้ได้ในหลากหลายสาขา
- เทคโนโลยีนี้มอบเครื่องมือใหม่ให้กับนักวิจัยและนักพัฒนา และทำให้การสร้างวิดีโอเชิงสร้างสรรค์เป็นไปได้ จึงน่าคาดหวังว่าจะมีการประยุกต์ใช้ที่น่าสนใจในหลายด้าน เช่น โฆษณา การศึกษา และความบันเทิง
2 ความคิดเห็น
ช่วงเวลา Stable Diffusion กำลังมาถึงสำหรับ LLM
ตอนนี้ช่วงเวลา Stable Diffusion นี้กำลังจะมาถึงฝั่งวิดีโอด้วยหรือเปล่า? ดูแล้วช่วงนี้ในบรรดาสตาร์ตอัป AI ต่างประเทศ จุดที่เงินกำลังไหลไปรวมกันก็น่าจะเป็นฝั่งวิดีโอจริง ๆ
ความคิดเห็นจาก Hacker News
ที่ด้านล่างของหน้าวิดีโอมีนกสองตัว (นกสีฟ้า) ปรากฏขึ้น และในพื้นหลังมีอาคารที่เหมือนกันสองหลังซึ่งดูคล้าย CN Tower มาก CN Tower เป็นแลนด์มาร์กสำคัญของโตรอนโต และทีมเบสบอลของโตรอนโตก็มีชื่อว่า Blue Jays หอคอยนี้ตั้งอยู่ใกล้สนามกีฬาหลักในย่านใจกลางเมือง ผมพอเข้าใจคร่าว ๆ เกี่ยวกับวิธีแปลงข้อความเป็นภาพ และคิดว่ามันสมเหตุสมผลที่ "นกสีฟ้า" จะอยู่ใกล้กับ "โตรอนโต" หรือ "CN Tower" ในเวกเตอร์สเปซ การเพิ่มขนาดและความเร็วจากภาพไปสู่วิดีโอนั้นน่าประทับใจ แต่เมื่อเห็นแล้วว่าโมเดลสร้างภาพมีความสามารถมากแค่ไหน ก็รู้สึกว่ายังมีข้อจำกัดเพราะขาดความสามารถด้านการแก้ไขหรือการทำงานแบบวนซ้ำ ตัวอย่างเช่น ผมสงสัยว่ามีโซลูชันที่ทำให้โมเดลทำงานแบบวนซ้ำได้หรือไม่ด้วยพรอมป์ต์อย่าง "ย้ายจักรยานในภาพไปทางซ้าย" รู้สึกว่าวงการนี้กำลังพัฒนาเร็วมาก
ความก้าวหน้าในด้านแมชชีนเลิร์นนิงเมื่อปีที่แล้วน่าทึ่งมาก ถ้า Controlnet ถูกนำไปใช้กับวิดีโอได้อย่างเหมาะสม ก็น่าตื่นเต้นที่จะได้เห็นว่าผู้คนจะใช้เทคโนโลยีนี้อย่างไร การสร้างวิดีโอตั้งแต่ต้นก็น่าสนใจ แต่ประโยชน์ที่แท้จริงของเทคโนโลยีนี้อยู่ที่ความสอดคล้องตามเวลา โดยทั่วไปยังต้องมีการปรับแต่งภายหลังด้วยมือจำนวนมากเพื่อให้ได้วิดีโอที่เสถียร
ผมยังสงสัยอยู่ดีว่าไลเซนส์โมเดลแบบ "ไม่ใช่เชิงพาณิชย์" จะบังคับใช้ได้อย่างไร ไลเซนส์ซอฟต์แวร์ควบคุมการแจกจ่ายซอฟต์แวร์ต่อ แต่ไม่ได้ควบคุมผลงานที่สร้างขึ้นจากมัน ตัวอย่างเช่น ภาพที่สร้างด้วย GIMP ไม่ได้อยู่ภายใต้ไลเซนส์ GPL
วงการนี้เคลื่อนไหวเร็วมาก มีงานวิจัยใหม่ออกมาในพริบตา ความเร็วในการเรียนรู้ของมนุษย์น่าทึ่งมาก การนำสิ่งนี้ไปใช้กับ downstream tasks นั้นน่าสนใจมาก ผมสงสัยว่าจะรวมโมเดลนี้กับ animatediff ได้ง่ายแค่ไหน นอกจากนี้อยากรู้ว่าสามารถรัน benchmark บนอุปกรณ์ m3 ได้หรือไม่ และการใช้ m3 pro เพื่อรันการอนุมานและการพัฒนา diffusion แบบนี้คุ้มค่าหรือเปล่า
เป็นการก้าวกระโดดทางเทคนิคที่น่าหลงใหล ทำให้นึกถึงความแตกต่างระหว่าง ancestral samplers และ non-ancestral samplers ตัวอย่างเช่น วิธี Euler ค่อนข้างเป็นแบบกำหนดแน่นอน และแม้เพิ่มขั้นตอนการสุ่มตัวอย่าง เอาต์พุตก็ไม่เปลี่ยน แต่ Euler Ancestral จะเพิ่ม noise ในแต่ละขั้นเพื่อสร้างความหลากหลายมากขึ้น แต่ก็สุ่ม/เป็นเชิงความน่าจะเป็นมากกว่า สำหรับการสร้างวิดีโอ ผมคิดว่าตัว sampler ต้องพึ่งพาเฟรมก่อนหน้าอย่างมาก พร้อมกับใส่ sub-prompt บางอย่างเข้าไป เช่น "หมุนวัตถุที่กำหนดไปทางซ้าย 5 องศา" เป็นต้น ผมชอบคำว่า "ความสอดคล้องตามเวลา (temporal consistency)" ที่ผู้แสดงความเห็นอีกคนใช้
มันสมเหตุสมผลว่าการลบทุกคัตและทุกเฟดออกจากข้อมูลฝึกจะช่วยปรับปรุงผลลัพธ์ได้ ในส่วนพื้นหลังของบทความวิจัยมีการกล่าวถึง "temporal convolution layers" มีใครอธิบายได้ไหมว่านี่คืออะไร ผมสงสัยว่ามีการป้อนข้อมูลฝึกแบบใดเพื่อแทนสถานะตามเวลาระหว่างภาพที่ประกอบกันเป็นวิดีโอ หรือมันหมายถึงอย่างอื่น
เป็นความก้าวหน้าที่เจ๋งมาก เมื่อไม่กี่เดือนก่อนผมลองใช้โมเดลสร้าง "วิดีโอ" บางตัวบน Replicate และได้ผลลัพธ์ที่เจ๋งมาก แต่ท้ายที่สุดก็เห็นได้ชัดว่าวิดีโอที่ออกมาถูกสร้างขึ้นโดยใช้เฟรมก่อนหน้าเป็นพรอมป์ต์ เทคโนโลยีนี้ดูเหมือนจะสร้างสิ่งที่มีบริบทในระดับสูงกว่าได้จริง การได้เห็นระดับความก้าวหน้าแบบนี้ในเวลาเพียงครึ่งปีนิด ๆ นั้นน่าทึ่งมาก
ขอให้ Stability.ai ช่วยตรวจสอบว่าบอร์ดบริหารมีเหตุมีผลหรือไม่
ตื่นเต้นมากที่จะได้ลองใช้เทคโนโลยีนี้ ขอนำเสนอการทดลองบางอย่างที่ทำเมื่อเร็ว ๆ นี้
เช่นเดียวกับภาพนิ่ง การสังเกตข้อบกพร่องเล็ก ๆ น้อย ๆ ที่ไม่ได้ตั้งใจนั้นน่าสนใจมาก ตัวอย่างเช่น ผู้ชายที่สวมหมวกคาวบอยดูเหมือนเกือบจะหายใจไม่ออก และในวิดีโอรถไฟ รางรถไฟดูเหมือนกว้างเกินไปขณะที่รถไฟเคลื่อนที่ราวกับกำลังเล่นสเก็ตอยู่บนพื้นน้ำแข็ง