14 คะแนน โดย GN⁺ 2023-11-22 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • Stable Video Diffusion เป็นโมเดลวิดีโอเชิงกำเนิดตัวแรกที่สร้างบนพื้นฐานของโมเดลภาพ Stable Diffusion
  • เปิดให้ใช้งานในรูปแบบพรีวิวสำหรับงานวิจัย และโมเดลวิดีโอ Generative AI รุ่นใหม่นี้ถือเป็นก้าวสำคัญในการเดินทางสู่การสร้างโมเดลหลากหลายประเภท
  • โค้ดสามารถดูได้ในที่เก็บ GitHub และค่าน้ำหนักที่จำเป็นสำหรับการรันโมเดลแบบโลคัลสามารถดูได้ที่หน้า Hugging Face

นำไปใช้กับแอปพลิเคชันวิดีโอได้หลากหลาย

  • โมเดลวิดีโอสามารถนำไปประยุกต์ใช้กับงานปลายน้ำได้อย่างง่ายดายหลากหลายแบบ รวมถึงการสังเคราะห์หลายมุมมองจากภาพเดี่ยว
  • เช่นเดียวกับระบบนิเวศที่สร้างขึ้นรอบ Stable Diffusion มีแผนสำหรับโมเดลหลากหลายแบบที่จะสร้างและขยายต่อบนฐานนี้
  • สามารถลงทะเบียน Waitlist สำหรับประสบการณ์เว็บใหม่ที่มาพร้อมอินเทอร์เฟซ text-to-video ได้ตั้งแต่วันนี้

มีความสามารถในการแข่งขันด้านประสิทธิภาพ

  • Stable Video Diffusion เปิดตัวด้วยโมเดล image-to-video สองรุ่นที่สามารถสร้างเฟรมได้ 14 และ 25 เฟรม โดยปรับอัตราเฟรมได้ตั้งแต่ 3 ถึง 30 เฟรมต่อวินาที
  • ตั้งแต่ช่วงที่เปิดตัวในรูปแบบพื้นฐาน การประเมินจากภายนอกแสดงให้เห็นว่าโมเดลเหล่านี้เหนือกว่าโมเดลปิดชั้นนำในการศึกษาความพึงพอใจของผู้ใช้

สำหรับงานวิจัยเท่านั้น

  • แม้จะมุ่งมั่นอย่างมากในการอัปเดตโมเดลด้วยความก้าวหน้าล่าสุดและผสานรวมข้อเสนอแนะ แต่ขอเน้นว่าในระยะปัจจุบันยังไม่ใช่สำหรับการใช้งานจริงหรือการประยุกต์ใช้เชิงพาณิชย์
  • มุมมองและข้อเสนอแนะเกี่ยวกับความปลอดภัยและคุณภาพมีความสำคัญต่อการปรับแต่งโมเดลเพื่อการเปิดตัวขั้นสุดท้าย

การขยายตัวอย่างต่อเนื่องของโมเดล AI

  • Stable Video Diffusion เป็นส่วนเสริมที่น่าภาคภูมิใจของชุดโมเดลโอเพนซอร์สที่ครอบคลุมหลายโมดาลิตี รวมถึงภาพ ภาษา เสียง 3D และโค้ด
  • เป็นพอร์ตโฟลิโอที่พิสูจน์ถึงความมุ่งมั่นของ Stability AI ในการเสริมศักยภาพสติปัญญามนุษย์

ความเห็นของ GN⁺

  • สิ่งสำคัญที่สุดในบทความนี้คือการเปิดตัวโมเดล Stable Video Diffusion ซึ่งแสดงให้เห็นถึงความก้าวหน้าของเทคโนโลยี AI และเปิดโอกาสให้ประยุกต์ใช้ได้ในหลากหลายสาขา
  • เทคโนโลยีนี้มอบเครื่องมือใหม่ให้กับนักวิจัยและนักพัฒนา และทำให้การสร้างวิดีโอเชิงสร้างสรรค์เป็นไปได้ จึงน่าคาดหวังว่าจะมีการประยุกต์ใช้ที่น่าสนใจในหลายด้าน เช่น โฆษณา การศึกษา และความบันเทิง

2 ความคิดเห็น

 
xguru 2023-11-22

ช่วงเวลา Stable Diffusion กำลังมาถึงสำหรับ LLM

ตอนนี้ช่วงเวลา Stable Diffusion นี้กำลังจะมาถึงฝั่งวิดีโอด้วยหรือเปล่า? ดูแล้วช่วงนี้ในบรรดาสตาร์ตอัป AI ต่างประเทศ จุดที่เงินกำลังไหลไปรวมกันก็น่าจะเป็นฝั่งวิดีโอจริง ๆ

 
GN⁺ 2023-11-22
ความคิดเห็นจาก Hacker News
  • ที่ด้านล่างของหน้าวิดีโอมีนกสองตัว (นกสีฟ้า) ปรากฏขึ้น และในพื้นหลังมีอาคารที่เหมือนกันสองหลังซึ่งดูคล้าย CN Tower มาก CN Tower เป็นแลนด์มาร์กสำคัญของโตรอนโต และทีมเบสบอลของโตรอนโตก็มีชื่อว่า Blue Jays หอคอยนี้ตั้งอยู่ใกล้สนามกีฬาหลักในย่านใจกลางเมือง ผมพอเข้าใจคร่าว ๆ เกี่ยวกับวิธีแปลงข้อความเป็นภาพ และคิดว่ามันสมเหตุสมผลที่ "นกสีฟ้า" จะอยู่ใกล้กับ "โตรอนโต" หรือ "CN Tower" ในเวกเตอร์สเปซ การเพิ่มขนาดและความเร็วจากภาพไปสู่วิดีโอนั้นน่าประทับใจ แต่เมื่อเห็นแล้วว่าโมเดลสร้างภาพมีความสามารถมากแค่ไหน ก็รู้สึกว่ายังมีข้อจำกัดเพราะขาดความสามารถด้านการแก้ไขหรือการทำงานแบบวนซ้ำ ตัวอย่างเช่น ผมสงสัยว่ามีโซลูชันที่ทำให้โมเดลทำงานแบบวนซ้ำได้หรือไม่ด้วยพรอมป์ต์อย่าง "ย้ายจักรยานในภาพไปทางซ้าย" รู้สึกว่าวงการนี้กำลังพัฒนาเร็วมาก

  • ความก้าวหน้าในด้านแมชชีนเลิร์นนิงเมื่อปีที่แล้วน่าทึ่งมาก ถ้า Controlnet ถูกนำไปใช้กับวิดีโอได้อย่างเหมาะสม ก็น่าตื่นเต้นที่จะได้เห็นว่าผู้คนจะใช้เทคโนโลยีนี้อย่างไร การสร้างวิดีโอตั้งแต่ต้นก็น่าสนใจ แต่ประโยชน์ที่แท้จริงของเทคโนโลยีนี้อยู่ที่ความสอดคล้องตามเวลา โดยทั่วไปยังต้องมีการปรับแต่งภายหลังด้วยมือจำนวนมากเพื่อให้ได้วิดีโอที่เสถียร

  • ผมยังสงสัยอยู่ดีว่าไลเซนส์โมเดลแบบ "ไม่ใช่เชิงพาณิชย์" จะบังคับใช้ได้อย่างไร ไลเซนส์ซอฟต์แวร์ควบคุมการแจกจ่ายซอฟต์แวร์ต่อ แต่ไม่ได้ควบคุมผลงานที่สร้างขึ้นจากมัน ตัวอย่างเช่น ภาพที่สร้างด้วย GIMP ไม่ได้อยู่ภายใต้ไลเซนส์ GPL

  • วงการนี้เคลื่อนไหวเร็วมาก มีงานวิจัยใหม่ออกมาในพริบตา ความเร็วในการเรียนรู้ของมนุษย์น่าทึ่งมาก การนำสิ่งนี้ไปใช้กับ downstream tasks นั้นน่าสนใจมาก ผมสงสัยว่าจะรวมโมเดลนี้กับ animatediff ได้ง่ายแค่ไหน นอกจากนี้อยากรู้ว่าสามารถรัน benchmark บนอุปกรณ์ m3 ได้หรือไม่ และการใช้ m3 pro เพื่อรันการอนุมานและการพัฒนา diffusion แบบนี้คุ้มค่าหรือเปล่า

  • เป็นการก้าวกระโดดทางเทคนิคที่น่าหลงใหล ทำให้นึกถึงความแตกต่างระหว่าง ancestral samplers และ non-ancestral samplers ตัวอย่างเช่น วิธี Euler ค่อนข้างเป็นแบบกำหนดแน่นอน และแม้เพิ่มขั้นตอนการสุ่มตัวอย่าง เอาต์พุตก็ไม่เปลี่ยน แต่ Euler Ancestral จะเพิ่ม noise ในแต่ละขั้นเพื่อสร้างความหลากหลายมากขึ้น แต่ก็สุ่ม/เป็นเชิงความน่าจะเป็นมากกว่า สำหรับการสร้างวิดีโอ ผมคิดว่าตัว sampler ต้องพึ่งพาเฟรมก่อนหน้าอย่างมาก พร้อมกับใส่ sub-prompt บางอย่างเข้าไป เช่น "หมุนวัตถุที่กำหนดไปทางซ้าย 5 องศา" เป็นต้น ผมชอบคำว่า "ความสอดคล้องตามเวลา (temporal consistency)" ที่ผู้แสดงความเห็นอีกคนใช้

  • มันสมเหตุสมผลว่าการลบทุกคัตและทุกเฟดออกจากข้อมูลฝึกจะช่วยปรับปรุงผลลัพธ์ได้ ในส่วนพื้นหลังของบทความวิจัยมีการกล่าวถึง "temporal convolution layers" มีใครอธิบายได้ไหมว่านี่คืออะไร ผมสงสัยว่ามีการป้อนข้อมูลฝึกแบบใดเพื่อแทนสถานะตามเวลาระหว่างภาพที่ประกอบกันเป็นวิดีโอ หรือมันหมายถึงอย่างอื่น

  • เป็นความก้าวหน้าที่เจ๋งมาก เมื่อไม่กี่เดือนก่อนผมลองใช้โมเดลสร้าง "วิดีโอ" บางตัวบน Replicate และได้ผลลัพธ์ที่เจ๋งมาก แต่ท้ายที่สุดก็เห็นได้ชัดว่าวิดีโอที่ออกมาถูกสร้างขึ้นโดยใช้เฟรมก่อนหน้าเป็นพรอมป์ต์ เทคโนโลยีนี้ดูเหมือนจะสร้างสิ่งที่มีบริบทในระดับสูงกว่าได้จริง การได้เห็นระดับความก้าวหน้าแบบนี้ในเวลาเพียงครึ่งปีนิด ๆ นั้นน่าทึ่งมาก

  • ขอให้ Stability.ai ช่วยตรวจสอบว่าบอร์ดบริหารมีเหตุมีผลหรือไม่

  • ตื่นเต้นมากที่จะได้ลองใช้เทคโนโลยีนี้ ขอนำเสนอการทดลองบางอย่างที่ทำเมื่อเร็ว ๆ นี้

  • เช่นเดียวกับภาพนิ่ง การสังเกตข้อบกพร่องเล็ก ๆ น้อย ๆ ที่ไม่ได้ตั้งใจนั้นน่าสนใจมาก ตัวอย่างเช่น ผู้ชายที่สวมหมวกคาวบอยดูเหมือนเกือบจะหายใจไม่ออก และในวิดีโอรถไฟ รางรถไฟดูเหมือนกว้างเกินไปขณะที่รถไฟเคลื่อนที่ราวกับกำลังเล่นสเก็ตอยู่บนพื้นน้ำแข็ง