- AniSora คือ โมเดล AI สำหรับสร้างวิดีโอแบบโอเพนซอร์ส ที่พัฒนาโดย Bilibili และรองรับหลากหลายสไตล์ เช่น แอนิเมชัน มังงะ และ VTuber
- สามารถสร้าง วิดีโอแอนิเมชันความละเอียดสูง ที่มีความสมบูรณ์ได้อย่างง่ายดายจากพรอมต์ภาพหรือข้อความ
- มอบผลลัพธ์ที่สมจริงด้านการเคลื่อนไหวและการแสดงออก ด้วยอัลกอริทึมเฉพาะทางสำหรับ มังงะและแอนิเมชัน ร่วมกับชุดข้อมูลขนาดใหญ่
- จุดเด่นคืออินเทอร์เฟซที่ใช้งานง่ายและสภาพแวดล้อมการทำงานร่วมกันแบบชุมชนที่ แม้ผู้ใช้ที่ไม่ใช่มืออาชีพก็ใช้งานได้สะดวก
- เหมาะกับ กรณีการใช้งานที่หลากหลาย เช่น ตอนสั้น PV VTuber และคอนเซปต์อาร์ต
AniSora คืออะไร
- AniSora คือ โมเดลสร้างวิดีโอแอนิเมชันแบบโอเพนซอร์ส ที่ทรงพลังที่สุดซึ่งพัฒนาโดย Bilibili
- สามารถสร้างวิดีโอได้หลากหลายสไตล์ด้วยการคลิกเพียงครั้งเดียว เช่น ซีรีส์แอนิเมชัน ดงฮวา มังงะต้นฉบับ VTuber และแอนิเมชัน PV
- สามารถเปลี่ยนฉากนิ่งให้กลายเป็น แอนิเมชันที่มีชีวิตชีวาและละเอียดอ่อน ได้ด้วยเพียงพรอมต์ภาพหรือข้อความ
- งานวิจัยพื้นฐานของ AniSora อ้างอิงจาก บทความวิชาการเทคโนโลยีล่าสุดที่ได้รับการตอบรับใน IJCAI’25
แนะนำตัวอย่างของ AniSora
- วิดีโอตัวอย่างที่สร้างด้วย AniSora แสดงให้เห็นความสามารถในการเปลี่ยน ภาพนิ่งให้กลายเป็นแอนิเมชันที่เคลื่อนไหวอย่างเป็นธรรมชาติ
- ตัวอย่างเช่น ฉากผมปลิวตามลมในรถ ท่าเต้นของเด็กผู้หญิงหลายคนที่ยกมือขึ้น และโมชั่นเบลอของตัวละครที่กำลังวิ่งด้วยความเร็วสูง
- โมเดลนี้ถ่ายทอดองค์ประกอบสำคัญในมังงะและแอนิเมชันได้อย่างสมจริง ไม่ว่าจะเป็น การแสดงอารมณ์ของตัวละคร การเคลื่อนไหว และการเปลี่ยนฉาก
จุดเด่นหลักของ AniSora
อัลกอริทึมที่ออกแบบมาเฉพาะสำหรับสไตล์แอนิเมชัน/มังงะ
- ใช้โครงสร้างโมเดลเฉพาะทางที่ฝึกด้วย ชุดข้อมูลแอนิเมชันและมังงะขนาดใหญ่
- สามารถ ถ่ายทอดซ้ำสไตล์ภาพและวิธีการนำเสนอที่เป็นเอกลักษณ์ ได้อย่างแม่นยำ
- รองรับ เอาต์พุตคุณภาพสูง ที่สะท้อนทั้งผลงานมังงะต้นฉบับรุ่นใหม่และเทรนด์ล่าสุด
อินเทอร์เฟซที่ใช้งานง่าย
- ออกแบบมาเพื่อให้ผู้ใช้ที่ไม่คุ้นเคยกับเทคโนโลยีก็สามารถ สร้างวิดีโอได้ด้วยตนเอง
- เพียงคลิกครั้งเดียว ใคร ๆ ก็สามารถสัมผัสประสบการณ์ การสร้างวิดีโอมังงะและ VTuber ได้อย่างง่ายดาย
รองรับวิดีโอแอนิเมชันคุณภาพสูง
- AniSora รองรับ เอาต์พุตวิดีโอความละเอียดสูง 1080p เป็นพื้นฐาน
- วิดีโอได้รับการปรับให้เหมาะกับหลายแพลตฟอร์ม จึงสามารถนำไปใช้กับ โปรเจกต์ โซเชียลมีเดีย PV และช่องทางต่าง ๆ ได้
สรุป FAQ ของ AniSora
AniSora คืออะไร?
- AniSora เป็นส่วนหนึ่งของ Project Index-AniSora และเป็นโมเดลสร้างวิดีโอแอนิเมชันแบบโอเพนซอร์สที่ Bilibili เปิดเผย
- สามารถสร้าง วิดีโอความละเอียดสูงในสไตล์แอนิเมชัน ได้โดยอัตโนมัติจากพรอมต์ภาพหรือข้อความเท่านั้น
- สะท้อนผลงานวิจัยล่าสุดที่ให้ความสำคัญกับ ความสม่ำเสมอของการเคลื่อนไหว และ พลังการถ่ายทอดอารมณ์
แตกต่างจากเครื่องมือสร้างวิดีโอ AI อื่นอย่างไร
- AniSora มุ่งเน้นประสิทธิภาพที่เชี่ยวชาญด้าน สไตล์แอนิเมชันและมังงะ
- ด้วย ความเชี่ยวชาญของ Bilibili และการเป็นโครงการโอเพนซอร์สที่ขับเคลื่อนโดยชุมชน จึงเหมาะอย่างยิ่งกับ การสร้างวิดีโอเฉพาะทาง เช่น ซีรีส์แอนิเมชัน มังงะต้นฉบับ และ VTuber
รองรับวิดีโอและเสียงหรือไม่
- ขณะนี้ AniSora เป็นโมเดลที่มุ่งเน้น การสร้างวิดีโอ เป็นหลัก
- สำหรับการรองรับฟีเจอร์เพิ่มเติม เช่น การสังเคราะห์เสียง จำเป็นต้องตรวจสอบเอกสารล่าสุด
เหมาะกับนักสร้างสรรค์แอนิเมชัน/มังงะหรือไม่
- AniSora ได้รับการปรับให้เหมาะกับ ความสม่ำเสมอของตัวละครและการเคลื่อนไหวที่ถ่ายทอดอารมณ์ จึงเป็นเครื่องมือที่เหมาะอย่างยิ่งสำหรับครีเอเตอร์ โดยเฉพาะในสายแอนิเมชัน PV มังงะ และ VTuber
กรณีการใช้งานหลัก
- รองรับการใช้งานอย่างกว้างขวาง เช่น แอนิเมชันสั้น วิดีโอสำหรับโซเชียลมีเดีย PV แอนิเมชันจากพาเนลมังงะ VTuber คอนเซปต์อาร์ต และสตอรีบอร์ด
คุณภาพและความยาวของวิดีโอ
- AniSora มีจุดเด่นด้านการสร้างวิดีโอสั้นตามมาตรฐาน ความละเอียดสูง (1080p)
- โดยทั่วไปเหมาะกับ คลิปสั้น และสามารถตรวจสอบข้อจำกัดโดยละเอียดจากเอกสารทางการล่าสุด
วิธีควบคุมสไตล์และการเคลื่อนไหว
- ผู้ใช้สามารถกำหนดสไตล์ภาพและการเคลื่อนไหวที่ต้องการได้ผ่านการป้อน พรอมต์ภาพหรือข้อความ
- ด้วยข้อมูลจากสายงานแอนิเมชัน รองรับการควบคุมขั้นสูง เช่น การปรับแต่งการเคลื่อนไหว ความสม่ำเสมอของตัวละคร และการใช้สไตล์รายละเอียดเฉพาะ
- ขอบเขตการใช้งานที่รองรับ อาจแตกต่างกันไปตามเวอร์ชันหรืออินเทอร์เฟซ
บทสรุป
- AniSora คือ โมเดล AI แบบโอเพนซอร์สประสิทธิภาพสูงสำหรับสร้างวิดีโอ ที่เชี่ยวชาญด้านการผลิตแอนิเมชันและวิดีโอมังงะ/VTuber
- ข้อดีสำคัญคือ ความสามารถในการถ่ายทอดสไตล์ที่แตกต่าง วิธีใช้งานที่เข้าใจง่าย และการสร้างวิดีโอคุณภาพสูง
- ด้วยการให้ความสำคัญกับ วัฒนธรรมโอเพนซอร์สของชุมชนและการสนับสนุนครีเอเตอร์ จึงมีคุณค่าในการใช้งานสูงทั้งในวงการแอนิเมชันญี่ปุ่นและดงฮวา
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
รู้สึกว่าผลงานบางส่วนมีร่องรอยชัดเจนว่าไปเรียนรู้มาจากเว็บตูน มังงะ หรืออาจรวมถึง pixiv ด้วย หลักฐานเห็นได้ง่ายจากอาคารสไตล์ CG หรือสิ่งแปลกปลอมเทียมอื่น ๆ สุดท้ายก็เลยสรุปได้ว่าเทรนมาจากข้อมูลที่มีลิขสิทธิ์ เพราะศิลปะไม่ใช่สิ่งที่สร้างแบบสังเคราะห์เหมือนข้อความได้ ศิลปินมนุษย์จึงน่าจะยังมีความสำคัญไปตลอด หรือไม่ก็ผลลัพธ์จะยังมีสิ่งเพี้ยนประหลาดโผล่มาเรื่อย ๆ เลยทำให้นึกไปถึงอนาคตที่ศิลปินอาจถูกลดบทบาทเหลือแค่อาชีพสำหรับ "ฝึก AI" แต่ถ้าเป็นโครงสร้างที่คนวาดสิ่งที่ตัวเองชอบ แล้วเอาสิ่งนั้นไปใช้ฝึกโมเดล ก็ดูไม่เลวนัก ผมเป็นคนที่สนับสนุน AI มากในประเด็นลิขสิทธิ์และเครื่องหมายการค้า แต่ก็ยังสงสัยอยู่เสมอว่าสุดท้ายจะเกิดอะไรขึ้นกับคนจำนวนมากที่เคยมอบความสนุกให้เรา คุณภาพจะดีขึ้นเรื่อย ๆ หรือสุดท้ายสไตล์ท้าทายทั้งหลายจะหายไปเพราะ "ยากเกินไปสำหรับ AI" จนทุกอย่างคล้ายกันหมดกันแน่ ความรู้สึกนี้ต่างจากตอนที่พีซีหรือเครื่องจักรมาแทนแรงงานคน มันเหมือนมาถึงปลายทางอะไรบางอย่าง
ในที่สุดเราก็อาจใกล้ถึงยุคที่สร้าง Haruhi ซีซัน 3 แบบที่เราต้องการได้แล้วก็ได้ ตื่นเต้นจริง ๆ รู้สึกว่าเป็นช่วงเวลาที่ยอดเยี่ยมสำหรับการมีชีวิตอยู่
ลองทดสอบด้วยภาพโปรโมตของ <i>Neon Genesis Evangelion</i> ผลออกมาโอเค แต่ระหว่างที่หัวหมุน เส้นผมมีสิ่งเพี้ยนเชิงเวลาเกิดขึ้น มีหน้ารวมตัวอย่างและข้อมูลอ้างอิงให้ดูด้วย
สรุปจากข้อความคัดมาของงานวิจัย: "มีการนำวิธีฝึกแบบความยาวแปรผันมาใช้ ฝึกกับช่วง 2 ถึง 8 วินาที กลยุทธ์นี้ทำให้สร้างวิดีโอ 720p ที่มีความยาว 2-8 วินาทีได้" อยากลองเอาไป benchmark กับ FramePack ดู ผมคิดว่าในงานแอนิเมชัน 2D มันมีข้อดีตรงที่แทบไม่มีข้อจำกัดเรื่องระยะเวลาคงอยู่ของเฟรม
ถ้าสนใจคอนเทนต์แอนิเมชัน AI ก็แนะนำให้เข้าร่วมการแข่งขัน AniGen
สงสัยว่าจะสามารถทำให้ตัวละครเดียวกันคงความสม่ำเสมอในหลายฉาก หลายมุมมองได้ไหม ผมคิดว่านั่นเป็นข้อจำกัดของวงการสร้างภาพมาจนถึงตอนนี้
แค่ตัวอย่างแรกก็เห็นข้อผิดพลาดเยอะแล้ว แขนเสื้อแตก ผมที่กำลังขยับหายไปแล้วก็กลับมาใหม่ สุดท้ายแล้วสิ่งที่ขยับจริง ๆ ส่วนใหญ่ก็มีแค่แขนกับก้อนเมฆ
ต่อให้เปลี่ยนบัญชีหรือค่าอินพุต ก็ยังเกิดข้อผิดพลาดแปลก ๆ ทุกครั้ง ใช้งานไม่ได้จริง
ผมสงสัยเรื่องสถานะลิขสิทธิ์ของวิดีโอที่สร้างด้วยบริการแบบนี้ อยากรู้ว่ามันได้รับความคุ้มครองลิขสิทธิ์ไหม ตอนนี้จุดยืนของสำนักงานลิขสิทธิ์สหรัฐฯ คือ "ผลลัพธ์จาก generative AI จะได้รับความคุ้มครองลิขสิทธิ์ก็ต่อเมื่อผู้สร้างที่เป็นมนุษย์เป็นผู้กำหนดหรือใส่องค์ประกอบเชิงสร้างสรรค์อย่างเพียงพอ" ถ้าไม่ได้รับความคุ้มครอง การทำหนังหรือผลงานอื่นด้วยบริการแบบนี้ก็อาจเสี่ยงถูกคัดลอกหรือลอกเลียนไปตรง ๆ ได้ อนึ่ง ประเด็นว่าเครื่องมือนี้ฝึกจากข้อมูลอะไร ขอแยกออกไปก่อน
ผมอยากเห็นจริง ๆ ว่าฉากต่อสู้ใน <i>The Beginning After the End</i> จะเปลี่ยนไปแค่ไหนถ้าผ่านเครื่องมือนี้ ผมสนใจทิศทางในอนาคตอย่างจริงจัง ผู้คนจะยอมรับได้ไหมถ้ามีข้อผิดพลาดทางภาพหรือสิ่งเพี้ยนมากขึ้นอีกหน่อย ตราบใดที่ได้ซีซันใหม่ของแฟรนไชส์ที่ชอบ หรือสุดท้ายจะรู้สึกต่อต้านเหมือนตอนเห็นการใช้โมเดล 3D แบบไม่เนียน?