บันทึกการทดลองสร้างระบบอัตโนมัติไร้คนดูแลให้ AI ผลิตทุกอย่างตั้งแต่สร้างเรื่องไปจนถึงวิดีโอโดยใช้ GPTs
(youtube.com)การสร้างงานเล่าเรื่องเป็นสิ่งสำคัญมากสำหรับทุกคน แต่ก็เป็นส่วนที่ยากมากเช่นกัน
ไม่ว่าอย่างไร การสร้างสรรค์เรื่องราวที่ดีคือหัวใจสำคัญ
แม้การมาของ ChatGPT จะทำให้การสร้างเรื่องด้วย AI เกิดความก้าวหน้าอย่างมาก แต่ผมยังมองว่า
หนทางข้างหน้ายังอีกไกล
เมื่อเกือบ 1 ปีก่อน ผมเคยมีประสบการณ์ทำหนังสือนิทานโดยใช้ ChatGPT และ Stable Diffusion
แล้วเผยแพร่บน Kakao Brunch ดังนั้นครั้งนี้จึงตัดสินใจลองทำอะไรที่เป็นมัลติโมดัล
มากขึ้น
เป้าหมายคือ หลังจากตั้งค่าเริ่มต้นครั้งแรกแล้ว จะให้ "AI สร้างผลลัพธ์สุดท้ายได้ด้วยตัวเองมากกว่า 99% โดยไม่มีมนุษย์เข้ามาเกี่ยวข้องเป็นหัวใจสำคัญของระบบไร้คนดูแล"
แน่นอนว่า เรื่องราวต้องมีความแปลกใหม่และสมเหตุสมผล โดยเชื่อมโยงกันด้วยเหตุและผล ซึ่งเป็นสิ่งจำเป็น
ด้วยเหตุนี้จึงตั้งเป้าการใช้งานเป็น "คอนเทนต์ YouTube สำหรับเด็ก"
เหตุผลที่เลือกสำหรับเด็กคือ
- จัดการเรื่องราวได้ค่อนข้างง่ายกว่า
- คาดว่าผลลัพธ์ที่ได้จะคุ้มค่ามากเมื่อเทียบกับคุณภาพของวิดีโอ
- ยังไม่เคยทำคอนเทนต์สำหรับเด็กมาก่อน จึงอยากลองทำดู
[วางแผนแนวทางปฏิบัติอย่างเป็นรูปธรรม (สถาปัตยกรรม) และลงมือสร้างเอง]
-
ผมมองว่า logic การสร้างเรื่องควรถูกออกแบบเป็น "โครงสร้างที่รักษาความสม่ำเสมอไว้ พร้อมกับเพิ่มตอนใหม่ได้อย่างต่อเนื่อง" จึงจะมีความยั่งยืน
-
ตามนั้น ผมจึงสร้าง GPTs สำหรับงานเล่าเรื่องเด็กโดยเฉพาะ (ตอนนี้ตั้งค่าให้ดูได้เฉพาะผม)
Instruction ของ GPTs มีความยาวประมาณ A4 1 หน้า และกำหนดไว้อย่างละเอียดมาก ("เป้าหมายคือทำให้สามารถคงคอนเซปต์และบริบทโดยรวมเอาไว้ได้")
ผมบังคับให้ใช้คีย์เวิร์ดที่กำหนดไว้ทั้งตอนต้นและตอนท้ายของทุกข้อความเสมอ (เป็นการตั้งค่าด้านข้อความเพื่อให้แม้แต่คนที่เพิ่งเห็นวิดีโอนี้ครั้งแรกก็เข้าใจคอนเซปต์และฉากหลัง และทำให้อยากรอตอนต่อไป)
ส่วนเนื้อเรื่องจะดำเนินไปตามแกน วิกฤต ความขัดแย้ง และการคลี่คลาย ตามลำดับเวลาที่เป็นธรรมชาติ
โดยผมตั้งตัวอย่างรายละเอียดไว้จำนวนมาก เพื่อให้สามารถสร้างตอนใหม่ได้โดยยังรักษาบริบทและทำตามกฎเดียวกัน
*เหตุผลที่ตั้งคอนเซปต์ "การผจญภัยของโทริ" ให้เป็น "เด็กผู้ชายที่ตื่นมาแล้วใบหน้าเปลี่ยนทุกวัน" ก็เพราะการคง seed ระหว่างการสร้างภาพทำได้ยาก จึงตั้งใจเปลี่ยนข้อเสียให้เป็นข้อดี และเพราะมีการสร้างตอนใหม่ทุกครั้ง จึงเห็นว่ายิ่งเหมาะกว่าเดิม -
ผมเชื่อม Actions ของ GPTs ผ่าน API ด้วย Zapier เพื่อประมวลผลต่อและสร้างงานมัลติโมดัลจากสคริปต์ที่ GPTs สร้างขึ้น
*ดูวิธีตั้งค่า GPTs Actions แบบละเอียดได้ที่ลิงก์ Kakao Brunch ที่ผมเขียนไว้
https://brunch.co.kr/@seawolf/9
- เมื่อต่อเข้ากับ GPTs แล้ว ผมตั้งให้ GPTs ถามผมว่า "คีย์เวิร์ดหัวข้อของตอนใหม่" คืออะไร สิ่งเดียวที่มนุษย์ต้องตัดสินใจก็มีแค่นั้น แน่นอนว่าจะสุ่มก็ได้เช่นกัน
วิธีหาค่า 'คีย์เวิร์ดหัวข้อ' จะทำตามขั้นตอนต่อไปนี้ตามที่กำหนดไว้ใน instruction
- ให้ดึงและเสนอ 'คีย์เวิร์ด' ล่าสุดที่ 'เด็ก' ชื่นชอบผ่านพอร์ทัลค้นหา (พิจารณาจากปริมาณการค้นหา เป็นต้น) ซึ่งพอลองจริงแล้ว เกมและการเล่นก็ยังมาแรงแบบทิ้งห่าง
- เมื่อเลือกคีย์เวิร์ดที่ถูกใจจากรายการที่เสนอ
- ระบบจะสร้างเรื่องใหม่ความยาว 1 หน้าอย่างสมเหตุสมผลในทันที ตาม logic ที่กำหนดไว้ใน instruction
- แม้ส่วนใหญ่จะเป็นเนื้อหาที่แปลกใหม่และน่าพอใจอยู่แล้ว แต่ก็สามารถขอแก้ไขหรือลบบางส่วนผ่าน prompt ได้
- เมื่อข้อความสุดท้ายได้รับการยืนยันแล้ว หากสั่งให้ส่งผ่าน Actions ไปยัง "อีเมลของผมหรือ API" ระบบก็จะส่งทันทีและเกิด trigger
-
จากนั้นใน Zapier ซึ่งถูกเรียกใช้งานจาก GPTs และรับค่าที่ส่งมา (ข้อความ) API จะถูกเรียกตามลำดับที่ผมตั้งไว้ เพื่อประมวลผลข้อมูล ผสานข้อมูล และสร้างผลลัพธ์ต่าง ๆ
-
องค์ประกอบมัลติโมดัลจนถึงการสร้างวิดีโอขั้นสุดท้าย (ใช้ API และหลายแพลตฟอร์มบริการ)
- สคริปต์ข้อความที่ปรับให้เหมาะสมแล้ว
- สร้างเสียงจากข้อความ
- ดึงบริบทและคีย์เวิร์ดจากชุดข้อความในสคริปต์โดยอัตโนมัติ (ปกติกำหนดให้ 1 ถึง 3 ประโยคเป็นหนึ่งก้อน) แล้วสร้างภาพ
- จัดวางองค์ประกอบเสริมอย่างเพลง เสียงประกอบ อีโมติคอน ฯลฯ ให้สอดคล้องกับบริบทโดยอัตโนมัติ
- แสดงเสียงที่สร้างขึ้นเป็นคำบรรยาย
- เรนเดอร์วิดีโอขั้นสุดท้าย
- ตัวเลือกเพิ่มเติมคือ "แปลงภาษาได้หลายภาษา"
- เสร็จสิ้นด้วยการดาวน์โหลดผลงานที่สมบูรณ์
- อัปโหลดเป็นคอนเทนต์ YouTube
เมื่อวัดเวลาที่ใช้ (ซึ่งยิ่งทำก็ยิ่งเร็วขึ้น)
- กระบวนการทั้งหมดในการสร้างเรื่องใหม่ผ่าน GPTs: ไม่ถึง 1 นาที
- การประมวลผลต่อของ backend API ผ่านการเรียก Actions: ราว 1~2 นาที
- การสร้างวิดีโอมัลติโมดัลอัตโนมัติจนเสร็จสมบูรณ์: ประมาณ 3 นาที
- ในจุดนี้ หากมนุษย์เข้ามาตรวจดูและรีทัชบางส่วนเล็กน้อย
คุณภาพจะดีขึ้นมาก (ถ้าเป็นการรีทัชแบบง่าย ๆ ก็ใช้ราว 3 นาที) - การเรนเดอร์ขั้นสุดท้าย: 3~5 นาที (ขึ้นอยู่กับขนาดวิดีโอ)
กล่าวคือ ภายใน 10 นาที ก็สามารถสร้างวิดีโอสำหรับเด็กที่มีฉากหลังแบบ 3D modeling เนื้อเรื่องแน่น และสนุกได้ 1 ตอนในระดับที่ดีพอสมควร
ส่วนต้นทุนก็เป็นเพียงค่าบริการของ API แบบเสียเงินบางตัวรวมถึง OPENAI และค่าโฮสติ้ง
ต่อให้รวมทั้งหมดแล้ว ในแง่ต้นทุนการผลิต วิดีโอหนึ่งชิ้นที่ยาวไม่เกิน 3 นาที น่าจะมีต้นทุนต่ำกว่า 1,000 วอนต่อนาที
[ลิงก์ดูผลงานที่เสร็จสมบูรณ์]
"การผจญภัยของโทริ" ตอนที่ 1: แปลงร่างเป็น K-POP star (ภาษาเกาหลี)
https://www.youtube.com/watch?v=m4U-pQPXQc8&t=15s
"การผจญภัยของโทริ" ตอนที่ 1: แปลงร่างเป็น K-POP star (เวอร์ชันภาษาอังกฤษ)
https://www.youtube.com/watch?v=CT3KHU7BvIs
"การผจญภัยของโทริ" ตอนที่ 2: แปลงร่างเป็น superhero (ภาษาเกาหลี)
https://www.youtube.com/watch?v=U4n_W22zWaY&t=7s
"การผจญภัยของโทริ" ตอนที่ 3: แปลงร่างเป็น Santa Claus (ภาษาเกาหลี / เวอร์ชัน 3D modeling)
https://www.youtube.com/watch?v=wl2RWAqOXtY
ผมมองว่าสามารถทำระบบอัตโนมัติแบบไร้คนดูแลได้มากกว่า 90% ของกระบวนการทั้งหมด
จึงนำบทความนี้มาแชร์เพื่อแบ่งปันข้อมูลและสิ่งที่ค้นพบจากการทดลองนี้ในมุมของการประยุกต์ใช้งานหลากหลายรูปแบบ
หากต้องการข้อมูลเพิ่มเติม เชิญเข้าร่วมคอมมูนิตี้ได้
[ ลิงก์เข้าร่วมคอมมูนิตี้ (KakaoTalk Open Chat) ]
https://open.kakao.com/o/gE6hK9Vf
1 ความคิดเห็น
หวังว่าจะเป็นประโยชน์กับหลาย ๆ คนได้ไม่มากก็น้อย