🔑 ประเด็นสำคัญ
• การจำลองฟิสิกส์ที่สมจริงยิ่งขึ้น
• หากโมเดลก่อนหน้าทำให้วัตถุ “เทเลพอร์ต” เพื่อสร้างภาพว่าทำสำเร็จ Sora 2 จะจำลองได้แม้กระทั่งความล้มเหลวทางฟิสิกส์จริงและแรงสะท้อนกลับ
• ให้ผลลัพธ์ที่ใกล้เคียงกฎฟิสิกส์มากขึ้น เช่น ลูกบาสเกตบอลชนห่วงแล้วเด้งออก
• การควบคุมและความสม่ำเสมอที่ล้ำหน้าขึ้น
• สามารถทำตามคำสั่งที่ซับซ้อนอย่างแม่นยำได้ (หลายช็อต การเปลี่ยนฉาก การคงสถานะ)
• คง world state ของตัวละคร/วัตถุข้ามฉากได้
• ความหลากหลายของสไตล์
• สร้างวิดีโอคุณภาพสูงได้ทั้งแบบสมจริง แบบภาพยนตร์ และแอนิเมชัน
• รองรับการสร้างเสียงที่ซิงก์กันทั้งเสียงพื้นหลัง เอฟเฟกต์เสียง และบทพูด
• ฟีเจอร์ “Upload yourself” (Cameos)
• ผู้ใช้สามารถอัปโหลดวิดีโอและเสียงสั้น ๆ → โมเดลสามารถแทรกบุคคลนั้นลงในฉากใดก็ได้
• สะท้อนทั้งรูปลักษณ์และเสียง
• ผู้ใช้ยังคงมีสิทธิ์ควบคุมเอง และสามารถจัดการสิทธิ์เข้าถึง/ลบได้
• เปิดตัวแอปโซเชียล ‘Sora’ (iOS)
• โซเชียลเน็ตเวิร์กใหม่ที่เน้นฟีเจอร์สร้าง รีมิกซ์ และแชร์
• เริ่มต้นแบบเชิญเท่านั้น เปิดให้ใช้งานก่อนในสหรัฐฯ และแคนาดา
• ใช้ฟรีเป็นพื้นฐาน + จำกัดปริมาณการใช้งานบางส่วน โดยโมเดล Pro/การสร้างเพิ่มเติมจะมีค่าใช้จ่าย
• ความปลอดภัยและการเปิดตัวอย่างมีความรับผิดชอบ
• อัลกอริทึมฟีด: ไม่ได้ปรับให้เหมาะกับการใช้เวลามากที่สุด แต่เน้น “กระตุ้นการสร้างสรรค์”
• การคุ้มครองเยาวชน: จำกัดปริมาณการแสดงผลในฟีด และมีฟีเจอร์ควบคุมโดยผู้ปกครอง
• ลิขสิทธิ์/ความยินยอม: ผู้ใช้ Cameo ได้รับสิทธิ์ในการเข้าถึง/ลบข้อมูล
• เสริมการมอดเดอเรตโดยมนุษย์เพื่อรับมือกับการคุกคาม/การใช้งานในทางที่ผิด
• บริบททางเทคนิค
• หาก Sora 1 คือ “GPT-1 for video” Sora 2 ก็คือช่วงเวลาแบบ “GPT-3.5 moment”
• การ pre-training และ post-training บนข้อมูลวิดีโอที่ใหญ่ขึ้น → ขยับเข้าใกล้โมเดลจำลองโลกไปอีกขั้น
• แผนในอนาคต
• เข้าถึงได้ผ่าน sora.com ด้วย
• มีแผนจะให้บริการ Sora 2 Pro สำหรับผู้ใช้ Pro
• มีแผนเปิด API
• Sora 1 Turbo เดิมก็ยังใช้งานต่อได้
⸻
📝 สรุปสั้น ๆ
• Sora 2 = โมเดลสร้างวิดีโอ·เสียงที่ละเอียดแม่นยำทางฟิสิกส์มากขึ้น
• สามารถแทรก cameo ของคน/วัตถุได้ → ใช้งานผ่านแอปโซเชียล Sora
• แพลตฟอร์มที่เน้นโซเชียล+การสร้างสรรค์ → มุ่งผลิตคอนเทนต์มากกว่าการใช้เวลาเสพคอนเทนต์
• เปิดตัวช่วงแรก: iOS ในสหรัฐฯ และแคนาดา → มีแผนขยายสู่เว็บ/Pro/API
2 ความคิดเห็น
ถ้ามีการผลิตวิดีโอแบบนี้กันมากขึ้น บางทีมันอาจจะทำให้ผู้คนห่างจากการเสพติดคลิปสั้นก็ได้นะครับ ถ้าสามารถทำคลิปสั้นขับซูเปอร์คาร์โดยใช้หน้าของผมเองได้ คลิปสั้นซูเปอร์คาร์จะยังมีคุณค่ามากแค่ไหนกัน?
ความคิดเห็นจาก Hacker News
ดูเหมือนว่า OpenAI กำลังพยายามปั้น Sora ให้เป็นโซเชียลเน็ตเวิร์ก หรือก็คือ TikTok เวอร์ชัน AI (AITok)
เว็บแอปเน้นโครงสร้างแบบบริโภคคอนเทนต์เป็นหลัก เช่น ฟีด การกดไลก์∙คอมเมนต์โพสต์ และโปรไฟล์ผู้ใช้
การสร้างวิดีโอเป็นเพียงองค์ประกอบเสริม โดยวิดีโอที่สร้างได้สั้นมากและการตั้งค่าก็เรียบง่าย (เลือกได้แค่แนวนอน/แนวตั้ง)
วิดีโอแบบยาวหรือเน้นการเล่าเรื่อง รวมถึงฟีเจอร์ตัดต่อขั้นสูง ไม่ได้ถูกพูดถึงหรือแม้แต่มีความพยายามจะทำ และเมื่อเทียบกับแพลตฟอร์มอื่นอย่าง Google Flow ก็ถือว่าถูกจำกัดด้านฟังก์ชันมาก
มีการแนบวิดีโอทดสอบความแม่นยำทางฟิสิกส์มาด้วย แต่ Veo เองก็ทำงานกับพรอมป์ต์เหล่านั้นได้ไม่ดีเช่นกัน
อีกอย่างที่น่าสนใจคือ ตอนนี้มีทั้งวิดีโอที่ค่อนข้างน่าประทับใจและวิดีโอที่ดูหยาบมากถูกโพสต์ขึ้นมาปะปนกัน
ตัวอย่าง physics ของ Sora 1
ตัวอย่าง physics ของ Sora 2
ตัวอย่าง Veo 1
ตัวอย่าง Veo 2
โดยส่วนตัวชอบเทคโนโลยีล้ำ ๆ และ AI แต่ก็ไม่แน่ใจว่า "TikTok but AI" เป็นความพยายามที่พึงประสงค์ต่อสังคมหรือไม่
ถ้ามันมีผลเชิงบวกที่ชัดเจนจริง ๆ ก็น่าสนใจว่าเป็นอะไร
ถ้าประสิทธิภาพการใช้พลังงานของการสร้างวิดีโอไม่ดีขึ้นแบบก้าวกระโดด หรือถ้าค่าพลังงานไม่ลดลงจนเกือบเป็นศูนย์
ผมคิดว่าบริการบริโภควิดีโอเรียลไทม์ขนาดมหาศาลระดับ TikTok ไม่น่าจะยั่งยืนในเชิงความสามารถทำกำไร
ตอนนี้วิดีโอที่มนุษย์ถ่ายและอัปโหลดเองยังใช้พลังงานน้อยกว่าและต้นทุนต่ำกว่ามาก
กลยุทธ์ที่ OpenAI พยายามผลักดัน Sora ให้เป็นโซเชียลเน็ตเวิร์กนั้น จริง ๆ แล้วเป็นแนวทางที่ Midjourney ใช้กับภาพมาสักพักแล้ว
Midjourney Explore - Videos
หลายคนชอบสไตล์ภาพที่เป็นเอกลักษณ์ของ Midjourney และโมเดลก็เรียนรู้จากโครงสร้างที่มีการให้คะแนนและปฏิสัมพันธ์
ในการสร้างภาพนั้นระดับของ 'สุนทรียะ' ก็จัดการได้ง่ายกว่าเช่นกัน
ช่วงหลัง Meta ก็ลองแนวคล้ายกันเหมือนกัน
Meta, เปิดตัว Vibes AI Video
การเสริมความแข็งแรงให้ฟีดที่เน้นการเสพคอนเทนต์เป็นหนึ่งในทิศทางที่ชัดเจนแน่นอน
อีกเหตุผลหนึ่งคือ แทนที่ผู้ใช้หลายคนจะใช้ทรัพยากรกับช่องพรอมป์ต์ว่างแบบเดียวกันเพื่อปล่อยผลงานคล้าย ๆ กันออกมา
การแสดงตัวอย่างที่ดีก่อน แล้วให้มีการพูดคุยต่อยอดจากสิ่งนั้น เพื่อให้ได้ผลลัพธ์คุณภาพสูงเร็วขึ้น น่าจะมีประสิทธิภาพมากกว่า
ทุกครั้งที่เห็นเทคโนโลยีแบบนี้ จะนึกถึงประโยคของ Jeff Goldblum ใน Jurassic Park
เจ้านายผมชอบเอาวิดีโอ AI ที่ทำด้วยเครื่องมือพวกนี้และยังดูไม่สมบูรณ์มาให้ดู พร้อมตะโกนว่า "นี่คืออนาคต"
แต่ดูเหมือนจะไม่เคยถามคำถามพื้นฐานเลยว่า "จริง ๆ แล้วใครต้องการสิ่งนี้ และใครจะดูมัน?"
ตอนนี้คอนเทนต์ AI ยังมีข้อจำกัดที่เห็นได้ชัดทันทีเมื่อมอง
ใครกันที่จะอยากดูสตรีมวิดีโอที่สร้างด้วย AI ล้วน ๆ? สำหรับ Meta มันดีเพราะหาคอนเทนต์ได้ถูกกว่าการจ่ายเงินให้คน แต่
ในความเป็นจริงมันก็เป็นแค่ 'slop' คุณภาพต่ำ
ประเด็นลิขสิทธิ์ถูกจัดการแบบหละหลวมเกินไป
โดยพื้นฐานแล้ว Sora ถูกตั้งค่าให้ใช้ IP ของผู้ใช้กับวิดีโอ AI และผู้ใช้ต้องเป็นฝ่ายปฏิเสธอย่างชัดเจนถึงจะไม่ถูกนำไปใช้
บทความที่เกี่ยวข้อง
นอกจากนี้ คนที่กำลังทำโปรเจกต์ที่มีแรงกระเพื่อมมากระดับนี้ก็ดูเหมือนจะมีประสบการณ์ชีวิตจริงน้อย
หมกมุ่นอยู่กับเทคโนโลยีวิบวับน่าตื่นตา และไม่ค่อยสนใจผลกระทบหรือผลลัพธ์
(Vibes ของ Meta ก็อยู่ในบริบทเดียวกัน)
ประเด็นนี้ในบทความก็บอกว่าเขียนโดยบอต เลยสงสัยว่ามีแหล่งที่แม่นยำกว่านี้หรือไม่
ใน Grok มีการใช้ตัวละครที่มีลิขสิทธิ์ได้อย่างเสรีมานานกว่าหนึ่งปีแล้ว แต่ก็ยังไม่มีการฟ้องร้อง
เทคโนโลยีแบบนี้ทำให้นึกถึงความเป็นไปได้ที่ในอนาคตจะเปิดให้แบรนด์ซื้อไลเซนส์
เพื่อผลิตวิดีโอโฆษณาที่ปรับแต่งได้เฉพาะบุคคลมากขึ้น
ตัวอย่างเช่น ถ้าก่อนจะสั่งซื้อเสื้อผ้าจริง ฉันสามารถเห็นวิดีโอของตัวเองในชุดนั้นได้ ก็เป็นประสบการณ์ที่น่าทึ่งมาก
ถ้าถึงขั้นสร้างได้แบบเรียลไทม์ ก็อาจจินตนาการได้ว่าแค่เดินผ่านหน้ากระจกในห้าง ภาพของฉันจะสลับเป็นหลายชุดโดยอัตโนมัติ
เป็นยุคที่น่าตื่นเต้นมาก
ถ้าไปถึงจุดนั้นได้จริง ก็ดูเหมือนว่าอาจไม่จำเป็นต้องซื้อเสื้อผ้าจริงอีกต่อไป
อินฟลูเอนเซอร์อาจพอใจแค่โพสต์วิดีโอจำลองของตัวเองลง SNS และโปรโมตได้โดยไม่ต้องไปสถานที่จริง
มีมทวีตที่เกี่ยวข้อง
ไปไกลกว่านั้น ยังอาจสร้างวิดีโอปลอมว่าตัวเองกำลังปาร์ตี้กับเพื่อนทั้งที่ไม่ได้ออกจากบ้าน
สุดท้ายก็นั่งกินไอศกรีมอยู่บ้าน แต่ใน SNS กลับดูเหมือนใช้ชีวิตอย่างคึกคัก
รู้สึกเหมือนเคยเห็นฉากทำนองนี้ใน Minority Report มาก่อน
ในหนังมีฉากที่ชื่อของ Tom Cruise ถูกเรียกในโฆษณาโดยตรง ซึ่งน่าจดจำมาก
Minority Report - วิกิภาพยนตร์
สิ่งนี้เรียกว่า 'Virtual Try On(VTO)' และตอนนี้ก็ถูกใช้อย่างแพร่หลายในรูปภาพนิ่งอยู่แล้ว
เลยเป็นธรรมดาที่จะคาดว่าวิดีโอ VTO จะตามมาในไม่ช้า
ท้ายที่สุดแล้ว การใช้งานที่พบบ่อยที่สุดของโมเดลวิดีโอแบบนี้น่าจะไปกระจุกที่การทำภาพจำลองเฉพาะบุคคล เช่น การลองสินค้าเสมือนจริง
เพราะผู้คนสุดท้ายก็ยังชอบสร้างความรู้สึกร่วมกับมนุษย์มากกว่า AI
Sora หรือ VEO อาจสร้างการเปลี่ยนแปลงครั้งใหญ่กับงานสร้างภาพยนตร์หรือคอนเทนต์ทีวีได้ด้วย
การวางเฟอร์นิเจอร์ด้วย AR (ฟังก์ชันวางตำแหน่งเฟอร์นิเจอร์ล่วงหน้าในบ้านแบบเสมือน) ก็เคยถูกเรียกว่าเป็นนวัตกรรมเหมือนกัน
แต่ในความเป็นจริงแทบไม่มีใครใช้เลย
เหตุผลหลักที่การสร้างภาพของ ChatGPT ดึงผู้ใช้เกิน 100 ล้านคนได้ในสัปดาห์แรก
คือผู้คนสนุกมากกับการสร้างภาพเพื่อน ครอบครัว และสัตว์เลี้ยงของตัวเองด้วย AI
ฟีเจอร์ 'คาเมโอ' ก็น่าจะเป็นความพยายามที่จะดึงเสน่ห์แบบไวรัลนี้กลับมาอีกครั้ง
ดังนั้นตราบใดที่ PETA ไม่คัดค้าน ก็คงไม่มีปัญหา
สิ่งที่น่าสนใจที่สุดคือ
หากผู้ใช้ใส่วิดีโอคลิปของคนหรือสินค้าลงไปในพรอมป์ต์
AI จะใช้เมตาดาต้านั้นสร้างวิดีโอที่สมจริงขึ้นมา
ในเชิงเทคนิค ดูเหมือนเป็นผลจากการฝึกมาก่อนด้วยชุดข้อมูลที่ยกระดับขึ้น
จากมุมมองผู้ใช้ มันอาจกลายเป็นฟีเจอร์เชิงพาณิชย์ที่ใช้งานได้จริงมาก
แต่ในอีกด้านหนึ่ง นวัตกรรมที่ขับเคลื่อนด้วยข้อมูลแบบนี้ Google ก็อาจไล่ตามได้ในไม่ช้าด้วยพลังของ YouTube
และมีความเป็นไปได้สูงว่าเทคโนโลยีคล้ายกันอาจถูกใช้งานภายในอยู่แล้ว
ในฐานะคนที่เอาเงินอันมีค่าของตัวเองไปจ่าย ภาพลวงตาหรือภาพสินค้าที่ถูกแต่งขึ้นซึ่งไม่มีอยู่จริงนั้นแทบไม่ต่างจากการหลอกลวง
ผมคิดว่ารีวิว∙โฆษณาที่ตั้งอยู่บนภาพฝันแทนสินค้าจริงมีปัญหาในเชิงจริยธรรม
ทั้งหมดนี้จริง ๆ แล้วคือความคืบหน้าไปสู่สตรีมคอนเทนต์ AI ที่ปรับแต่งเฉพาะบุคคลแบบไม่สิ้นสุด
เป็นโครงสร้างที่ถูกปรับให้เหมาะกับการกระตุ้นโดพามีนของแต่ละคนให้สูงสุด
มันให้ความรู้สึกเหมือน Torment Nexus ที่เป็น Skinner box (อุปกรณ์ที่ชักนำให้ทำพฤติกรรมซ้ำเพื่อแลกกับความพึงพอใจ)
ณ ตอนนี้ โครงสร้างแบบนี้ยังไม่น่าจะยั่งยืนได้ในแง่พลังงานหรือทรัพยากร
หนึ่งในพรอมป์ต์ตัวอย่างที่ว่า "ศึกแอนิเมชันดุเดือดระหว่างเด็กผู้ชายที่ถือดาบทำจากแสงสีน้ำเงินกับวิญญาณร้าย"
มีคอนเซ็ปต์แทบจะเหมือนกับมังงะญี่ปุ่น Blue Exorcist
Blue Exorcist (วิกิ)
ในพรอมป์ต์ตัวอย่างถึงขั้นมีข้อความว่า "'ในสไตล์แอนิเมชันของ Studio Ghibli เด็กผู้ชายกับลูกสุนัขกำลังปีนภูเขาสีน้ำเงิน และมองเห็นหมู่บ้านอยู่ไกล ๆ'"
ตัวละครมังกรก็ดูเหมือนหยิบมาจาก How to Train Your Dragon แทบทั้งดุ้น
เลยสงสัยว่ามีข้อตกลงกับเจ้าของลิขสิทธิ์หรือไม่ หรือว่าตั้งใจล่อให้เกิดคดีเพื่อหวังผลประชาสัมพันธ์จากสื่อ
ในมุมวิศวกรรม นี่เป็นผลลัพธ์ที่น่าประทับใจมากจริง ๆ
คุณภาพวิดีโอดีขึ้นจนมากพอจะดึงความสนใจได้ และยังทำให้รู้สึกถึง uncanny valley (ความแปลกแยกชวนขนลุก) ด้วย
OpenAI ทำได้ดีมากในการค่อย ๆ ทำให้สาธารณชนคุ้นชินกับเทคโนโลยีใหม่แบบนี้
เวอร์ชันนี้ยังมีข้อจำกัดเยอะ แต่แนวโน้มดูเหมือนอีกเพียงหนึ่งหรือสองรุ่นก็อาจข้ามจุดวิกฤตทางเทคนิคได้
ตัวอย่างเช่น ในตลาด LLM นั้น Gemini 2.5 Pro คือจุดวิกฤตที่แท้จริง และ Sora เองก็ดูเหมือนกำลังจะถึงจุดเปลี่ยนนั้นในไม่ช้า
จากมุมมองของครีเอเตอร์ ถ้ามีความสามารถในการสร้างหลาย asset (ฉากหลัง วัตถุ ฯลฯ) เป็นชุดก่อน แล้วเชื่อมหลายฉากให้ต่อเนื่องกันอย่างเป็นธรรมชาติได้ ก็น่าจะเป็นอุดมคติ
วิดีโอนี้มี continuity สูงขึ้นอย่างน่าทึ่ง
แต่ก็ยังมีข้อผิดพลาดบางจุดที่สังเกตเห็นได้ชัด
เลยสงสัยว่าจะจัดการปัญหาสตอรีบอร์ดที่ซับซ้อนกว่านี้อย่างไร
วิดีโอนี้ซ่อนปัญหา continuity ด้วยการตัดต่อถี่ยิบและการสลับกล้องอย่างรวดเร็ว
เห็นได้ชัดว่าทุกอย่างตั้งแต่แหน สโนว์โมบิล ไปจนถึงองค์ประกอบอื่น ๆ เปลี่ยนไปตลอดในแต่ละคัต
สุดท้ายมีเพียงส่วนใบหน้าที่ดูคงเส้นคงวา
โดยรวมแล้วปัญหาแบบฉบับของวิดีโอ AI ก็ยังอยู่เหมือนเดิม และแทบไม่มีช็อตไหนที่อยู่ในสภาพแวดล้อมเดียวกันเกิน 5 วินาที
แม้แต่ในฉากแข่งเป็ด พอ Sam โผล่มา สนามหญ้าก็กลายเป็นคนละแบบไปแล้ว
การที่แม้แต่เดโมนี้ยังมีข้อผิดพลาดมาก ก็เป็นสัญญาณว่าผลลัพธ์ของผู้ใช้ทั่วไปจะยิ่งด้อยกว่านั้นมาก
ในฉากใช้ bo staff ในสระ ข้อมือบิดผิดธรรมชาติอย่างชัดเจน
ในเดโมฉากไม้พลองที่สระ ไม้แท่งจู่ ๆ ก็เปลี่ยนเป็นทรงธนู ทำให้จับได้ง่ายมากว่าเป็นฉากที่ 'ดูเป็น AI' ชัดเจน