10 คะแนน โดย clumsypupil 2025-10-01 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

🔑 ประเด็นสำคัญ
• การจำลองฟิสิกส์ที่สมจริงยิ่งขึ้น
• หากโมเดลก่อนหน้าทำให้วัตถุ “เทเลพอร์ต” เพื่อสร้างภาพว่าทำสำเร็จ Sora 2 จะจำลองได้แม้กระทั่งความล้มเหลวทางฟิสิกส์จริงและแรงสะท้อนกลับ
• ให้ผลลัพธ์ที่ใกล้เคียงกฎฟิสิกส์มากขึ้น เช่น ลูกบาสเกตบอลชนห่วงแล้วเด้งออก
• การควบคุมและความสม่ำเสมอที่ล้ำหน้าขึ้น
• สามารถทำตามคำสั่งที่ซับซ้อนอย่างแม่นยำได้ (หลายช็อต การเปลี่ยนฉาก การคงสถานะ)
• คง world state ของตัวละคร/วัตถุข้ามฉากได้
• ความหลากหลายของสไตล์
• สร้างวิดีโอคุณภาพสูงได้ทั้งแบบสมจริง แบบภาพยนตร์ และแอนิเมชัน
• รองรับการสร้างเสียงที่ซิงก์กันทั้งเสียงพื้นหลัง เอฟเฟกต์เสียง และบทพูด
• ฟีเจอร์ “Upload yourself” (Cameos)
• ผู้ใช้สามารถอัปโหลดวิดีโอและเสียงสั้น ๆ → โมเดลสามารถแทรกบุคคลนั้นลงในฉากใดก็ได้
• สะท้อนทั้งรูปลักษณ์และเสียง
• ผู้ใช้ยังคงมีสิทธิ์ควบคุมเอง และสามารถจัดการสิทธิ์เข้าถึง/ลบได้
• เปิดตัวแอปโซเชียล ‘Sora’ (iOS)
• โซเชียลเน็ตเวิร์กใหม่ที่เน้นฟีเจอร์สร้าง รีมิกซ์ และแชร์
• เริ่มต้นแบบเชิญเท่านั้น เปิดให้ใช้งานก่อนในสหรัฐฯ และแคนาดา
• ใช้ฟรีเป็นพื้นฐาน + จำกัดปริมาณการใช้งานบางส่วน โดยโมเดล Pro/การสร้างเพิ่มเติมจะมีค่าใช้จ่าย
• ความปลอดภัยและการเปิดตัวอย่างมีความรับผิดชอบ
• อัลกอริทึมฟีด: ไม่ได้ปรับให้เหมาะกับการใช้เวลามากที่สุด แต่เน้น “กระตุ้นการสร้างสรรค์”
• การคุ้มครองเยาวชน: จำกัดปริมาณการแสดงผลในฟีด และมีฟีเจอร์ควบคุมโดยผู้ปกครอง
• ลิขสิทธิ์/ความยินยอม: ผู้ใช้ Cameo ได้รับสิทธิ์ในการเข้าถึง/ลบข้อมูล
• เสริมการมอดเดอเรตโดยมนุษย์เพื่อรับมือกับการคุกคาม/การใช้งานในทางที่ผิด
• บริบททางเทคนิค
• หาก Sora 1 คือ “GPT-1 for video” Sora 2 ก็คือช่วงเวลาแบบ “GPT-3.5 moment”
• การ pre-training และ post-training บนข้อมูลวิดีโอที่ใหญ่ขึ้น → ขยับเข้าใกล้โมเดลจำลองโลกไปอีกขั้น
• แผนในอนาคต
• เข้าถึงได้ผ่าน sora.com ด้วย
• มีแผนจะให้บริการ Sora 2 Pro สำหรับผู้ใช้ Pro
• มีแผนเปิด API
• Sora 1 Turbo เดิมก็ยังใช้งานต่อได้

📝 สรุปสั้น ๆ
• Sora 2 = โมเดลสร้างวิดีโอ·เสียงที่ละเอียดแม่นยำทางฟิสิกส์มากขึ้น
• สามารถแทรก cameo ของคน/วัตถุได้ → ใช้งานผ่านแอปโซเชียล Sora
• แพลตฟอร์มที่เน้นโซเชียล+การสร้างสรรค์ → มุ่งผลิตคอนเทนต์มากกว่าการใช้เวลาเสพคอนเทนต์
• เปิดตัวช่วงแรก: iOS ในสหรัฐฯ และแคนาดา → มีแผนขยายสู่เว็บ/Pro/API

2 ความคิดเห็น

 
colus001 2025-10-01

ถ้ามีการผลิตวิดีโอแบบนี้กันมากขึ้น บางทีมันอาจจะทำให้ผู้คนห่างจากการเสพติดคลิปสั้นก็ได้นะครับ ถ้าสามารถทำคลิปสั้นขับซูเปอร์คาร์โดยใช้หน้าของผมเองได้ คลิปสั้นซูเปอร์คาร์จะยังมีคุณค่ามากแค่ไหนกัน?

 
GN⁺ 2025-10-01
ความคิดเห็นจาก Hacker News
  • ดูเหมือนว่า OpenAI กำลังพยายามปั้น Sora ให้เป็นโซเชียลเน็ตเวิร์ก หรือก็คือ TikTok เวอร์ชัน AI (AITok)
    เว็บแอปเน้นโครงสร้างแบบบริโภคคอนเทนต์เป็นหลัก เช่น ฟีด การกดไลก์∙คอมเมนต์โพสต์ และโปรไฟล์ผู้ใช้
    การสร้างวิดีโอเป็นเพียงองค์ประกอบเสริม โดยวิดีโอที่สร้างได้สั้นมากและการตั้งค่าก็เรียบง่าย (เลือกได้แค่แนวนอน/แนวตั้ง)
    วิดีโอแบบยาวหรือเน้นการเล่าเรื่อง รวมถึงฟีเจอร์ตัดต่อขั้นสูง ไม่ได้ถูกพูดถึงหรือแม้แต่มีความพยายามจะทำ และเมื่อเทียบกับแพลตฟอร์มอื่นอย่าง Google Flow ก็ถือว่าถูกจำกัดด้านฟังก์ชันมาก
    มีการแนบวิดีโอทดสอบความแม่นยำทางฟิสิกส์มาด้วย แต่ Veo เองก็ทำงานกับพรอมป์ต์เหล่านั้นได้ไม่ดีเช่นกัน
    อีกอย่างที่น่าสนใจคือ ตอนนี้มีทั้งวิดีโอที่ค่อนข้างน่าประทับใจและวิดีโอที่ดูหยาบมากถูกโพสต์ขึ้นมาปะปนกัน
    ตัวอย่าง physics ของ Sora 1
    ตัวอย่าง physics ของ Sora 2
    ตัวอย่าง Veo 1
    ตัวอย่าง Veo 2

    • โดยส่วนตัวชอบเทคโนโลยีล้ำ ๆ และ AI แต่ก็ไม่แน่ใจว่า "TikTok but AI" เป็นความพยายามที่พึงประสงค์ต่อสังคมหรือไม่
      ถ้ามันมีผลเชิงบวกที่ชัดเจนจริง ๆ ก็น่าสนใจว่าเป็นอะไร

    • ถ้าประสิทธิภาพการใช้พลังงานของการสร้างวิดีโอไม่ดีขึ้นแบบก้าวกระโดด หรือถ้าค่าพลังงานไม่ลดลงจนเกือบเป็นศูนย์
      ผมคิดว่าบริการบริโภควิดีโอเรียลไทม์ขนาดมหาศาลระดับ TikTok ไม่น่าจะยั่งยืนในเชิงความสามารถทำกำไร
      ตอนนี้วิดีโอที่มนุษย์ถ่ายและอัปโหลดเองยังใช้พลังงานน้อยกว่าและต้นทุนต่ำกว่ามาก

    • กลยุทธ์ที่ OpenAI พยายามผลักดัน Sora ให้เป็นโซเชียลเน็ตเวิร์กนั้น จริง ๆ แล้วเป็นแนวทางที่ Midjourney ใช้กับภาพมาสักพักแล้ว
      Midjourney Explore - Videos
      หลายคนชอบสไตล์ภาพที่เป็นเอกลักษณ์ของ Midjourney และโมเดลก็เรียนรู้จากโครงสร้างที่มีการให้คะแนนและปฏิสัมพันธ์
      ในการสร้างภาพนั้นระดับของ 'สุนทรียะ' ก็จัดการได้ง่ายกว่าเช่นกัน

    • ช่วงหลัง Meta ก็ลองแนวคล้ายกันเหมือนกัน
      Meta, เปิดตัว Vibes AI Video

    • การเสริมความแข็งแรงให้ฟีดที่เน้นการเสพคอนเทนต์เป็นหนึ่งในทิศทางที่ชัดเจนแน่นอน
      อีกเหตุผลหนึ่งคือ แทนที่ผู้ใช้หลายคนจะใช้ทรัพยากรกับช่องพรอมป์ต์ว่างแบบเดียวกันเพื่อปล่อยผลงานคล้าย ๆ กันออกมา
      การแสดงตัวอย่างที่ดีก่อน แล้วให้มีการพูดคุยต่อยอดจากสิ่งนั้น เพื่อให้ได้ผลลัพธ์คุณภาพสูงเร็วขึ้น น่าจะมีประสิทธิภาพมากกว่า

  • ทุกครั้งที่เห็นเทคโนโลยีแบบนี้ จะนึกถึงประโยคของ Jeff Goldblum ใน Jurassic Park
    เจ้านายผมชอบเอาวิดีโอ AI ที่ทำด้วยเครื่องมือพวกนี้และยังดูไม่สมบูรณ์มาให้ดู พร้อมตะโกนว่า "นี่คืออนาคต"
    แต่ดูเหมือนจะไม่เคยถามคำถามพื้นฐานเลยว่า "จริง ๆ แล้วใครต้องการสิ่งนี้ และใครจะดูมัน?"
    ตอนนี้คอนเทนต์ AI ยังมีข้อจำกัดที่เห็นได้ชัดทันทีเมื่อมอง

    • พอเห็นแอป Vibes ของ Meta ก็คิดคล้ายกัน
      ใครกันที่จะอยากดูสตรีมวิดีโอที่สร้างด้วย AI ล้วน ๆ? สำหรับ Meta มันดีเพราะหาคอนเทนต์ได้ถูกกว่าการจ่ายเงินให้คน แต่
      ในความเป็นจริงมันก็เป็นแค่ 'slop' คุณภาพต่ำ
  • ประเด็นลิขสิทธิ์ถูกจัดการแบบหละหลวมเกินไป
    โดยพื้นฐานแล้ว Sora ถูกตั้งค่าให้ใช้ IP ของผู้ใช้กับวิดีโอ AI และผู้ใช้ต้องเป็นฝ่ายปฏิเสธอย่างชัดเจนถึงจะไม่ถูกนำไปใช้
    บทความที่เกี่ยวข้อง
    นอกจากนี้ คนที่กำลังทำโปรเจกต์ที่มีแรงกระเพื่อมมากระดับนี้ก็ดูเหมือนจะมีประสบการณ์ชีวิตจริงน้อย
    หมกมุ่นอยู่กับเทคโนโลยีวิบวับน่าตื่นตา และไม่ค่อยสนใจผลกระทบหรือผลลัพธ์
    (Vibes ของ Meta ก็อยู่ในบริบทเดียวกัน)

    • ประเด็นนี้ในบทความก็บอกว่าเขียนโดยบอต เลยสงสัยว่ามีแหล่งที่แม่นยำกว่านี้หรือไม่

    • ใน Grok มีการใช้ตัวละครที่มีลิขสิทธิ์ได้อย่างเสรีมานานกว่าหนึ่งปีแล้ว แต่ก็ยังไม่มีการฟ้องร้อง

  • เทคโนโลยีแบบนี้ทำให้นึกถึงความเป็นไปได้ที่ในอนาคตจะเปิดให้แบรนด์ซื้อไลเซนส์
    เพื่อผลิตวิดีโอโฆษณาที่ปรับแต่งได้เฉพาะบุคคลมากขึ้น
    ตัวอย่างเช่น ถ้าก่อนจะสั่งซื้อเสื้อผ้าจริง ฉันสามารถเห็นวิดีโอของตัวเองในชุดนั้นได้ ก็เป็นประสบการณ์ที่น่าทึ่งมาก
    ถ้าถึงขั้นสร้างได้แบบเรียลไทม์ ก็อาจจินตนาการได้ว่าแค่เดินผ่านหน้ากระจกในห้าง ภาพของฉันจะสลับเป็นหลายชุดโดยอัตโนมัติ
    เป็นยุคที่น่าตื่นเต้นมาก

    • ถ้าไปถึงจุดนั้นได้จริง ก็ดูเหมือนว่าอาจไม่จำเป็นต้องซื้อเสื้อผ้าจริงอีกต่อไป
      อินฟลูเอนเซอร์อาจพอใจแค่โพสต์วิดีโอจำลองของตัวเองลง SNS และโปรโมตได้โดยไม่ต้องไปสถานที่จริง
      มีมทวีตที่เกี่ยวข้อง
      ไปไกลกว่านั้น ยังอาจสร้างวิดีโอปลอมว่าตัวเองกำลังปาร์ตี้กับเพื่อนทั้งที่ไม่ได้ออกจากบ้าน
      สุดท้ายก็นั่งกินไอศกรีมอยู่บ้าน แต่ใน SNS กลับดูเหมือนใช้ชีวิตอย่างคึกคัก

    • รู้สึกเหมือนเคยเห็นฉากทำนองนี้ใน Minority Report มาก่อน
      ในหนังมีฉากที่ชื่อของ Tom Cruise ถูกเรียกในโฆษณาโดยตรง ซึ่งน่าจดจำมาก
      Minority Report - วิกิภาพยนตร์

    • สิ่งนี้เรียกว่า 'Virtual Try On(VTO)' และตอนนี้ก็ถูกใช้อย่างแพร่หลายในรูปภาพนิ่งอยู่แล้ว
      เลยเป็นธรรมดาที่จะคาดว่าวิดีโอ VTO จะตามมาในไม่ช้า

    • ท้ายที่สุดแล้ว การใช้งานที่พบบ่อยที่สุดของโมเดลวิดีโอแบบนี้น่าจะไปกระจุกที่การทำภาพจำลองเฉพาะบุคคล เช่น การลองสินค้าเสมือนจริง
      เพราะผู้คนสุดท้ายก็ยังชอบสร้างความรู้สึกร่วมกับมนุษย์มากกว่า AI
      Sora หรือ VEO อาจสร้างการเปลี่ยนแปลงครั้งใหญ่กับงานสร้างภาพยนตร์หรือคอนเทนต์ทีวีได้ด้วย

    • การวางเฟอร์นิเจอร์ด้วย AR (ฟังก์ชันวางตำแหน่งเฟอร์นิเจอร์ล่วงหน้าในบ้านแบบเสมือน) ก็เคยถูกเรียกว่าเป็นนวัตกรรมเหมือนกัน
      แต่ในความเป็นจริงแทบไม่มีใครใช้เลย

  • เหตุผลหลักที่การสร้างภาพของ ChatGPT ดึงผู้ใช้เกิน 100 ล้านคนได้ในสัปดาห์แรก
    คือผู้คนสนุกมากกับการสร้างภาพเพื่อน ครอบครัว และสัตว์เลี้ยงของตัวเองด้วย AI
    ฟีเจอร์ 'คาเมโอ' ก็น่าจะเป็นความพยายามที่จะดึงเสน่ห์แบบไวรัลนี้กลับมาอีกครั้ง

    • ยังดีที่สัตว์เลี้ยงไม่ต้องให้ความยินยอมแยกต่างหากสำหรับการนำไปใช้ในวิดีโอ AI
      ดังนั้นตราบใดที่ PETA ไม่คัดค้าน ก็คงไม่มีปัญหา
  • สิ่งที่น่าสนใจที่สุดคือ
    หากผู้ใช้ใส่วิดีโอคลิปของคนหรือสินค้าลงไปในพรอมป์ต์
    AI จะใช้เมตาดาต้านั้นสร้างวิดีโอที่สมจริงขึ้นมา
    ในเชิงเทคนิค ดูเหมือนเป็นผลจากการฝึกมาก่อนด้วยชุดข้อมูลที่ยกระดับขึ้น
    จากมุมมองผู้ใช้ มันอาจกลายเป็นฟีเจอร์เชิงพาณิชย์ที่ใช้งานได้จริงมาก
    แต่ในอีกด้านหนึ่ง นวัตกรรมที่ขับเคลื่อนด้วยข้อมูลแบบนี้ Google ก็อาจไล่ตามได้ในไม่ช้าด้วยพลังของ YouTube
    และมีความเป็นไปได้สูงว่าเทคโนโลยีคล้ายกันอาจถูกใช้งานภายในอยู่แล้ว

    • ไม่อยากให้ AI ถูกแทรกเข้าไปในวิดีโอสินค้าเลย
      ในฐานะคนที่เอาเงินอันมีค่าของตัวเองไปจ่าย ภาพลวงตาหรือภาพสินค้าที่ถูกแต่งขึ้นซึ่งไม่มีอยู่จริงนั้นแทบไม่ต่างจากการหลอกลวง
      ผมคิดว่ารีวิว∙โฆษณาที่ตั้งอยู่บนภาพฝันแทนสินค้าจริงมีปัญหาในเชิงจริยธรรม
  • ทั้งหมดนี้จริง ๆ แล้วคือความคืบหน้าไปสู่สตรีมคอนเทนต์ AI ที่ปรับแต่งเฉพาะบุคคลแบบไม่สิ้นสุด
    เป็นโครงสร้างที่ถูกปรับให้เหมาะกับการกระตุ้นโดพามีนของแต่ละคนให้สูงสุด

    • มันให้ความรู้สึกเหมือน Torment Nexus ที่เป็น Skinner box (อุปกรณ์ที่ชักนำให้ทำพฤติกรรมซ้ำเพื่อแลกกับความพึงพอใจ)

    • ณ ตอนนี้ โครงสร้างแบบนี้ยังไม่น่าจะยั่งยืนได้ในแง่พลังงานหรือทรัพยากร

  • หนึ่งในพรอมป์ต์ตัวอย่างที่ว่า "ศึกแอนิเมชันดุเดือดระหว่างเด็กผู้ชายที่ถือดาบทำจากแสงสีน้ำเงินกับวิญญาณร้าย"
    มีคอนเซ็ปต์แทบจะเหมือนกับมังงะญี่ปุ่น Blue Exorcist
    Blue Exorcist (วิกิ)

    • ในพรอมป์ต์ตัวอย่างถึงขั้นมีข้อความว่า "'ในสไตล์แอนิเมชันของ Studio Ghibli เด็กผู้ชายกับลูกสุนัขกำลังปีนภูเขาสีน้ำเงิน และมองเห็นหมู่บ้านอยู่ไกล ๆ'"

    • ตัวละครมังกรก็ดูเหมือนหยิบมาจาก How to Train Your Dragon แทบทั้งดุ้น
      เลยสงสัยว่ามีข้อตกลงกับเจ้าของลิขสิทธิ์หรือไม่ หรือว่าตั้งใจล่อให้เกิดคดีเพื่อหวังผลประชาสัมพันธ์จากสื่อ

  • ในมุมวิศวกรรม นี่เป็นผลลัพธ์ที่น่าประทับใจมากจริง ๆ
    คุณภาพวิดีโอดีขึ้นจนมากพอจะดึงความสนใจได้ และยังทำให้รู้สึกถึง uncanny valley (ความแปลกแยกชวนขนลุก) ด้วย
    OpenAI ทำได้ดีมากในการค่อย ๆ ทำให้สาธารณชนคุ้นชินกับเทคโนโลยีใหม่แบบนี้
    เวอร์ชันนี้ยังมีข้อจำกัดเยอะ แต่แนวโน้มดูเหมือนอีกเพียงหนึ่งหรือสองรุ่นก็อาจข้ามจุดวิกฤตทางเทคนิคได้
    ตัวอย่างเช่น ในตลาด LLM นั้น Gemini 2.5 Pro คือจุดวิกฤตที่แท้จริง และ Sora เองก็ดูเหมือนกำลังจะถึงจุดเปลี่ยนนั้นในไม่ช้า
    จากมุมมองของครีเอเตอร์ ถ้ามีความสามารถในการสร้างหลาย asset (ฉากหลัง วัตถุ ฯลฯ) เป็นชุดก่อน แล้วเชื่อมหลายฉากให้ต่อเนื่องกันอย่างเป็นธรรมชาติได้ ก็น่าจะเป็นอุดมคติ

  • วิดีโอนี้มี continuity สูงขึ้นอย่างน่าทึ่ง
    แต่ก็ยังมีข้อผิดพลาดบางจุดที่สังเกตเห็นได้ชัด

    1. 0:23 - นักโปโลเสื้อคลุมแดงใส่ถุงมือ แต่ในฉากถัดไปกลับไม่ใส่
    2. 1:05 - มังกรบินเลาะหน้าผา แต่ในช็อตใกล้กลับหันไปคนละทิศ และเสื้อผ้าของตัวละครก็เปลี่ยนด้วย
    3. 1:45 - ในฉากแข่งเป็ด เป็ดเลี้ยวโค้งไม่ได้อย่างถูกต้องและพุ่งเข้าหากำแพง
      เลยสงสัยว่าจะจัดการปัญหาสตอรีบอร์ดที่ซับซ้อนกว่านี้อย่างไร
    • วิดีโอนี้ซ่อนปัญหา continuity ด้วยการตัดต่อถี่ยิบและการสลับกล้องอย่างรวดเร็ว
      เห็นได้ชัดว่าทุกอย่างตั้งแต่แหน สโนว์โมบิล ไปจนถึงองค์ประกอบอื่น ๆ เปลี่ยนไปตลอดในแต่ละคัต
      สุดท้ายมีเพียงส่วนใบหน้าที่ดูคงเส้นคงวา
      โดยรวมแล้วปัญหาแบบฉบับของวิดีโอ AI ก็ยังอยู่เหมือนเดิม และแทบไม่มีช็อตไหนที่อยู่ในสภาพแวดล้อมเดียวกันเกิน 5 วินาที

    • แม้แต่ในฉากแข่งเป็ด พอ Sam โผล่มา สนามหญ้าก็กลายเป็นคนละแบบไปแล้ว

    • การที่แม้แต่เดโมนี้ยังมีข้อผิดพลาดมาก ก็เป็นสัญญาณว่าผลลัพธ์ของผู้ใช้ทั่วไปจะยิ่งด้อยกว่านั้นมาก

    • ในฉากใช้ bo staff ในสระ ข้อมือบิดผิดธรรมชาติอย่างชัดเจน

    • ในเดโมฉากไม้พลองที่สระ ไม้แท่งจู่ ๆ ก็เปลี่ยนเป็นทรงธนู ทำให้จับได้ง่ายมากว่าเป็นฉากที่ 'ดูเป็น AI' ชัดเจน