4 คะแนน โดย GN⁺ 2025-06-14 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • โมเดลสร้าง วิดีโอ แบบหลายช็อตที่อิงจากข้อความและภาพ ซึ่งให้ ความแม่นยำและความยืดหยุ่นสูงกว่า โมเดลเดิมในด้านความเข้าใจความหมายและการตีความพรอมป์ต์
  • มอบผลลัพธ์ที่มีความละเอียดสูงระดับ 1080p พร้อมด้วย การเปลี่ยนฉากที่ลื่นไหล รายละเอียดที่สมบูรณ์ และอารมณ์แบบภาพยนตร์
  • ปรับปรุงประสิทธิภาพโดยรวมด้วย การฟाइनจูนอย่างละเอียด และ กลไกรางวัล RLHF ที่ออกแบบมาเฉพาะสำหรับวิดีโอ
  • สามารถสร้างคอนเทนต์ภาพที่มีความเคลื่อนไหวและชวนดื่มด่ำ โดยอิงจากคำบรรยายข้อความหรือภาพให้ตรงตามเงื่อนไขที่ต้องการ
  • รองรับทั้งการสร้างหลายช็อตและงานข้อความ→วิดีโอ/ภาพ→วิดีโอ ด้วย สถาปัตยกรรมที่มีประสิทธิภาพและกระบวนทัศน์การเรียนรู้แบบใหม่

แนะนำ Seedance 1.0

  • ช่วงหลังมานี้ เทคโนโลยี การสร้างวิดีโอ กำลังพัฒนาอย่างรวดเร็วจากความก้าวหน้าครั้งใหญ่ของโมเดล diffusion
  • แต่โมเดลเดิมส่วนใหญ่ยังคงมีปัญหาในการสร้างสมดุลระหว่าง การทำตามคำสั่ง (พรอมป์ต์) ความเป็นธรรมชาติของการเคลื่อนไหว และคุณภาพด้านภาพ
  • Seedance 1.0 เป็นโมเดลพื้นฐานสำหรับ การสร้างวิดีโอ ที่นำการปรับปรุงทางเทคนิคสำคัญต่อไปนี้มาใช้
    • (i) การเก็บรวบรวมข้อมูลจากหลายแหล่งพร้อมเพิ่ม คำบรรยายวิดีโอที่แม่นยำ ทำให้เรียนรู้ได้ครอบคลุมในหลายสถานการณ์
    • (ii) สถาปัตยกรรมและกระบวนทัศน์การเรียนรู้ที่มีประสิทธิภาพ รองรับทั้งการสร้างหลายช็อต และงานข้อความ→วิดีโอ กับ ภาพ→วิดีโอ ไปพร้อมกัน
    • (iii) การปรับแต่งหลังการประมวลผลที่เพิ่มประสิทธิภาพอย่างละเอียด: supervised fine-tuning ที่ประณีต, RLHF สำหรับวิดีโอโดยเฉพาะ และกลไกรางวัลหลายมิติ ช่วยยกระดับประสิทธิภาพโดยรวมอย่างมาก
    • (iv) การเร่งความเร็วของโมเดล: เพิ่มความเร็วในการอนุมาน 10 เท่าด้วยการกลั่นหลายขั้นตอนและการปรับแต่งในระดับระบบ
  • สามารถสร้าง วิดีโอ 1080p ความยาว 5 วินาที ได้ในเวลาเพียง 41.4 วินาทีบน NVIDIA-L20 GPU
  • เมื่อเทียบกับโมเดลสร้างวิดีโอรุ่นล่าสุด โมเดลนี้โดดเด่นในด้าน ความยืดหยุ่นเชิงพื้นที่-เวลา ความเสถียรของโครงสร้าง การทำตามคำสั่งในสถานการณ์ซับซ้อนหลายรูปแบบ รวมถึงความสม่ำเสมอของการสร้างหลายช็อตและการเล่าเรื่อง

1 ความคิดเห็น

 
GN⁺ 2025-06-14
ความคิดเห็นจาก Hacker News
  • มองว่าเป็นอนาคตที่น่าตั้งตารอ ซึ่งความสามารถแบบนี้วันหนึ่งจะกลายเป็นเรื่องธรรมดาจนน่าเบื่อ
    • ทำให้นึกภาพได้ว่า บนมือถือของตัวเองจะสามารถสร้างแอนิเมชันพากย์เสียงเต็ม 24 ตอนแบบสด ๆ ไว้เล่นกับเพื่อนในแชตกลุ่มได้
    • ทุกวันนี้มันก็ทำอะไรได้มากจนน่าเหลือเชื่ออยู่แล้ว และก็น่าทึ่งอีกเหมือนกันที่อีกไม่นานคงไม่มีใครสนใจมัน
    • ชี้ว่า ต่อให้เป็นซีรีส์ 24 ตอนที่สร้างจากพรอมป์ตง่าย ๆ สุดท้ายก็คงไม่มีใครสนใจอยู่ดี
      • มองว่า AI ไม่ได้เพิ่มคุณค่าของคอนเทนต์ แต่ทำลายความหายากจนความหมายเลือนหายไป
      • ทิ้งอุปมาไว้ด้วยว่าให้ความรู้สึกเหมือน Tea. Earl Grey. Hot. ที่ออกมาจากเครื่องอย่างเป็นกลไก
    • ถ้าการทำคอนเทนต์ง่ายขนาดนี้ ก็อดสงสัยไม่ได้ว่าใครจะยังใช้เวลานาน ๆ ดูวิดีโออยู่
      • เดาว่าสุดท้ายทุกคนคงยุ่งกับการเสพคอนเทนต์ generative แบบเฉพาะของตัวเอง
    • ตัวเองก็ตั้งตารอเทคโนโลยีนี้มากเหมือนกัน
      • เช่น อยากลองสร้างหนัง Shadowrun ด้วยตัวเอง
    • คาดว่าปริมาณคอนเทนต์ที่ถูกสร้างในหนึ่งเดือนจะมากกว่าผลรวมของคอนเทนต์ทั้งหมดตลอดประวัติศาสตร์มนุษยชาติที่ผ่านมา
      • น่าตื่นเต้นตรงที่แทนที่จะมีแต่สื่อกระแสหลักอย่าง Disney, Marvel, Star Wars ก็จะได้เสพสื่อแบบ long tail ที่ตรงกับความสนใจของแต่ละคนพอดี
      • ถ้าสนใจอียิปต์กับแอตแลนติส ก็อาจนึกภาพโลกที่เปิดดูซีรีส์ steampunk ซึ่งสองอารยธรรมนี้สู้กันได้ทันที ในโทนจริงจังแบบ The Wire
      • โปรเจ็กต์ที่เมื่อก่อนไม่มีทางถูกสร้างได้เลย ก็จะกลายเป็นจริงได้
      • จะมีครีเอเตอร์เก่ง ๆ โผล่ขึ้นมา และจากนี้ไปคนทำงานสร้างสรรค์หลากหลายแบบก็มีโอกาสโดดเด่นได้ เหมือนอินดี้มิวสิก อินดี้คอมิก อินดี้เกม
      • ปัญหาที่แท้จริงน่าจะกลายเป็นเรื่องการค้นพบคอนเทนต์
      • ย้ำว่าโครงสร้างอุตสาหกรรมเดิมที่ต้องเบียดกันลงไปอยู่ในช่องจำกัดแค่ 500 ตำแหน่งต่อปีจะพังลง และคนเก่งจำนวนมากที่มีวิสัยทัศน์ของตัวเองจะได้ลองทำสิ่งใหญ่ ๆ
      • โมเดลแบบ VivziePop(วิกิของ Vivienne Medrano) และ PsychicPebbles(วิกิของ Zach Hadel) ที่เริ่มจาก YouTube แล้วเติบโตเป็น IP ขนาดใหญ่ จะกลายเป็นมาตรฐานในอนาคต
      • คาดว่านวัตกรรมในวงการสร้างสรรค์จะไม่ได้ดีขึ้นแค่ 2~10 เท่า แต่ใกล้ 1000 เท่า
      • ที่ผ่านมาไม่ชอบหนัง/ซีรีส์ส่วนใหญ่เพราะไม่ตรงรสนิยมตัวเอง แต่ก็ชอบสื่อในฐานะสื่อมาโดยตลอด
      • ตอนนี้เลยตื่นเต้นมากกับโลกที่กำลังจะเปิดทางให้ได้เจอคอนเทนต์ที่ตรงกับรสนิยมและความสนใจของตัวเองจริง ๆ
  • มองว่าในอนาคตจะเป็นแบบอัลกอริทึม TikTok ที่เข้าใจรสนิยมทันทีที่ดู แล้วสร้างวิดีโอใหม่ให้สด ๆ ตลอดเวลา
    • ทุกครั้งที่ผู้ใช้เลื่อนดู ระบบจะเรียนรู้ว่าเขาชอบอะไร แล้วสร้างวิดีโอเพิ่มมาให้โดยอัตโนมัติ
    • ถ้าใส่บริบทให้โมเดลมากพอ คอนเทนต์ที่คนนั้นตอบสนองจะน่าหลงใหลจนมีความเสพติดแบบที่ละสายตาจอไม่ได้เลย
      • เป็นจินตนาการที่ชวนขนลุก แต่ก็คิดว่าในระยะยาวคงเลี่ยงไม่ได้
    • น่าเสียดายที่มีความกังวลว่า แทนที่จะทำตามรสนิยมผู้ใช้เฉย ๆ มันอาจพยายามบิดรสนิยมของผู้ใช้เองเพื่อเพิ่ม engagement ให้สูงสุด
    • อีกด้านก็มีความเห็นว่า ทิศทางเทคโนโลยีแบบนี้จริง ๆ แล้วห่างไกลจากเหตุผลที่คนใช้โซเชียลมีเดีย
      • ยกตัวอย่างว่า ChatGPT เองก็สร้างคอมเมนต์ได้ไม่รู้จบ แต่สุดท้ายเราก็ยังมาที่ Hacker News กันอยู่ดี
    • คาดว่าในอนาคตจะมีแนวคิดแบบ live mode ที่สร้างวิดีโอได้แบบเรียลไทม์ทันทีตามเสียงของผู้ใช้
      • ดูเป็นไปได้ว่า Netflix ก็อาจมีฟีเจอร์แบบนี้
    • สงสัยเหมือนกันว่าระบบจะเรียนรู้ได้ไหมว่าเราเกลียดโฆษณา และสะท้อนสิ่งนั้นออกมาได้อย่างเหมาะสมจริงหรือไม่
  • ในบรรดาวิดีโอตัวอย่างมีหลายฉากที่น่าประทับใจทีเดียว แต่บางฉากก็ยังเห็นการเคลื่อนไหวที่ไม่เป็นธรรมชาติอยู่บ่อย ๆ
    • เหมือนข้อมูลฝึกอาจไปโฟกัสที่ส่วนที่เวอร์ที่สุดของ TikTok จนดูเหมือนรักษาฉากเดียวไว้เกิน 5 วินาทีไม่ได้
    • แน่นอนว่าฉากยาก ๆ จัดการได้ดี แต่กลับพลาดเยอะในส่วนที่ดูเหมือนง่ายกว่า
      • เช่น เปียโนตอนเปิดหรือกล้องที่ช่างภาพใช้มีคำว่า AI text เขียนอยู่ ชายชราในคาเฟ่มีมือทะลุหมวกเบเรต์ และเด็กสาวที่หันกลับมาริมทะเลก็หมุนหัวเหมือนนกฮูก
      • ฉากเด็กผู้ชายปั่นจักรยานในเมืองยุโรปจบลงด้วยภาพสิ่งมีชีวิตที่เข้ารหัสไว้ยืนอยู่ใต้ต้นไม้พร้อมรถล้อเดียวในจัตุรัส
    • ByteDance ทดสอบโมเดลนี้ภายในบน Model Arena มาหลายสัปดาห์แล้วภายใต้ชื่อ Unicorn
  • มองว่าอีก 5 ปีข้างหน้าอาจเป็นโลกที่คอนเทนต์ทั้งหมดถูกสร้างแบบเรียลไทม์
    • ถ้าพูดอะไรออกไป มันก็จะตอบกลับมาเป็นวิดีโอความยาว 5 วินาทีทันที
    • วิดีโอจะไม่ใช่ “สินทรัพย์แบบตายตัว” อีกต่อไป แต่เป็นการตอบสนองแบบ “ephemeral” ที่ถูกสร้างแล้วก็หายไปในทันที
    • วิดีโอจะไม่ใช่ไฟล์ที่อัปโหลดแบบ passive อีกต่อไป แต่กลายเป็นเอาต์พุตของ data stream
    • UI แห่งอนาคตที่มาแทนการปัดหน้าจอมีแนวโน้มจะเป็น voice prompt
    • สิ่งที่ Seedance กำลังทำจึงไม่ใช่การทดลองฟอร์แมตใหม่ แต่เป็นการทดลองระบบคอนเทนต์ที่สร้างตอน runtime
    • ฝั่ง backend จะบีบอัด model infra ด้วย comet และตั้งค่าให้ LLM รันได้ถูกและเร็วขึ้น
    • ถ้าชุดผสมนี้ทำได้จริง ก็จะเปิดทางให้บริการสร้างคอนเทนต์ในสเกลใหญ่ได้โดยไม่ต้องพึ่ง batch ขนาดใหญ่หรือ cache มากนัก
    • หากสิ่งนี้เกิดขึ้นจริง ฟีดก็จะไม่ใช่การเลื่อนอีกต่อไป แต่จะกลายเป็น render loop
    • ทั้งหมดนี้จึงถูกมองว่าไม่ใช่ “บริการสื่อ” อีกแล้ว แต่เป็นระบบโฮสต์โมเดล AI แบบ low-latency ที่สวมหน้าตาเป็นแพลตฟอร์มวิดีโอ
  • คุณภาพวิดีโอยอดเยี่ยม แต่ก็มีคำถามว่าแล้วเสียงอยู่ไหน
    • มีการพูดถึงว่า VEO3 อาจสร้างภาพวิดีโอได้ดี แต่ความสมบูรณ์ฝั่งเสียงต่างหากที่สร้างความแตกต่างอย่างมาก
    • ตัวเองทำงานด้านโซลูชัน AI ในบริษัทสตรีมมิงวิดีโอรายใหญ่
      • ปัญหาของ VEO3 คือความสม่ำเสมอระหว่างพรอมป์ตยังต่ำ
      • เช่น ต่อให้อัปโหลดภาพอ้างอิงของตัวละครไว้ ถ้าสร้าง เจ้าสาวชราก้มตัว กับ เจ้าสาวชราก้มลงเก็บเหรียญ แยกกัน ตัวละครที่ออกมาก็ดูเหมือนคนละคนทุกครั้ง
      • แน่นอนว่า VEO3 มีฟีเจอร์ image-to-video แต่สำหรับการสร้างฉากจริงยังห่างไกลจากคำว่าพอใช้ได้มาก
      • แม้เวลาผ่านไปมันจะดีขึ้น แต่ในตอนนี้ส่วนตัวชอบที่ Seedance โฟกัสเรื่องความสม่ำเสมอระหว่างช็อต
      • หวังว่าจุดนี้จะกดดัน VEO3 ให้เร่งปรับปรุงฟีเจอร์ดังกล่าวเร็วขึ้น
  • มีคนสงสัยว่าทำไมวิดีโอตัวอย่างทุกอันถึงมีวงกลมใหญ่ปรากฏอยู่
  • มีคำถามว่า Seedance ใช้งานได้ที่ไหน
    • Seedance 1.0 มีกำหนดถูกรวมเข้ากับหลายแพลตฟอร์มอย่าง Doubao และ Jimeng ตั้งแต่เดือนมิถุนายน 2025
    • ดูเหมือนว่าฟีเจอร์นี้จะตรงเข้าสู่ TikTok ในไม่ช้า
      • มีข้อชี้ว่าบนแพลตฟอร์ม TikTok เองจะเกิดคลื่นคอนเทนต์ generative ครั้งใหญ่ และแพลตฟอร์มจะหาทางสร้างรายได้จากปรากฏการณ์ที่ทุกคนอยากเป็นครีเอเตอร์
      • คาดว่าในอนาคตนโยบายแพลตฟอร์มจะเปลี่ยนจาก “อัปโหลดคอนเทนต์ได้ฟรี” เป็น “ต้องอัปโหลดผ่าน AI gateway และต้องจ่ายค่าธรรมเนียมด้วย”
  • มีคนบอกว่ารู้สึกคลื่นไส้หรือเวียนหัวกับวิดีโอที่มีการเคลื่อนไหวเยอะ
    • ตอน Sora เปิดตัวครั้งแรกก็เคยรู้สึกคล้ายกัน แต่ใน Seedance เบาลงเล็กน้อย
    • ในเดโมของ Veo 3 ไม่รู้สึกแบบนี้ เลยถามว่าคนอื่นก็รู้สึกคล้ายกันกับตัวอย่างที่มี motion เยอะของ Seedance หรือไม่
  • มีคนสงสัยว่าความสมจริงของวิดีโอที่ AI สร้างนั้นเข้าใกล้ระดับหนังแอนิเมชัน CGI แบบเดิมแล้วหรือยัง
    • คาดว่าถ้าเป็นผู้เชี่ยวชาญก็คงชี้ข้อบกพร่องชัด ๆ ของผลลัพธ์ตอนนี้ได้แน่นอน
    • แต่ก็หวังว่าในอนาคตจะสามารถใช้พรอมป์ตแก้เฉพาะบางช่วงอย่างละเอียดได้
    • อีกทั้งยังสงสัยว่าเมื่อเทียบกับต้นทุน CGI ระดับฮอลลีวูดงบสูงต่อหนึ่งวินาทีแล้ว จริง ๆ ต้องใช้ทรัพยากรคอมพิวต์/เงินมากน้อยแค่ไหน
    • ทุกวันนี้แม้แต่ CGI ทั่วไปในฮอลลีวูดที่ไม่ใช่งานแอนิเมชัน บางครั้งคุณภาพก็ยังตก จึงไม่ได้ตั้งความคาดหวังไว้สูงมาก
      • ที่จริงกระบวนการ change management ในการปรับและควบคุมผลลัพธ์ CGI ก็ดูน่าสนใจไม่น้อย
  • รู้สึกส่วนตัวว่า Old man ไม่ได้ดูแก่ขนาดนั้น (พร้อมแซวตัวเองเล่น ๆ ว่าอาจเป็นเพราะตัวเองแก่แล้วก็ได้)