Seedance 1.0 - โมเดลสร้างวิดีโอหลายช็อตของ Bytedance

(seed.bytedance.com)

4 คะแนน โดย GN⁺ 2025-06-14 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

โมเดลสร้าง วิดีโอ แบบหลายช็อตที่อิงจากข้อความและภาพ ซึ่งให้ ความแม่นยำและความยืดหยุ่นสูงกว่า โมเดลเดิมในด้านความเข้าใจความหมายและการตีความพรอมป์ต์
มอบผลลัพธ์ที่มีความละเอียดสูงระดับ 1080p พร้อมด้วย การเปลี่ยนฉากที่ลื่นไหล รายละเอียดที่สมบูรณ์ และอารมณ์แบบภาพยนตร์
ปรับปรุงประสิทธิภาพโดยรวมด้วย การฟाइनจูนอย่างละเอียด และ กลไกรางวัล RLHF ที่ออกแบบมาเฉพาะสำหรับวิดีโอ
สามารถสร้างคอนเทนต์ภาพที่มีความเคลื่อนไหวและชวนดื่มด่ำ โดยอิงจากคำบรรยายข้อความหรือภาพให้ตรงตามเงื่อนไขที่ต้องการ
รองรับทั้งการสร้างหลายช็อตและงานข้อความ→วิดีโอ/ภาพ→วิดีโอ ด้วย สถาปัตยกรรมที่มีประสิทธิภาพและกระบวนทัศน์การเรียนรู้แบบใหม่

แนะนำ Seedance 1.0

ช่วงหลังมานี้ เทคโนโลยี การสร้างวิดีโอ กำลังพัฒนาอย่างรวดเร็วจากความก้าวหน้าครั้งใหญ่ของโมเดล diffusion
แต่โมเดลเดิมส่วนใหญ่ยังคงมีปัญหาในการสร้างสมดุลระหว่าง การทำตามคำสั่ง (พรอมป์ต์) ความเป็นธรรมชาติของการเคลื่อนไหว และคุณภาพด้านภาพ
Seedance 1.0 เป็นโมเดลพื้นฐานสำหรับ การสร้างวิดีโอ ที่นำการปรับปรุงทางเทคนิคสำคัญต่อไปนี้มาใช้
- (i) การเก็บรวบรวมข้อมูลจากหลายแหล่งพร้อมเพิ่ม คำบรรยายวิดีโอที่แม่นยำ ทำให้เรียนรู้ได้ครอบคลุมในหลายสถานการณ์
- (ii) สถาปัตยกรรมและกระบวนทัศน์การเรียนรู้ที่มีประสิทธิภาพ รองรับทั้งการสร้างหลายช็อต และงานข้อความ→วิดีโอ กับ ภาพ→วิดีโอ ไปพร้อมกัน
- (iii) การปรับแต่งหลังการประมวลผลที่เพิ่มประสิทธิภาพอย่างละเอียด: supervised fine-tuning ที่ประณีต, RLHF สำหรับวิดีโอโดยเฉพาะ และกลไกรางวัลหลายมิติ ช่วยยกระดับประสิทธิภาพโดยรวมอย่างมาก
- (iv) การเร่งความเร็วของโมเดล: เพิ่มความเร็วในการอนุมาน 10 เท่าด้วยการกลั่นหลายขั้นตอนและการปรับแต่งในระดับระบบ
สามารถสร้าง วิดีโอ 1080p ความยาว 5 วินาที ได้ในเวลาเพียง 41.4 วินาทีบน NVIDIA-L20 GPU
เมื่อเทียบกับโมเดลสร้างวิดีโอรุ่นล่าสุด โมเดลนี้โดดเด่นในด้าน ความยืดหยุ่นเชิงพื้นที่-เวลา ความเสถียรของโครงสร้าง การทำตามคำสั่งในสถานการณ์ซับซ้อนหลายรูปแบบ รวมถึงความสม่ำเสมอของการสร้างหลายช็อตและการเล่าเรื่อง

1 ความคิดเห็น

GN⁺ 2025-06-14

ความคิดเห็นจาก Hacker News

มองว่าเป็นอนาคตที่น่าตั้งตารอ ซึ่งความสามารถแบบนี้วันหนึ่งจะกลายเป็นเรื่องธรรมดาจนน่าเบื่อ
- ทำให้นึกภาพได้ว่า บนมือถือของตัวเองจะสามารถสร้างแอนิเมชันพากย์เสียงเต็ม 24 ตอนแบบสด ๆ ไว้เล่นกับเพื่อนในแชตกลุ่มได้
- ทุกวันนี้มันก็ทำอะไรได้มากจนน่าเหลือเชื่ออยู่แล้ว และก็น่าทึ่งอีกเหมือนกันที่อีกไม่นานคงไม่มีใครสนใจมัน
- ชี้ว่า ต่อให้เป็นซีรีส์ 24 ตอนที่สร้างจากพรอมป์ตง่าย ๆ สุดท้ายก็คงไม่มีใครสนใจอยู่ดี
  - มองว่า AI ไม่ได้เพิ่มคุณค่าของคอนเทนต์ แต่ทำลายความหายากจนความหมายเลือนหายไป
  - ทิ้งอุปมาไว้ด้วยว่าให้ความรู้สึกเหมือน Tea. Earl Grey. Hot. ที่ออกมาจากเครื่องอย่างเป็นกลไก
- ถ้าการทำคอนเทนต์ง่ายขนาดนี้ ก็อดสงสัยไม่ได้ว่าใครจะยังใช้เวลานาน ๆ ดูวิดีโออยู่
  - เดาว่าสุดท้ายทุกคนคงยุ่งกับการเสพคอนเทนต์ generative แบบเฉพาะของตัวเอง
- ตัวเองก็ตั้งตารอเทคโนโลยีนี้มากเหมือนกัน
  - เช่น อยากลองสร้างหนัง Shadowrun ด้วยตัวเอง
- คาดว่าปริมาณคอนเทนต์ที่ถูกสร้างในหนึ่งเดือนจะมากกว่าผลรวมของคอนเทนต์ทั้งหมดตลอดประวัติศาสตร์มนุษยชาติที่ผ่านมา
  - น่าตื่นเต้นตรงที่แทนที่จะมีแต่สื่อกระแสหลักอย่าง Disney, Marvel, Star Wars ก็จะได้เสพสื่อแบบ long tail ที่ตรงกับความสนใจของแต่ละคนพอดี
  - ถ้าสนใจอียิปต์กับแอตแลนติส ก็อาจนึกภาพโลกที่เปิดดูซีรีส์ steampunk ซึ่งสองอารยธรรมนี้สู้กันได้ทันที ในโทนจริงจังแบบ The Wire
  - โปรเจ็กต์ที่เมื่อก่อนไม่มีทางถูกสร้างได้เลย ก็จะกลายเป็นจริงได้
  - จะมีครีเอเตอร์เก่ง ๆ โผล่ขึ้นมา และจากนี้ไปคนทำงานสร้างสรรค์หลากหลายแบบก็มีโอกาสโดดเด่นได้ เหมือนอินดี้มิวสิก อินดี้คอมิก อินดี้เกม
  - ปัญหาที่แท้จริงน่าจะกลายเป็นเรื่องการค้นพบคอนเทนต์
  - ย้ำว่าโครงสร้างอุตสาหกรรมเดิมที่ต้องเบียดกันลงไปอยู่ในช่องจำกัดแค่ 500 ตำแหน่งต่อปีจะพังลง และคนเก่งจำนวนมากที่มีวิสัยทัศน์ของตัวเองจะได้ลองทำสิ่งใหญ่ ๆ
  - โมเดลแบบ VivziePop(วิกิของ Vivienne Medrano) และ PsychicPebbles(วิกิของ Zach Hadel) ที่เริ่มจาก YouTube แล้วเติบโตเป็น IP ขนาดใหญ่ จะกลายเป็นมาตรฐานในอนาคต
  - คาดว่านวัตกรรมในวงการสร้างสรรค์จะไม่ได้ดีขึ้นแค่ 2~10 เท่า แต่ใกล้ 1000 เท่า
  - ที่ผ่านมาไม่ชอบหนัง/ซีรีส์ส่วนใหญ่เพราะไม่ตรงรสนิยมตัวเอง แต่ก็ชอบสื่อในฐานะสื่อมาโดยตลอด
  - ตอนนี้เลยตื่นเต้นมากกับโลกที่กำลังจะเปิดทางให้ได้เจอคอนเทนต์ที่ตรงกับรสนิยมและความสนใจของตัวเองจริง ๆ
มองว่าในอนาคตจะเป็นแบบอัลกอริทึม TikTok ที่เข้าใจรสนิยมทันทีที่ดู แล้วสร้างวิดีโอใหม่ให้สด ๆ ตลอดเวลา
- ทุกครั้งที่ผู้ใช้เลื่อนดู ระบบจะเรียนรู้ว่าเขาชอบอะไร แล้วสร้างวิดีโอเพิ่มมาให้โดยอัตโนมัติ
- ถ้าใส่บริบทให้โมเดลมากพอ คอนเทนต์ที่คนนั้นตอบสนองจะน่าหลงใหลจนมีความเสพติดแบบที่ละสายตาจอไม่ได้เลย
  - เป็นจินตนาการที่ชวนขนลุก แต่ก็คิดว่าในระยะยาวคงเลี่ยงไม่ได้
- น่าเสียดายที่มีความกังวลว่า แทนที่จะทำตามรสนิยมผู้ใช้เฉย ๆ มันอาจพยายามบิดรสนิยมของผู้ใช้เองเพื่อเพิ่ม engagement ให้สูงสุด
- อีกด้านก็มีความเห็นว่า ทิศทางเทคโนโลยีแบบนี้จริง ๆ แล้วห่างไกลจากเหตุผลที่คนใช้โซเชียลมีเดีย
  - ยกตัวอย่างว่า ChatGPT เองก็สร้างคอมเมนต์ได้ไม่รู้จบ แต่สุดท้ายเราก็ยังมาที่ Hacker News กันอยู่ดี
- คาดว่าในอนาคตจะมีแนวคิดแบบ live mode ที่สร้างวิดีโอได้แบบเรียลไทม์ทันทีตามเสียงของผู้ใช้
  - ดูเป็นไปได้ว่า Netflix ก็อาจมีฟีเจอร์แบบนี้
- สงสัยเหมือนกันว่าระบบจะเรียนรู้ได้ไหมว่าเราเกลียดโฆษณา และสะท้อนสิ่งนั้นออกมาได้อย่างเหมาะสมจริงหรือไม่
ในบรรดาวิดีโอตัวอย่างมีหลายฉากที่น่าประทับใจทีเดียว แต่บางฉากก็ยังเห็นการเคลื่อนไหวที่ไม่เป็นธรรมชาติอยู่บ่อย ๆ
- เหมือนข้อมูลฝึกอาจไปโฟกัสที่ส่วนที่เวอร์ที่สุดของ TikTok จนดูเหมือนรักษาฉากเดียวไว้เกิน 5 วินาทีไม่ได้
- แน่นอนว่าฉากยาก ๆ จัดการได้ดี แต่กลับพลาดเยอะในส่วนที่ดูเหมือนง่ายกว่า
  - เช่น เปียโนตอนเปิดหรือกล้องที่ช่างภาพใช้มีคำว่า AI text เขียนอยู่ ชายชราในคาเฟ่มีมือทะลุหมวกเบเรต์ และเด็กสาวที่หันกลับมาริมทะเลก็หมุนหัวเหมือนนกฮูก
  - ฉากเด็กผู้ชายปั่นจักรยานในเมืองยุโรปจบลงด้วยภาพสิ่งมีชีวิตที่เข้ารหัสไว้ยืนอยู่ใต้ต้นไม้พร้อมรถล้อเดียวในจัตุรัส
- ByteDance ทดสอบโมเดลนี้ภายในบน Model Arena มาหลายสัปดาห์แล้วภายใต้ชื่อ Unicorn
  - ตอนนี้ทำคะแนนได้สูงกว่า Google Veo 3 แล้ว
  - ArtificialAnalysis: ไปยังแรงกิงของ Model Arena
มองว่าอีก 5 ปีข้างหน้าอาจเป็นโลกที่คอนเทนต์ทั้งหมดถูกสร้างแบบเรียลไทม์
- ถ้าพูดอะไรออกไป มันก็จะตอบกลับมาเป็นวิดีโอความยาว 5 วินาทีทันที
- วิดีโอจะไม่ใช่ “สินทรัพย์แบบตายตัว” อีกต่อไป แต่เป็นการตอบสนองแบบ “ephemeral” ที่ถูกสร้างแล้วก็หายไปในทันที
- วิดีโอจะไม่ใช่ไฟล์ที่อัปโหลดแบบ passive อีกต่อไป แต่กลายเป็นเอาต์พุตของ data stream
- UI แห่งอนาคตที่มาแทนการปัดหน้าจอมีแนวโน้มจะเป็น voice prompt
- สิ่งที่ Seedance กำลังทำจึงไม่ใช่การทดลองฟอร์แมตใหม่ แต่เป็นการทดลองระบบคอนเทนต์ที่สร้างตอน runtime
- ฝั่ง backend จะบีบอัด model infra ด้วย comet และตั้งค่าให้ LLM รันได้ถูกและเร็วขึ้น
- ถ้าชุดผสมนี้ทำได้จริง ก็จะเปิดทางให้บริการสร้างคอนเทนต์ในสเกลใหญ่ได้โดยไม่ต้องพึ่ง batch ขนาดใหญ่หรือ cache มากนัก
- หากสิ่งนี้เกิดขึ้นจริง ฟีดก็จะไม่ใช่การเลื่อนอีกต่อไป แต่จะกลายเป็น render loop
- ทั้งหมดนี้จึงถูกมองว่าไม่ใช่ “บริการสื่อ” อีกแล้ว แต่เป็นระบบโฮสต์โมเดล AI แบบ low-latency ที่สวมหน้าตาเป็นแพลตฟอร์มวิดีโอ
คุณภาพวิดีโอยอดเยี่ยม แต่ก็มีคำถามว่าแล้วเสียงอยู่ไหน
- มีการพูดถึงว่า VEO3 อาจสร้างภาพวิดีโอได้ดี แต่ความสมบูรณ์ฝั่งเสียงต่างหากที่สร้างความแตกต่างอย่างมาก
- ตัวเองทำงานด้านโซลูชัน AI ในบริษัทสตรีมมิงวิดีโอรายใหญ่
  - ปัญหาของ VEO3 คือความสม่ำเสมอระหว่างพรอมป์ตยังต่ำ
  - เช่น ต่อให้อัปโหลดภาพอ้างอิงของตัวละครไว้ ถ้าสร้าง เจ้าสาวชราก้มตัว กับ เจ้าสาวชราก้มลงเก็บเหรียญ แยกกัน ตัวละครที่ออกมาก็ดูเหมือนคนละคนทุกครั้ง
  - แน่นอนว่า VEO3 มีฟีเจอร์ image-to-video แต่สำหรับการสร้างฉากจริงยังห่างไกลจากคำว่าพอใช้ได้มาก
  - แม้เวลาผ่านไปมันจะดีขึ้น แต่ในตอนนี้ส่วนตัวชอบที่ Seedance โฟกัสเรื่องความสม่ำเสมอระหว่างช็อต
  - หวังว่าจุดนี้จะกดดัน VEO3 ให้เร่งปรับปรุงฟีเจอร์ดังกล่าวเร็วขึ้น
มีคนสงสัยว่าทำไมวิดีโอตัวอย่างทุกอันถึงมีวงกลมใหญ่ปรากฏอยู่
มีคำถามว่า Seedance ใช้งานได้ที่ไหน
- Seedance 1.0 มีกำหนดถูกรวมเข้ากับหลายแพลตฟอร์มอย่าง Doubao และ Jimeng ตั้งแต่เดือนมิถุนายน 2025
- ดูเหมือนว่าฟีเจอร์นี้จะตรงเข้าสู่ TikTok ในไม่ช้า
  - มีข้อชี้ว่าบนแพลตฟอร์ม TikTok เองจะเกิดคลื่นคอนเทนต์ generative ครั้งใหญ่ และแพลตฟอร์มจะหาทางสร้างรายได้จากปรากฏการณ์ที่ทุกคนอยากเป็นครีเอเตอร์
  - คาดว่าในอนาคตนโยบายแพลตฟอร์มจะเปลี่ยนจาก “อัปโหลดคอนเทนต์ได้ฟรี” เป็น “ต้องอัปโหลดผ่าน AI gateway และต้องจ่ายค่าธรรมเนียมด้วย”
มีคนบอกว่ารู้สึกคลื่นไส้หรือเวียนหัวกับวิดีโอที่มีการเคลื่อนไหวเยอะ
- ตอน Sora เปิดตัวครั้งแรกก็เคยรู้สึกคล้ายกัน แต่ใน Seedance เบาลงเล็กน้อย
- ในเดโมของ Veo 3 ไม่รู้สึกแบบนี้ เลยถามว่าคนอื่นก็รู้สึกคล้ายกันกับตัวอย่างที่มี motion เยอะของ Seedance หรือไม่
มีคนสงสัยว่าความสมจริงของวิดีโอที่ AI สร้างนั้นเข้าใกล้ระดับหนังแอนิเมชัน CGI แบบเดิมแล้วหรือยัง
- คาดว่าถ้าเป็นผู้เชี่ยวชาญก็คงชี้ข้อบกพร่องชัด ๆ ของผลลัพธ์ตอนนี้ได้แน่นอน
- แต่ก็หวังว่าในอนาคตจะสามารถใช้พรอมป์ตแก้เฉพาะบางช่วงอย่างละเอียดได้
- อีกทั้งยังสงสัยว่าเมื่อเทียบกับต้นทุน CGI ระดับฮอลลีวูดงบสูงต่อหนึ่งวินาทีแล้ว จริง ๆ ต้องใช้ทรัพยากรคอมพิวต์/เงินมากน้อยแค่ไหน
- ทุกวันนี้แม้แต่ CGI ทั่วไปในฮอลลีวูดที่ไม่ใช่งานแอนิเมชัน บางครั้งคุณภาพก็ยังตก จึงไม่ได้ตั้งความคาดหวังไว้สูงมาก
  - ที่จริงกระบวนการ change management ในการปรับและควบคุมผลลัพธ์ CGI ก็ดูน่าสนใจไม่น้อย
รู้สึกส่วนตัวว่า Old man ไม่ได้ดูแก่ขนาดนั้น (พร้อมแซวตัวเองเล่น ๆ ว่าอาจเป็นเพราะตัวเองแก่แล้วก็ได้)

Seedance 1.0 - โมเดลสร้างวิดีโอหลายช็อตของ Bytedance

แนะนำ Seedance 1.0

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News