หลักการทำงานของโมเดล Sora ของ OpenAI

xguru · 2024-03-22T09:46:01+09:00

Sora เป็นระบบที่อิงกับ Diffusion Transformers (DiT) และ Latent Diffusion โดยขยายทั้งตัวโมเดลและชุดข้อมูลฝึกในระดับมหาศาล Sora แสดงให้เห็นว่าการขยายโมเดลวิดีโอมีคุณค่า และการขยายเพิ่มเติมในลักษณะคล้ายกับโมเดลภาษาขนาดใหญ่ (LLM) จะเป็นแรงขับสำคัญที่ทำให้โมเดลดีขึ้นอย่างรวดเร็ว บริษัทอย่าง Runway, Genmo และ Pika กำลังสร้างอินเทอร์เฟซและเวิร์กโฟลว์ที่ใช้งานง่ายสำหรับโมเดลสร้างวิดีโอแบบ Sora คาดว่าการฝึก Sora ต้องใช้พลังประมวลผลมหาศาล เทียบเท่ากับ Nvidia H100 GPU จำนวน 4,200~10,500 ตัวเป็นเวลา 1 เดือน ในด้านการอนุมาน คาดว่า Sora สามารถสร้างวิดีโอได้สูงสุดราว 5 นาทีต่อชั่วโมงต่อ Nvidia H100 GPU หนึ่งตัว เมื่อเทียบกับ LLM แล้ว การอนุมานของโมเดลแบบ diffusion เช่น Sora มีต้นทุนสูงกว่าหลายเท่า เมื่อมีการนำโมเดลแบบ Sora ไปใช้อย่างแพร่หลาย ภาระคอมพิวต์ฝั่งอนุมานจะมากกว่าคอมพิวต์ฝั่งฝึก โดยคาดว่าจุดคุ้มทุนจะอยู่ที่การสร้างวิดีโอ 15.3~38.1 ล้านนาที หลังจากนั้นจะใช้คอมพิวต์กับการอนุมานมากกว่าการฝึกเดิม เทียบกับวิดีโอที่อัปโหลดต่อวันคือ 17 ล้านนาที (TikTok) และ 43 ล้านนาที (YouTube) เมื่อพิจารณาสัดส่วนวิดีโอที่ AI สร้างบน TikTok และ YouTube คาดว่าความต้องการสูงสุดของ Nvidia H100 GPU สำหรับการอนุมานอาจอยู่ราว 720,000 ตัว ภูมิหลัง Sora จัดอยู่ในกลุ่ม diffusion model ซึ่งเป็นทางเลือกยอดนิยมสำหรับการสร้างภาพ โดยมีโมเดลชื่อดังอย่าง DALL-E ของ OpenAI และ Stable Diffusion ของ Stability AI ช่วงหลังมานี้บริษัทอย่าง Runway, Genmo และ Pika ก็เริ่มสำรวจการสร้างวิดีโอ ซึ่งมีแนวโน้มสูงว่าจะใช้ diffusion model เช่นกัน diffusion model คือโมเดลการเรียนรู้ของเครื่องเชิงกำเนิดชนิดหนึ่งที่เรียนรู้การสร้างข้อมูล เช่น ภาพหรือวิดีโอ โดยค่อย ๆ ย้อนกระบวนการเติม noise แบบสุ่มลงในข้อมูล โมเดลเหล่านี้เริ่มจากรูปแบบ noise ล้วน แล้วค่อย ๆ ลบ noise ออกและปรับแต่งรูปแบบให้กลายเป็นผลลัพธ์ที่เข้าใจได้และมีรายละเอียด รายละเอียดทางเทคนิคของ Sora OpenAI เผยแพร่รายงานทางเทคนิคพร้อมกับการเปิดตัว Sora แม้รายงานนี้จะมีรายละเอียดไม่มาก แต่ดูเหมือนว่าการออกแบบจะได้รับอิทธิพลอย่างมากจากงานวิจัยเรื่อง “Scalable Diffusion Models with Transformers” ผู้เขียนงานวิจัยนี้เสนอ DiT ซึ่งเป็นสถาปัตยกรรมแบบ Transformer สำหรับการสร้างภาพ โดย DiT ย่อมาจาก Diffusion Transformers ดูเหมือนว่า Sora จะขยายแนวทางนี้ไปสู่การสร้างวิดีโอ เมื่อนำรายงานทางเทคนิคของ Sora มารวมกับงานวิจัย DiT ก็จะพอเห็นภาพได้ค่อนข้างแม่นยำว่าโมเดล Sora ทำงานอย่างไร Sora มีองค์ประกอบสำคัญ 3 ส่วน: ไม่ได้ทำงานใน pixel space แต่ทำ diffusion ใน latent space แทน (เรียกว่า latent diffusion) ใช้สถาปัตยกรรม Transformer ดูเหมือนว่าจะใช้ชุดข้อมูลขนาดใหญ่มาก Latent Diffusion เพื่อเข้าใจประเด็นแรกเรื่อง latent diffusion ลองพิจารณาการสร้างภาพ เราสามารถสร้างแต่ละพิกเซลด้วย diffusion ได้ แต่ไม่มีประสิทธิภาพอย่างมาก (เช่น ภาพ 512x512 มี 262,144 พิกเซล) ทางเลือกคือแมปจากพิกเซลไปเป็น latent representation ที่มีการบีบอัดบางส่วน จากนั้นทำ diffusion ใน latent space ที่กะทัดรัดกว่านี้ และสุดท้ายค่อยถอดรหัสจาก latent กลับไปยัง pixel space การแมปนี้ช่วยลดความซับซ้อนในการคำนวณอย่างมาก: แทนที่จะรันกระบวนการ diffusion บน 512x512 = 262,144 พิกเซล ก็อาจต้องสร้างเพียง 64x64 = 4,096 latent เท่านั้น แนวคิดนี้คือจุดก้าวหน้าหลักของงานวิจัย “High-Resolution Image Synthesis with Latent Diffusion Models” และเป็นรากฐานของ Stable Diffusion ตัวอย่างการแมประหว่างพิกเซลไปยัง latent representation เป็นภาพจากรายงานทางเทคนิคของ Sora ทั้ง DiT และ Sora ใช้แนวทางนี้ ในกรณีของ Sora ยังมีข้อพิจารณาเพิ่มเติมคือวิดีโอมีมิติเวลา: วิดีโอประกอบด้วยเฟรมซึ่งเป็นลำดับภาพตามเวลา จากรายงานทางเทคนิคของ Sora ดูเหมือนว่าขั้นตอน encoding จากพิกเซลไปยัง latent space เกิดขึ้นทั้งในเชิงพื้นที่ (หมายถึงการบีบอัดความกว้างและความสูงของแต่ละเฟรม) และในเชิงเวลา (หมายถึงการบีบอัดตลอดช่วงเวลา) Transformer ประเด็นที่สองคือ ทั้ง DiT และ Sora ใช้สถาปัตยกรรม vanilla Transformer แทนสถาปัตยกรรม U-Net ที่นิยมใช้กันทั่วไป เรื่องนี้สำคัญเพราะผู้เขียนงานวิจัย DiT สังเกตว่าการใช้ Transformer ทำให้เกิด scaling ที่คาดการณ์ได้ หมายความว่าเมื่อเพิ่มคอมพิวต์สำหรับการฝึก (ไม่ว่าจะฝึกนานขึ้น ทำให้โมเดลใหญ่ขึ้น หรือทั้งสองอย่าง) ประสิทธิภาพก็จะดีขึ้น พฤติกรรมการ scaling นี้เป็นคุณสมบัติสำคัญที่สามารถอธิบายเชิงปริมาณได้ด้วยสิ่งที่เรียกว่า scaling laws และเคยมีการศึกษามาก่อนในบริบทของโมเดลภาษาขนาดใหญ่ (LLMs) และโมเดล autoregressive ในโมดาลิตีอื่น ๆ ความสามารถในการเพิ่มสเกลเพื่อให้ได้โมเดลที่ดีขึ้นคือหนึ่งในแรงขับหลักของความก้าวหน้าอย่างรวดเร็วของ LLMs เนื่องจากคุณสมบัติเดียวกันนี้มีอยู่ในการสร้างภาพและวิดีโอด้วย จึงคาดได้ว่าสูตรการ scaling แบบเดียวกันจะใช้ได้ที่นี่เช่นกัน ชุดข้อมูล องค์ประกอบหลักสุดท้ายที่จำเป็นต่อการฝึกโมเดลคือข้อมูลที่มีป้ายกำกับ ซึ่งถือว่าเป็นส่วนผสมลับที่สำคัญที่สุดอย่างหนึ่งในการฝึกโมเดลแบบ Sora การฝึกโมเดล text-to-video แบบ Sora ต้องมีคู่ข้อมูลระหว่างวิดีโอกับคำอธิบายข้อความของวิดีโอนั้น OpenAI ไม่ได้พูดถึงชุดข้อมูลของตนมากนัก แต่บอกเป็นนัยว่ามีขนาดใหญ่มาก: “ได้รับแรงบันดาลใจจากโมเดลภาษาขนาดใหญ่ที่ได้ความสามารถทั่วไปจากการฝึกบนข้อมูลระดับอินเทอร์เน็ต” OpenAI ยังเปิดเผยวิธีติดป้ายข้อความอย่างละเอียดให้กับภาพ ซึ่งถูกใช้ในการเก็บรวบรวมชุดข้อมูลของ DALLE-3 แนวคิดทั่วไปคือฝึกโมเดล captioner จากชุดย่อยของข้อมูลที่มีการติดป้ายกำกับ แล้วใช้ captioner นั้นติดป้ายข้อมูลส่วนที่เหลือโดยอัตโนมัติ ดูเหมือนว่าเทคนิคเดียวกันนี้จะถูกใช้กับชุดข้อมูลของ Sora ด้วย ผลกระทบ เชื่อว่า Sora จะก่อให้เกิดผลกระทบสำคัญหลายด้าน ต่อไปนี้คือภาพรวมแบบสั้น ๆ ของผลกระทบเหล่านั้น จุดเริ่มต้นของการใช้งานจริงของโมเดลวิดีโอ คุณภาพของวิดีโอที่ Sora สร้างได้ถือเป็นความก้าวหน้าที่ชัดเจน ไม่ใช่แค่ในระดับรายละเอียด แต่รวมถึงความสอดคล้องตามเวลาด้วย (เช่น จัดการความคงอยู่ของวัตถุได้ถูกต้องเมื่อวัตถุถูกบังชั่วคราว และสร้างภาพสะท้อนในน้ำได้อย่างแม่นยำ) เชื่อว่าคุณภาพวิดีโอในตอนนี้ดีพอแล้วสำหรับฉากบางประเภทที่นำไปใช้ในแอปพลิเคชันจริงได้ ตัวอย่างเช่น Sora อาจเข้ามาแทนที่การใช้ stock video footage บางส่วนได้ในไม่ช้า อย่างไรก็ตาม ยังมีความท้าทายที่เหลืออยู่: ยังไม่ชัดเจนว่าโมเดล Sora ปัจจุบันควบคุมได้มากน้อยเพียงใด เนื่องจากโมเดลส่งออกเป็นพิกเซล การแก้ไขวิดีโอที่สร้างขึ้นจึงทำได้ยากและใช้เวลามาก นอกจากนี้ การทำให้โมเดลเหล่านี้มีประโยชน์ยังต้องอาศัยการสร้างส่วนติดต่อผู้ใช้ (UI) และเวิร์กโฟลว์ที่ใช้งานง่าย บริษัทอย่าง Runway, Genmo, Pika และรายอื่น ๆ กำลังทำงานกับปัญหาเหล่านี้อยู่แล้ว คาดว่าโมเดลวิดีโอจะพัฒนาอย่างรวดเร็ว หนึ่งในข้อค้นพบหลักของงานวิจัย DiT คือคุณภาพของโมเดลดีขึ้นโดยตรงเมื่อเพิ่มคอมพิวต์ ดังที่กล่าวไว้ข้างต้น สิ่งนี้คล้ายกับ scaling laws ที่พบใน LLMs ดังนั้น เมื่อโมเดลเหล่านี้ได้รับการฝึกด้วยคอมพิวต์ที่มากขึ้นเรื่อย ๆ ก็สามารถคาดหวังความก้าวหน้าเพิ่มเติมอย่างรวดเร็วในด้านคุณภาพของโมเดลสร้างวิดีโอได้ Sora แสดงให้เห็นอย่างชัดเจนว่าสูตรนี้ใช้ได้จริง และคาดว่าบริษัทอื่น ๆ รวมถึง OpenAI จะมุ่งไปในทิศทางนี้มากขึ้น การสร้างข้อมูลสังเคราะห์และการเพิ่มข้อมูล ในสาขาอย่างหุ่นยนต์และรถยนต์ไร้คนขับ ข้อมูลเป็นสิ่งที่หายากโดยธรรมชาติ: บนอินเทอร์เน็ตไม่ได้มีวิดีโอของหุ่นยนต์ที่กำลังทำงานหรือยานพาหนะที่กำลังขับมากมาย โดยทั่วไป ปัญหาเหล่านี้ถูกจัดการด้วยการฝึกในสภาพจำลอง หรือเก็บข้อมูลจากโลกจริงในระดับใหญ่ (หรือใช้ทั้งสองวิธีร่วมกัน) แต่ทั้งสองแนวทางต่างเผชิญปัญหาที่ว่าข้อมูลจากการจำลองมักไม่สมจริง การเก็บข้อมูลจากโลกจริงในระดับใหญ่มีค่าใช้จ่ายสูง และการเก็บข้อมูลเหตุการณ์หายากให้เพียงพอก็เป็นเรื่องท้าทาย โมเดลอย่าง Sora อาจมีประโยชน์อย่างมากในจุดนี้ โดยอาจใช้สร้างข้อมูลสังเคราะห์แบบครบถ้วนได้โดยตรง Sora ยังอาจใช้ทำ data augmentation โดยแปลงวิดีโอเดิมให้มีลักษณะต่างออกไป ประเด็นที่สองที่อธิบายไว้ข้างต้นแสดงให้เห็นว่า Sora สามารถเปลี่ยนวิดีโอของรถสีแดงที่วิ่งบนถนนในป่าให้กลายเป็นภูมิทัศน์ป่าดงดิบหนาทึบได้ จึงสามารถจินตนาการได้ว่าด้วยเทคนิคเดียวกัน เราอาจ re-render ฉากจากกลางวันเป็นกลางคืน หรือเปลี่ยนสภาพอากาศได้ การจำลองและ world models การเรียนรู้สิ่งที่เรียกว่า world models เป็นทิศทางการวิจัยที่มีอนาคต หากมีความแม่นยำเพียงพอ world models เหล่านี้อาจใช้ฝึกเอเจนต์ภายในโดยตรง หรือใช้สำหรับการวางแผนและการสำรวจ ดูเหมือนว่าโมเดลอย่าง Sora จะเรียนรู้การจำลองพื้นฐานของการทำงานของโลกจริงจากข้อมูลวิดีโอโดยปริยาย “การจำลองที่ผุดขึ้นมาเอง” เหล่านี้ยังมีข้อบกพร่องในปัจจุบัน แต่ก็น่าสนใจมาก เพราะบ่งชี้ว่าเราอาจฝึก world models จากวิดีโอได้ในระดับใหญ่ ยิ่งไปกว่านั้น Sora ดูเหมือนจะสามารถจำลองฉากที่ซับซ้อนมากได้ เช่น ของเหลว การสะท้อนแสง การเคลื่อนไหวของผ้า และเส้นผม OpenAI ตั้งชื่อรายงานทางเทคนิคว่า “Video generation models as world simulators” ซึ่งแสดงชัดว่ามองว่านี่เป็นแง่มุมที่สำคัญที่สุดของโมเดล ไม่นานมานี้ DeepMind ได้สาธิตโมเดล Genie ซึ่งแสดงผลลัพธ์คล้ายกันโดยฝึกจากวิดีโอของวิดีโอเกมเพียงอย่างเดียว: โมเดลเรียนรู้วิธีจำลองเกมเหล่านี้ (และสร้างสิ่งใหม่ขึ้นมา) ในกรณีนี้ โมเดลเรียนรู้วิธีวางเงื่อนไขตามการกระทำโดยไม่ต้องสังเกตการกระทำโดยตรง กล่าวอีกอย่าง เป้าหมายคือทำให้การเรียนรู้โดยตรงภายในสภาพจำลองเหล่านี้เป็นไปได้ เมื่อรวมทั้งสองแนวทางเข้าด้วยกัน จึงมองว่าโมเดลอย่าง Sora และ Genie อาจมีประโยชน์อย่างมากในการฝึก embodied agents ในงานโลกจริงในระดับใหญ่ (เช่น ในหุ่นยนต์) อย่างไรก็ตาม ยังมีข้อจำกัด: เนื่องจากโมเดลเหล่านี้ถูกฝึกใน pixel space จึงต้องสร้างแบบจำลองรายละเอียดทุกอย่าง เช่น ลมพัดใบหญ้าอย่างไร ซึ่งอาจไม่เกี่ยวข้องกับงานที่กำลังทำเลย แม้ latent space จะถูกบีบอัด แต่ก็ยังต้องเก็บข้อมูลไว้มากเพราะต้องสามารถแมปกลับเป็นพิกเซลได้ จึงยังไม่ชัดเจนว่าการวางแผนใน latent space นี้จะมีประสิทธิภาพหรือไม่ การประเมินคอมพิวต์ (Compute Estimates) ที่ Factorial Funds ชอบพิจารณาปริมาณคอมพิวต์ที่ใช้ทั้งในการฝึกและการอนุมาน เพราะมีประโยชน์ต่อการคาดการณ์ว่าต้องใช้คอมพิวต์มากเพียงใดในอนาคต อย่างไรก็ตาม เนื่องจากแทบไม่มีรายละเอียดเกี่ยวกับขนาดโมเดลและชุดข้อมูลที่ใช้ฝึก Sora การประเมินตัวเลขเหล่านี้จึงทำได้ยาก ดังนั้น ค่าประมาณในส่วนนี้จึงมีความไม่แน่นอนสูงมาก และควรคำนึงถึงจุดนี้ไว้เมื่ออ้างอิง (เป็นเพียงค่าประมาณ จึงขอละส่วนนี้ไว้)

(factorialfunds.com)

18 คะแนน โดย xguru 2024-03-22 | 3 ความคิดเห็น | แชร์ทาง WhatsApp

Sora เป็นระบบที่อิงกับ Diffusion Transformers (DiT) และ Latent Diffusion โดยขยายทั้งตัวโมเดลและชุดข้อมูลฝึกในระดับมหาศาล
Sora แสดงให้เห็นว่าการขยายโมเดลวิดีโอมีคุณค่า และการขยายเพิ่มเติมในลักษณะคล้ายกับโมเดลภาษาขนาดใหญ่ (LLM) จะเป็นแรงขับสำคัญที่ทำให้โมเดลดีขึ้นอย่างรวดเร็ว
บริษัทอย่าง Runway, Genmo และ Pika กำลังสร้างอินเทอร์เฟซและเวิร์กโฟลว์ที่ใช้งานง่ายสำหรับโมเดลสร้างวิดีโอแบบ Sora
คาดว่าการฝึก Sora ต้องใช้พลังประมวลผลมหาศาล เทียบเท่ากับ Nvidia H100 GPU จำนวน 4,200~10,500 ตัวเป็นเวลา 1 เดือน
ในด้านการอนุมาน คาดว่า Sora สามารถสร้างวิดีโอได้สูงสุดราว 5 นาทีต่อชั่วโมงต่อ Nvidia H100 GPU หนึ่งตัว เมื่อเทียบกับ LLM แล้ว การอนุมานของโมเดลแบบ diffusion เช่น Sora มีต้นทุนสูงกว่าหลายเท่า
เมื่อมีการนำโมเดลแบบ Sora ไปใช้อย่างแพร่หลาย ภาระคอมพิวต์ฝั่งอนุมานจะมากกว่าคอมพิวต์ฝั่งฝึก โดยคาดว่าจุดคุ้มทุนจะอยู่ที่การสร้างวิดีโอ 15.3~38.1 ล้านนาที หลังจากนั้นจะใช้คอมพิวต์กับการอนุมานมากกว่าการฝึกเดิม เทียบกับวิดีโอที่อัปโหลดต่อวันคือ 17 ล้านนาที (TikTok) และ 43 ล้านนาที (YouTube)
เมื่อพิจารณาสัดส่วนวิดีโอที่ AI สร้างบน TikTok และ YouTube คาดว่าความต้องการสูงสุดของ Nvidia H100 GPU สำหรับการอนุมานอาจอยู่ราว 720,000 ตัว

ภูมิหลัง

Sora จัดอยู่ในกลุ่ม diffusion model ซึ่งเป็นทางเลือกยอดนิยมสำหรับการสร้างภาพ โดยมีโมเดลชื่อดังอย่าง DALL-E ของ OpenAI และ Stable Diffusion ของ Stability AI ช่วงหลังมานี้บริษัทอย่าง Runway, Genmo และ Pika ก็เริ่มสำรวจการสร้างวิดีโอ ซึ่งมีแนวโน้มสูงว่าจะใช้ diffusion model เช่นกัน
diffusion model คือโมเดลการเรียนรู้ของเครื่องเชิงกำเนิดชนิดหนึ่งที่เรียนรู้การสร้างข้อมูล เช่น ภาพหรือวิดีโอ โดยค่อย ๆ ย้อนกระบวนการเติม noise แบบสุ่มลงในข้อมูล โมเดลเหล่านี้เริ่มจากรูปแบบ noise ล้วน แล้วค่อย ๆ ลบ noise ออกและปรับแต่งรูปแบบให้กลายเป็นผลลัพธ์ที่เข้าใจได้และมีรายละเอียด

รายละเอียดทางเทคนิคของ Sora

OpenAI เผยแพร่รายงานทางเทคนิคพร้อมกับการเปิดตัว Sora แม้รายงานนี้จะมีรายละเอียดไม่มาก แต่ดูเหมือนว่าการออกแบบจะได้รับอิทธิพลอย่างมากจากงานวิจัยเรื่อง “Scalable Diffusion Models with Transformers”
ผู้เขียนงานวิจัยนี้เสนอ DiT ซึ่งเป็นสถาปัตยกรรมแบบ Transformer สำหรับการสร้างภาพ โดย DiT ย่อมาจาก Diffusion Transformers
ดูเหมือนว่า Sora จะขยายแนวทางนี้ไปสู่การสร้างวิดีโอ เมื่อนำรายงานทางเทคนิคของ Sora มารวมกับงานวิจัย DiT ก็จะพอเห็นภาพได้ค่อนข้างแม่นยำว่าโมเดล Sora ทำงานอย่างไร
Sora มีองค์ประกอบสำคัญ 3 ส่วน:
- ไม่ได้ทำงานใน pixel space แต่ทำ diffusion ใน latent space แทน (เรียกว่า latent diffusion)
- ใช้สถาปัตยกรรม Transformer
- ดูเหมือนว่าจะใช้ชุดข้อมูลขนาดใหญ่มาก
Latent Diffusion
- เพื่อเข้าใจประเด็นแรกเรื่อง latent diffusion ลองพิจารณาการสร้างภาพ
  - เราสามารถสร้างแต่ละพิกเซลด้วย diffusion ได้ แต่ไม่มีประสิทธิภาพอย่างมาก (เช่น ภาพ 512x512 มี 262,144 พิกเซล)
  - ทางเลือกคือแมปจากพิกเซลไปเป็น latent representation ที่มีการบีบอัดบางส่วน จากนั้นทำ diffusion ใน latent space ที่กะทัดรัดกว่านี้ และสุดท้ายค่อยถอดรหัสจาก latent กลับไปยัง pixel space
  - การแมปนี้ช่วยลดความซับซ้อนในการคำนวณอย่างมาก: แทนที่จะรันกระบวนการ diffusion บน 512x512 = 262,144 พิกเซล ก็อาจต้องสร้างเพียง 64x64 = 4,096 latent เท่านั้น
  - แนวคิดนี้คือจุดก้าวหน้าหลักของงานวิจัย “High-Resolution Image Synthesis with Latent Diffusion Models” และเป็นรากฐานของ Stable Diffusion
- ตัวอย่างการแมประหว่างพิกเซลไปยัง latent representation เป็นภาพจากรายงานทางเทคนิคของ Sora
- ทั้ง DiT และ Sora ใช้แนวทางนี้ ในกรณีของ Sora ยังมีข้อพิจารณาเพิ่มเติมคือวิดีโอมีมิติเวลา: วิดีโอประกอบด้วยเฟรมซึ่งเป็นลำดับภาพตามเวลา
- จากรายงานทางเทคนิคของ Sora ดูเหมือนว่าขั้นตอน encoding จากพิกเซลไปยัง latent space เกิดขึ้นทั้งในเชิงพื้นที่ (หมายถึงการบีบอัดความกว้างและความสูงของแต่ละเฟรม) และในเชิงเวลา (หมายถึงการบีบอัดตลอดช่วงเวลา)
Transformer
- ประเด็นที่สองคือ ทั้ง DiT และ Sora ใช้สถาปัตยกรรม vanilla Transformer แทนสถาปัตยกรรม U-Net ที่นิยมใช้กันทั่วไป
- เรื่องนี้สำคัญเพราะผู้เขียนงานวิจัย DiT สังเกตว่าการใช้ Transformer ทำให้เกิด scaling ที่คาดการณ์ได้ หมายความว่าเมื่อเพิ่มคอมพิวต์สำหรับการฝึก (ไม่ว่าจะฝึกนานขึ้น ทำให้โมเดลใหญ่ขึ้น หรือทั้งสองอย่าง) ประสิทธิภาพก็จะดีขึ้น
- พฤติกรรมการ scaling นี้เป็นคุณสมบัติสำคัญที่สามารถอธิบายเชิงปริมาณได้ด้วยสิ่งที่เรียกว่า scaling laws และเคยมีการศึกษามาก่อนในบริบทของโมเดลภาษาขนาดใหญ่ (LLMs) และโมเดล autoregressive ในโมดาลิตีอื่น ๆ
- ความสามารถในการเพิ่มสเกลเพื่อให้ได้โมเดลที่ดีขึ้นคือหนึ่งในแรงขับหลักของความก้าวหน้าอย่างรวดเร็วของ LLMs
- เนื่องจากคุณสมบัติเดียวกันนี้มีอยู่ในการสร้างภาพและวิดีโอด้วย จึงคาดได้ว่าสูตรการ scaling แบบเดียวกันจะใช้ได้ที่นี่เช่นกัน
ชุดข้อมูล
- องค์ประกอบหลักสุดท้ายที่จำเป็นต่อการฝึกโมเดลคือข้อมูลที่มีป้ายกำกับ ซึ่งถือว่าเป็นส่วนผสมลับที่สำคัญที่สุดอย่างหนึ่งในการฝึกโมเดลแบบ Sora
- การฝึกโมเดล text-to-video แบบ Sora ต้องมีคู่ข้อมูลระหว่างวิดีโอกับคำอธิบายข้อความของวิดีโอนั้น
- OpenAI ไม่ได้พูดถึงชุดข้อมูลของตนมากนัก แต่บอกเป็นนัยว่ามีขนาดใหญ่มาก: “ได้รับแรงบันดาลใจจากโมเดลภาษาขนาดใหญ่ที่ได้ความสามารถทั่วไปจากการฝึกบนข้อมูลระดับอินเทอร์เน็ต”
- OpenAI ยังเปิดเผยวิธีติดป้ายข้อความอย่างละเอียดให้กับภาพ ซึ่งถูกใช้ในการเก็บรวบรวมชุดข้อมูลของ DALLE-3
- แนวคิดทั่วไปคือฝึกโมเดล captioner จากชุดย่อยของข้อมูลที่มีการติดป้ายกำกับ แล้วใช้ captioner นั้นติดป้ายข้อมูลส่วนที่เหลือโดยอัตโนมัติ
- ดูเหมือนว่าเทคนิคเดียวกันนี้จะถูกใช้กับชุดข้อมูลของ Sora ด้วย

ผลกระทบ

เชื่อว่า Sora จะก่อให้เกิดผลกระทบสำคัญหลายด้าน ต่อไปนี้คือภาพรวมแบบสั้น ๆ ของผลกระทบเหล่านั้น
จุดเริ่มต้นของการใช้งานจริงของโมเดลวิดีโอ
- คุณภาพของวิดีโอที่ Sora สร้างได้ถือเป็นความก้าวหน้าที่ชัดเจน ไม่ใช่แค่ในระดับรายละเอียด แต่รวมถึงความสอดคล้องตามเวลาด้วย (เช่น จัดการความคงอยู่ของวัตถุได้ถูกต้องเมื่อวัตถุถูกบังชั่วคราว และสร้างภาพสะท้อนในน้ำได้อย่างแม่นยำ)
- เชื่อว่าคุณภาพวิดีโอในตอนนี้ดีพอแล้วสำหรับฉากบางประเภทที่นำไปใช้ในแอปพลิเคชันจริงได้
- ตัวอย่างเช่น Sora อาจเข้ามาแทนที่การใช้ stock video footage บางส่วนได้ในไม่ช้า
- อย่างไรก็ตาม ยังมีความท้าทายที่เหลืออยู่:
  - ยังไม่ชัดเจนว่าโมเดล Sora ปัจจุบันควบคุมได้มากน้อยเพียงใด
  - เนื่องจากโมเดลส่งออกเป็นพิกเซล การแก้ไขวิดีโอที่สร้างขึ้นจึงทำได้ยากและใช้เวลามาก
  - นอกจากนี้ การทำให้โมเดลเหล่านี้มีประโยชน์ยังต้องอาศัยการสร้างส่วนติดต่อผู้ใช้ (UI) และเวิร์กโฟลว์ที่ใช้งานง่าย
  - บริษัทอย่าง Runway, Genmo, Pika และรายอื่น ๆ กำลังทำงานกับปัญหาเหล่านี้อยู่แล้ว
คาดว่าโมเดลวิดีโอจะพัฒนาอย่างรวดเร็ว
- หนึ่งในข้อค้นพบหลักของงานวิจัย DiT คือคุณภาพของโมเดลดีขึ้นโดยตรงเมื่อเพิ่มคอมพิวต์ ดังที่กล่าวไว้ข้างต้น
- สิ่งนี้คล้ายกับ scaling laws ที่พบใน LLMs
- ดังนั้น เมื่อโมเดลเหล่านี้ได้รับการฝึกด้วยคอมพิวต์ที่มากขึ้นเรื่อย ๆ ก็สามารถคาดหวังความก้าวหน้าเพิ่มเติมอย่างรวดเร็วในด้านคุณภาพของโมเดลสร้างวิดีโอได้
- Sora แสดงให้เห็นอย่างชัดเจนว่าสูตรนี้ใช้ได้จริง และคาดว่าบริษัทอื่น ๆ รวมถึง OpenAI จะมุ่งไปในทิศทางนี้มากขึ้น
การสร้างข้อมูลสังเคราะห์และการเพิ่มข้อมูล
- ในสาขาอย่างหุ่นยนต์และรถยนต์ไร้คนขับ ข้อมูลเป็นสิ่งที่หายากโดยธรรมชาติ: บนอินเทอร์เน็ตไม่ได้มีวิดีโอของหุ่นยนต์ที่กำลังทำงานหรือยานพาหนะที่กำลังขับมากมาย
- โดยทั่วไป ปัญหาเหล่านี้ถูกจัดการด้วยการฝึกในสภาพจำลอง หรือเก็บข้อมูลจากโลกจริงในระดับใหญ่ (หรือใช้ทั้งสองวิธีร่วมกัน)
- แต่ทั้งสองแนวทางต่างเผชิญปัญหาที่ว่าข้อมูลจากการจำลองมักไม่สมจริง
- การเก็บข้อมูลจากโลกจริงในระดับใหญ่มีค่าใช้จ่ายสูง และการเก็บข้อมูลเหตุการณ์หายากให้เพียงพอก็เป็นเรื่องท้าทาย
- โมเดลอย่าง Sora อาจมีประโยชน์อย่างมากในจุดนี้ โดยอาจใช้สร้างข้อมูลสังเคราะห์แบบครบถ้วนได้โดยตรง
- Sora ยังอาจใช้ทำ data augmentation โดยแปลงวิดีโอเดิมให้มีลักษณะต่างออกไป
- ประเด็นที่สองที่อธิบายไว้ข้างต้นแสดงให้เห็นว่า Sora สามารถเปลี่ยนวิดีโอของรถสีแดงที่วิ่งบนถนนในป่าให้กลายเป็นภูมิทัศน์ป่าดงดิบหนาทึบได้
- จึงสามารถจินตนาการได้ว่าด้วยเทคนิคเดียวกัน เราอาจ re-render ฉากจากกลางวันเป็นกลางคืน หรือเปลี่ยนสภาพอากาศได้
การจำลองและ world models
- การเรียนรู้สิ่งที่เรียกว่า world models เป็นทิศทางการวิจัยที่มีอนาคต
- หากมีความแม่นยำเพียงพอ world models เหล่านี้อาจใช้ฝึกเอเจนต์ภายในโดยตรง หรือใช้สำหรับการวางแผนและการสำรวจ
- ดูเหมือนว่าโมเดลอย่าง Sora จะเรียนรู้การจำลองพื้นฐานของการทำงานของโลกจริงจากข้อมูลวิดีโอโดยปริยาย
  - “การจำลองที่ผุดขึ้นมาเอง” เหล่านี้ยังมีข้อบกพร่องในปัจจุบัน แต่ก็น่าสนใจมาก เพราะบ่งชี้ว่าเราอาจฝึก world models จากวิดีโอได้ในระดับใหญ่
  - ยิ่งไปกว่านั้น Sora ดูเหมือนจะสามารถจำลองฉากที่ซับซ้อนมากได้ เช่น ของเหลว การสะท้อนแสง การเคลื่อนไหวของผ้า และเส้นผม
  - OpenAI ตั้งชื่อรายงานทางเทคนิคว่า “Video generation models as world simulators” ซึ่งแสดงชัดว่ามองว่านี่เป็นแง่มุมที่สำคัญที่สุดของโมเดล
- ไม่นานมานี้ DeepMind ได้สาธิตโมเดล Genie ซึ่งแสดงผลลัพธ์คล้ายกันโดยฝึกจากวิดีโอของวิดีโอเกมเพียงอย่างเดียว: โมเดลเรียนรู้วิธีจำลองเกมเหล่านี้ (และสร้างสิ่งใหม่ขึ้นมา)
  - ในกรณีนี้ โมเดลเรียนรู้วิธีวางเงื่อนไขตามการกระทำโดยไม่ต้องสังเกตการกระทำโดยตรง
  - กล่าวอีกอย่าง เป้าหมายคือทำให้การเรียนรู้โดยตรงภายในสภาพจำลองเหล่านี้เป็นไปได้
- เมื่อรวมทั้งสองแนวทางเข้าด้วยกัน จึงมองว่าโมเดลอย่าง Sora และ Genie อาจมีประโยชน์อย่างมากในการฝึก embodied agents ในงานโลกจริงในระดับใหญ่ (เช่น ในหุ่นยนต์)
- อย่างไรก็ตาม ยังมีข้อจำกัด: เนื่องจากโมเดลเหล่านี้ถูกฝึกใน pixel space จึงต้องสร้างแบบจำลองรายละเอียดทุกอย่าง เช่น ลมพัดใบหญ้าอย่างไร ซึ่งอาจไม่เกี่ยวข้องกับงานที่กำลังทำเลย
- แม้ latent space จะถูกบีบอัด แต่ก็ยังต้องเก็บข้อมูลไว้มากเพราะต้องสามารถแมปกลับเป็นพิกเซลได้ จึงยังไม่ชัดเจนว่าการวางแผนใน latent space นี้จะมีประสิทธิภาพหรือไม่

การประเมินคอมพิวต์ (Compute Estimates)

ที่ Factorial Funds ชอบพิจารณาปริมาณคอมพิวต์ที่ใช้ทั้งในการฝึกและการอนุมาน เพราะมีประโยชน์ต่อการคาดการณ์ว่าต้องใช้คอมพิวต์มากเพียงใดในอนาคต
อย่างไรก็ตาม เนื่องจากแทบไม่มีรายละเอียดเกี่ยวกับขนาดโมเดลและชุดข้อมูลที่ใช้ฝึก Sora การประเมินตัวเลขเหล่านี้จึงทำได้ยาก
ดังนั้น ค่าประมาณในส่วนนี้จึงมีความไม่แน่นอนสูงมาก และควรคำนึงถึงจุดนี้ไว้เมื่ออ้างอิง
(เป็นเพียงค่าประมาณ จึงขอละส่วนนี้ไว้)

3 ความคิดเห็น

soon0698 2024-03-23

ขอเสริมเนื้อหาพร้อมเกร็ดเล็กเกร็ดน้อยที่ผมรู้เป็นการส่วนตัวด้วย

Diffusion Transformers (DiT) ถูกขับเคลื่อนหลักโดย William Peebles ซึ่งขณะนั้นเป็นนักศึกษาปริญญาเอกที่ Berkeley และงานวิจัยชิ้นนี้ก็ถูกปฏิเสธอย่างชัดเจนจาก CVPR ซึ่งเป็นงานประชุมด้านคอมพิวเตอร์วิทัศน์ที่มีชื่อเสียงที่สุด โดยให้เหตุผลว่า “ขาดความแปลกใหม่ (Lack of Novelty)” หลังจากนั้นจึงได้ตีพิมพ์ที่ ICCV ผู้เขียนเรียนจบ เข้าร่วมงานกับ OpenAI และไม่นานก็ขึ้นมานำโปรเจกต์ Sora ทันที
สถาปัตยกรรมของ DiT คือการนำ Diffusion model + Transformer architecture มารวมกัน โดยในเวลานั้นเป็นที่รู้กันดีอยู่แล้วว่า Diffusion model ที่ใช้โครงสร้าง U-Net มีประสิทธิภาพโดดเด่นมากในการฟื้นฟูภาพ แต่จุดที่เปลี่ยนคือแทนที่จะใช้โครงสร้างแบบ CNN ก็เปลี่ยนมาใช้ Vision Transformer และโครงสร้าง Patchify แทน ดังนั้นประเด็นหลักของงานจึงทุ่มไปกับการพิสูจน์ Scaling Law ผ่านการนำสถาปัตยกรรม ViT มาใช้เป็นส่วนใหญ่ และวิธีการที่เสนอจริง ๆ ในตัวบทความมีเนื้อหาไม่ถึงหนึ่งหน้าด้วยซ้ำ
ต่างจากความสนใจของสาธารณชนทั่วไป คนในแวดวงวิชาการจำนวนมากกลับแสดงความกังวลไม่น้อยที่แนวทางแบบนี้ค่อย ๆ ได้รับความสนใจและการอ้างอิงมากขึ้น เพราะหากมีเพียงข้อมูลจำนวนมากขึ้น (และดีขึ้น) ทรัพยากรคอมพิวต์มหาศาล และสถาปัตยกรรมที่รับประกัน Scaling Law ได้ ก็ดูเหมือนว่าจะไม่จำเป็นต้องมีการแฮ็กอย่างชาญฉลาดหรือสิ่งประดิษฐ์ใหม่ใด ๆ อีกต่อไป ถ้าผลลัพธ์จากการเพิ่ม GPU เข้าไปอีกแค่ 100 ใบ ดีกว่าเทคนิคอันชาญฉลาดที่นักวิจัยคิดค้นขึ้นมาเสมอ ก็คงไม่ใช่ความรู้สึกที่น่ายินดีสักเท่าไรนัก

yangisu12 2024-03-22

เขาบอกว่า DiT กับ Sora ต่างก็ใช้สถาปัตยกรรมทรานส์ฟอร์เมอร์แบบพื้นฐานแทนสถาปัตยกรรม U-Net ที่ใช้กันโดยทั่วไป แล้ว U-Net กับทรานส์ฟอร์เมอร์ทำหน้าที่อะไรใน AI กันแน่ครับ? ผมงงมากเลย T_T

mhj5730 2024-03-22

เหมือนพวกมนุษย์ต่างดาวเลยนะ ตัวสั่น