โมเดลเชิงสร้างรู้อะไรอยู่กันแน่? แล้วรู้จริงหรือไม่?

(intrinsic-lora.github.io)

1 คะแนน โดย GN⁺ 2024-02-25 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ภายในโมเดล GAN, Autoregressive และ Diffusion ที่สร้างฉากจริงให้ดูสมจริง อาจมีคุณสมบัติแฝงภายในของฉากอย่าง depth, normals, albedo, shading อยู่โดยนัย
วิธีที่เสนอใช้ LoRA ซึ่งผูกติดกับโครงสร้างโมเดลน้อยกว่า เพื่อกู้คืน intrinsic representation โดยใช้ตัวถอดรหัสสร้างภาพเดิมตามเดิม
สำหรับ VQGAN และ Stable Diffusion จะติด LoRA ขนาดเบา เข้ากับ attention layer ส่วน StyleGAN จะติดเข้ากับ affine layer เพื่อให้ได้ intrinsic image โดยไม่ต้องมี task-specific decoding head แยกต่างหาก
ใน Stable Diffusion เมื่อใช้ rank 2 จะเพิ่มพารามิเตอร์ที่ฝึกได้เพียง 0.04% ของน้ำหนักโมเดลทั้งหมด และสามารถสร้าง intrinsic image ได้แม้มีภาพที่มีลาเบลเพียง 250 ภาพ
การทดลองควบคุมพบแนวโน้มว่า ยิ่งคุณภาพของโมเดลเชิงสร้างสูง ความแม่นยำของคุณสมบัติแฝงภายในฉากที่กู้คืนได้ก็ยิ่งสูงขึ้น แต่ความสามารถในการดึงข้อมูลจะแตกต่างกันไปตามโมเดลและโดเมน

คำถามวิจัยและแนวทาง LoRA

เริ่มจากคำถามว่า หากโมเดลเชิงสร้างเลียนแบบฉากจริงได้ดี ภายใน representation ของโมเดลก็อาจมี คุณสมบัติแฝงภายในของฉาก (scene intrinsic) อยู่ด้วย
งานวิจัยนี้ต้องการตรวจสอบ 4 ประเด็น
- โมเดล GAN, Autoregressive และ Diffusion เข้ารหัส intrinsic knowledge แบบใดไว้บ้าง
- สามารถสร้างเฟรมเวิร์กทั่วไปสำหรับกู้คืน intrinsic representation โดยไม่ขึ้นกับสถาปัตยกรรมหรือชนิดของโมเดลได้หรือไม่
- พารามิเตอร์ที่ต้องฝึกและข้อมูลลาเบลจำเป็นต้องน้อยได้แค่ไหน
- คุณภาพของโมเดลเชิงสร้างมีความเชื่อมโยงโดยตรงกับความแม่นยำของ intrinsic ที่กู้คืนได้หรือไม่
แกนหลักของวิธีคือ Low-Rank Adaptation(LoRA)
- ใช้ LoRA กับ attention layer ใน VQGAN และ Stable Diffusion
- ใช้ LoRA กับ affine layer ใน StyleGAN
- ไม่เพิ่ม task-specific decoding head หรือ layer แยกต่างหาก แต่ใช้ decoder head เดียวกัน ที่ใช้ในการสร้างภาพ
เอกสารที่เกี่ยวข้อง

ผลการกู้คืนและความแตกต่างตามโมเดล

สามารถกู้คืน depth, normals, albedo, shading จากโมเดลเชิงสร้างหลายแบบได้ด้วย LoRA ขนาดเล็กเท่านั้น
ใน Stable Diffusion เมื่อใช้ LoRA rank 2 พารามิเตอร์ที่ฝึกได้ลดลงเหลือเพียง 0.04% ของน้ำหนักโมเดลทั้งหมด
แม้มีภาพที่มีลาเบลเพียง 250 ภาพ ก็สามารถสร้าง intrinsic image ผ่านโมดูล LoRA ได้
ในการทดลองควบคุม พบ สหสัมพันธ์เชิงบวก ระหว่างคุณภาพของโมเดลกับความแม่นยำของ intrinsic ที่กู้คืนได้
ผลการดึง intrinsic แตกต่างกันไปตามโมเดลและโดเมน
- VQGAN / Autoregressive / FFHQ: normal และ depth มีคุณภาพปานกลาง ส่วน albedo และ shading มีคุณภาพสูง
- StyleGAN-v2 / GAN / FFHQ: normal, albedo และ shading มีคุณภาพสูง ส่วน depth มีคุณภาพปานกลาง
- StyleGAN-v2 / GAN / LSUN Bed: normal, depth, albedo และ shading ทั้งหมดมีคุณภาพสูง
- StyleGAN-XL / GAN / FFHQ: normal, albedo และ shading มีคุณภาพสูง ส่วน depth มีคุณภาพปานกลาง
- StyleGAN-XL / GAN / ImageNet: ไม่สามารถดึง normal, depth, albedo และ shading ได้ทั้งหมด
- Stable Diffusion-UNet / Diffusion / Open: normal, depth, albedo และ shading ทั้งหมดมีคุณภาพสูง
- Stable Diffusion / Diffusion / Open: normal, depth, albedo และ shading ทั้งหมดมีคุณภาพสูง
intrinsic map จากวิธีที่ขยาย Stable Diffusion 2.1 ถูกนำไปเปรียบเทียบกับ pseudo ground truth โดยรายการที่เปรียบเทียบคือ surface normals, depth, albedo, shading

1 ความคิดเห็น

GN⁺ 2024-02-25

ความคิดเห็นบน Hacker News

หนึ่งในเหตุผลที่ผู้คนคาดหวังกับ Sora ไว้สูงมากคือ เมื่อดูวิดีโอบางชิ้นแล้วรู้สึกเหมือนภายในมี การจำลองโลกทางกายภาพ ทำงานอยู่ และวิดีโอนั้นเหมือนถ่ายฉาก 3D นั้นด้วยกล้อง
มีสัญชาตญาณว่าหลังฉากมีอะไรเกิดขึ้นมากกว่าการเอาชิ้นส่วนวิดีโอต่าง ๆ มาต่อกันเฉย ๆ อย่างมาก และงานวิจัยนี้ก็ดูเหมือนเป็นหลักฐานของเรื่องนั้น
แม้แต่ในตัวสร้างภาพนิ่งก็เผยให้เห็นว่าโมเดลเรียนรู้การเรนเดอร์ฉาก 3D แล้วถ่ายภาพออกมาโดยพฤตินัย ไม่ได้ตั้งใจจะสร้าง 3D engine แต่อย่างใด แค่เอากองภาพใส่เข้าไปในพีชคณิตเชิงเส้นแล้ว optimize เท่านั้น แต่กลับมี world simulator โผล่ออกมา จึงน่าทึ่งมาก
- มนุษย์อาศัยอยู่ในโลก 3D และข้อมูลฝึกก็เป็นสตรีมการมองเห็นสองตาแบบต่อเนื่องที่เห็นฉากเดียวกันจากหลายมุม ในทางกลับกัน Sora เหมือนเรียนรู้โลกจากการดูทีวี ดังนั้นถ้าจะเรียนรู้ representation แบบ implicit ของฉาก 3D และการเรนเดอร์ อาจต้องเล่นวิดีโอเกมให้มากขึ้นก็ได้
- ยังแปลกใจอยู่ที่ผู้คนยังคิดว่าจริง ๆ แล้วมันแค่เอาชิ้นส่วนวิดีโอมาต่อกันเท่านั้น
- คำพูดที่ว่า “ไม่ได้ตั้งใจจะสร้าง 3D engine แต่โยนภาพทั้งหลายเข้าไปในพีชคณิตเชิงเส้นแล้ว optimize จากนั้น world simulator ก็ออกมา” ฟังดูเหมือนเป็นสิ่งที่ วิวัฒนาการ แบบถูกทำให้เป็นมนุษย์อาจพูดเกี่ยวกับจิตใจ
- แม้แต่ในวิดีโอที่ผู้ผลิตคัดเลือกมา ก็ยังมีฉากที่แมวมี ขาข้างที่ห้า งอกขึ้นมาแล้วหายไปอย่างรวดเร็ว เลยสงสัยว่าปรากฏการณ์แบบนั้นเข้ากับเรื่องเล่าเชิงมองโลกในแง่ดีนี้ได้อย่างไร
- neural network ไม่ใช่พีชคณิตเชิงเส้น ถ้าดูจากปัจจุบันที่ส่วนใหญ่ใช้ activation แบบ ReLU แก่นของ neural network คือ โครงสร้างกึ่งเชิงเส้น และความเป็นเชิงเส้นครึ่ง ๆ นั้นเองที่ให้พลังกับมัน
ชื่อนี้เอามาจากเกมโชว์สมมติใน Bojack Horseman ชื่อ Hollywoo Stars and Celebrities: What Do They Know? Do They Know Things?? Let's Find Out!
https://bojackhorseman.fandom.com/wiki/Hollywoo_Stars_and_Ce...!
- ผมชอบโชว์นั้นมากจนแปะสติกเกอร์ไว้บนแล็ปท็อปด้วย ถ้ายังไม่เคยดู Bojack Horseman มันเป็นงานที่ทั้งตลกและจริงใจ มีอารมณ์ existential ค่อนข้างแรง ถ้าตรงรสนิยมก็คุ้มค่าที่จะดูมาก
  ในฐานะแพ็กเกจแอนิเมชันที่สมบูรณ์ ผมว่าดีกว่า Futurama มาก มีความลึกให้เข้าถึงได้เยอะและกระแทกแรง แต่ก็รักษาความเบาไว้พอให้ดูจบแล้วยังรู้สึกโอเค
  ตอนนี้ได้มาทำงานด้าน filmtech แล้ว สติกเกอร์ Hollywoo ก็ยิ่งเข้ากันมากขึ้น
- แค่เห็นชื่อก็โหวตแนะนำบทความนี้แล้ว
- ผมอ้างชื่อเกมโชว์นี้อยู่ค่อนข้างบ่อย แต่น่าเสียดายที่มีคนเข้าใจไม่มาก เลยดูเหมือนเป็นคนประหลาดไปเฉย ๆ
- ในโชว์ที่เรียกมันซ้ำ ๆ ว่า HSaCWDTKDTKTLFO ก็ขำดี การอ่านตัวย่อที่ยาวทั้งชุดทีละตัวเหมือนเป็นตัวย่อสั้น ๆ อาจเป็นมุกซ้ำที่ผมชอบที่สุดในโชว์นี้
- รู้สึกเหมือนได้เจอพวกเดียวกัน ผมดูโชว์นี้มาสัก 6 รอบแล้ว
นึกถึงตอนที่เคยพยายามดึง G-buffer ออกมาจากโปรเจกต์ทดสอบ Unity High Definition Rendering Pipeline: https://www.youtube.com/watch?v=Fwtc694qNUM
แต่ก็ยังไม่แน่ใจว่างานวิจัยนี้พิสูจน์อะไรได้จริงหรือไม่ ตรงนี้เขากำลังฝึกโมเดล UNet LoRA ขนาดใหญ่ ซึ่งยังคลุมเครือว่าเป็นการ “ดึง” บางอย่างออกจากโมเดลเดิม หรือเป็นการสร้างโมเดลใหม่ที่สร้างแชนเนลแบบที่น่าจะออกมาจาก deferred rendering pipeline
deferred rendering ที่ผสมผสาน normal, albedo และ depth เป็นเพียงหนึ่งในหลายเทคนิคสำหรับสร้างฉาก 3D เท่านั้น และแม้แต่ในวิดีโอเกมก็ยังไม่ได้ใช้กันจนกว่าจะถึงเกม Shrek สำหรับ Xbox ในช่วงต้นทศวรรษ 2000 (https://sites.google.com/site/richgel99/the-early-history-of...)
สิ่งที่น่าจะเจ๋งจริง ๆ คือโมเดล LoRA ที่สามารถดึงเมทริกซ์การหมุนและการเลื่อนตำแหน่งของ “กล้อง” ออกจากโมเดลสร้างภาพได้ แบบนั้นจะเป็นหลักฐานที่หนักแน่นกว่ามาก และในเวลาเดียวกันก็น่าจะมีประโยชน์ไม่น้อย
- ถ้าดูข้อมูลเสริม จะมีการทดลองฝึก LoRA ด้วย UNet ที่ initialize แบบสุ่ม ในกรณีนั้นต่างจากการใช้ Stable Diffusion UNet ที่ผ่านการ pretrain มา คือแทบจะดึง surface normal ออกมาไม่ได้เลย ทำให้ค่อนข้างชัดว่า feature เดิม ภายในโมเดลมีความสำคัญต่อประสิทธิภาพ
- ไม่ได้รู้ลึกนัก แต่ผมคิดว่าส่วนที่บอกว่า “พารามิเตอร์ที่ฝึกใหม่มีน้อยกว่า 0.6% ของพารามิเตอร์ทั้งหมดของ generative model” น่าจะตอบข้อสงสัยนั้นได้หรือเปล่า
  0.6% ฟังดูเป็นตัวเลขเล็ก แต่ก็สงสัยเหมือนกันว่าวัดสิ่งที่ถูกต้องหรือไม่ โมเดลไม่จำเป็นต้อง encode representation เดียวกันเป๊ะกับสิ่งที่เรากำลังดึงออกมา แต่ถ้ามัน encode บางอย่างที่สามารถแมปไปเป็น normal, albedo และ depth ได้อย่างถูกและเสถียรในแง่ขนาดโมเดล เพียงเท่านั้นก็ดูมีความหมายมากแล้ว
  ไม่สำคัญว่าจะใช้ basis vector แบบไหน ขอแค่รู้ว่าจะแมปมันมาเป็น representation ของผมอย่างไรก็พอ
ผมลองอ่านงานวิจัยคร่าว ๆ แล้ว แต่หลายส่วนยากมาก ในฐานะคนที่ไม่คุ้นกับ AI สร้างภาพ ผมสงสัยว่าประโยคที่ดูเหมือนใจความสำคัญ “I-LoRA modulates key feature maps to extract intrinsic scene properties such as normals, depth, albedo, and shading, using the models' existing decoders without additional layers, revealing their deep understanding of scene intrinsics” หมายความว่าอะไรกันแน่
อยากเข้าใจว่า “modulate key feature maps เพื่อดึงคุณสมบัติภายในของฉาก” หมายถึงอะไร และสร้างภาพคุณสมบัติของฉากแบบนี้ได้อย่างไรโดยไม่มี decoding layer เพิ่มเติม
- สมมติว่ามี neural network ที่มีพารามิเตอร์ 1 พันล้านตัว ก็เพิ่มพารามิเตอร์เข้าไปตามจุดต่าง ๆ ประมาณ 5 ล้านตัว แล้วฝึกต่อเฉพาะพารามิเตอร์ใหม่ด้วยวิธี LoRA โดยไม่แตะ network พื้นฐาน แบบนั้นก็จะกลายเป็น network ที่ถูก modulate ซึ่งทำนายคุณสมบัติของฉากได้
  จุดที่น่าสนใจคือใช้พารามิเตอร์เพิ่มน้อยมาก จึงดูเหมือนว่า network เดิมอยู่ค่อนข้างใกล้จุดนั้นอยู่แล้ว
ไม่รู้ว่า Toyota หรือ Adobe ทำไมถึงให้ทุนงานวิจัยที่ใช้ชื่อแบบนี้ แต่ผมชอบมากจริง ๆ อยากให้วงการวิทยาศาสตร์มี ความขี้เล่น กลับมาบ้าง
ถ้าพูดให้เป็นรูปธรรมกว่านั้น เมื่อเห็นคำอธิบายว่า “แนวทางที่ไม่ผูกกับโมเดลใดโมเดลหนึ่ง ซึ่งปรับให้เหมาะด้วยภาพที่ติดป้ายกำกับจำนวนน้อย สามารถปรับใช้กับสถาปัตยกรรมการสร้างที่หลากหลาย เช่น โมเดล Diffusion, GAN และโมเดล Autoregressive” ก็ทำให้อยากรู้ว่านี่เป็นเครื่องมือเชิงภาพ/เชิงพื้นที่ล้วน ๆ หรือเปล่า
ตัวอย่างแค่บังเอิญเป็นภาพเท่านั้นหรือไม่มีวิธีขยายไปยังโมเดลข้อความเลย? ผมเพิ่งเคยเห็นแนวทางด้าน ความสามารถในการตีความ แบบนี้เป็นครั้งแรก และประทับใจมาก
- มีงานวิจัยเกี่ยวกับการแก้ไขข้อมูลข้อเท็จจริงในโมเดลภาษาด้วย https://rome.baulab.info/
- ไม่เข้าใจจริง ๆ เหรอว่า Toyota หรือ Adobe ให้ทุน งานวิจัยด้านคอมพิวเตอร์วิทัศน์ ไปทำไม?
- นี่คือการอ้างอิงถึง Bojack Horseman ที่เราไม่รู้มาก่อนว่าเราต้องการ
ค่อนข้างน่าทึ่ง โมเดลเหล่านี้ไม่ได้แค่เล่นกลอยู่บนไฮเปอร์เพลนหลายพันล้านมิติที่ถอดรหัสไม่ได้เท่านั้น แต่ดูเหมือนว่ามันเรียนรู้ การแทนค่าที่มนุษย์ตีความได้ จริง ๆ
- ในฐานะวิศวกรกราฟิก 3D รุ่นเก่า การที่มี อัลบีโด อยู่ข้างในนั้นเป็นเรื่องที่พอคาดเดาได้ แต่ก็น่าประทับใจมากจริง ๆ
  องค์ประกอบหลักของการเรนเดอร์แบบอิงฟิสิกส์คือ ตำแหน่ง, surface normal, แสงที่เข้ามา และอย่างน้อยหนึ่งอย่างจากคุณสมบัติวัสดุของพื้นผิว เช่น อัลบีโด รวมถึงค่าการสะท้อนและความขรุขระ ตำแหน่งสามารถอนุมานได้จากค่า XY และความลึกของภาพ
  การที่ AI โมเดลความลึกได้นั้นค่อนข้างคาดเดาได้ และ surface normal ก็อาจมองได้คล้าย convolution เฉพาะที่ของความลึก แต่การโมเดลอัลบีโดที่แยกจากแสงที่เข้ามาได้นั้นยอดเยี่ยมมาก อยากรู้เหมือนกันว่า ค่าการสะท้อน ซ่อนอยู่ที่ไหนสักแห่งหรือเปล่า
- ทั้งที่มีหลักฐานมากมายว่าโมเดลสร้างเนื้อหามี world model ภายในที่ค่อนข้างซับซ้อน แต่ก็ยังน่าทึ่งที่ยังมีคนยืนกรานว่ามันเป็นแค่ “นกแก้วเชิงสถิติ” และ “ไม่ได้เข้าใจอะไรจริง ๆ”
นี่เป็นข่าวดีสำหรับ VR หรือ spatial computing ถ้าโมเดลเข้าใจโลกกายภาพได้เท่าที่บทความแสดงให้เห็น การสร้างภาพฉายสองมุมจากฉากเดียวก็ดูไม่ใช่คำขอที่ยากนัก น่าตื่นเต้นกับอนาคตมาก
ถ้ามันสามารถทำนาย อัลบีโดและแสง จากภาพจริงได้ ก็อยากให้ใครสักคนสร้างฉาก Gaussian splatting ที่ปรับแสงใหม่ได้ แสงแบบไดนามิกน่าจะขยายประโยชน์ของการสแกน 3D ที่สร้างจากภาพถ่ายได้มาก แต่ผมยังไม่เคยเห็นผลลัพธ์ในด้านนั้นที่เรียกได้ว่า “ดี” เลย
- ใช้ภาพจริงได้แน่ ๆ หรือเปล่า? ถ้าได้ แอปพลิเคชันที่มีประโยชน์ที่สุดน่าจะเป็นการดึง depth map ออกจากภาพจริง
ไม่ได้ตั้งใจจะทำตัวขี้สงสัยนะ แต่ก็อยากรู้ว่าเราจะรู้ได้อย่างไรว่า บริษัทสร้างภาพไม่ได้เสริมชุดข้อมูลด้วยสิ่งอย่าง normal map
เข้าใจว่าบทความนี้พูดถึงโมเดลโอเพนซอร์สที่ตรวจสอบได้ แต่ สูตรลับ ของโมเดลที่ก้าวหน้ากว่านั้นอาจเป็นอะไรแบบนั้นก็ได้ไม่ใช่หรือ?
- ถ้าจะทำแบบนั้นก็ต้องฝึกด้วยภาพ normal map ที่จับคู่กับภาพต้นฉบับ เท่าที่ผมรู้ วิธีแบบนั้นไม่ใช่เทคนิคการฝึกที่พบได้ทั่วไป และความสามารถนี้ก็ดูเหมือนจะปรากฏข้ามหลายโมเดลเปิด
น่าสนใจเหมือนกันถ้าทดสอบว่าความสามารถในการรับรู้ของโมเดลสร้างเนื้อหาดีกว่ามนุษย์หรือไม่ ด้วย ภาพลวงตา ที่หลอกมนุษย์ เช่น อยากรู้ว่ามันจะตัดสินความลึกได้ถูกต้องในกรณีอย่างภาพลวงตา Ponzo หรือเปล่า

โมเดลเชิงสร้างรู้อะไรอยู่กันแน่? แล้วรู้จริงหรือไม่?

คำถามวิจัยและแนวทาง LoRA

ผลการกู้คืนและความแตกต่างตามโมเดล

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News