1 คะแนน โดย GN⁺ 2024-02-25 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ค้นพบความสามารถที่ซ่อนอยู่ของ INTRINSIC LoRA (I-LoRA)

  • INTRINSIC LoRA (I-LoRA) เผยให้เห็นความสามารถที่ซ่อนอยู่ของโมเดลสร้างข้อมูล เช่น VQGAN, StyleGAN-XL, StyleGAN-v2 และ Stable Diffusion
  • วิธีนี้ใช้ดีโคเดอร์เดิมของโมเดลโดยไม่ต้องเพิ่มเลเยอร์เสริม เพื่อดึงคุณสมบัติพื้นฐานของพื้นผิวออกมา เช่น normal, depth, albedo และ shading

ความเข้าใจโดยนัยของโมเดลสร้างข้อมูล

  • โมเดลสร้างข้อมูลมีความสามารถในการสังเคราะห์ภาพที่ละเอียดและสมจริงอย่างมาก
  • มีการสันนิษฐานว่าโมเดลเหล่านี้เรียนรู้คุณลักษณะภายในของภาพอย่าง implicit เช่น normal ของพื้นผิว ความลึก หรือเงา
  • งานวิจัยนี้นำเสนอหลักฐานที่น่าเชื่อถือว่าโมเดลสร้างข้อมูลสร้างแผนที่ intrinsic ของฉากคุณภาพสูงขึ้นมาภายในจริง

แนะนำ INTRINSIC LoRA (I-LoRA)

  • INTRINSIC LoRA (I-LoRA) นำเสนอแนวทางแบบทั่วไปและ plug-and-play ที่เปลี่ยนโมเดลสร้างข้อมูลใด ๆ ให้กลายเป็นตัวทำนาย intrinsic ของฉาก
  • สามารถดึงแผนที่ intrinsic ของฉากได้โดยตรงจากเครือข่ายตัวสร้างเดิม โดยไม่ต้องมีดีโคเดอร์เพิ่มหรือทำ fine-tuning ทั้งเครือข่าย
  • วิธีนี้ใช้การปรับแบบ low-rank adaptation (LoRA) กับแผนที่ฟีเจอร์หลัก โดยใช้พารามิเตอร์ใหม่ที่คิดเป็นน้อยกว่า 0.6% ของพารามิเตอร์ทั้งหมดของโมเดลสร้างข้อมูล
  • ปรับให้เหมาะสมด้วยภาพที่มีป้ายกำกับเพียงเล็กน้อย และนำไปใช้ได้กับสถาปัตยกรรมสร้างข้อมูลหลากหลายแบบ รวมถึงโมเดล Diffusion, GAN และ Autoregressive

สรุปความสามารถในการดึง intrinsic ของฉากจากโมเดลสร้างข้อมูลหลากหลายประเภท

  • สรุปให้เห็นว่าสามารถดึงคุณลักษณะ intrinsic คุณภาพสูงจากโมเดลสร้างข้อมูลหลายชนิดได้ โดยไม่ต้องเปลี่ยน generator head
  • ✓: สามารถดึงคุณลักษณะ intrinsic ได้ด้วยคุณภาพสูง
  • ~: สามารถดึงคุณลักษณะ intrinsic ได้ด้วยคุณภาพปานกลาง
  • ✗: ไม่สามารถดึงคุณลักษณะ intrinsic ได้

เปรียบเทียบการสร้างแผนที่ intrinsic ด้วย I-LoRA

  • แสดงภาพเปรียบเทียบระหว่างแผนที่ intrinsic ที่สร้างด้วยวิธีนี้โดยใช้ Stable Diffusion 2.1 ที่ถูกเสริมความสามารถ กับข้อมูลอ้างอิงจริงที่ใกล้เคียงกัน

ความเห็นของ GN⁺

  • INTRINSIC LoRA (I-LoRA) เป็นแนวทางที่ล้ำสมัยซึ่งขยายความสามารถแฝงของโมเดลสร้างข้อมูลเดิมไปสู่อีกมิติหนึ่ง
  • งานวิจัยนี้แสดงให้เห็นว่าโมเดลสร้างข้อมูลไม่ได้ทำได้แค่สร้างภาพเท่านั้น แต่ยังเข้าใจคุณลักษณะภายในของฉากจริงด้วย ซึ่งมอบมุมมองใหม่เกี่ยวกับความสามารถด้านการมองเห็นของปัญญาประดิษฐ์
  • เทคโนโลยีนี้มีศักยภาพในการประยุกต์ใช้ในหลากหลายสาขา เช่น computer vision, graphics และ AR/VR จึงเป็นความก้าวหน้าที่น่าสนใจมากสำหรับนักวิจัยและนักพัฒนาในสายนี้

1 ความคิดเห็น

 
GN⁺ 2024-02-25
ความคิดเห็นจาก Hacker News
  • หนึ่งในปฏิกิริยาที่ตื่นเต้นกับ Sora คือความรู้สึกว่าข้างในมันน่าจะมีการจำลองโลกกายภาพอยู่ด้วย ซึ่งบ่งชี้ว่าเบื้องหลังมีอะไรมากกว่าการแค่นำวิดีโออื่น ๆ มาต่อกัน

    • โมเดลได้เรียนรู้วิธีเรนเดอร์ฉาก 3D และถ่ายภาพ ซึ่งน่าทึ่งตรงที่เราไม่ได้ตั้งใจจะสร้างเอนจิน 3D แต่เพียงแค่โยนภาพเข้าไปในพีชคณิตเชิงเส้นแล้วทำการ optimize จนได้ตัวจำลองโลกออกมา
  • ชื่อนี้อ้างอิงจากเกมโชว์สมมติในซีรีส์ 'Bojack Horseman' ชื่อ 'Hollywoo Stars and Celebrities: What Do They Know? Do They Know Things?? Let's Find Out!'

  • ทำให้นึกถึงประสบการณ์ที่เคยพยายามดึง G-buffer ออกจากโปรเจกต์ทดสอบ Unity High Definition Rendering Pipeline

    • ไม่แน่ใจว่างานวิจัยนี้พิสูจน์อะไรได้จริงหรือไม่ เพราะมีการฝึกโมเดล UNET LoRA ขนาดใหญ่อยู่ จึงไม่ชัดเจนว่านี่เป็นการ "ดึง" บางอย่างออกมาจากโมเดลเดิม หรือแค่สร้างโมเดลใหม่ที่สามารถสร้างช่องสัญญาณแบบที่น่าจะได้จาก deferred rendering pipeline
  • ในฐานะคนที่ไม่คุ้นกับ AI สร้างภาพ ได้อ่านงานวิจัยแบบผ่าน ๆ แต่เข้าใจได้ยาก

    • I-LoRA บอกว่าใช้ decoder เดิมของโมเดลเพื่อดึงคุณสมบัติแก่นแท้ของฉาก เช่น normal, depth, albedo และ shading โดยไม่ต้องมีเลเยอร์เพิ่มเติม อยากให้มีคนอธิบายว่านี่หมายความว่าอย่างไรกันแน่
  • นี่ค่อนข้างน่าสนใจมาก โมเดลกำลังเรียนรู้การแทนค่าที่มนุษย์เข้าใจได้จริง ๆ ไม่ได้มีแค่การทำเวทมนตร์อยู่บนไฮเปอร์เพลนหลายพันล้านมิติที่เราไม่สามารถถอดรหัสได้

  • งานวิจัยนี้เป็นข่าวดีสำหรับ VR (หรือ spatial computing) ถ้าโมเดลเข้าใจโลกกายภาพได้ดี การสร้างภาพฉายของฉากสองมุมก็ดูจะไม่ใช่เรื่องยากนัก ตื่นเต้นมากกับสิ่งที่จะตามมา

  • เทคโนโลยีนี้สามารถนำภาพจริงมาทำนาย albedo และแสงได้ อยากให้มีใครสักคนเอาสิ่งนี้ไปใช้สร้างฉาก Gaussian splatting ที่สามารถ re-light ได้ เพราะแสงแบบไดนามิกจะขยายประโยชน์ของ 3D scan ที่สร้างจากภาพถ่ายได้มาก และยังไม่เคยเห็นผลลัพธ์ที่เรียกได้ว่า "ดี" เลย

  • นี่คือ GPT สำหรับภาพหรือเปล่า? เอาโมเดลสร้างภาพมาแล้วทำ fine-tuning สำหรับงานย่อยอย่าง surface normal ผ่าน LoRA จากนั้นก็สรุปว่าโมเดลเหล่านี้ได้เรียนรู้การแทนค่าแบบนี้ไว้โดยเนื้อแท้แล้ว และให้ผลลัพธ์ดีกว่าวิธีแบบมีผู้กำกับดูแล

  • ไม่ได้จะสงสัยนะ แต่เราจะรู้ได้อย่างไรว่า normal map และสิ่งคล้ายกันนี้ไม่ได้ถูกใส่ไว้ในชุดข้อมูลอย่างมากมายโดยบริษัททำภาพ生成 AI อยู่แล้ว?

    • งานวิจัยนี้ลิงก์ไปยังโมเดลโอเพนซอร์สที่สามารถใช้ตรวจสอบเรื่องนั้นได้ แต่ก็อาจเป็นไปได้ว่านี่คือหนึ่งในส่วนผสมลับของโมเดลที่ล้ำหน้ากว่า
  • ตัวอย่างเช่น normal map ได้มาอย่างไร? AI สร้างมันขึ้นมาก่อนจะสร้างภาพ แล้วเราเพียงแค่อ่านมันออกมาจากสถานะภายในหรือเปล่า?