3 คะแนน โดย GN⁺ 2024-08-02 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • สร้างแอสเซ็ต 3D คุณภาพสูงจากภาพเดียวได้ในเวลาเพียง 0.5 วินาที
  • พัฒนาบนพื้นฐานของ TripoSR โดยมีการปรับปรุงสถาปัตยกรรมครั้งใหญ่และความสามารถที่ดีขึ้น
  • นำไปประยุกต์ใช้ได้ไม่เพียงกับนักพัฒนาเกมและโลกเสมือนจริงเท่านั้น แต่ยังรวมถึงผู้เชี่ยวชาญด้านค้าปลีก สถาปัตยกรรม การออกแบบ และงานอื่น ๆ ที่ใช้กราฟิกเข้มข้น
  • โมเดลมีให้ใช้งานบน Hugging Face และเผยแพร่ภายใต้ Stability AI Community License
  • เข้าถึงโมเดลได้ง่ายผ่าน Stability AI API และแชตบอต Stable Assistant พร้อมแชร์ผลงาน 3D ผ่าน 3D viewer และลองใช้งานใน Augmented Reality ได้
  • ทดลองใช้งานได้ด้วยเวอร์ชันทดลองฟรี

วิธีการทำงาน

  • ผู้ใช้เริ่มต้นด้วยการอัปโหลดภาพเดี่ยวของวัตถุ
  • Stable Fast 3D จะสร้างแอสเซ็ต 3D แบบสมบูรณ์อย่างรวดเร็ว ซึ่งรวมถึง UV unwrapped mesh, material parameters, albedo color ที่ลดแสงเงาออกแล้ว และองค์ประกอบอื่น ๆ
  • สามารถเลือกทำการสร้างใหม่แบบ quad หรือ triangle ได้ โดยเพิ่มเวลาในการประมวลผลเพียง 100-200ms

กรณีการใช้งาน

  • ใช้เวลาอนุมานที่รวดเร็วสำหรับการทดลองซึ่งเป็นหัวใจสำคัญในช่วง pre-production
  • แอสเซ็ตแบบ static สำหรับเกม (วัตถุฉากหลัง ของกระจุกกระจิก เฟอร์นิเจอร์)
  • โมเดล 3D สำหรับอีคอมเมิร์ซ
  • การสร้างโมเดลอย่างรวดเร็วสำหรับ AR/VR

เมื่อความเร็วและคุณภาพมาบรรจบกัน

  • เหนือกว่าคู่แข่งในหลายด้านสำคัญ
  • สร้างแอสเซ็ต 3D ได้รวดเร็วถึง 0.5 วินาทีต่อชิ้นบน GPU ที่มี VRAM 7GB
  • UV unwrap mesh และ material parameters คุณภาพสูง
  • ลดการปะปนของแสงใน texture
  • สามารถสร้าง material parameters เพิ่มเติมและ normal map ได้

การวิจัยและพัฒนา

  • แม้จะอิงจาก TripoSR แต่เป็นโมเดลที่ฝึกใหม่ทั้งหมดและมีการเปลี่ยนแปลงสถาปัตยกรรมที่สำคัญ
  • การปรับปรุงรวมถึงการสร้าง mesh แบบชัดเจนและเทคนิคใหม่สำหรับการสร้าง texture mesh อย่างรวดเร็ว
  • รายงานทางเทคนิคเน้นวิธีบรรลุความเร็วในการอนุมานสูงด้วย baked lighting ที่ลดลงและ material parameters

การเปิดให้ใช้งาน

  • โค้ดโมเดล Stable Fast 3D มีให้ใช้งานบน Github และ Hugging Face
  • อนุญาตให้ใช้งานแบบไม่เชิงพาณิชย์ และใช้งานเชิงพาณิชย์ได้สำหรับรายได้ต่อปีสูงสุด $1M ภายใต้ Stability AI Community License
  • เข้าถึงโมเดลได้ผ่าน API และ Stable Assistant

ความเห็นของ GN⁺

  • เทคโนโลยีการสร้างโมเดล 3D นี้เป็นเทคโนโลยีที่น่าสนใจ เพราะสามารถนำไปใช้ได้ในหลากหลายสาขา เช่น เกม โลกเสมือน/โลกเสริม การออกแบบ และสถาปัตยกรรม โดยเฉพาะความสามารถในการสร้างแอสเซ็ต 3D คุณภาพสูงอย่างรวดเร็วจากภาพเดียว ซึ่งน่าจะช่วยเพิ่มประสิทธิภาพการทำงานได้
  • อย่างไรก็ตาม เมื่อโมเดลที่ขับเคลื่อนด้วย AI ลักษณะนี้แพร่หลายมากขึ้น ก็อาจส่งผลกระทบต่ออาชีพของบุคลากรเฉพาะทาง เช่น กราฟิกดีไซเนอร์หรือโมเดลเลอร์ได้ เพราะแอสเซ็ต 3D ที่เคยต้องสร้างด้วยมืออาจถูกทำให้เป็นอัตโนมัติ แม้ AI อาจยังแทนที่มนุษย์ได้ไม่ทั้งหมด แต่การลดบทบาทลงบางส่วนก็ดูจะหลีกเลี่ยงได้ยาก
  • นอกจากนี้ ยังควรพิจารณาประเด็นลิขสิทธิ์ของโมเดล 3D ที่ถูกสร้างขึ้นด้วย ควรมีการชดเชยหรือให้เครดิตที่เหมาะสมต่อภาพที่ใช้ในการฝึก และดูเหมือนว่าจะจำเป็นต้องมีการกำหนดกฎระเบียบทางกฎหมายและแนวทางปฏิบัติสำหรับสิ่งที่สร้างโดย AI
  • เทคโนโลยีที่คล้ายกัน ได้แก่ Nvidia Instant Nerf และ RealityScan ของ Epic Games ซึ่งมีความสามารถในการสร้างโมเดล 3D จากภาพถ่ายหรือการสแกน จุดเด่นคือความเข้ากันได้สูงกับ game engine อย่างไรก็ตาม ในด้านความเร็วในการสร้างผลลัพธ์คุณภาพสูงจากภาพเดียวแบบ Stable Fast 3D ดูเหมือนว่ายังตามไม่ทัน
  • โดยสรุป Stable Fast 3D น่าจะช่วยยกระดับประสิทธิภาพการผลิตในงานกราฟิก 3D เช่น เกมและ XR ด้วยจุดเด่นด้านความเร็วและคุณภาพ แต่ก็จำเป็นต้องมีการหาฉันทามติทางสังคมเกี่ยวกับประเด็นจริยธรรมและกฎหมายควบคู่กันไป

1 ความคิดเห็น

 
GN⁺ 2024-08-02
ความคิดเห็นจาก Hacker News
  • แม้จะมีความคาดหวังต่อ LLMs อย่างมาก แต่การสร้างภาพและแอสเซ็ตกราฟิกมีแนวโน้มจะเป็นผู้ชนะระยะยาวของ AI ในปัจจุบันมากกว่า

    • "ภาพหลอน" ไม่ใช่บั๊ก แต่เป็นฟีเจอร์
    • สามารถเห็นผลลัพธ์ที่ไม่สมจริงและมีอคติได้ง่ายโดยไม่ต้องมีการทดสอบทางสถิติที่ซับซ้อน
    • สัญชาตญาณของมนุษย์มีประโยชน์ต่อการประเมิน และไม่ถูกประเมินค่าสูงเกินไปเหมือนโมเดลสร้างข้อความ
    • วิธีการที่มีการสูญเสียข้อมูลหรือมีสัญญาณรบกวนก็ยังอาจมีประโยชน์กับงานสร้างสรรค์ที่หลากหลาย
    • ไม่จำเป็นต้องสมบูรณ์แบบ และสามารถมองเห็นลักษณะที่บิดเบี้ยวแล้วปรับปรุงได้ง่าย
    • ไม่จำเป็นต้องมีความสม่ำเสมอ แต่ถ้ามีขึ้นมาได้ก็จะเพิ่มมูลค่าอย่างมากให้กับแอปพลิเคชันอย่างวิดีโอ
    • เทคนิคอย่าง LoRA ช่วยให้แม้แต่ผู้ใช้ที่ไม่มีทักษะก็สามารถฝึกโมเดลของตัวละคร สไตล์ หรือคอนเซปต์เฉพาะได้อย่างง่ายดาย
    • โมเดลสร้างภาพ/วิชวลพัฒนาขึ้นอย่างมากในช่วง 1 ปีที่ผ่านมา และความเร็วในการพัฒนาไม่ได้ช้ากว่าโมเดลข้อความ
    • อนาคตจะไม่ใช่การแทนที่ช่างภาพหรือผู้กำกับภาพยนตร์แบบเต็มรูปแบบ แต่จะเป็นยุคของเครื่องมือทรงพลังที่ขับเคลื่อนด้วย AI
    • เครื่องมือที่สามารถเพิ่มหรือลบคอนเซปต์ออกจากภาพได้ด้วยข้อความพรอมป์ต์ไม่กี่คำมีประโยชน์มาก
    • กำลังมีผู้ใช้สายพาวเวอร์กลุ่มใหม่เกิดขึ้น เหมือนกับ Photoshop ในยุค 90
  • ในภาพที่ใช้ทดสอบเป็นภาพที่สาม AI 3D ทั้งหมดดูเหมือนเรนเดอร์ 2D ของโมเดล 3D

    • ทดสอบด้วยภาพแบบ cel shading และผลลัพธ์จากโมเดลดูแบนมากและมี topology ที่แย่
    • ดูเหมือนว่าจะไม่เข้าใจโครงสร้าง เพราะหากไม่มีเงาที่ถูกต้องก็ไม่สามารถคำนวณ normal vector ใหม่ได้
    • น่าจะดีหากระบุชุดข้อมูลนำเข้าที่คาดว่าจะให้ผลลัพธ์เหมาะสมได้อย่างชัดเจน
  • ยังไม่สมบูรณ์แบบ แต่ค่อนข้างเจ๋ง

    • สามารถใช้เป็นของตกแต่งที่ทำได้ไม่ยากเพื่อเพิ่มความซับซ้อนให้ฉากหลัก แทนที่จะเป็นแอสเซ็ตหลัก
    • ใช้ได้ในกรณีที่ไม่ใช่ 2D billboard imposters
    • สามารถสร้างภาพด้วย Midjourney, Bing, Dalle3 แล้วลากวางเพื่อให้ได้งานนำเสนอ 3D ที่ดีอย่างน่าประหลาดใจ
    • ใช้เป็นของตกแต่งในฉาก 3D ที่กล้องจะไม่มองเห็นด้านหลังได้
  • แทบรอไม่ไหวให้เทคโนโลยีนี้พัฒนาขึ้น

    • ผลการทดสอบยังไม่ค่อยใช้งานได้จริง
    • ต้องทำงานเพิ่มมากกว่านี้เพื่อแก้โมเดลที่แย่จากผลลัพธ์ภาพ
    • ดูเหมือนว่าการค่อย ๆ ผ่านหลายขั้นตอนเพื่อให้ได้ผลิตภัณฑ์สุดท้ายที่คุณภาพสูงกว่าน่าจะดีกว่า
    • อาจเป็นไปได้ว่ากำลังมองข้ามกรณีการใช้งานบางอย่างอยู่
  • ใช้เวลา 0.5 วินาทีในการสร้างแอสเซ็ต 3D บน GPU ที่มี 7GB VRAM

    • เดิมคิดว่าน่าจะเป็นโมเดลสำหรับดาต้าเซ็นเตอร์เท่านั้น แต่ 7GB VRAM บ่งชี้ว่าสามารถรันบนฮาร์ดแวร์ที่ศิลปิน 3D จำนวนมากมีอยู่แล้วได้
  • หวังว่าจะได้เห็นความสำเร็จจริง ๆ ในสายงานนี้

    • สามารถลองได้โดยลากภาพไปใส่ในเดโมบน HuggingFace
    • มันทำงานได้ไม่ดีนักกับภาพแมว แต่กับภาพ iPhone กลับทำได้ค่อนข้างดี
    • กับภาพแพนเค้กน่าประทับใจ แต่กับภาพจรวดกลับแย่มาก
    • ส่วนภาพลูกบิลเลียดก็กลับมาน่าประทับใจอีกครั้ง
  • วางแผนจะพิมพ์ 3D ของสนุก ๆ มากมายด้วยเทคโนโลยีนี้

  • ดูเหมือนจะใช้กลยุทธ์แบบอินโฟเมอร์เชียลคลาสสิก คือทำให้ภาพที่ใช้เปรียบเทียบสีซีดลงเพื่อให้ของตัวเองดูดีกว่า

  • สามารถโต้ตอบกับโมเดลได้บนหน้าโปรเจกต์

  • กระตุ้นความหลงใหลในการเพนต์มินิเอเจอร์