TRELLIS - โมเดลสร้างเมช 3D

(trellis3d.github.io)

1 คะแนน โดย GN⁺ 2024-12-10 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

TRELLIS เป็นโมเดลสร้างสรรค์ที่สร้างแอสเซ็ต 3D โดยใช้ข้อความหรือรูปภาพเป็นเงื่อนไข ผสานการแทนค่า latent แบบรวม SLAT กับ Rectified Flow Transformers เพื่อยกระดับคุณภาพและความยืดหยุ่นของผลลัพธ์
SLAT บรรจุทั้งกริด 3D แบบเบาบางและคุณลักษณะภาพจากหลายมุมมอง เพื่อแทนโครงสร้างเรขาคณิตและเท็กซ์เจอร์ และสามารถถอดรหัสเป็น Radiance Fields, 3D Gaussians และ meshes ได้
ระบุว่าได้ฝึกโมเดลขนาดสูงสุด 2 พันล้านพารามิเตอร์ ด้วยชุดข้อมูลแอสเซ็ต 3D จำนวน 500,000 ชิ้น และให้คุณภาพสูงกว่าวิธีเดิม ๆ รวมถึงวิธีสมัยใหม่ขนาดใกล้เคียงกัน
รองรับไม่เพียงการสร้าง text-to-3D และ image-to-3D แต่ยังรวมถึงการสร้าง รูปแบบดัดแปลง ของแอสเซ็ต 3D ที่มีอยู่ และการแก้ไขพื้นที่เฉพาะที่ โดยสาธิตการจัดการต่าง ๆ เช่น ลบแขน เพิ่มอาวุธ และเปลี่ยนขา
เอกสารและทรัพยากรที่เผยแพร่จำกัดไว้สำหรับวัตถุประสงค์ทางวิชาการและการวิจัย และยังมี อคติที่อาจแฝงอยู่ จากชุดข้อมูลที่อิงอินเทอร์เน็ต รวมถึงข้อจำกัดในการสร้างวัตถุโลกจริงที่สมจริง

เป้าหมายและขอบเขตของ TRELLIS

TRELLIS เป็นโมเดลสร้าง 3D แบบเนทีฟที่มุ่งสร้าง 3D ได้หลากหลายและขยายขนาดได้
หน้าโปรเจกต์เป็นเว็บเพจทางการเพียงแห่งเดียวของ TRELLIS และงานนี้ถูกระบุว่าเป็น CVPR 2025 Highlight
เป้าหมายหลักคือการสร้างแอสเซ็ต 3D คุณภาพสูงจากเงื่อนไขที่เป็นข้อความหรือรูปภาพ พร้อมให้รูปแบบผลลัพธ์และฟังก์ชันแก้ไขที่หลากหลาย
จะมีการเปิดเผยโค้ด โมเดล และข้อมูล

การแทนค่า Structured LATent(SLAT)

SLAT เป็นการแทนค่า latent 3D แบบรวมสำหรับการสร้าง 3D คุณภาพสูงและใช้งานได้หลายวัตถุประสงค์
นิยามเวกเตอร์ latent เฉพาะที่บน active voxel ที่ตัดกับพื้นผิวของวัตถุ
เวกเตอร์ latent เฉพาะที่จะถูกเข้ารหัสโดยเรนเดอร์แอสเซ็ต 3D อย่างหนาแน่นจากหลายมุมมอง แล้วหลอมรวมและประมวลผลคุณลักษณะภาพ
คุณลักษณะนี้มาจาก vision encoder ที่ผ่านการ pretrain และช่วยเสริมโครงสร้างหยาบที่ active voxel ให้มา เพื่อจับรายละเอียดเรขาคณิตและคุณลักษณะเชิงภาพ
สามารถใช้ decoder ต่างชนิดกันเพื่อแปลง SLAT เป็นการแทนค่า 3D หลายรูปแบบได้
- Radiance Fields
- 3D Gaussians
- meshes

โครงสร้างโมเดลสร้างสรรค์และการฝึก

TRELLIS เป็น ตระกูลโมเดลสร้าง 3D ขนาดใหญ่ที่สร้างขึ้นบน SLAT โดยใช้พรอมป์ข้อความหรือรูปภาพเป็นเงื่อนไข
pipeline การสร้างแบ่งเป็น 2 ขั้นตอน
- ขั้นแรกสร้างโครงสร้างแบบเบาบางของ SLAT
- จากนั้นสร้างเวกเตอร์ latent ของเซลล์ที่ไม่ว่าง
โมเดล backbone คือ Rectified Flow Transformers และถูกปรับให้จัดการกับความเบาบางของ SLAT
ขนาดการฝึกสูงสุดคือ 2 พันล้านพารามิเตอร์ และใช้ชุดข้อมูลขนาดใหญ่ที่ประกอบด้วยวัตถุ 3D หลากหลาย 500,000 ชิ้น
ผลลัพธ์เป็นแอสเซ็ต 3D ที่มีเรขาคณิตละเอียดและเท็กซ์เจอร์มีชีวิตชีวา โดยระบุว่าเหนือกว่าวิธีก่อนหน้าอย่างมาก

ตัวอย่างการสร้าง·แก้ไขและรูปแบบผลลัพธ์

ตัวอย่าง text-to-3D ใช้พรอมป์ข้อความที่ GPT-4 สร้างขึ้น
- โทรศัพท์หมุนทองแดงสไตล์วินเทจ
- บ้านอิฐสองชั้นที่มีหลังคาสีแดงและรั้ว
- ทรงกลมเรืองแสงบนฐานหิน
- หุ่นยนต์ทรงกลมดีไซน์สีทองและเงิน
ตัวอย่าง image-to-3D ใช้พรอมป์รูปภาพที่ DALL-E 3 สร้างขึ้น
รูปลักษณ์และเรขาคณิตในหน้าเว็บถูกเรนเดอร์ตามลำดับจาก 3D Gaussians และ meshes
ไฟล์ GLB ถูกดึงออกมาโดย baking รูปลักษณ์ของ 3D Gaussians ลงใน mesh
สำหรับแอสเซ็ต 3D ที่กำหนด สามารถสร้างรูปแบบดัดแปลงที่สอดคล้องกับพรอมป์ข้อความได้
- พื้นผิวโลหะพร้อมงานพ่นสีส้ม·ขาว
- พื้นผิวคล้ายผ้าถักสีเขียว·ม่วง
- พื้นผิวโลหะสไตล์อาวุธยุคกลางที่มีสายหนังและจุดเน้นสีน้ำเงิน
- โครงสร้างไฮเทคใสคล้ายแก้ว
การจัดการเฉพาะที่แก้ไขพื้นที่เฉพาะตามพรอมป์ข้อความหรือรูปภาพ
- ลบแขนออกจากเมคาหุ่นยนต์ต่อสู้แบบฮิวแมนนอยด์
- เพิ่มอาวุธลำแสงขนาดใหญ่
- เปลี่ยนขาเป็นแชสซีแบบสายพาน
สามารถนำแอสเซ็ต 3D ที่สร้างขึ้นมาประกอบกัน เพื่อสร้าง งานออกแบบศิลปะ 3D ที่ซับซ้อนและมีชีวิตชีวาได้

วัตถุประสงค์การวิจัยและข้อจำกัด

TRELLIS เป็นโปรเจกต์วิจัยล้วน ๆ
ชุดข้อมูลที่ใช้เป็นชุดข้อมูลสาธารณะ และได้รับการตรวจสอบเพื่อไม่ให้มีข้อมูลระบุตัวบุคคลหรือเนื้อหาที่เป็นอันตราย
เนื่องจากชุดข้อมูลถูกรวบรวมจากอินเทอร์เน็ต จึงอาจยังมี อคติที่อาจแฝงอยู่
โมเดลปัจจุบันมีจุดแข็งในการสร้างแอสเซ็ต 3D สไตล์ศิลปะ
ความสามารถในการสร้างวัตถุโลกจริงที่สมจริงยังมีข้อจำกัด
เอกสารและทรัพยากรบนหน้าเว็บมีให้เฉพาะเพื่อวัตถุประสงค์ทางวิชาการและการวิจัยสำหรับสำรวจเทคโนโลยีการสร้าง text-to-3D และ image-to-3D เท่านั้น
ไม่ได้มีเจตนาให้นำไปใช้เชิงพาณิชย์หรือใช้งานเชิงพาณิชย์
งานวิจัยที่เกี่ยวข้องคือ arXiv preprint Structured 3D Latents for Scalable and Versatile 3D Generation

1 ความคิดเห็น

GN⁺ 2024-12-10

ความคิดเห็นจาก Hacker News

ว้าว น่าทึ่งจริง ๆ แต่นี่น่าจะเป็นครั้งแรกที่ดู คอนเทนต์ที่ AI สร้าง แล้วรู้สึกคลื่นไส้
มันทำออกมาดีเกินไป จนดูเหมือนแอสเซ็ตคุณภาพสูงแบบผลิตจำนวนมากที่ไร้วิญญาณ เลยยิ่งรู้สึกเศร้า
ไม่ได้จะลดทอนความสำเร็จนี้ ตรงกันข้าม มันให้ความรู้สึกเหมือนเป็นสัญญาณการสิ้นสุดของแอสเซ็ตที่ทำด้วยมือ
ไม่ใช่ว่าสงสารศิลปิน แต่รู้สึกเศร้ากับตัวเองมากกว่าที่ฉันยังต้องการคุณสมบัติของการเป็นสิ่งที่มนุษย์ทำขึ้นด้วยมือ
นี่ก็เป็นเหตุผลเดียวกับที่ฉันไม่ค่อยชอบเกมที่สร้างแบบ procedural เพราะฉันอยากเดินอยู่ในโลกที่ออกมาจากหัวของใครสักคน ไม่ใช่โลกที่ถูกสร้างแบบ procedural ซึ่งมีอยู่โดยไม่มีเหตุผลอะไรเป็นพิเศษ ถ้าอยากได้แบบนั้นก็แค่ออกไปเดินข้างนอกก็พอ
ฉันต้องการ งานศิลปะ ที่คนร่วมยุคเดียวกันสร้างขึ้นอย่างมีจุดหมาย ใส่วิสัยทัศน์ ไอเดีย คุณค่า มุมมอง และความเป็นตัวเองลงไป ไม่ใช่แค่กองคอนเทนต์หรือกองของให้คุ้ยดู จะดูสวยขนาดนี้หรือไม่ก็ไม่สำคัญ ขอแค่ถูกสร้างขึ้นอย่างมีจุดหมายก็พอ
- จะมองแบบนี้ก็ได้ จากนี้ไป เกม AAA คงไม่สามารถสร้างความแตกต่างได้แค่ด้วยการ “กราฟิกอลังการ” อีกแล้ว
  พูดตามตรง เกมใหม่ส่วนใหญ่ทุกวันนี้ก็แทบเป็นเกมเดิมที่แค่อัปเดตกราฟิก
  แต่ถ้าอีกไม่นานฉันเองก็ทำอะไรแบบนั้นได้เหมือนกัน ก็ชวนให้สงสัยว่าสตูดิโอใหญ่ ๆ จะเตรียมอะไรไว้เพื่อดึงให้เรากลับไปหาอีก
- ประโยคที่ว่า “ถ้าอยากได้โลก procedural ที่มีอยู่โดยไม่มีเหตุผลอะไรเป็นพิเศษ ก็แค่ออกไปข้างนอก” ทำให้นึกถึงตอนที่ฉันเริ่มออกกำลังกายกลางแจ้งเมื่อหลายปีก่อน
  ก่อนหน้านั้นแทบไม่ออกไปไหน อยู่แต่ในห้องค่อนข้างมืด แล้ววันหนึ่งพอมองขึ้นไปบนฟ้าก็คิดว่า “ว้าว เมฆพวกนี้ดูเหมือนเมฆในเกมอย่าง Horizon หรือ Assassin's Creed เลย”
  ตอนดูแอสเซ็ตพวกนี้ก็แอบเศร้านิด ๆ เหมือนกัน พอเห็น “บ้านอิฐสองชั้นหลังคาแดงมีรั้ว” ก็นึกถึงตัวอย่าง animation/keyframe ของ three.js ขึ้นมา
  ตัวอย่างของ three.js นั้นมนุษย์ทำด้วยมือ และทุกการตัดสินใจมีเจตนาจริงอยู่เบื้องหลัง แต่ Trellis ดูเหมือนแค่ “ปิ๊ง นี่ไง” เป็นส่วนผสมของงานที่เจอมาจากอินเทอร์เน็ตและเกมต่าง ๆ
  AI อาจทำให้คุณค่าบางอย่างหายไป แต่เพราะแบบนั้น คอนเทนต์ทำมือ อาจยิ่งมีค่ามากขึ้นก็ได้ เพียงแต่ก็ไม่แน่ใจว่าเราจะยอมรับคุณค่านั้นมากพอให้ศิลปินอยู่ได้อย่างยั่งยืนหรือไม่
  https://threejs.org/examples/#webgl_animation_keyframes
- นักพัฒนาเกมจำนวนไม่น้อยเกลียด การออกแบบด่าน และเหตุผลที่ไม่ใช้การสร้างแบบ procedural ก็เพราะมันยาก เลยต้องฝืนประกอบโลกที่ทำด้วยมือขึ้นมาแทน
  ฉันเองก็เป็นแบบนั้น ถ้าใครมาเล่นเกมของฉันแล้วคิดว่าด่านต่าง ๆ “ผุดขึ้นมา” จากในหัวฉัน ก็คงน่าขำไม่น้อย เหมือนฉันเป็นศิลปินลุ่มลึกอะไรแบบนั้น
  ฉันภูมิใจกับส่วนอื่นของการพัฒนาเกมมาก แต่การออกแบบด่านไม่ใช่หนึ่งในนั้น
- ฉันไม่คิดว่าเทคโนโลยีนี้จะเปลี่ยน พื้นที่การแข่งขันของมนุษย์ ไปอย่างถึงราก
  พอมันเริ่มถูกใช้แพร่หลาย ก็คงมีของคุณภาพต่ำแบบผลิตจำนวนมากทะลักออกมา แต่ศิลปินตัวจริงที่ต้องการสร้างบางสิ่งอย่างมีจุดหมายจะเรียนรู้วิธีใช้เทคโนโลยีนี้เป็นฐานไปสู่สิ่งที่ยิ่งใหญ่กว่า
  พอมองคนอย่าง Martin Nebelong ก็เห็นว่าพวกเขากำลังเรียนรู้วิธีใช้ AI โดยยังคงให้มนุษย์อยู่ในลูป
  https://x.com/martinnebelong?s=21&t=cTpE-rRbCiocUlN0VaSheQ
- สำหรับคนที่ทำ 3D asset ไม่เป็น นี่คือ เครื่องมือทำต้นแบบ ที่ดีมาก
  คล้ายกับที่ visual scripting อย่าง Unreal Blueprints เปิดทางให้คนที่ไม่คุ้นกับการเขียนโปรแกรมเข้ามาทำเกมและม็อดดิ้งได้
  เพราะงั้นถ้าจะได้โมเดลไว้ใส่ในต้นแบบโดยไม่ต้องไปเรียน Blender หรือ Maya ก็ถือว่าโอเค ถึงมันจะดูแกว่ง ๆ และแปลก ๆ อยู่บ้าง อย่างน้อยก็ยังได้คอนเทนต์ขึ้นมา
ว้าว ผลลัพธ์ยอดเยี่ยมมาก ไม่ใช่ผู้เชี่ยวชาญหรอก แต่รู้สึกว่านี่คือสิ่งที่ทุกคนคิดไว้ตั้งแต่ตอนมี NeRF demo แรกออกมา
พอลองค้นดูก็ยังเจอคอมเมนต์ที่ผมเคยเขียนไว้เมื่อ 5 ปีก่อนว่าหวังให้มันเป็นแบบนี้: https://news.ycombinator.com/item?id=22642628
ขั้นถัดไปคือการให้โมเดลติด “โหนด” ที่ใช้หมุนหรือปรับจุดหมุนให้กับภาพ 3D โดยอัตโนมัติ จากนั้นคอนเทนต์แอนิเมชันและแบบโต้ตอบตามสั่งก็ตามมาได้ทันที
สามารถใส่รูปถ่ายสมัยเด็กเพื่อจำลองความทรงจำ แล้วเพิ่มตัวอย่างเสียงของคนที่รักเพื่อให้พูดคุยได้
ถ้าอยากให้สมจริงยิ่งขึ้นก็แค่ใส่หูฟังตัดเสียงรบกวนแล้วเข้า VR
ใกล้วางจำหน่ายแล้ว! คลิกที่นี่เพื่อเข้าร่วมรายชื่อรอ “Surrender Reality”
- ขั้นถัดไปคือสร้างโมเดลที่มี mesh topology คุณภาพสูงกว่าเดิม เพื่อให้ทำแอนิเมชันและแก้ไขแล้วเมชไม่พัง
  ผมทำรีโทโพโลยีมาเยอะมาก ถ้าเอาโมเดลพวกนี้ไปริกตรง ๆ น่าจะเจอปัญหาเรื่อง shading และ deformation ได้สารพัดแบบ
  ต่อให้ไม่ทำแอนิเมชัน พอมองใกล้ ๆ ก็ยังเห็นความเป็นสามเหลี่ยมค่อนข้างชัด
  ถึงอย่างนั้นก็ดูเหมือนการสร้าง 3D asset คุณภาพสูงจะอยู่ใกล้แค่เอื้อมแล้ว ถ้าเอาแนวทางที่เห็นตรงนี้ไปรวมกับ AI quad remeshing ที่อาศัย estimated direction field และ feature detection ซึ่งฝั่งนั้นก็กำลังพัฒนาจนน่ากลัวเหมือนกัน
- ในเชิงสัญชาตญาณ ผมรู้สึกว่าการผสาน 3D engine กับเทคโนโลยีนี้น่าจะเป็นทางออกที่ดีกว่าวิธีปัจจุบันที่เรนเดอร์วิดีโอแบบ rasterized จาก latent space โดยตรง บังเอิญว่า Sora ก็เปิดตัววันนี้เหมือนกัน
  การริกเมช ทำแอนิเมชัน และฝึกเครือข่ายให้ตั้งค่าฉากทั้งฉากของวิดีโอใด ๆ เป็น “digital twin” อาจไม่ใช่เรื่องที่ทำได้จริง
  แต่ถ้าทำสถาปัตยกรรมแบบนั้นได้ ก็น่าจะควบคุมวิดีโอที่สร้างขึ้นได้ละเอียดกว่ามากโดยที่อย่างอื่นยังคงเดิม
- ผมไม่ค่อยแน่ใจว่า “โหนด” ที่พูดถึงตรงนี้หมายถึงอะไรแน่ การหมุนหรือซูมแบบอิสระอาจดูดีในทางทฤษฎีก็ต่อเมื่อคุณอยากได้ lazy susan หรือหัว Exorcist ที่หมุนติ้ว ๆ
  ขั้นถัดไปน่าจะเป็น symmetric topology ที่ปกติกว่านี้, UV map ที่ดีกว่า, และ auto-rigging (FK/IK) เพื่อให้ทำแอนิเมชันได้ง่าย
- สงสัยว่ามันจะกระทบกับ 3D artist ในสตูดิโอพัฒนาเกมยังไง
  สตูดิโอจะใช้เครื่องมือแบบนี้แต่ยังเก็บศิลปินไว้ แล้วผลิตคอนเทนต์ได้มากขึ้น เร็วขึ้น ง่ายขึ้น หรือจะเหลือไว้แค่บางส่วน ตัดอีก 80% แล้วแทนที่ด้วยเครื่องมือนี้
- มันมีประโยชน์ไม่ใช่แค่กับแอนิเมชันและคอนเทนต์แบบโต้ตอบตามสั่ง แต่ยังใช้กับ การเรนเดอร์ภาพนิ่ง ได้ด้วย
  จนถึงตอนนี้ภาพ 2D ที่ AI สร้างขึ้นมักมีแสงผิดและมีข้อผิดพลาดเยอะ พอทำให้เป็นฉาก 3D แล้วเรนเดอร์ด้วยเครื่องมือฟรีอย่าง Blender แสงก็จะถูกต้องและปรับตั้งได้ และรายละเอียดที่ผิดก็แก้ได้ง่าย
  ตอนนี้ก็มีเครื่องมือที่ทรงพลังแบบเหลือเชื่ออยู่แล้ว และจากตรงนี้ไปก็น่าจะยิ่งเก่งขึ้นเร็วมาก
มันยังไม่สมบูรณ์แบบ แต่ดีกว่า ตัวสร้างโมเดล 3D ส่วนใหญ่ที่ผมเคยลองมามาก
ก่อนหน้านี้ผลลัพธ์แย่แบบไม่น่าเชื่อ แต่ครั้งนี้อย่างน้อยก็ออกมาได้ระดับกลางขึ้นไป
ตอนนี้ขอแค่ให้ไฟล์ฟอร์แมตที่โยนเข้า Orca Slicer ได้ตรง ๆ ก็พอ
น่าประทับใจมาก ผมใช้ layer diffusion ทำเรือเหาะ low-poly แบบนี้: https://image.non.io/b3f843be-b1b4-468a-a0ec-9d58b191beee.we...
ผลลัพธ์เป็นแบบนี้: https://video.non.io/video-2732101706.mp4
พูดตรง ๆ ว่าไม่ได้แย่เลย และกำลังเข้าใกล้จุดที่ใช้เป็นเกมแอสเซ็ตได้แล้ว
ผมลองใส่ภาพ F-117 stealth aircraft จาก Wikipedia แต่ผลลัพธ์ล้มเหลวโดยสิ้นเชิง
ถึงขั้นไม่รู้เลยว่าตัวอย่างบนหน้าโปรเจกต์สร้างกันยังไง เพราะแม้แต่ silhouette พื้นฐานก็ยังผิดหมด
ผมหวังว่าจะอัปโหลดภาพจากหลายมุมเพื่อช่วยแก้ได้ แต่ดูเหมือนจะไม่มีฟีเจอร์แบบนั้น
- F-117 หน้าตาแปลกมาก ถ้าไม่รู้มาก่อนว่าของจริงเป็นยังไง การจะคาดเดาจากมุมมองเดียวในบางองศาก็ยากมากแม้แต่สำหรับคน
  ถ้าไม่มีอยู่ใน dataset ก็ถือว่าพอเข้าใจได้ โดยเฉพาะเพราะรูปทรงเหลี่ยม ๆ ของมันทำให้โมเดลตัดสินผิดว่าไม่ใช่เครื่องบินได้ง่าย
  ไม่ได้จะพูดถึงคุณภาพของโมเดลโดยรวม แต่ F-117 น่าจะเป็นกรณีทดสอบที่ไม่ค่อยแฟร์เกือบแน่นอน
เห็นโพสต์นี้เมื่อไม่กี่วันก่อนเหมือนกัน แต่เป็นเดโมที่น่าประทับใจมาก เลยอยากให้มีการคุยกันที่นี่
https://news.ycombinator.com/item?id=42342557
เห็นศักยภาพอยู่นะ แต่ภาพที่ผมใส่เข้าไปน่าจะหลุดจาก distribution ที่ใช้ฝึกไปมาก เลยสร้างออกมาเป็น แผ่นแบน ๆ ประหลาดอย่างเดียว
- ผมพอทำให้มันทำงานได้ดีกับภาพมุมมองจากด้านบนของตัวละครหรือวัตถุ แบบเกม isometric
  แต่พอใช้ภาพที่หันตรงเข้าหากล้อง ผลลัพธ์ออกมาแบนหมดทุกอัน
- เป็นอีกหนึ่งเครื่องมือมหัศจรรย์ จนกว่าจะได้ลองทดสอบเอง
มันขึ้นกับภาพมาก แต่การที่มันถ่ายทอดขนสัตว์ด้วยการผสม polygon mesh กับ texture แบบโปร่งใส ได้อย่างเหมาะสมนั้นน่าทึ่งจริง ๆ
ความสามารถแบบนี้ไม่ได้แสดงให้เห็นในตัวอย่างบนหน้าเพจเลย
https://imgur.com/a/qJp4HNX
AlphaFold เป็นโมเดลที่สร้าง 3D จากลำดับโปรตีนแบบหนึ่งมิติ โดยมีการแทนข้อมูลภายในที่หรูและซับซ้อนมาก
ในทางกลับกัน งานวิจัยนี้น่าสนใจตรงที่โดยพื้นฐานแล้วมันทำ voxelization กับข้อมูลอินพุต แล้วถ่ายภาพจากหลายมุมจำนวนมากเพื่อสร้างชุดฝึก
ผมใช้สิ่งนี้ทำเวิร์กโฟลว์จากภาพที่ AI สร้างไปจนถึง 3D print ได้แล้ว ขั้นตอนสรุปไว้ที่นี่: https://x.com/ryanlanciaux/status/1866163343788007619
- โคตรล้ำยุคเลย คุณสร้างภาพด้วยคำพูด แล้วเปลี่ยนมันเป็นวัตถุจริงที่บ้านได้ แต่คำอธิบายเป็นข้อความล้วนกับภาพที่อธิบายกระบวนการกลับอ่านไม่ได้เพราะเว็บพัง

TRELLIS - โมเดลสร้างเมช 3D

เป้าหมายและขอบเขตของ TRELLIS

การแทนค่า Structured LATent(SLAT)

โครงสร้างโมเดลสร้างสรรค์และการฝึก

ตัวอย่างการสร้าง·แก้ไขและรูปแบบผลลัพธ์

วัตถุประสงค์การวิจัยและข้อจำกัด

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News