11 คะแนน โดย GN⁺ 2025-08-18 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • LL3M ใช้โมเดลภาษาขนาดใหญ่หลายตัวในการเขียนโค้ด Python อัตโนมัติเพื่อ สร้างและแก้ไขแอสเซ็ต 3D ใน Blender
  • ตามคำสั่งข้อความของผู้ใช้ ระบบสามารถสร้าง รูปร่างที่สร้างสรรค์และแม่นยำ ได้โดยตรง และนำการจัดการเรขาคณิตที่ซับซ้อนไปแปลงเป็นโค้ด
  • ต่างจากเครื่องมือสร้างโมเดล 3D แบบเดิม โดยมอบ การสร้างแอสเซ็ตที่ไร้ข้อจำกัดและการโต้ตอบอย่างละเอียด
  • โค้ด Blender ที่สร้างขึ้นมีความชัดเจนและมี ความโปร่งใสของพารามิเตอร์ สูง ทำให้ผู้ใช้หรือเอเจนต์สามารถแก้ไขหรือปรับปรุงซ้ำได้ง่าย
  • แสดงให้เห็นถึงศักยภาพในการจัดการแอสเซ็ต 3D อย่างกว้างขวาง เช่น การทำสไตล์ให้สม่ำเสมอ การแก้ไขวัสดุ และการสร้างโครงสร้างลำดับชั้น

ภาพรวมของ LL3M

  • LL3M เป็นเฟรมเวิร์กนวัตกรรมที่เอเจนต์ LLM หลายตัวเขียนโค้ด Python เพื่อ สร้างและแก้ไขแอสเซ็ต 3D ใน Blender
  • เมื่อผู้ใช้สั่งงานด้วยข้อความ LL3M จะทำให้การสร้างรูปทรงเชิงสร้างสรรค์และการปรับแต่งเรขาคณิตอย่างแม่นยำเป็นแบบอัตโนมัติ และใช้โค้ดระดับสูงเป็นรูปแบบการแทน 3D เพื่อให้สามารถปรับปรุงซ้ำและทำงานร่วมกันได้
  • โค้ดมีคำอธิบายที่ชัดเจน ทำให้พารามิเตอร์และโครงสร้างต่าง ๆ โปร่งใส จึงเหมาะกับการแก้ไขเพิ่มเติมและการรับฟีดแบ็กจากผู้ใช้อย่างต่อเนื่อง

ภาพรวมของไปป์ไลน์

  • ไปป์ไลน์ประกอบด้วย 3 ขั้นตอนหลัก (การสร้างเริ่มต้น การปรับปรุงอัตโนมัติ และการปรับปรุงตามฟีดแบ็กของผู้ใช้)
    • ในขั้นตอนการสร้างเริ่มต้น นอกจากสร้างรูปทรงพื้นฐานแล้ว LL3M ยังตรวจจับและปรับปรุงโครงสร้างที่ไม่สมเหตุสมผลหรือองค์ประกอบเรขาคณิตที่เรียบง่ายเกินไป โดยอัตโนมัติ
    • ขั้นตอนที่สองเป็นการแก้ไขอัตโนมัติที่ละเอียดขึ้น และสะท้อนถึง รูปทรงหรือความสัมพันธ์ที่ซับซ้อน ได้ด้วย
    • ขั้นตอนสุดท้ายรองรับคำขอแก้ไขเพิ่มเติมจากผู้ใช้ เพื่อให้เกิด การสร้างแอสเซ็ต 3D แบบโต้ตอบและทำซ้ำได้
  • แต่ละขั้นตอนใช้การแบ่งบทบาทของเอเจนต์เพื่อดำเนินแนวทางการปรับปรุงแบบค่อยเป็นค่อยไปและวนซ้ำ

แกลเลอรีและประสิทธิภาพ

  • การสร้างรูปทรงที่หลากหลาย: สร้างโครงสร้างที่ซับซ้อนและรายละเอียดประณีตของกังหันลม เปียโน ชุดกลอง ฯลฯ ด้วยโค้ด
  • การใช้สไตล์อย่างสม่ำเสมอ: นำคำสั่ง "steampunk" เดียวกันไปใช้กับเมชหลายชิ้น (เช่น หมวก) เพื่อคงสไตล์ร่วมกันแต่ได้ผลลัพธ์ที่แตกต่างกัน
  • รองรับการแก้ไขวัสดุ: เช่น สามารถกำหนดเฉพาะส่วนคมดาบด้วย shader node แยกต่างหากเพื่อเปลี่ยนวัสดุได้

ความสามารถในการตีความโค้ด

  • โค้ดที่สร้างขึ้นมี ตรรกะเชิงโครงสร้าง ชื่อตัวแปรที่ชัดเจน และคอมเมนต์ จึงเข้าใจและแก้ไขได้ง่าย
  • ตัวอย่าง: สามารถแก้ไขลอจิกของแพตเทิร์นคีย์บอร์ดหรือค่าตัวแปรความกว้างของคีย์ได้โดยตรง
  • เนื่องจาก Blender node และพารามิเตอร์ต่าง ๆ ถูกเปิดเผยไว้อย่างครบถ้วน จึงสามารถปรับคุณสมบัติด้านภาพ เช่น สีและแพตเทิร์น ได้อย่างเป็นธรรมชาติ

การนำโค้ดกลับมาใช้ใหม่และความอเนกประสงค์

  • แม้จะเป็นรูปทรงที่ต่างกัน แต่แพตเทิร์นโค้ดระดับสูงอย่าง ลูป modifier และการตั้งค่า node ยังสามารถนำกลับมาใช้ซ้ำได้
  • ทำให้สามารถสร้างโค้ดแบบโมดูลาร์ที่แก้ไขได้จากพรอมป์ต์ที่หลากหลาย

ฉากและโครงสร้างลำดับชั้น

  • สร้างวัตถุหลายชิ้นและจัดวางความสัมพันธ์เชิงพื้นที่โดยอัตโนมัติด้วย instancing และ parenting
  • ตัวอย่าง: เมื่อสร้างวัตถุประกอบอย่างโคมไฟ ระบบจะสะท้อนโครงสร้างความสัมพันธ์แบบพ่อ-ลูก เพื่อให้การแปลงค่าถูกส่งต่อในเชิงลำดับชั้น
  • แต่ละชิ้นส่วนมี semantic name ที่มีความหมาย จึงสามารถจัดการได้อย่างมีประสิทธิภาพใน scene graph ของ Blender

1 ความคิดเห็น

 
GN⁺ 2025-08-18
ความคิดเห็นจาก Hacker News
  • เคยประสบความสำเร็จแบบไม่คาดคิดกับการใช้ meshy.ai แปลงภาพที่เพื่อนต้องการให้กลายเป็นโมเดล 3D ที่ดี เวิร์กโฟลว์ของฉันคือ 1) ใช้โมเดลภาพอย่าง GPT-5 หรือ Midjourney เปลี่ยนภาพต้นฉบับให้เป็นภาพเรนเดอร์แบบ mesh ที่เรียบลื่น กล่าวคือเอารายละเอียดที่ไม่จำเป็นหรือเอฟเฟกต์โปร่งใส/เป็นมิติออก 2) นำภาพที่จัดระเบียบแล้วนี้เข้าโหมด image to 3D ของ meshy.ai แล้วถ้าไม่ถูกใจก็กลับไปขั้นตอนที่ 1 เพื่อเปลี่ยนสไตล์ภาพและเลือกใหม่ 3) สุดท้ายย้ายไป Blender เพื่อแก้ไข mesh ตามต้องการ (เช่น ปรับบางส่วน เพิ่มความไม่สมมาตร ฯลฯ) แล้วทำงานโมเดลเพิ่มเติมต่อ โครงสร้าง mesh ค่อนข้างเสถียร และให้ความรู้สึกว่าน่าจะใช้วิธีอย่าง marching cubes หรือ dual contouring บนตัวสร้างตระกูล NeRF ฉันทำ CAD เชิงกลได้เร็วมากจริง แต่ฝีมือ Blender อยู่ระดับธรรมดา ดังนั้นให้ AI ทำโครงหลักของโมเดลแล้วฉันค่อยแก้และเติมด้วยมือจึงมีประสิทธิภาพมาก ตัวอย่างเช่น ถ้าเพื่อนขอให้ดัดแปลงรูปปั้นคนจริง งานที่เมื่อก่อนฉันต้องใช้เวลาเยอะมาก ตอนนี้ด้วยชุด AI+Blender ลงเวลา 5 นาทีเพื่อสร้างโมเดล แล้วแต่งต่อใน Blender ราว 1 ชั่วโมง ก็รู้สึกถึงการเพิ่มผลิตภาพได้ชัดเจน
    • ในขั้นตอนที่ 1 บอกว่าเปลี่ยนภาพให้เป็นสไตล์ matte render mesh เลยสงสัยว่าหมายถึงภาพแบบไหน เข้าใจได้ถ้าจะทำให้พื้นผิวโปร่งใสกลายเป็นทึบ แต่ก็อยากขอตัวอย่างภาพทั้งภาพหรือพรอมป์ต์ที่ใช้ในกระบวนการนั้นด้วย
    • GPT-5 เป็นโมเดลข้อความล้วน ChatGPT ยังใช้ 4o สำหรับการประมวลผลภาพ
  • ใช้ Blender มาเกิน 7 ปีแล้ว และใน Blender Stack Exchange ก็เคยตอบไปมากกว่า 1000 คำตอบ ได้คะแนนราว 48,000 จากมุมมองของฉัน เครื่องมือ Blender ที่ใช้ AI นี้อาจพอใช้เรียน Python โดยเฉพาะพื้นฐาน Blender Python API ได้ แต่ในทางปฏิบัติไม่ค่อยรู้สึกว่าจำเป็น งานตัวอย่างที่ยกมานั้นเป็นสิ่งที่ทำได้ง่ายมากใน Blender อยู่แล้ว และถ้าใช้เครื่องมือแบบนี้ก็จะได้เพียงผลลัพธ์จืด ๆ ที่ตรงตามพรอมป์ต์ การทำโมเดลพื้นฐานเป็นเรื่องที่เรียนจากทิวทอเรียลวันเดียวก็ทำเองได้ และโมเดลที่ทำเองก็มีความคิดสร้างสรรค์ของตัวเองสะท้อนอยู่มาก ผ่านไปประมาณสัปดาห์เดียวก็จะทำเองได้เร็วกว่าพรอมป์ต์ AI และฝีมือก็พัฒนาขึ้นเรื่อย ๆ การเรียนรู้จาก AI มีไม่มาก meshy.ai พอใช้ได้ตอนแปลงภาพถ่ายหรือเรนเดอร์เป็น mesh และใส่ texture ให้พอเหมาะ แต่หลังจากนั้นน่าจะเหมาะแค่กับคนที่ปั้น sculpt ไม่เก่ง โดยผลทดสอบ meshy.ai ของฉันสรุปไว้ที่นี่
    • ต่อให้ลองทำตามทิวทอเรียล Blender อยู่หลายวันก็ยังทำตามระดับตัวอย่างไม่ได้เลย ดูเหมือนคุณจะฉายความสามารถของตัวเองมากเกินไป สำหรับคนที่ไม่ใช่ศิลปิน 3D แต่แค่ต้องการโมเดล 3D เทคโนโลยีแบบนี้มีประโยชน์มากจริง ๆ
    • ฉันเองก็เป็นผู้ใช้ที่เล่น Houdini เป็นงานอดิเรก ถ้าจะทำโมเดลเดี่ยวแบบพารามิเตอร์ใช้เวลาไม่กี่วันก็ได้ แต่ถ้าจะทำวิดีโอสั้นหรือทั้งฉากเดียว ต้องใช้โมเดลหลายร้อยถึงหลายพันชิ้น พร้อม texture, rigging, animation หรือแม้แต่ simulation อีกมหาศาล แอนิเมชันยาว 2 นาทีสำหรับศิลปินเดี่ยวแทบเป็นไปไม่ได้ ส่วนใหญ่ต้องซื้อ asset pack มาประกอบกัน แต่ก็ทำให้งานศิลป์ของเราถูกผูกกับสไตล์นั้น เครื่องมือ AI แบบนี้ช่วยลดภาระได้แม้แค่หนึ่งหรือสองขั้นตอน และขยายขอบเขตงานที่ทำคนเดียวได้
    • ฉันเป็นทั้งนักพัฒนาเครื่องมือ AI สำหรับบริการลูกค้าและเป็นดีไซเนอร์ จึงต้องคอยอธิบายกับบริษัทอยู่เรื่อย ๆ ว่า LLM ยังขาดการนำบทสนทนาและความคิดสร้างสรรค์ น่าจะโฟกัสที่การผสาน AI เข้ากับเครื่องมือเพื่อเร่งงานซ้ำ ๆ มากกว่าฟีเจอร์เดี่ยว ๆ เช่น ความสามารถทำข้อกำหนด constraints อัตโนมัติด้วย AI ใน Fusion360 ที่ช่วยเพิ่มผลิตภาพจริง สำหรับ Blender เอง เครื่องมือแนวนี้ก็น่าสนใจกว่ามากเช่นกัน (เช่น การต่อ material อัตโนมัติ)
    • ถ้าเป็นผู้ใช้ที่ไม่อยากเสียเวลาหลายสัปดาห์เรียน Blender แค่ลงทุนไม่กี่ชั่วโมงแล้วได้ผลลัพธ์ที่ใช้งานได้ก็คือทางที่มีประสิทธิภาพที่สุด
    • ต้องจำไว้ว่าเครื่องมือนี้ในวันนี้คือช่วงที่มันแย่ที่สุดแล้ว จากนี้ไปมันจะดีขึ้นเรื่อย ๆ ดังนั้นการประยุกต์ใช้ LLM เพิ่งเริ่มต้นเท่านั้น
  • นี่คือทิศทางที่ฉันย้ำกับเพื่อนมานานแล้ว ต่อไปซอฟต์แวร์สร้างสรรค์แบบยึด API เป็นศูนย์กลางจะเป็นฝ่ายชนะ After Effects มี JS API ที่ใช้ได้ดี ส่วน Da Vinci Resolve ก็รองรับการทำ automation ด้วยสคริปต์หลากหลายอย่าง Python, Lua ฯลฯ และยังรองรับ transaction rollback ได้ดี ความจำเป็นของ MCP แบบทั่วไปสำหรับสภาพแวดล้อมสคริปต์ในเดสก์ท็อปแอปส่วนใหญ่กำลังเพิ่มขึ้น รวมถึงต้องมี screen capture ที่เชื่อมกับอินพุตแบบมัลติโหมดด้วย
  • ช่วงนี้ลองเขียนสคริปต์ Lua สำหรับสร้างตัวละครแบบ procedural ใน Aseprite (พิกเซลเอดิเตอร์) ร่วมกับ Claude มา สามารถทำผลลัพธ์ซ้ำได้ด้วยค่า seed และแม้จะได้รูปร่างแบบคนคร่าว ๆ แต่ในแง่คุณภาพยังอีกไกล ถึงอย่างนั้นก็เข้าถึงง่ายมากและสนุกดี
    • ถ้าหัวข้อนี้น่าสนใจ ลองดู pixellab.ai ได้เหมือนกัน พวกเขากำลังทำปลั๊กอิน Aseprite ที่สร้างภาพสไปรต์ได้ค่อนข้างดีจากพรอมป์ต์อย่างเดียว
    • ฉันเองก็กำลังหา AI สำหรับพิกเซลอาร์ตที่ดีอยู่ตลอด เครื่องมือส่วนใหญ่ที่ลองมาก็แค่ใช้ได้ แต่ยังไม่ประทับใจ ถ้าใครมีประสบการณ์ที่ดีอยากขอลิงก์แนะนำ
  • ก่อนจะดูถูกคุณภาพของโมเดล 3D ลองนึกถึง Dancing Baby สมัยก่อนกับแอนิเมชันยุคแรกของ Pixar ก่อน นี่ถือเป็นความก้าวหน้าที่น่าทึ่งมาก ฉันเฝ้ารอวันที่ใส่พรอมป์ต์ให้ LLM แล้วได้โมเดล 3D ที่เกือบเสร็จสมบูรณ์ออกมา จนฉันเหลือแค่ทำ texture, baking และ export
    • ฉันเองก็ตั้งตารอวันที่ข้อมูลการทดลองที่มนุษยชาติสะสมมาหลายล้านล้านชั่วโมงจะถูกสรุปเป็นโมเดลเชิงสถิติ แล้วบริษัทก็นำไปทำเงินโดยไม่จ่ายแม้แต่ 1 วอนให้กับคนที่ทำให้สิ่งนั้นเกิดขึ้นจริง
    • LLM คือโมเดลภาษา และข้อมูล mesh ไม่ใช่ภาษา ในทางทฤษฎีอาจสร้าง mesh ง่าย ๆ ด้วย Python ได้ แต่ไม่มีใครสร้างงาน 3D art ที่สวยงามจริง ๆ ด้วยวิธีนี้ เหมือนกับที่เราไม่ทำเวกเตอร์อาร์ตด้วยการเขียนโค้ด SVG ตรง ๆ ดังนั้น LLM เพียงอย่างเดียวสร้างงานศิลปะภาพได้ยาก LLM อาจใช้เป็นอินเทอร์เฟซให้โมเดลอื่นได้ แต่ตัวมันเองสร้างทุกอย่างไม่ได้
  • สิ่งที่น่าหนุนใจคือ spatial intelligence ของ LLM ช่วงหลังดีขึ้นมาก เมื่อ 1 ปีก่อน แค่ให้เขียนเรื่องที่มีแนวคิดตำแหน่งอย่างบนล่าง ซ้ายขวา หน้า หลัง ก็ยังสับสนและแยกไม่ออกเลย ฉันถาม GPT ว่าซอฟต์แวร์ CAD ตัวไหนเหมาะกับการทำสคริปต์ที่สุด ก็ได้คำตอบว่า Freecad Blender นั้นจัดเป็นเครื่องมือ modeler มากกว่า CAD เพราะขาดสิ่งอย่างการวัดที่แม่นยำ Freecad API ยังมีโครงสร้างที่เป็นระเบียบน้อยกว่า ทำให้ GPT จำฟังก์ชันที่เกี่ยวข้องหรือค้นหาได้ไม่ค่อยดี Blender มีผู้ใช้มากและมีโค้ดแชร์เยอะ จึงทำงานได้ดีกว่ามาก
    • อยากรู้ว่า OpenSCAD เป็นอย่างไรบ้าง
    • สงสัยว่าสามารถเขียนสคริปต์เพื่อทำงานวัดค่าใน CAD แบบอัตโนมัติได้หรือไม่
  • เคยพยายามใช้ Blender หลายครั้งแล้วก็ล้มเลิกไป ตอนนี้ใช้ Blender แค่ตอนทำแอนิเมชันไตเติลใน Openshot เท่านั้น วิธีที่ทำให้ใช้เครื่องมือระดับสูงได้ง่ายขึ้นเป็นสิ่งที่ยินดีต้อนรับเสมอ
  • คาดว่าเราจะได้เห็นโมเดลขนาดใหญ่แบบอิงโทเค็นสำหรับทุกสิ่ง เพราะข้อมูลทุกอย่างในโลกสามารถทำให้เป็นโทเค็นได้ ไม่จำเป็นต้องผ่านภาษาเสมอไป และ AI จะค่อย ๆ จัดการข้อมูลเชิงเรขาคณิตได้อย่างคล่องแคล่วขึ้น
    • ความไม่สบายใจกับข้อมูลที่ AI สร้างขึ้นส่วนใหญ่เกิดจากความจำกัดอยู่แค่ภาษา ด้วยเหตุนี้อินพุตที่สร้างสรรค์จริง ๆ จึงไม่ถูกสะท้อนออกมา
    • เหมือนที่ word2vec เคยสร้างนวัตกรรมครั้งใหญ่ โมเดล 3D เองก็สามารถถูกแทนในปริภูมิเวกเตอร์ได้ในระดับพื้นฐาน
  • ประเด็นสำคัญตรงนี้คือ agent workflow เมื่อความเข้าใจโลก 3D ของ LLM ดีขึ้นเรื่อย ๆ มันจะช่วยได้ในหลายสถานการณ์ ใช้ตรวจบั๊กโดยผู้เชี่ยวชาญ ให้คำแนะนำ หรือช่วยเหลือผ่านป๊อปอัปได้ และยังมีประโยชน์ในฐานะระบบที่ทำงานเบื้องหลังเพื่อตรวจหาปัญหาโดยไม่ต้องมีคนแทรกแซง ความสามารถในการควบคุมสิ่งนี้ด้วยโปรแกรมก็จะยิ่งมีคุณค่ามากขึ้น
  • ฉันไม่ใช่นักทำโมเดล แต่เคยลองอยู่หลายครั้งระหว่างพัฒนาเกม 3D คนเดียว สำหรับฉัน การทำโมเดลคือความทุกข์ที่เลี่ยงไม่ได้ ถ้ามีเครื่องมือแบบนี้ ฉันตั้งใจจะใช้มันสร้าง base model แบบ low-poly มาก ๆ สำหรับโปรเจกต์อินดี้ให้เร็ว แล้วค่อยใช้เป็นฐานไปเกลารายละเอียดด้วยมือเอง สำหรับฉัน การประหยัดเวลามีค่ามากกว่าคุณภาพระดับสูง