LegoGPT - สร้างดีไซน์ LEGO ที่ประกอบได้จริงจากข้อความโดยอัตโนมัติ

(avalovelace1.github.io)

7 คะแนน โดย GN⁺ 2025-05-10 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

LegoGPT เป็นโครงการนวัตกรรมที่สามารถ สร้างโครงสร้าง LEGO ที่มั่นคงและประกอบได้จริง จากการป้อนข้อความเพียงอย่างเดียว
มีการสร้างชุดข้อมูล StableText2Lego ที่ให้โครงสร้าง LEGO ที่มีเสถียรภาพทางกายภาพมากกว่า 47,000 แบบ พร้อมคำอธิบายอย่างละเอียด
อัลกอริทึม ใช้การตรวจสอบความถูกต้องอย่างรวดเร็วและการย้อนกลับบนพื้นฐานฟิสิกส์ เพื่อลบโครงสร้างที่ไม่สมจริงออกโดยอัตโนมัติ
ดีไซน์ LEGO ที่สร้างขึ้นสามารถประกอบจริงได้ทั้งโดย มนุษย์และหุ่นยนต์ และยังรองรับการแสดงสีสันและพื้นผิวที่หลากหลาย
ระบบนี้เปิดโอกาสใหม่ให้กับหลายสาขา เช่น การทำต้นแบบงานออกแบบเชิงสร้างสรรค์, การศึกษา และงานประยุกต์ด้านหุ่นยนต์

แนะนำโครงการ

LegoGPT เป็นแนวทางแรกที่สร้าง โครงสร้าง LEGO ที่ประกอบได้จริงและมีเสถียรภาพทางกายภาพ แบบอัตโนมัติเต็มรูปแบบ โดยอิงจากข้อความพรอมป์ต์ที่ผู้ใช้ป้อน
โครงการนี้สร้างขึ้นพร้อม ชุดข้อมูลโครงสร้าง LEGO ขนาดใหญ่ และคำอธิบายอย่างละเอียด ทำให้สามารถสร้างผลงานที่มีทั้ง ความมั่นคง ความหลากหลาย และความสวยงาม แม้ในกระบวนการประกอบจริง
มีการยืนยันเชิงทดลองแล้วว่าโครงสร้าง LEGO ที่สร้างขึ้นสามารถ ประกอบด้วยมือโดยมนุษย์ หรือประกอบอัตโนมัติด้วยแขนกลหุ่นยนต์ได้จริง

ชุดข้อมูล StableText2Lego

ชุดข้อมูล StableText2Lego สร้างจากการแปลงรูปทรงของ ShapeNetCore 3D mesh ให้เป็น voxel แล้วใช้วิธีการจัดวางบล็อกหลายแบบ โดย เลือกเฉพาะโครงสร้างที่ผ่านการตรวจสอบเสถียรภาพทางกายภาพ เท่านั้น
ในกระบวนการสร้างข้อมูล มีการ เรนเดอร์มุมมองของแต่ละโครงสร้างจาก 24 มุม และให้ GPT-4o สร้าง คำบรรยายที่ละเอียด โดยอัตโนมัติจากภาพเหล่านั้น
ชุดข้อมูลที่ได้ประกอบด้วย โครงสร้าง LEGO มากกว่า 47,000 แบบ และ อ็อบเจ็กต์ 3D ที่ไม่ซ้ำกันมากกว่า 28,000 ชิ้น ที่มี รูปทรง โครงสร้าง และพื้นผิว หลากหลาย

ไปป์ไลน์ของ LegoGPT

โครงสร้าง LEGO ถูกโทเคไนซ์เป็นลำดับโทเค็นข้อความแบบ จากล่างขึ้นบน และสแกนแบบแรสเตอร์ เพื่อใช้เป็นอินพุต
มีการจับคู่ลำดับบล็อกแต่ละชุดกับคำอธิบายภาษาธรรมชาติ แล้วนำไป fine-tune โมเดลที่อิงกับ LLaMA-3.2-Instruct-1B เพื่อเรียนรู้การแมประหว่าง คำอธิบายกับลำดับบล็อก
ในขั้นตอนอนุมาน LegoGPT จะค่อย ๆ สร้างโครงสร้าง LEGO จากข้อความพรอมป์ต์ด้วยวิธี ทำนายและเพิ่มบล็อกทีละชิ้น
ทุกครั้งที่มีการเพิ่มบล็อก จะมีการตรวจสอบความถูกต้องในด้าน รูปแบบ การมีอยู่ในคลังบล็อก และการชนกัน และหลังจากสร้างโครงสร้างเสร็จแล้วจะมีการ ตรวจสอบเสถียรภาพทางกายภาพซ้ำอีกครั้ง
หากโครงสร้างสุดท้ายไม่เสถียร ระบบจะ ลบบล็อกที่ไม่เสถียรและบล็อกทั้งหมดที่ถูกเพิ่มหลังจากนั้น แล้ว rollback กลับไปยังสถานะที่เสถียรเพื่อสร้างใหม่

ตัวอย่างการสร้างโครงสร้าง LEGO แบบเป็นขั้นตอน

"เรือทรงเพรียวที่มีลำตัวเรือยาวและแคบ"
"ชั้นหนังสือที่มีชั้นวางแนวนอน"
"ม้านั่งมีที่วางแขนแต่ไม่มีพนักพิง"
แต่ละตัวอย่างถูกสร้างขึ้นทีละขั้นจาก ข้อความพรอมป์ต์ ไปเป็น โครงสร้าง LEGO ที่สะท้อนลักษณะทางภาพได้อย่างชัดเจน

การประกอบอัตโนมัติด้วยหุ่นยนต์

โมเดล LEGO ที่สร้างขึ้นถูกนำไปใช้กับ การประกอบจริงด้วยแขนกลหุ่นยนต์ และมีการสาธิตใน วิดีโอแบบเร่งความเร็ว 8 เท่า
แสดงให้เห็นความเป็นไปได้ของ การประยุกต์ใช้กับการประกอบโดยหุ่นยนต์จริง สำหรับตัวอย่างอย่าง "เรือทรงเพรียวที่มีลำตัวเรือยาวและแคบ" และ "กีตาร์ 6 สายแบบไม่สมมาตร"

โมเดล LEGO ที่สร้างพื้นผิวและสีสันได้

ระบบสามารถสร้างดีไซน์ LEGO ที่ถ่ายทอด พื้นผิว วัสดุ และเอฟเฟกต์ความงามเฉพาะทาง ได้จากพรอมป์ต์ภาษาธรรมชาติ เช่น "ม้านั่งที่มีตะไคร่น้ำเกาะ", "วัสดุไซเบอร์พังก์นีออนไล่เฉด", "ชั้นวางหนังสือในห้องทำงานสไตล์วิกตอเรียน"
ยังสามารถสร้างแบบ LEGO จากข้อความเพียงอย่างเดียวให้สะท้อน สีสันหลากหลายและเอฟเฟกต์โลหะ ได้ เช่น "Sunburst Les Paul with amber finish"

การอ้างอิงและการสนับสนุนงานวิจัย

มีการระบุข้อมูลของงานวิจัย ผู้เขียน และหน่วยงานที่สนับสนุนงานวิจัยนี้ไว้ เช่น Packard Foundation และ Amazon Faculty Award
โครงการนี้ดำเนินการภายใต้การสนับสนุนทั้งด้านวิชาการและอุตสาหกรรมหลายรูปแบบ เช่น Microsoft Research PhD Fellowship ของหนึ่งในนักวิจัยหลัก

อ้างอิงโครงการและเทมเพลต

เทมเพลตของเว็บไซต์นี้อ้างอิงเลย์เอาต์จากโครงการ Custom Diffusion และ DreamFusion

1 ความคิดเห็น

GN⁺ 2025-05-10

ความเห็นบน Hacker News

เราใช้การตรวจสอบความถูกต้องที่มีประสิทธิภาพและการย้อนกลับตามหลักฟิสิกส์เพื่อเพิ่มความเสถียรของผลลัพธ์ โดยตัดทอนการคาดการณ์โทเคนที่เป็นไปไม่ได้ตามกฎฟิสิกส์และข้อจำกัดในการประกอบ หนึ่งในจุดที่น่าสนใจที่สุดของการใช้ AI คือวิธีที่มันสร้างและเพิ่มประสิทธิภาพความเป็นไปได้ภายในข้อจำกัดเฉพาะโดเมนที่มนุษย์ตั้งโปรแกรมไว้ด้วยมือ ตัวอย่างเช่น AI สำหรับสัญญาณไฟจราจรจำเป็นต้องมีข้อจำกัดแบบฮาร์ดเพื่อป้องกันการชน ภายในข้อจำกัดเหล่านี้ AI สามารถลองไอเดียการเพิ่มประสิทธิภาพได้อย่างอิสระ สุดท้ายแล้ว แก่นสำคัญอยู่ที่การออกแบบ problem space และเงื่อนไขข้อจำกัด ซึ่งในกรณีนี้คือชิ้นส่วนเลโก้ การจัดวางร่วมกันของมัน และความมั่นคงของโครงสร้าง
- แนวทางแบบนี้เป็นตัวอย่างคลาสสิกของ metaheuristics ที่มีต่อเนื่องมาหลายสิบปีแล้ว มีอัลกอริทึมหลากหลายแบบ และมีหนังสือแนะนำเบื้องต้นให้อ่านด้วย https://cs.gmu.edu/~sean/book/metaheuristics/
- ทุกวันนี้แม้แต่ใน LLM ก็มีเวอร์ชันง่าย ๆ ที่เริ่มแสดงศักยภาพแล้ว ใช้โหมด JSON Schema เพื่อกันสถานะที่ผิดกฎหมายตั้งแต่ต้น และปล่อยให้โมเดลทำงานอยู่ในพื้นที่จำกัด อย่างน้อยก็รับประกันได้ว่าจะให้ผลลัพธ์ที่ valid เท่านั้น เป็นแนวคิดคล้าย type safety ส่วนตรรกะการตรวจสอบและการแก้ไขก็นำไปใช้กับสถานการณ์ตรวจสอบอื่น ๆ ได้อีกมาก หวังว่าจะเห็นการใช้งานแบบนี้เพิ่มขึ้น
- ปัญหาแบบนี้ดูเหมือนเหมาะกับโมเดลที่อิง MILP หรือ CLP โดยข้อจำกัดจะนิยามพื้นที่ค้นหา และอัลกอริทึมตัวแก้จะสำรวจพื้นที่นี้
- น่าจะเป็นเรื่องที่น่าสนใจสำหรับ reinforcement learning ด้วย ถ้าให้ระบบได้รับรางวัลติดลบ มันก็อาจเริ่มปฏิบัติตามกฎความปลอดภัยได้ แต่ในระบบใช้งานจริงก็ยังต้องมีมาตรการป้องกันความปลอดภัยคงไว้เสมอ https://en.wikipedia.org/wiki/Reinforcement_learning
- ยังไม่ได้อ่านว่าพวกเขาใช้ข้อจำกัดอย่างไร แต่ก็เป็นสิ่งที่ใช้เวลาบังคับให้ LLM สร้างเอาต์พุตแบบมีโครงสร้างอย่าง JSON เช่นกัน ใน llama.cpp ก็รองรับการจับคู่กับไวยากรณ์แบบกำหนดเองด้วย
- เห็นด้วยเต็มที่กับความเห็นนี้ เมื่อจำกัดผลลัพธ์ที่สร้างด้วยฟิสิกส์ ความถูกต้องตามกฎ และข้อจำกัดของเครื่องมือ โมเดลจะใกล้เคียงกับเครื่องยนต์สำรวจและตรวจสอบมากกว่าจะเป็นแค่ตัวทำนายคำธรรมดา มันใกล้กับ program synthesis มากกว่า คุณค่าที่แท้จริงอยู่ที่การนิยาม problem space อย่างละเอียด เพื่อขังโมเดลให้อยู่ใน "กล่อง" ที่มันสามารถสร้างได้เฉพาะผลลัพธ์ที่มีประโยชน์จริง ๆ
- เรื่องนี้ลองเล่นสนุก ๆ ได้: สั่ง LLM ว่า "ช่วยพูดคำว่า APPLE" แต่ตั้งค่า logit ของโทเคนที่เกี่ยวกับ Apple เป็น -อนันต์เพื่อไม่ให้ใช้คำนั้น ผลลัพธ์ที่ได้จะออกมาประมาณว่า "Banana. ล้อเล่นนะ Banana. โอ๊ะ พูดเพราะมันอร่อยไปหน่อย ขอใหม่: Orange. อ้าว คราวนี้เป็น grape ไม่สิ ผักกรอบ ๆ นั่น carrot"
- ฉันเองก็คิดว่านี่คือพื้นที่ที่ AI ฉายแสงได้จริง มนุษย์เป็นคนกำหนดกฎต่าง ๆ เช่นกฎฟิสิกส์หรือความปลอดภัยทางจราจร แล้ว AI ก็ไปค้นหาคำตอบที่ดีที่สุดในพื้นที่ค้นหาขนาดมหาศาล
- ฉันคิดว่าฟีดแบ็กจากข้อผิดพลาดนี่แหละคือกุญแจที่จะเปิดความเป็นไปได้จริง ๆ เช่น ถ้าให้บอต text-to-SQL เห็นฟีดแบ็กข้อผิดพลาดจาก SQL provider มันจะสร้างคิวรีที่ดีขึ้นมาก
- ในเคมีเชิงผสมก็มีแนวคิดคล้ายกัน จะเรียกว่า AI Chemistry ก็คงได้ https://en.wikipedia.org/wiki/Combinatorial_chemistry
โปรเจ็กต์นี้มีโอกาสสูงที่จะได้รับจดหมายเตือนจากทนายของ LEGO ถ้าอยากปลอดภัยควรเลี่ยงใช้คำว่า LEGO แล้วใช้คำว่า Bricks หรือ Klemmbausteine (ภาษาเยอรมัน) แทน หลายคนเคยมีปัญหากับทีมกฎหมายของ LEGO และมันชวนปวดหัวมาก
- พวกเขาใช้ LEGO brick จริง ๆ จึงไม่ได้ทำให้คนเข้าใจผิดนัก แต่ที่ยังคลุมเครือคือไม่ได้ระบุให้ชัดว่าไม่เกี่ยวข้องกับ LEGO อีกด้านหนึ่ง พวกเขาก็ดูไม่ได้มุ่งหารายได้ ดังนั้นข้ออ้างว่า LEGO ได้รับความเสียหายน่าจะอ่อนมาก ทำให้ความเสี่ยงต่ำ
- แม้แต่ยูทูบเบอร์หรือเว็บงานอดิเรกเล็ก ๆ ก็ยังได้รับคำสั่งลบอยู่เรื่อย ๆ เพียงเพราะบริบทของการใช้คำนี้
- ขณะเดียวกัน Amazon ก็ขาย Boy and Tiger Adventure Blocks Set ที่ลอกทั้ง LEGO และ Calvin & Hobbes แบบหน้าตาเฉย https://amazon.com/Adventure-Rotatable-Compatible-Characters-Stocking/…
- นี่เป็นงานวิจัยเชิงวิชาการ ดังนั้นน่าจะเข้าข่าย fair use
- ฉันก็คิดเหมือนกัน! เดี๋ยวคงมีปัญหาแน่
- ทำไมผู้คนถึงทำตัวแบบ Nintendo แทนที่จะเปิดรับชุมชนแบบ Sega กันนะ
ผลลัพธ์นี้ไม่น่าประทับใจเท่าไร ใช้ชิ้นส่วนไม่กี่แบบเกินไป และสิ่งที่ออกมาก็ดูห่างจากรูปร่างที่ตั้งใจไว้ รู้สึกว่าอัลกอริทึมที่เขียนด้วยมืออาจให้ผลดีกว่า
- จุดที่เจ๋งของงานวิจัยนี้ไม่ได้อยู่ที่ความสมจริงของภาพ แต่อยู่ที่การผสานความเข้าใจภาษาเข้ากับความสามารถในการประกอบได้จริงทางกายภาพ
- มีแค่พื้นผิวปลอม ๆ ที่ทำให้มันดูพอใช้ได้ ถ้าใช้แค่ก้อนสีธรรมดาก็คงดูเป็นเพียงก้อนทึบ
- ถ้าคิดว่าเป็นโมเดล 1B ที่ผ่านการ fine-tune มาแล้ว ก็ถือว่าน่าสนใจมาก
- สิ่งที่จำเป็นจริง ๆ คือ AI ที่ให้ฉันถ่ายรูปกองชิ้นส่วนของตัวเอง แล้วมันสร้างคู่มือประกอบจากชิ้นที่ฉันมีได้เลย ตอนนี้ก็เป็นไปได้ทางเทคนิคแล้ว แต่คงต้องฝึกโมเดลเฉพาะทางแยกต่างหาก
บน iPhone ถ้าเลื่อนไปถึงตำแหน่งของ GIF มันจะเล่นอัตโนมัติทันที ทำให้การนำทางบนเว็บไซต์ใช้งานยากมาก
- ไม่รู้ว่าเมื่อไรทุกคนจะเรียนรู้เสียทีว่าไม่ควรทำ autoplay เด็ดขาด
- ตรงกันข้ามเลย บน Firefox เดสก์ท็อป ฉันไม่รู้ด้วยซ้ำว่ามี GIF แสดงอยู่ เลยไม่เข้าใจว่าภาพนั้นต้องการสื่ออะไร
- ปัญหานี้แก้ได้ด้วยการใส่แอตทริบิวต์ playsinline ให้กับแท็ก video https://developer.mozilla.org/en-US/docs/… น่าเสียดายที่ค่าเริ่มต้นของ iOS เป็นแบบนี้
ฉันไม่อยากทำให้การประกอบ LEGO เป็นอัตโนมัติ เพราะความสนุกอยู่ที่การได้ต่อเอง! สิ่งที่ควรทำให้เป็นอัตโนมัติคือขั้นตอนหลังประกอบมากกว่า เช่น การเก็บ การแยกตามสีและรูปทรง และการจัดเก็บให้เรียบร้อย อยากให้นักวิทยาศาสตร์เริ่มแก้ปัญหาที่โลกต้องการจริง ๆ ก่อน เพราะตรงนั้นมีทั้งคุณค่าและเงินอยู่จริง
- มีบทความและลิงก์เกี่ยวกับกรณีคัดแยก Lego จำนวน 2 ตัน และเครื่องแรกที่ใช้ AI คัดแยกเลโก้อัตโนมัติ https://jacquesmattheij.com/sorting-two-metric-tons-of-lego/, https://brothers-brick.com/2019/12/…
- ความยากของการแก้ปัญหาโลกจริงคือวัฒนธรรมในวงการวิชาการที่ให้ความสำคัญกับการตีพิมพ์บทความเหนือสิ่งอื่นใด
- นวัตกรรมที่แท้จริงไม่ใช่การทำให้ส่วนที่สนุกเป็นอัตโนมัติ แต่คือการทำให้ส่วนที่น่าเบื่อหายไป
- ฉันก็เข้ามาเพื่อจะพูดแบบนี้เหมือนกัน ปัญหาที่แท้จริงของเลโก้คือการเก็บกวาดและจัดระเบียบ
โปรเจ็กต์นี้เจ๋งมาก! การแสดงขั้นตอนประกอบเป็น GIF ดูเพลินจนหยุดไม่ได้ สำหรับคนที่กำลังหาข้อมูลชุดข้อมูล ขอนำมาแบ่งปัน https://huggingface.co/datasets/AvaLovelace/StableText2Lego ที่นี่มีโครงสร้าง LEGO มากกว่า 47,000 แบบ และครอบคลุมวัตถุ 3D ที่แตกต่างกันมากกว่า 28,000 ชิ้นใน 21 หมวดหมู่ของ ShapeNetCore ส่วนวิธีรัน inference แบบโลคัลดูได้ใน GitHub https://github.com/AvaLovelace1/LegoGPT/?tab=readme-ov-file
ถ้าดู "a basic sofa" จะเห็นว่าถ้าประกอบตามลำดับในแอนิเมชัน จะมีชิ้นส่วนลอยอยู่กลางอากาศ นี่เป็นเบาะแสที่แสดงข้อจำกัดของวิธีที่โมเดลสร้างดีไซน์ ฉันคิดว่าถ้าจะใช้หุ่นยนต์มาประกอบแบบอัตโนมัติตามแบบที่สร้างขึ้น ดีไซน์นี้จะมีปัญหาใหญ่
- ฉันก็มาจะทักเรื่องนี้เหมือนกัน รูปร่างสุดท้ายโอเค แต่ลำดับการประกอบในแอนิเมชันมีปัญหาเยอะ ต้องทำพื้นสองชั้นก่อน เพื่อให้ชั้นบนช่วยยึดชิ้นส่วนของชั้นล่าง จากนั้นค่อยติดขาได้
มันตลกดีที่ได้เห็นหุ่นยนต์ราคา $50,000 มาประกอบเลโก้ราคาไม่กี่ดอลลาร์ เหมือนกำลังดูบ้านพักคนชราสำหรับหุ่นยนต์เลย
- อีก 10 ปี อาจได้เห็นหุ่นยนต์ประกอบที่เร็วกว่ามนุษย์มากก็ได้
- นี่แหละเหตุผลที่ในเอเชียหลายแห่งยังประกอบด้วยมือเป็นเรื่องปกติ
- หลายคนบอกว่าเลโก้แพง แต่ถ้าคุณลองซื้อหุ่นยนต์มาประกอบเลโก้ดู จะรู้เลยว่าจริง ๆ แล้วอะไรแพงกว่ากัน
มันดูเหมือนไม่ได้มีความหมายไปกว่าการแปลงโมเดล 3D เป็น voxel แล้วแปลงต่อเป็นก้อนอิฐธรรมดา ถ้าอยากได้ผลลัพธ์ที่ดีจริง ต้องใช้ชิ้นส่วนหลากหลายอย่างสร้างสรรค์ ไม่ใช่แค่ 2x2 หรือ 2x4 ฉันสงสัยว่าอัลกอริทึมแบบไหนถึงจะเหมาะที่สุดสำหรับการสร้าง MOC (งานประกอบสร้างสรรค์) ที่สวยงามโดยอัตโนมัติ กำลังคิดว่าจะจัด kaggle แข่งขันชิงเงิน $5 หมื่นดีไหม อยากฟังความเห็น

LegoGPT - สร้างดีไซน์ LEGO ที่ประกอบได้จริงจากข้อความโดยอัตโนมัติ

แนะนำโครงการ

ชุดข้อมูล StableText2Lego

ไปป์ไลน์ของ LegoGPT

ตัวอย่างการสร้างโครงสร้าง LEGO แบบเป็นขั้นตอน

การประกอบอัตโนมัติด้วยหุ่นยนต์

โมเดล LEGO ที่สร้างพื้นผิวและสีสันได้

การอ้างอิงและการสนับสนุนงานวิจัย

อ้างอิงโครงการและเทมเพลต

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นบน Hacker News