7 คะแนน โดย GN⁺ 2025-05-10 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • LegoGPT เป็นโครงการนวัตกรรมที่สามารถ สร้างโครงสร้าง LEGO ที่มั่นคงและประกอบได้จริง จากการป้อนข้อความเพียงอย่างเดียว
  • มีการสร้างชุดข้อมูล StableText2Lego ที่ให้โครงสร้าง LEGO ที่มีเสถียรภาพทางกายภาพมากกว่า 47,000 แบบ พร้อมคำอธิบายอย่างละเอียด
  • อัลกอริทึม ใช้การตรวจสอบความถูกต้องอย่างรวดเร็วและการย้อนกลับบนพื้นฐานฟิสิกส์ เพื่อลบโครงสร้างที่ไม่สมจริงออกโดยอัตโนมัติ
  • ดีไซน์ LEGO ที่สร้างขึ้นสามารถประกอบจริงได้ทั้งโดย มนุษย์และหุ่นยนต์ และยังรองรับการแสดงสีสันและพื้นผิวที่หลากหลาย
  • ระบบนี้เปิดโอกาสใหม่ให้กับหลายสาขา เช่น การทำต้นแบบงานออกแบบเชิงสร้างสรรค์, การศึกษา และงานประยุกต์ด้านหุ่นยนต์

แนะนำโครงการ

  • LegoGPT เป็นแนวทางแรกที่สร้าง โครงสร้าง LEGO ที่ประกอบได้จริงและมีเสถียรภาพทางกายภาพ แบบอัตโนมัติเต็มรูปแบบ โดยอิงจากข้อความพรอมป์ต์ที่ผู้ใช้ป้อน
  • โครงการนี้สร้างขึ้นพร้อม ชุดข้อมูลโครงสร้าง LEGO ขนาดใหญ่ และคำอธิบายอย่างละเอียด ทำให้สามารถสร้างผลงานที่มีทั้ง ความมั่นคง ความหลากหลาย และความสวยงาม แม้ในกระบวนการประกอบจริง
  • มีการยืนยันเชิงทดลองแล้วว่าโครงสร้าง LEGO ที่สร้างขึ้นสามารถ ประกอบด้วยมือโดยมนุษย์ หรือประกอบอัตโนมัติด้วยแขนกลหุ่นยนต์ได้จริง

ชุดข้อมูล StableText2Lego

  • ชุดข้อมูล StableText2Lego สร้างจากการแปลงรูปทรงของ ShapeNetCore 3D mesh ให้เป็น voxel แล้วใช้วิธีการจัดวางบล็อกหลายแบบ โดย เลือกเฉพาะโครงสร้างที่ผ่านการตรวจสอบเสถียรภาพทางกายภาพ เท่านั้น
  • ในกระบวนการสร้างข้อมูล มีการ เรนเดอร์มุมมองของแต่ละโครงสร้างจาก 24 มุม และให้ GPT-4o สร้าง คำบรรยายที่ละเอียด โดยอัตโนมัติจากภาพเหล่านั้น
  • ชุดข้อมูลที่ได้ประกอบด้วย โครงสร้าง LEGO มากกว่า 47,000 แบบ และ อ็อบเจ็กต์ 3D ที่ไม่ซ้ำกันมากกว่า 28,000 ชิ้น ที่มี รูปทรง โครงสร้าง และพื้นผิว หลากหลาย

ไปป์ไลน์ของ LegoGPT

  • โครงสร้าง LEGO ถูกโทเคไนซ์เป็นลำดับโทเค็นข้อความแบบ จากล่างขึ้นบน และสแกนแบบแรสเตอร์ เพื่อใช้เป็นอินพุต
  • มีการจับคู่ลำดับบล็อกแต่ละชุดกับคำอธิบายภาษาธรรมชาติ แล้วนำไป fine-tune โมเดลที่อิงกับ LLaMA-3.2-Instruct-1B เพื่อเรียนรู้การแมประหว่าง คำอธิบายกับลำดับบล็อก
  • ในขั้นตอนอนุมาน LegoGPT จะค่อย ๆ สร้างโครงสร้าง LEGO จากข้อความพรอมป์ต์ด้วยวิธี ทำนายและเพิ่มบล็อกทีละชิ้น
  • ทุกครั้งที่มีการเพิ่มบล็อก จะมีการตรวจสอบความถูกต้องในด้าน รูปแบบ การมีอยู่ในคลังบล็อก และการชนกัน และหลังจากสร้างโครงสร้างเสร็จแล้วจะมีการ ตรวจสอบเสถียรภาพทางกายภาพซ้ำอีกครั้ง
  • หากโครงสร้างสุดท้ายไม่เสถียร ระบบจะ ลบบล็อกที่ไม่เสถียรและบล็อกทั้งหมดที่ถูกเพิ่มหลังจากนั้น แล้ว rollback กลับไปยังสถานะที่เสถียรเพื่อสร้างใหม่

ตัวอย่างการสร้างโครงสร้าง LEGO แบบเป็นขั้นตอน

  • "เรือทรงเพรียวที่มีลำตัวเรือยาวและแคบ"
  • "ชั้นหนังสือที่มีชั้นวางแนวนอน"
  • "ม้านั่งมีที่วางแขนแต่ไม่มีพนักพิง"
  • แต่ละตัวอย่างถูกสร้างขึ้นทีละขั้นจาก ข้อความพรอมป์ต์ ไปเป็น โครงสร้าง LEGO ที่สะท้อนลักษณะทางภาพได้อย่างชัดเจน

การประกอบอัตโนมัติด้วยหุ่นยนต์

  • โมเดล LEGO ที่สร้างขึ้นถูกนำไปใช้กับ การประกอบจริงด้วยแขนกลหุ่นยนต์ และมีการสาธิตใน วิดีโอแบบเร่งความเร็ว 8 เท่า
  • แสดงให้เห็นความเป็นไปได้ของ การประยุกต์ใช้กับการประกอบโดยหุ่นยนต์จริง สำหรับตัวอย่างอย่าง "เรือทรงเพรียวที่มีลำตัวเรือยาวและแคบ" และ "กีตาร์ 6 สายแบบไม่สมมาตร"

โมเดล LEGO ที่สร้างพื้นผิวและสีสันได้

  • ระบบสามารถสร้างดีไซน์ LEGO ที่ถ่ายทอด พื้นผิว วัสดุ และเอฟเฟกต์ความงามเฉพาะทาง ได้จากพรอมป์ต์ภาษาธรรมชาติ เช่น "ม้านั่งที่มีตะไคร่น้ำเกาะ", "วัสดุไซเบอร์พังก์นีออนไล่เฉด", "ชั้นวางหนังสือในห้องทำงานสไตล์วิกตอเรียน"
  • ยังสามารถสร้างแบบ LEGO จากข้อความเพียงอย่างเดียวให้สะท้อน สีสันหลากหลายและเอฟเฟกต์โลหะ ได้ เช่น "Sunburst Les Paul with amber finish"

การอ้างอิงและการสนับสนุนงานวิจัย

  • มีการระบุข้อมูลของงานวิจัย ผู้เขียน และหน่วยงานที่สนับสนุนงานวิจัยนี้ไว้ เช่น Packard Foundation และ Amazon Faculty Award
  • โครงการนี้ดำเนินการภายใต้การสนับสนุนทั้งด้านวิชาการและอุตสาหกรรมหลายรูปแบบ เช่น Microsoft Research PhD Fellowship ของหนึ่งในนักวิจัยหลัก

อ้างอิงโครงการและเทมเพลต

  • เทมเพลตของเว็บไซต์นี้อ้างอิงเลย์เอาต์จากโครงการ Custom Diffusion และ DreamFusion

1 ความคิดเห็น

 
GN⁺ 2025-05-10
ความเห็นบน Hacker News
  • เราใช้การตรวจสอบความถูกต้องที่มีประสิทธิภาพและการย้อนกลับตามหลักฟิสิกส์เพื่อเพิ่มความเสถียรของผลลัพธ์ โดยตัดทอนการคาดการณ์โทเคนที่เป็นไปไม่ได้ตามกฎฟิสิกส์และข้อจำกัดในการประกอบ หนึ่งในจุดที่น่าสนใจที่สุดของการใช้ AI คือวิธีที่มันสร้างและเพิ่มประสิทธิภาพความเป็นไปได้ภายในข้อจำกัดเฉพาะโดเมนที่มนุษย์ตั้งโปรแกรมไว้ด้วยมือ ตัวอย่างเช่น AI สำหรับสัญญาณไฟจราจรจำเป็นต้องมีข้อจำกัดแบบฮาร์ดเพื่อป้องกันการชน ภายในข้อจำกัดเหล่านี้ AI สามารถลองไอเดียการเพิ่มประสิทธิภาพได้อย่างอิสระ สุดท้ายแล้ว แก่นสำคัญอยู่ที่การออกแบบ problem space และเงื่อนไขข้อจำกัด ซึ่งในกรณีนี้คือชิ้นส่วนเลโก้ การจัดวางร่วมกันของมัน และความมั่นคงของโครงสร้าง
    • แนวทางแบบนี้เป็นตัวอย่างคลาสสิกของ metaheuristics ที่มีต่อเนื่องมาหลายสิบปีแล้ว มีอัลกอริทึมหลากหลายแบบ และมีหนังสือแนะนำเบื้องต้นให้อ่านด้วย https://cs.gmu.edu/~sean/book/metaheuristics/
    • ทุกวันนี้แม้แต่ใน LLM ก็มีเวอร์ชันง่าย ๆ ที่เริ่มแสดงศักยภาพแล้ว ใช้โหมด JSON Schema เพื่อกันสถานะที่ผิดกฎหมายตั้งแต่ต้น และปล่อยให้โมเดลทำงานอยู่ในพื้นที่จำกัด อย่างน้อยก็รับประกันได้ว่าจะให้ผลลัพธ์ที่ valid เท่านั้น เป็นแนวคิดคล้าย type safety ส่วนตรรกะการตรวจสอบและการแก้ไขก็นำไปใช้กับสถานการณ์ตรวจสอบอื่น ๆ ได้อีกมาก หวังว่าจะเห็นการใช้งานแบบนี้เพิ่มขึ้น
    • ปัญหาแบบนี้ดูเหมือนเหมาะกับโมเดลที่อิง MILP หรือ CLP โดยข้อจำกัดจะนิยามพื้นที่ค้นหา และอัลกอริทึมตัวแก้จะสำรวจพื้นที่นี้
    • น่าจะเป็นเรื่องที่น่าสนใจสำหรับ reinforcement learning ด้วย ถ้าให้ระบบได้รับรางวัลติดลบ มันก็อาจเริ่มปฏิบัติตามกฎความปลอดภัยได้ แต่ในระบบใช้งานจริงก็ยังต้องมีมาตรการป้องกันความปลอดภัยคงไว้เสมอ https://en.wikipedia.org/wiki/Reinforcement_learning
    • ยังไม่ได้อ่านว่าพวกเขาใช้ข้อจำกัดอย่างไร แต่ก็เป็นสิ่งที่ใช้เวลาบังคับให้ LLM สร้างเอาต์พุตแบบมีโครงสร้างอย่าง JSON เช่นกัน ใน llama.cpp ก็รองรับการจับคู่กับไวยากรณ์แบบกำหนดเองด้วย
    • เห็นด้วยเต็มที่กับความเห็นนี้ เมื่อจำกัดผลลัพธ์ที่สร้างด้วยฟิสิกส์ ความถูกต้องตามกฎ และข้อจำกัดของเครื่องมือ โมเดลจะใกล้เคียงกับเครื่องยนต์สำรวจและตรวจสอบมากกว่าจะเป็นแค่ตัวทำนายคำธรรมดา มันใกล้กับ program synthesis มากกว่า คุณค่าที่แท้จริงอยู่ที่การนิยาม problem space อย่างละเอียด เพื่อขังโมเดลให้อยู่ใน "กล่อง" ที่มันสามารถสร้างได้เฉพาะผลลัพธ์ที่มีประโยชน์จริง ๆ
    • เรื่องนี้ลองเล่นสนุก ๆ ได้: สั่ง LLM ว่า "ช่วยพูดคำว่า APPLE" แต่ตั้งค่า logit ของโทเคนที่เกี่ยวกับ Apple เป็น -อนันต์เพื่อไม่ให้ใช้คำนั้น ผลลัพธ์ที่ได้จะออกมาประมาณว่า "Banana. ล้อเล่นนะ Banana. โอ๊ะ พูดเพราะมันอร่อยไปหน่อย ขอใหม่: Orange. อ้าว คราวนี้เป็น grape ไม่สิ ผักกรอบ ๆ นั่น carrot"
    • ฉันเองก็คิดว่านี่คือพื้นที่ที่ AI ฉายแสงได้จริง มนุษย์เป็นคนกำหนดกฎต่าง ๆ เช่นกฎฟิสิกส์หรือความปลอดภัยทางจราจร แล้ว AI ก็ไปค้นหาคำตอบที่ดีที่สุดในพื้นที่ค้นหาขนาดมหาศาล
    • ฉันคิดว่าฟีดแบ็กจากข้อผิดพลาดนี่แหละคือกุญแจที่จะเปิดความเป็นไปได้จริง ๆ เช่น ถ้าให้บอต text-to-SQL เห็นฟีดแบ็กข้อผิดพลาดจาก SQL provider มันจะสร้างคิวรีที่ดีขึ้นมาก
    • ในเคมีเชิงผสมก็มีแนวคิดคล้ายกัน จะเรียกว่า AI Chemistry ก็คงได้ https://en.wikipedia.org/wiki/Combinatorial_chemistry
  • โปรเจ็กต์นี้มีโอกาสสูงที่จะได้รับจดหมายเตือนจากทนายของ LEGO ถ้าอยากปลอดภัยควรเลี่ยงใช้คำว่า LEGO แล้วใช้คำว่า Bricks หรือ Klemmbausteine (ภาษาเยอรมัน) แทน หลายคนเคยมีปัญหากับทีมกฎหมายของ LEGO และมันชวนปวดหัวมาก
    • พวกเขาใช้ LEGO brick จริง ๆ จึงไม่ได้ทำให้คนเข้าใจผิดนัก แต่ที่ยังคลุมเครือคือไม่ได้ระบุให้ชัดว่าไม่เกี่ยวข้องกับ LEGO อีกด้านหนึ่ง พวกเขาก็ดูไม่ได้มุ่งหารายได้ ดังนั้นข้ออ้างว่า LEGO ได้รับความเสียหายน่าจะอ่อนมาก ทำให้ความเสี่ยงต่ำ
    • แม้แต่ยูทูบเบอร์หรือเว็บงานอดิเรกเล็ก ๆ ก็ยังได้รับคำสั่งลบอยู่เรื่อย ๆ เพียงเพราะบริบทของการใช้คำนี้
    • ขณะเดียวกัน Amazon ก็ขาย Boy and Tiger Adventure Blocks Set ที่ลอกทั้ง LEGO และ Calvin & Hobbes แบบหน้าตาเฉย https://amazon.com/Adventure-Rotatable-Compatible-Characters-Stocking/…
    • นี่เป็นงานวิจัยเชิงวิชาการ ดังนั้นน่าจะเข้าข่าย fair use
    • ฉันก็คิดเหมือนกัน! เดี๋ยวคงมีปัญหาแน่
    • ทำไมผู้คนถึงทำตัวแบบ Nintendo แทนที่จะเปิดรับชุมชนแบบ Sega กันนะ
  • ผลลัพธ์นี้ไม่น่าประทับใจเท่าไร ใช้ชิ้นส่วนไม่กี่แบบเกินไป และสิ่งที่ออกมาก็ดูห่างจากรูปร่างที่ตั้งใจไว้ รู้สึกว่าอัลกอริทึมที่เขียนด้วยมืออาจให้ผลดีกว่า
    • จุดที่เจ๋งของงานวิจัยนี้ไม่ได้อยู่ที่ความสมจริงของภาพ แต่อยู่ที่การผสานความเข้าใจภาษาเข้ากับความสามารถในการประกอบได้จริงทางกายภาพ
    • มีแค่พื้นผิวปลอม ๆ ที่ทำให้มันดูพอใช้ได้ ถ้าใช้แค่ก้อนสีธรรมดาก็คงดูเป็นเพียงก้อนทึบ
    • ถ้าคิดว่าเป็นโมเดล 1B ที่ผ่านการ fine-tune มาแล้ว ก็ถือว่าน่าสนใจมาก
    • สิ่งที่จำเป็นจริง ๆ คือ AI ที่ให้ฉันถ่ายรูปกองชิ้นส่วนของตัวเอง แล้วมันสร้างคู่มือประกอบจากชิ้นที่ฉันมีได้เลย ตอนนี้ก็เป็นไปได้ทางเทคนิคแล้ว แต่คงต้องฝึกโมเดลเฉพาะทางแยกต่างหาก
  • บน iPhone ถ้าเลื่อนไปถึงตำแหน่งของ GIF มันจะเล่นอัตโนมัติทันที ทำให้การนำทางบนเว็บไซต์ใช้งานยากมาก
    • ไม่รู้ว่าเมื่อไรทุกคนจะเรียนรู้เสียทีว่าไม่ควรทำ autoplay เด็ดขาด
    • ตรงกันข้ามเลย บน Firefox เดสก์ท็อป ฉันไม่รู้ด้วยซ้ำว่ามี GIF แสดงอยู่ เลยไม่เข้าใจว่าภาพนั้นต้องการสื่ออะไร
    • ปัญหานี้แก้ได้ด้วยการใส่แอตทริบิวต์ playsinline ให้กับแท็ก video https://developer.mozilla.org/en-US/docs/… น่าเสียดายที่ค่าเริ่มต้นของ iOS เป็นแบบนี้
  • ฉันไม่อยากทำให้การประกอบ LEGO เป็นอัตโนมัติ เพราะความสนุกอยู่ที่การได้ต่อเอง! สิ่งที่ควรทำให้เป็นอัตโนมัติคือขั้นตอนหลังประกอบมากกว่า เช่น การเก็บ การแยกตามสีและรูปทรง และการจัดเก็บให้เรียบร้อย อยากให้นักวิทยาศาสตร์เริ่มแก้ปัญหาที่โลกต้องการจริง ๆ ก่อน เพราะตรงนั้นมีทั้งคุณค่าและเงินอยู่จริง
    • มีบทความและลิงก์เกี่ยวกับกรณีคัดแยก Lego จำนวน 2 ตัน และเครื่องแรกที่ใช้ AI คัดแยกเลโก้อัตโนมัติ https://jacquesmattheij.com/sorting-two-metric-tons-of-lego/, https://brothers-brick.com/2019/12/…
    • ความยากของการแก้ปัญหาโลกจริงคือวัฒนธรรมในวงการวิชาการที่ให้ความสำคัญกับการตีพิมพ์บทความเหนือสิ่งอื่นใด
    • นวัตกรรมที่แท้จริงไม่ใช่การทำให้ส่วนที่สนุกเป็นอัตโนมัติ แต่คือการทำให้ส่วนที่น่าเบื่อหายไป
    • ฉันก็เข้ามาเพื่อจะพูดแบบนี้เหมือนกัน ปัญหาที่แท้จริงของเลโก้คือการเก็บกวาดและจัดระเบียบ
  • โปรเจ็กต์นี้เจ๋งมาก! การแสดงขั้นตอนประกอบเป็น GIF ดูเพลินจนหยุดไม่ได้ สำหรับคนที่กำลังหาข้อมูลชุดข้อมูล ขอนำมาแบ่งปัน https://huggingface.co/datasets/AvaLovelace/StableText2Lego ที่นี่มีโครงสร้าง LEGO มากกว่า 47,000 แบบ และครอบคลุมวัตถุ 3D ที่แตกต่างกันมากกว่า 28,000 ชิ้นใน 21 หมวดหมู่ของ ShapeNetCore ส่วนวิธีรัน inference แบบโลคัลดูได้ใน GitHub https://github.com/AvaLovelace1/LegoGPT/?tab=readme-ov-file
  • ถ้าดู "a basic sofa" จะเห็นว่าถ้าประกอบตามลำดับในแอนิเมชัน จะมีชิ้นส่วนลอยอยู่กลางอากาศ นี่เป็นเบาะแสที่แสดงข้อจำกัดของวิธีที่โมเดลสร้างดีไซน์ ฉันคิดว่าถ้าจะใช้หุ่นยนต์มาประกอบแบบอัตโนมัติตามแบบที่สร้างขึ้น ดีไซน์นี้จะมีปัญหาใหญ่
    • ฉันก็มาจะทักเรื่องนี้เหมือนกัน รูปร่างสุดท้ายโอเค แต่ลำดับการประกอบในแอนิเมชันมีปัญหาเยอะ ต้องทำพื้นสองชั้นก่อน เพื่อให้ชั้นบนช่วยยึดชิ้นส่วนของชั้นล่าง จากนั้นค่อยติดขาได้
  • มันตลกดีที่ได้เห็นหุ่นยนต์ราคา $50,000 มาประกอบเลโก้ราคาไม่กี่ดอลลาร์ เหมือนกำลังดูบ้านพักคนชราสำหรับหุ่นยนต์เลย
    • อีก 10 ปี อาจได้เห็นหุ่นยนต์ประกอบที่เร็วกว่ามนุษย์มากก็ได้
    • นี่แหละเหตุผลที่ในเอเชียหลายแห่งยังประกอบด้วยมือเป็นเรื่องปกติ
    • หลายคนบอกว่าเลโก้แพง แต่ถ้าคุณลองซื้อหุ่นยนต์มาประกอบเลโก้ดู จะรู้เลยว่าจริง ๆ แล้วอะไรแพงกว่ากัน
  • มันดูเหมือนไม่ได้มีความหมายไปกว่าการแปลงโมเดล 3D เป็น voxel แล้วแปลงต่อเป็นก้อนอิฐธรรมดา ถ้าอยากได้ผลลัพธ์ที่ดีจริง ต้องใช้ชิ้นส่วนหลากหลายอย่างสร้างสรรค์ ไม่ใช่แค่ 2x2 หรือ 2x4 ฉันสงสัยว่าอัลกอริทึมแบบไหนถึงจะเหมาะที่สุดสำหรับการสร้าง MOC (งานประกอบสร้างสรรค์) ที่สวยงามโดยอัตโนมัติ กำลังคิดว่าจะจัด kaggle แข่งขันชิงเงิน $5 หมื่นดีไหม อยากฟังความเห็น