1 คะแนน โดย GN⁺ 6 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • เบนช์มาร์ก OpenSCAD Pantheon ทดสอบว่าเครื่องมือเขียนโค้ด AI สามารถสร้างสถาปัตยกรรมเป็นโค้ด CAD แบบพาราเมตริกได้หรือไม่ โดยมีเพียงภาพอ้างอิง 2 ภาพและพรอมป์สั้น ๆ
  • Google Antigravity 2.0 / Gemini 3.5 Flash High ได้คะแนนคุณภาพสูงสุดที่ 4.5/5 และสร้างได้ถึงขนาดจริงของ Pantheon, จารึก, รวมถึงลวดลายเพดาน coffer ภายใน
  • Codex 5.5 High มีความหนาแน่นของรายละเอียดสูง แต่ถูกหักคะแนนเพราะ PNG preview กับ STL สุดท้ายไม่ตรงกัน ขณะที่ Sonnet สร้างโมเดลที่ดูเรียบร้อยที่สุดในกลุ่มรันอัตโนมัติเดิม
  • Cursor เร็วที่สุดแต่คุณภาพต่ำสุด ส่วน ModelRift/Gemini Flash 3.0 ไปถึง 3.8/5 ด้วยแนวทาง human-in-the-loop ที่เพิ่ม visual feedback เข้าไป
  • ทุกระบบสามารถเรนเดอร์ผ่าน OpenSCAD CLI ได้ แต่คอขวดไม่ใช่การเข้าถึงเครื่องมือ หากเป็น การตัดสินเชิงเรขาคณิต และการตรวจสอบ mesh ขั้นสุดท้าย

เป้าหมายและโจทย์ของเบนช์มาร์ก

  • ModelRift สร้าง โค้ด OpenSCAD สำหรับโมเดล 3D ทั้งหมด ดังนั้นความสามารถของ LLM ในการจัดการเรขาคณิตเชิงพื้นที่จึงเชื่อมโยงโดยตรงกับคุณภาพของโมเดลจริง
  • การทดสอบครั้งนี้เป็นเบนช์มาร์กเชิงปฏิบัติขนาดเล็กที่ให้โจทย์เดียวกันกับเครื่องมือเขียนโค้ด AI หลายตัว โดยให้สร้าง Pantheon ด้วย OpenSCAD จากภาพอ้างอิงและพรอมป์สั้น ๆ
  • เป้าหมายคือดูความสามารถในการแปลงข้อมูลอ้างอิงทางสถาปัตยกรรมให้เป็น โค้ด CAD แบบพาราเมตริก เรนเดอร์ PNG preview ด้วย OpenSCAD CLI และปรับปรุงซ้ำไปเรื่อย ๆ
  • พรอมป์กำหนดให้รวม rotunda, dome, portico, columns, pediment และรายละเอียดด้านหน้าของ Pantheon
    see two ref images and build .scad file with openscad implementation of pantheon. use openscad CLI (available) to preview your work (by rendering openscad model to .png)  and iterate until you are happy with the result.
    

ทำไมถึงเลือก Pantheon และ OpenSCAD

  • Pantheon เป็นโจทย์ที่ยากเกินกว่าการทดสอบไวยากรณ์ difference(), cube(), cylinder() แบบง่าย ๆ แต่ก็ไม่ใช่เรขาคณิตแนวประติมากรรมหรือคาแรกเตอร์ที่ OpenSCAD รับมือยาก
  • โครงสร้างหลักประกอบด้วย rotunda และ dome ทรงกลม, oculus ตรงกลาง, portico แบบเส้นตรง, เสา, ฐานขั้นบันได และ pediment สามเหลี่ยม จึงเหมาะกับการเปรียบเทียบความต่างของผลลัพธ์
  • ผลลัพธ์ที่อ่อนอาจยังดูเหมือนอาคารมีโดมได้ แต่ผลลัพธ์ที่ดีต้องจับความสัมพันธ์ระหว่าง drum ทรงกลม, portico ทรงสี่เหลี่ยม, วงแหวนโดม และ façade ด้านหน้าให้แม่นยำกว่า
  • OpenSCAD เหมาะกับการให้ LLM สร้างเรขาคณิต เพราะโมเดลเป็น โค้ดข้อความล้วน และมีคลังคำสั่งไม่ใหญ่มาก
  • คำสั่งอย่าง “วางเสา 28 ต้นรอบรัศมี” หรือ “ลบ oculus ออกจากโดม” สามารถเขียนเป็นซอร์สโค้ดได้โดยตรง
  • ผลลัพธ์ตรวจสอบได้ ทำซ้ำได้ และแก้ไขง่าย ดังนั้นแม้ระยะห่างเสาจะผิด ก็แก้ด้วยการปรับพารามิเตอร์หรือแก้ลูป แทนที่จะไปพึ่ง state ที่ซ่อนอยู่ในฉาก
  • เบื้องหลังที่ ModelRift เลือกใช้ OpenSCAD อธิบายไว้ใน Why we built ModelRift on OpenSCAD
  • ข้อเสียคือ OpenSCAD ไม่ใช่เครื่องมือปั้นโมเดล และเหมาะที่สุดกับวัตถุแบบประกอบ พาราเมตริก และ hard-surface

ผลลัพธ์โดยรวม

  • คะแนนเป็นการประเมินแบบสัมพัทธ์ภายในเบนช์มาร์กนี้ ไม่ใช่ อันดับโมเดลทั่วไป
  • คะแนนด้านเวลาไม่ได้อิงเวลาที่โปรเจกต์ถูกเผยแพร่ แต่สะท้อน เวลาที่ใช้ในการสร้างจริง ที่สังเกตได้
  • คะแนนคุณภาพให้แบบค่อนข้างอนุรักษ์นิยม และแม้ผลลัพธ์ที่ดีที่สุดก็ยังไม่ใกล้เคียงโมเดล Pantheon ที่สมบูรณ์แบบ
  • ผลลัพธ์แยกตามเครื่องมือและโมเดล:
    • Cursor 3.5 / Composer 2.5: เวลา 5/5, คุณภาพ 1.4/5. เร็วที่สุดแต่ผลงานอ่อนที่สุด นอกจากทรงหลักของโดมและ portico แล้ว ยังขาดทั้งสัดส่วน การควบคุมสี และรายละเอียดทางสถาปัตยกรรม
    • Codex 5.5 High: เวลา 4/5, คุณภาพ 3.0/5. มีความหนาแน่นของรายละเอียดสูงจนใส่จารึกบน entablature ได้ แต่โดนหักคะแนนเพราะ STL สุดท้ายต่างจาก PNG preview
    • Claude Code 2.1 / Opus 4.7: เวลา 2/5, คุณภาพ 3.0/5. โครงสร้าง, portico และฐานขั้นบันไดชัดกว่า Cursor แต่สีสม่ำเสมอเกินไปและน่าเชื่อน้อยกว่าผลงานที่ดีกว่า
    • Claude Code 2.1 / Sonnet 4.6: เวลา 1/5, คุณภาพ 3.4/5. ให้ภาพรวมที่น่าเชื่อที่สุดและสัดส่วนสมดุลที่สุดในกลุ่มรันอัตโนมัติเดิม แต่ใช้เวลาสร้างนานที่สุด
    • Google Antigravity 2.0 / Gemini 3.5 Flash High: เวลา 1/5, คุณภาพ 4.5/5. ใช้มิติจริงและจารึกของ Pantheon และเป็นเอเจนต์อัตโนมัติเพียงตัวเดียวที่สร้างลวดลายเพดาน coffer ภายในได้
    • ModelRift / Gemini Flash 3.0: เวลา 1/5, คุณภาพ 3.8/5. เป็นผลลัพธ์ที่ดีที่สุดในกลุ่มไม่อัตโนมัติที่ใช้เวิร์กโฟลว์ annotation แบบวนซ้ำของ ModelRift และใช้เวลาราว 2 เท่าของ Claude Code

สิ่งที่สังเกตจากเวิร์กโฟลว์

  • เวิร์กโฟลว์ฝั่งไคลเอนต์สำคัญพอ ๆ กับตัวโมเดลเอง
  • Codex Desktop แสดง ภาพ ที่ LLM ดึงเข้ามาในคอนเท็กซ์ไว้ในบทสนทนาโดยตรง ทำให้ตรวจสอบได้ง่ายว่าใช้ข้อมูลอ้างอิงอย่างไรในงาน CAD เชิงภาพ
  • Cursor Agent และ Claude Code CLI ก็ใช้ภาพได้เช่นกัน แต่การประมวลผล visual context ถูกแสดงอย่างชัดเจนน้อยกว่า
  • ทุกระบบที่ทดสอบสามารถใช้งาน toolchain ของ OpenSCAD ในเครื่องได้ และเรียก OpenSCAD จาก PATH บน macOS เพื่อเรนเดอร์ PNG preview
  • คอขวดไม่ใช่การเข้าถึงเครื่องมือ แต่เป็น การตัดสินเชิงเรขาคณิต, การตั้งค่ากล้อง และความสามารถในการส่งออกโมเดล preview ให้เป็น mesh สุดท้ายที่สะอาด
  • Codex เปิดให้เห็นทั้งภาพอ้างอิง, การแก้ไขไฟล์ OpenSCAD และ preview ที่สร้างขึ้นภายใน thread เดียว ทำให้ตามลำดับการปรับปรุงได้ง่าย
  • หลังเบนช์มาร์กเผยแพร่ Codex พยายามแก้ปัญหาการส่งออกหลังคาและ entablature แต่การเปรียบเทียบสุดท้ายยึดตามโมเดลที่ส่งเดิม
  • Cursor มี interaction loop ที่เร็วที่สุด พร้อม UI แบบขนานสำหรับการวางแผนและโค้ด OpenSCAD ที่มีประโยชน์ แต่คุณภาพผลลัพธ์ยังตามหลังงานรันที่ช้ากว่า
  • Claude Code ใช้แนวทางเน้นเทอร์มินัล อ่านภาพและรันคำสั่ง OpenSCAD ซ้ำ ๆ แต่กระบวนการสร้างโมเดลมองเห็นเชิงภาพได้น้อยกว่า

Google Antigravity 2.0 / Gemini 3.5 Flash High

  • Explore 3D result
  • การรันนี้ถูกเพิ่มเข้ามาเมื่อ 22 พฤษภาคม 2026 ไม่นานหลังจาก Google เปิดตัว Antigravity 2.0 ในงาน I/O 2026 และ เปิดตัว Gemini 3.5 Flash เมื่อ 19 พฤษภาคม 2026
  • ผลลัพธ์นี้เป็น โมเดลอัตโนมัติเต็มรูปแบบ ที่ดีที่สุดในเบนช์มาร์ก และเป็นสัญญาณเริ่มต้นเชิงบวกต่อ Flash 3.5
  • Antigravity 2.0 ใกล้เคียงกับ แอปเดสก์ท็อปที่เน้นเอเจนต์เป็นหลัก ซึ่งมีทั้งการวางแผน การรันงาน และ preview และเพราะไม่มีเส้นทางย้อนกลับที่ราบรื่นสำหรับผู้ใช้ที่ต้องการประสบการณ์แบบ IDE เดิมนอกจาก downgrade หรือปักหมุดแอปเวอร์ชันเก่า จึงถูกวิจารณ์มากในสัปดาห์เปิดตัว
  • Flash 3.5 High ไม่ได้แค่มองภาพอ้างอิงคร่าว ๆ แต่ค้นหา พารามิเตอร์จริงของ Pantheon ด้วย
  • แผนและโค้ดใช้มิติที่ชัดเจนสำหรับ rotunda, dome, portico และ oculus แล้วแปลงเป็นค่าพาราเมตริกใน OpenSCAD
    Implement a detailed, visually stunning, and dimensionally accurate 3D model of the Pantheon in Rome using OpenSCAD.
    
  • เพื่อสะท้อนโครงสร้างภายในของ Pantheon จึงเสนอ โหมด cutaway
    To showcase both the exterior (stepped rings, portico) and the interior (coffers, niches, perfect spherical proportion), I will include a toggle in the code `show_cutaway = false;`.
    
  • รายละเอียดที่โดดเด่นที่สุดคือเพดาน
    The Pantheon dome interior has 5 rings of 28 coffers. Subtracting these mathematically in OpenSCAD is highly detailed and looks amazing.
    
  • Antigravity เป็นเอเจนต์อัตโนมัติเพียงตัวเดียวที่สร้าง ลวดลายเพดาน coffer แบบสี่เหลี่ยมซ้ำ ๆ ที่มองเห็นผ่าน oculus ได้
  • ผลลัพธ์ภายนอกยังรวมองค์ประกอบที่มักถูกละไว้ในเอาต์พุต OpenSCAD แบบเร่งด่วน เช่น
    • วัสดุเสาที่ผสมสีเทาและแดง
    • จารึกที่อ่านได้
    • วงแหวนหลังคาแบบขั้นบันได
    • ความสัมพันธ์เชิงสัดส่วนระหว่าง rotunda, บล็อกกลาง, portico และ dome
  • ได้คะแนนคุณภาพ 4.5/5 และคะแนนความเร็ว 1/5
  • แม้จะไม่เร็ว แต่ก็ยกระดับ เพดานสูงสุดของการสร้างแบบอัตโนมัติ ในเบนช์มาร์กนี้ และชี้ว่า Flash 3.5 มีแววมากในการสร้างโค้ดเชิงพื้นที่เมื่อจับคู่กับเครื่องมือวางแผน เรนเดอร์ ตรวจสอบ และแก้ไข

ModelRift / Gemini Flash 3.0

  • Explore 3D result
  • ผลลัพธ์นี้สร้างด้วยกระบวนการ human-in-the-loop โดยใช้ ModelRift และ Gemini Flash 3.0 ไม่ใช่เบนช์มาร์กแบบอัตโนมัติ single-pass เหมือน 4 การรันแรก
  • เวิร์กโฟลว์ใช้เวลาประมาณ 10 นาที และเพราะช้ากว่า Claude Code ราว 2 เท่า จึงได้คะแนนความเร็ว 1/5 เท่ากัน
  • เบนช์มาร์กนี้รันเมื่อ 21 พฤษภาคม 2026 ทันทีหลังการเปิดตัว Gemini 3.5 Flash
  • ผลลัพธ์จาก Antigravity ชี้ว่า 3.5 Flash แข็งแกร่ง แต่การเลือกโมเดลเริ่มต้นของ ModelRift ต้องพิจารณาทั้งคุณภาพ ต้นทุน และ latency
  • ราคาของ Gemini API จาก Google ระบุราคา Gemini 3.5 Flash แบบมาตรฐานที่ 1.50 ดอลลาร์ต่อ 1 ล้านโทเค็นอินพุต และ 9.00 ดอลลาร์ต่อ 1 ล้านโทเค็นเอาต์พุต ขณะที่ Gemini 3 Flash อยู่ที่ 0.50 ดอลลาร์สำหรับอินพุต และ 3.00 ดอลลาร์สำหรับเอาต์พุต
  • Gemini 3.5 Flash มี ต้นทุนสูงขึ้น 3 เท่า เมื่อเทียบกับ Flash รุ่นก่อน และสูงกว่ายุค Gemini 1.5 Flash ที่เก่ากว่ามาก
  • คุณภาพอยู่ที่ 3.8/5 ซึ่งดีกว่าชุดรันอัตโนมัติเดิม
  • แม้โมเดลยังไม่สมบูรณ์ แต่ portico, การจัดวางเสา, หลังคา, ribs ของโดม และมวลรวมของอาคารมีความสอดคล้องมากขึ้น
  • ความต่างสำคัญคือสามารถแนบ visual feedback ลงบนภาพเรนเดอร์ปัจจุบันได้โดยตรง
  • เวิร์กโฟลว์ของ ModelRift ออกแบบมาให้ทำซ้ำเป็นวงจรของการสร้างโมเดล ตรวจสอบในเบราว์เซอร์ เขียนโน้ตเชิงภาพบนภาพเรนเดอร์ และขอให้ AI แก้ไข OpenSCAD
  • สำหรับงาน CAD เชิงพื้นที่ ลูปนี้แม่นยำกว่าการสั่งงานด้วย ข้อความล้วน มาก

ผลลัพธ์หลักของการรันอัตโนมัติ

  • Codex 5.5 High

    • Explore 3D result
    • Codex 5.5 High สร้าง โมเดลที่หนาแน่นที่สุด
    • องค์ประกอบที่มีได้แก่ rotunda, ribs ของโดม, oculus, แถบหินซ้อนเป็นชั้น, portico ด้านหน้า, เสา, รายละเอียดฐานโดยรอบ และข้อความบน entablature
    • บน entablature มีข้อความ M AGRIPPA L F COS TERTIVM FECIT
    • ใน OpenSCAD การทำข้อความเป็นองค์ประกอบที่ยากในมุมมองการโมเดล เพราะต้องจัดวาง ดันนูน กำหนดทิศทาง และคุมความหนาให้บาง
    • ระหว่างการทำซ้ำ preview จากการเรนเดอร์ดูดีกว่า STL ที่ส่งออกขั้นสุดท้าย
    • ในผลลัพธ์สุดท้ายเกิดพื้นผิวลักษณะคล้ายเพดานที่มีปัญหาแถว entablature และหลังคา portico ทำให้ภาพรวมของส่วนประกอบด้านหน้าเปลี่ยนไป
    • Codex แสดงให้เห็นทั้งการให้เหตุผลเชิงพื้นที่ที่ดีและความพยายามใส่รายละเอียดสูง แต่ก็เผยความเสี่ยงด้านการส่งออกที่ ความแม่นยำของ preview ไม่ได้เท่ากับความแม่นยำของ mesh สุดท้าย
    • หากให้คะแนนจาก PNG preview ที่ดีที่สุดแทน STL ที่เผยแพร่ โครงสร้างและรายละเอียดของมันมากพอจะอยู่ต่ำกว่า Antigravity 2.0 เพียงเล็กน้อย
    • คะแนน 3.0/5 จึงสะท้อนโทษจากความไม่ตรงกันระหว่างการส่งออกและการเรนเดอร์ขั้นสุดท้ายมากกว่าความตั้งใจในการออกแบบของโมเดล
  • Claude Sonnet

    • Explore 3D result
    • Claude Sonnet สร้าง โมเดลที่เรียบร้อยที่สุด ในกลุ่มรันอัตโนมัติเดิม
    • แม้ไม่ได้พยายามใส่รายละเอียดจุกจิกเท่า Codex แต่ silhouette สะอาดกว่า และชิ้นส่วนสถาปัตยกรรมหลักประกบกันอย่างเป็นธรรมชาติกว่า
    • dome, drum, portico และการวางเสาดูเป็นอาคารเดียวกัน ไม่ใช่แค่กลุ่ม primitive ที่นำมาวางติดกัน
    • สัดส่วนก็ยับยั้งชั่งใจได้ดีกว่า และก่อนการรันของ Antigravity นี่คือผลลัพธ์อัตโนมัติเต็มรูปแบบที่แข็งแกร่งที่สุด
    • Claude Code ช้ากว่า Codex ราว 2–3 เท่าในเบนช์มาร์กนี้ และ Sonnet แม้คุณภาพดี แต่ก็ได้คะแนนด้านเวลาต่ำสุด
    • คะแนนคุณภาพ 3.4/5 ยังหมายความว่าเป็นเพียงโมเดลประมาณค่า ไม่ใช่ การบูรณะสถาปัตยกรรมระดับ production
  • Cursor Composer

    • Explore 3D result
    • ชุด Cursor กับ Composer 2.5 รันได้เร็วที่สุด แต่ผลลัพธ์อ่อนที่สุด
    • มันจับท่าทางใหญ่ ๆ อย่าง rotunda, dome, portico และเสาได้ถูกต้อง
    • แต่พลาดทั้ง ความยับยั้งของวัสดุ และความละเมียดทางสถาปัตยกรรมที่ทำให้คนจำ Pantheon ได้
    • เอาต์พุตใกล้เคียง placeholder แบบย่อมากกว่าโมเดลที่เสร็จสมบูรณ์ และต้องแก้งานอีกมากก่อนเผยแพร่
  • Claude Opus

    • Explore 3D result
    • Claude Opus อยู่กึ่งกลางระหว่าง Cursor และ Sonnet
    • มันสร้างอาคารที่สมบูรณ์กว่า Cursor และทำให้ portico กับฐานขั้นบันไดชัดเจนกว่า
    • แต่เอาต์พุตดูสม่ำเสมอเกินไปและน่าเชื่อน้อยกว่า Sonnet
    • โครงสร้างมีอยู่ แต่ยังขาดการตัดสินเรื่อง ลำดับชั้นทางสายตา
    • สีและน้ำหนักของแทบทุกองค์ประกอบใกล้เคียงกันหมด ทำให้รายละเอียดแข่งกันเองแทนที่จะช่วยนำสายตา
    • คะแนนที่ปรับใหม่เป็น 3.0/5 ซึ่งสมควรสูงกว่าตารางเวอร์ชันแรก แต่ยังตามหลัง Sonnet และ Antigravity

บทเรียนสำคัญ

  • OpenSCAD รับบทเป็นภาษาปลายทางได้ดี
    • ไวยากรณ์เล็ก เอาต์พุตกำหนดแน่นอน และ CLI สามารถเรนเดอร์ preview ที่ตรวจสอบได้ในลูปการทำซ้ำ
    • LLM ไม่จำเป็นต้องมีตัวช่วยพิเศษในการใช้ OpenSCAD
  • การใช้เครื่องมือไม่ใช่คอขวด
    • ทุกเอเจนต์สามารถเรียก OpenSCAD จาก PATH บน macOS และเรนเดอร์ PNG preview ได้
    • ส่วนที่ยากไม่ใช่ระบบท่อ แต่คือ การตัดสินเชิงเรขาคณิต
  • ความเร็วทำนายคุณภาพไม่ได้
    • Cursor เร็วที่สุดแต่ให้ผลลัพธ์อ่อนที่สุด
    • Sonnet ใช้เวลานานที่สุดในกลุ่มรันอัตโนมัติเดิม แต่สร้างโมเดลที่สะอาดที่สุด
    • Antigravity ก็ช้า แต่ Gemini 3.5 Flash High ให้ผลลัพธ์อัตโนมัติที่ดีที่สุดหลังมีเวลาสำหรับการวางแผนและการทำซ้ำ
    • ModelRift/Gemini Flash 3.0 ใช้เวลามากกว่า แต่ไปถึงคุณภาพสูงกว่าชุดอัตโนมัติเดิมด้วย visual feedback
  • preview กับการส่งออกไม่เหมือนกัน
    • Codex ดูแข็งแกร่งในลูปเรนเดอร์ แต่ mesh STL ขั้นสุดท้ายมีปัญหาเรขาคณิตรอบหลังคา portico
    • โมเดลที่เตรียมพิมพ์ต้องตรวจสอบ mesh ที่ส่งออกแล้ว แยกจาก preview
  • ยังไม่มีเอาต์พุตใดผ่านเกณฑ์เป็นโมเดลสถาปัตยกรรมที่ซื่อสัตย์ครบถ้วน
    • จารึกของ Codex เป็นรายละเอียดที่ดี
    • สัดส่วนของ Sonnet มีความสม่ำเสมอ
    • เพดาน coffer ของ Antigravity เป็นรายละเอียดที่น่าทึ่งที่สุด
    • ผลลัพธ์ของ ModelRift/Gemini Flash 3.0 แสดงให้เห็นว่าคุณภาพดีขึ้นอย่างไรเมื่อมนุษย์ช่วยปรับแต่งเชิงภาพ
  • จากภาพอ้างอิงเพียงสองภาพและพรอมป์สั้น ๆ ทุกระบบสามารถไปถึง OpenSCAD ที่ใช้งานได้และเรนเดอร์ได้ โดยไม่ต้องเขียนโค้ด CAD เองด้วยมือ
  • แม้คุณภาพระหว่างเครื่องมือจะแตกต่างกันมาก แต่จุดเริ่มต้นโดยรวมสูงกว่าที่คาด
  • การสร้างแบบอัตโนมัติเต็มรูปแบบยังไม่ใช่เวิร์กโฟลว์ที่ถูกต้องสำหรับงานลักษณะนี้
    • ใน ModelRift ยังคงใช้ Annotation Mode สำหรับงานทำซ้ำ
    • วิธีนี้คือการวาดลูกศรและโน้ตลงบน screenshot ของโมเดล 3D แล้วส่งกลับให้ AI
    • สำหรับเรขาคณิตเชิงพื้นที่ ขั้นตอน human-in-the-loop ยังสำคัญ แม้จะใช้โมเดลระดับสูงสุดก็ตาม
    • โมเดลอาจจับมวลก้อนใหญ่ได้ถูก แต่ยังวางตำแหน่งเสาหรือสัดส่วนโดมผิดได้
    • การชี้ปัญหาโดยตรงบนภาพเรนเดอร์เร็วและแม่นยำกว่าการอธิบายเป็นข้อความ

1 ความคิดเห็น

 
GN⁺ 6 시간 전
ความคิดเห็นจาก Hacker News
  • สัปดาห์ก่อนผมซื้อจักรยานของภรรยาจาก Marketplace มา คันอยู่ในสภาพดี แต่มี จุกยางสำหรับร้อยสายเคเบิลภายใน หายไปชิ้นหนึ่ง
    ผมเอารูปช่องทรงแคปซูลแบบเดี่ยว ๆ พร้อมรูปที่ใช้ดิจิทัลคาลิเปอร์วัดด้านยาวและด้านสั้น ใส่ให้ Claude ดู แล้วมันก็สร้างโมเดล OpenSCAD ที่พารามิเตอร์ครบทุกมิติให้ด้วยพรอมป์ต์สั้น ๆ
    ผมพิมพ์ด้วย TPU โดยไม่ต้องแก้อะไรเลย เกือบสมบูรณ์ตั้งแต่ครั้งแรก แล้วพอลดค่าที่ Claude ตั้งให้หักจากมิติ x/y จาก 0.3mm เหลือ 0.1mm มันก็พอดีเป๊ะ แม้จะเป็นรูปทรงที่ง่ายกว่าสถาปัตยกรรมโรมันโบราณมาก แต่ที่มันทำได้ง่ายขนาดนี้ก็ยังน่าทึ่งอยู่ดี

    • สำหรับผม CAD เป็นตัวอย่างของ เทคโนโลยีที่ไม่เคยแตะเพราะกำแพงการเริ่มต้นสูง แต่ตอนนี้รู้สึกว่าอย่างน้อยก็พอทำงานง่าย ๆ ได้ แม้จะยังไม่เก่งก็ตาม
      ผมก็มีประสบการณ์คล้ายกันกับการใช้ OpenSCAD และ LLM ทำชิ้นส่วนใช้งานง่าย ๆ สำหรับเครื่องพิมพ์ 3D และก็รู้ว่าพวกโมเดลยังทำได้ไม่ดีเท่าการสร้างโค้ด React อีกทั้งผมก็ตรงข้ามกับคนที่เชี่ยวชาญมาก ๆ แต่ที่มันทำให้ผมเริ่มเรียนรู้ทักษะใหม่ในระดับงานอดิเรกได้นี่แหละที่เจ๋ง
    • Claude ทำได้ดีถ้าคุณให้ มิติครบทุกอย่าง แต่ไม่ค่อยเก่งเรื่องเดา
      เวทมนตร์จริง ๆ คงเป็นตอนที่ให้แค่มิติเดียวหรือภาพที่มีไม้บรรทัดอันเดียว แล้ว AI หาอย่างอื่นที่เหลือได้เอง แต่ตอนนี้อย่างน้อย Claude ยังอ่อนเรื่องการเดามาก
    • ช่วงนี้ผมลองให้โมเดลทำ fortune cookie แบบ 3D โดย Claude พยายามทำด้วย three.js ส่วน Gemini ทำด้วย OpenSCAD แต่ทั้งคู่จับแนวคิดไม่ค่อยได้และยังห่างไกลจากที่ต้องการ ดูเหมือนจะเป็นรูปทรงที่ซับซ้อนกว่าที่คิด
    • งานพิมพ์ชิ้นเล็กที่ใช้งานได้จริง แบบนี้แหละคือจุดที่ OpenSCAD กับงานสร้างจาก LLM เปล่งประกาย
    • มันช่วยปรับให้ไม่ต้องใช้ซัพพอร์ตด้วยไหม?
  • ข้อความที่ว่า “Antigravity เป็นเอเจนต์อัตโนมัติเพียงตัวเดียวที่สร้างลายเพดานด้านในอันเป็นเอกลักษณ์ของ Pantheon ได้ นั่นคือเพดานคอฟเฟอร์ลายสี่เหลี่ยมซ้ำ ๆ ที่มองเห็นผ่าน oculus” น่าประทับใจมาก
    ถึงจะดูโมเดล 3D ไปแล้ว แต่ก่อนอ่านประโยคนี้ผม ไม่เคยคิดจะมองเข้าไปข้างในอาคารเลย
    โมเดล 3D ที่เปิด show_cutaway ดูได้ที่นี่: https://modelrift.com/models/pantheon-benchmark-antigravity-...

    • ผมตัดสินไม่ถูกว่าการใช้ ข้อมูลภายนอก ที่ไม่ได้ระบุชัดในพรอมป์ต์เพื่อสร้างโมเดลนั้นดีหรือไม่ดี
      ถ้าต้องการ “Pantheon” มันก็ดูเป็นพฤติกรรมที่ถูกต้องชัดเจน แต่ถ้าเป็นงานสำหรับช่างเขียนแบบหรือวิศวกร ก็คงยากที่จะรับงานลักษณะนี้ได้
    • ผมบังเอิญไปดูภายใน แล้วกลับรู้สึกถึง ความฉลาดและความพยายาม ได้มากกว่าภายนอกเสียอีก
  • ไม่ว่า Antigravity จะได้ที่ 1 ในเบนช์มาร์กไหนก็ตาม แต่ Antigravity ของผมที่ถูกบังคับให้มาแทน Gemini CLI ขอให้ล็อกอินผ่านเบราว์เซอร์ทุกครั้งที่ใช้ และ Antigravity IDE ก็ไม่อัปเดตเลย
    ถ้าเป็นไปได้ ผมอยากให้เขาทำ คุณภาพการปล่อยใช้งานพื้นฐานให้อยู่ในระดับรับได้ ก่อนจะกังวลเรื่องได้ที่ 1 จากอะไรสักอย่าง
    ชื่อจริงของบทความคือ “OpenSCAD LLM Benchmark: Building the Pantheon”

    • เห็นด้วย สิ่งที่น่ากังวลที่สุดในผลิตภัณฑ์ Google AI คือ ความทรมานด้านประสบการณ์ผู้ใช้ที่ไม่รู้จบ รอบ ๆ การล็อกอิน การจ่ายเงิน การอัปเกรด และการยุติผลิตภัณฑ์
      ถึงอย่างนั้นตัวโมเดล LLM เองก็ดี และ Antigravity 2.0 ก็ไม่ได้แย่นัก แต่ถ้าคุณเหมือนคนอีกมากที่ทำการตั้งค่าและโปรเจกต์ของ Antigravity 1.0 หาย เรื่องก็จะต่างออกไป
    • หลังดู Google I/O แล้ว ผมกลับมั่นใจในความสามารถในการลงมือทำของ Google น้อยลง
      Gemini 3.5 Flash มันแปลก ๆ ข้อมูลตัดรอบก็เก่า ในบางด้านดีกว่า 3.1 Pro แต่ในบางด้านก็ด้อยกว่า และบางครั้งก็ถูกกว่า บางครั้งก็แพงกว่า 3.1 Pro
      Antigravity ดูเหมือนถูกทิ้งจนคนเดากันว่าจะปิดบริการ และในความเป็นจริงมันก็เหมือนเป็นแบบนั้นบางส่วน เพราะทุกคนถูกย้ายไป Antigravity ตัวใหม่
      Google ให้ความรู้สึกเหมือนเอาแผนผังองค์กรออกมาทำเป็นผลิตภัณฑ์ มีผลิตภัณฑ์ AI มากเกินไป แต่ไม่มีตัวไหนดูดีที่สุดในระดับเดียวกันเลย เช่น การรวม Gemini เข้ากับ Google Docs ก็ยังสู้ Claude ไม่ได้
      สิ่งที่ผมคาดหวังคือโมเดลแบบ “ความฉลาดระดับ Opus ในต้นทุนเท่า Haiku” หรือ “ประสิทธิภาพระดับ Sonnet ในราคา Gemini 3.0” ถ้าได้มาแค่อย่างใดอย่างหนึ่ง มันก็น่าจะกลายเป็นโมเดลหลักและคู่แข่งของ Claude/Codex ได้แล้ว แต่กลับไม่ได้ทั้งสองอย่าง
    • ผมใช้ Claude Code กับ IntelliJ อยู่ เลยไม่ค่อยเข้าใจว่าทำไมคนถึงบ่นกันเยอะว่า Antigravity ทิ้ง VS Code
      ผมสงสัยว่ามันมีอะไรที่ Antigravity CLI + VS Code หรือการจับคู่กับ IDE อื่น ๆ ยังทดแทนไม่ได้
    • การถูก บังคับอัปเกรด จาก Gemini CLI ซึ่งผมชอบและบางด้านมองว่าดีกว่า Claude Code ก็แย่พอแล้ว
      แต่พอมาเจออีเมลที่ส่งวันพุธในทำนองว่า “ขอบคุณที่สมัคร Google One AI Pro ตอนนี้เราจะเพิ่มข้อจำกัดให้บัญชีของคุณนะ ช่วยไม่ได้” มันยิ่งน่ารำคาญมาก ก่อนหน้านี้ผมยังชมอยู่เลยว่า AI Pro คุ้มราคา
    • การที่เวิร์กโฟลว์สะดุดคือเหตุผลหลักที่ผมไม่รับ Antigravity มาใช้ ทั้งที่จริง ๆ ชอบมัน
      ผมดีใจที่ Google ลงทุนกับมัน แต่ยิ่งอายุมากขึ้น ผมก็ยิ่งปกป้อง เวิร์กโฟลว์ ของตัวเอง
  • ผมลองรันเบนช์มาร์กกับ OpenSCAD มาหนักพอสมควร ทั้งกับหลายโมเดลและหลายการตั้งค่า แล้วสิ่งที่ได้ข้อสรุปคือ
    โมเดลมันเหวี่ยงมาก บางประเภทของโมเดล 3D ทำได้ยอดเยี่ยม แต่อีกบางประเภทกลับไม่ใช่
    จากประสบการณ์ของผม โมเดล Gemini แกว่งน้อยที่สุดและเข้าใจภาพได้ดีที่สุด
    โมเดล Gemini ยังสร้างสรรค์ที่สุดด้วย ซึ่งถ้าคุณต้องการชิ้นส่วน CAD ที่แม่นยำมาก ๆ มันอาจไม่ใช่เรื่องดีนัก
    โดยรวมแล้วเบนช์มาร์กนี้พิสูจน์อะไรได้ไม่มาก เพราะมีแค่โมเดล 3D เดียวและลองแค่ครั้งเดียว ซึ่งไม่พอ ปกติควรอย่างน้อย 12 โมเดล และให้แต่ละตัวสร้าง 3 ครั้งเพื่อทดสอบ แต่จริง ๆ ควรมากกว่านั้นอีก เพียงแต่สำหรับนักพัฒนาอิสระ ต้นทุนมันสูงเกินไป
    ถึงอย่างนั้นก็ขอบคุณที่เผยแพร่ออกมา และผมคงจะลองรัน Flash 3.5 ดูเร็ว ๆ นี้ว่าทำได้แค่ไหน

    • ผมมองว่า OpenSCAD ใช้การไม่ค่อยได้เพราะจัดการ เส้นโค้ง ไม่ได้ เลยไม่เข้าใจว่าทำไมยังถูกพูดถึงกันนัก
  • การประเมิน LLM จากความสามารถในการสร้าง โมเดล 3D CAD ที่ใช้ได้จริง เป็นเบนช์มาร์กที่น่าสนใจ
    OpenSCAD เหมาะกับการประเมินแบบนี้เป็นพิเศษ เพราะมันอิงโค้ดทั้งหมด

  • ถ้าลองทำเองจริง ๆ มันเป็นประสบการณ์ที่ค่อนข้างแย่ ครั้งแรกอาจได้ร่างคร่าว ๆ ที่พอใช้ได้ แต่พอเริ่ม “ดีบัก” มัน คุณจะเจอเซสชันที่น่าหงุดหงิดมาก และสุดท้ายก็พบว่าโมเดลไม่สามารถ “มองเห็น” ผลลัพธ์ของตัวเองได้ดีพอ
    พูดอีกอย่างคือมัน ปรับปรุงแบบวนซ้ำ ไม่ได้เลย
    ดูเหมือนว่าเครื่องมือรันหรือฮาร์เนสส่วนใหญ่จะย่อขนาดรูปก่อนประมวลผล แล้วรายละเอียดก็หายไปมากจนอนุมานได้ยาก โดยเฉพาะกับภาพไวร์เฟรม
    ผมอาจใช้มันผิดก็ได้ แต่การทดสอบนี้ก็ไม่ได้ตรวจสอบจุดนั้นจริง ๆ มันเป็นแค่การลองครั้งเดียว และแนวทางแบบนั้นพังเร็วมาก โดยเฉพาะถ้าไม่มีรูปอ้างอิงของสิ่งที่ต้องการทำ

  • การสร้างวัตถุจากโลกจริงขึ้นมาชิ้นเดียวแล้วประกาศว่าเป็นเบนช์มาร์ก ไม่ใช่วิธีประเมินเครื่องมือที่แข็งแรงนัก
    มันควรเป็นอะไรแบบ Iron Chef ที่ให้ธีมเป็นสถาปัตยกรรมกรีก แล้วให้คณะกรรมการตัดสินผู้ชนะ ตอนนี้มันแค่ดูว่าเครื่องมือไหนสร้าง Pantheon ที่ดูน่าเชื่อที่สุดในเชิงอัตวิสัย

    • นี่ใกล้เคียงกับ “ฉันชอบอันนี้!” มากกว่าเบนช์มาร์ก
      มันใช้ตัวอย่างเดียวที่นิยามไม่ชัด ไม่มีกรณีใช้งานปลายทาง และประเมินด้วย เกณฑ์ให้คะแนนที่เป็นอัตวิสัยล้วน ๆ
  • ยังเร็วเกินไปจะชอร์ต Autodesk
    อ้างอิงไว้ว่า Autodesk ปล่อย ผู้ช่วยแบบเอเจนต์ สำหรับ Fusion ออกมาตั้งแต่เดือนธันวาคม แต่ผ่านไป 6 เดือนแล้วก็ยังค่อนข้างแย่

    • แย่แบบแทบขำออกมา
      ช่วงไม่กี่สัปดาห์ที่ผ่านมา ผมต้องออกแบบชิ้นส่วนง่าย ๆ สำหรับงานพิมพ์ 3D อยู่ไม่กี่ชิ้น เลยลองใช้ดู ทั้งที่แต่ละชิ้นเป็นงานระดับทำในไทม์ไลน์แค่ประมาณ 4 ขั้นก็เสร็จ แต่ถึงจะเขียนอธิบายทีละขั้นละเอียดตามศัพท์ของ Fusion มันก็ยังทำออกมาไม่ใกล้เคียงกับที่ต้องการ
      ตอนนี้ผมยังไม่แน่ใจเลยว่ามันทำทรงตันพื้นฐานแบบง่าย ๆ ได้ดีจริงหรือเปล่า
    • เคยลอง Fusion MCP ที่ออกเมื่อเดือนก่อนหรือยัง? https://aps.autodesk.com/blog/bringing-fusion-claude-creativ...
    • ยังต้องไปอีกไกล แต่ผมคิดว่าสุดท้ายมันจะไปถึงจุดนั้นได้
  • ผมยังไม่ค่อยคล้อยตาม Pantheon เป็นหนึ่งในสถาปัตยกรรมประวัติศาสตร์ที่เป็นสัญลักษณ์ที่สุด มีหนังสือเกี่ยวกับมันเยอะ และคงมีทั้งภาพและโมเดลสาธารณะที่ถูกใช้ฝึกมาแล้วมากมาย
    ผมว่าน่าจะน่าสนใจกว่าถ้าเป็นเบนช์มาร์กให้สร้าง โครงสร้างนิรนาม โดยอิงแค่ข้อมูลอ้างอิงที่ให้มา มันให้ความรู้สึกเหมือนมายากลง่าย ๆ แบบเดียวกับเวลาที่เห็น LLM สร้างแอป todo ได้ในครั้งเดียว

  • ผมกำลังทำอุปกรณ์เทคโนโลยีสำหรับเลี้ยงลูกอยู่ และตัวเคสภายนอกนั้นสร้างด้วย AI ทั้งหมด
    เดิมทีผมไม่รู้เลยว่าจะเริ่มต้นกับการทำโมเดล 3D ยังไง แล้ว LLM ก็บอกผมว่าสิ่งนี้ก็เป็นโค้ดเหมือนอย่างอื่น
    แปลกดีที่ Opus 4.5 ทำออกมาสมบูรณ์แบบได้ตั้งแต่ครั้งเดียว ซึ่งเกิดขึ้นก่อนดราม่าเรื่องประสิทธิภาพตกไม่นาน และหลังจากนั้นแม้แต่การแก้ตัวเคสเพียงเล็กน้อยก็ยากมาก
    มันเหมือน Opus เปลี่ยนจากโมเดลที่หมุนรูปทรงในหัวได้อย่างมืออาชีพ ไปเป็นโมเดลที่ไม่รู้ด้วยซ้ำว่าตัวเองกำลังจัดการกับอะไร

    • เคสของผมก็คล้ายกัน: https://quill.lorehex.co/feather
      แต่ 4.7 ก็ยังพอใช้กับงานแก้ไขได้อยู่