โอเพนซอร์ส Ouroboros ของนักพัฒนาชาวเกาหลี ทำสถิติอันดับ 1 บนเบนช์มาร์กด้านการสร้างแบบจำลองและการจำลอง แซง Claude Plan Mode
(github.com/Q00)โปรเจกต์โอเพนซอร์ส Ouroboros ที่สร้างโดยนักพัฒนาชาวเกาหลี
ทำอันดับ 1 โดยรวมในการทดสอบเบนช์มาร์ก "AI-assisted discrete-event simulation" ที่เพิ่งเปิดเผยล่าสุด
สิ่งที่มีความหมายอย่างยิ่งคือ แม้จะรันอยู่ในสภาพแวดล้อม Claude Max เดียวกัน แต่กลับทำผลงานได้ดีกว่า plan mode ของ Claude เอง
เบนช์มาร์กนี้ไม่ใช่การทดสอบความสามารถในการเขียนโค้ดแบบง่าย ๆ แต่เป็นโจทย์ระดับยากที่ประเมินว่า AI agent เข้าใจระบบจริงได้ดีเพียงใด
สามารถสร้างแบบจำลอง และผลิตผลลัพธ์การจำลองที่นำไปใช้งานได้จริงหรือไม่
โจทย์มุ่งไปที่ระบบขนส่งในเหมือง และต้องการความสามารถประมาณดังนี้
- ทำความเข้าใจโครงสร้างของระบบ เช่น รถบรรทุกในเหมือง จุดบรรทุก จุดขนถ่าย เส้นทาง และคิว
- ทำให้นามธรรมจากกระบวนการที่ซับซ้อนในโลกจริงเป็นโมเดล discrete-event simulation
- ออกแบบว่าจะเกิดเหตุการณ์ใดบ้าง สถานะใดจะเปลี่ยนแปลง และจะวัดตัวชี้วัดใด
- พัฒนาโค้ดจำลองที่สามารถรันได้จริง
- วิเคราะห์ผลลัพธ์ เช่น คอขวด ปริมาณงานที่ประมวลผลได้ และเวลารอคอย
- สร้างผลลัพธ์ที่มนุษย์เข้าใจได้ง่าย เช่น topology diagram และ animation
Ouroboros ถูกรันภายใน Claude Code ด้วย ooo workflow และ
ผลงานที่ส่งไม่ได้มีแค่การเขียนโค้ด แต่ยังรวมถึงแอนิเมชันการขนแร่ของรถบรรทุกในเหมืองและ topology diagram ด้วย
อีกจุดที่น่าสนใจคือ แม้ MCP server จะล้มเหลวระหว่างการทำงาน
Ouroboros ก็ยัง fallback ด้วยแนวทางแบบ skills-based และทำผลงานออกมาได้ดี
ส่วนตัวผมมองว่าจุดนี้มีความหมายเป็นพิเศษ
เพราะในสภาพแวดล้อมจริง เวิร์กโฟลว์ AI ไม่ได้ทำงานอย่างสมบูรณ์แบบเสมอไป
ดังนั้นความสามารถในการกู้คืนเมื่อเกิดความล้มเหลว และเดินหน้าต่อด้วยเส้นทางอื่นจึงสำคัญ
ทิศทางที่ Ouroboros มุ่งไป ไม่ใช่แค่ “ให้ AI เขียนโค้ด” เท่านั้น
แต่มันคือการสร้างเวิร์กโฟลว์ที่ทำให้ AI สามารถนิยามปัญหาอย่างชัดเจน วางแผน ลงมือทำ กู้คืนจากความล้มเหลว ประเมินผลลัพธ์
และหากจำเป็นก็ปรับปรุงใหม่อีกครั้ง
ผมมองว่าเบนช์มาร์กครั้งนี้เป็นการยืนยันที่ดีว่าแนวทางลักษณะนี้มีความหมายจริง แม้กับการแก้ปัญหาที่ซับซ้อนในโลกจริง
อีกจุดที่น่าสนใจคือ วิธีที่ใส่คำสั่งจำนวนมากหรือแนบ skill ขนาดใหญ่เข้าไป ไม่ได้ให้ผลลัพธ์ที่ดีกว่าเสมอไป
ผลลัพธ์ครั้งนี้แสดงให้เห็นว่าแนวทางที่อิง fat skills บางแบบ (เช่น superpowers) กลับมีประสิทธิภาพต่ำกว่า plan mode พื้นฐานเสียอีก
ในทางกลับกัน เวิร์กโฟลว์ที่จัดโครงสร้างเรื่องการนิยามปัญหา การวางแผน การลงมือทำ การประเมิน และการกู้คืน อย่าง Ouroboros กลับให้ผลลัพธ์ที่ดีกว่า
ส่วนตัวผมรู้สึกภูมิใจที่นี่เป็น “กรณีที่โอเพนซอร์ส AI workflow ที่สร้างโดยนักพัฒนาชาวเกาหลี
ทำผลงานเหนือกว่า plan mode พื้นฐานของ Anthropic”
แต่ที่สำคัญยิ่งกว่านั้น ผมมองว่านี่เป็นผลการทดลองเล็ก ๆ ว่า ในอนาคต AI agent ควรมีโครงสร้างแบบใด
เพื่อแก้ปัญหาจริงได้อย่างมีประสิทธิภาพ
- Ouroboros GitHub: https://github.com/Q00/ouroboros
- Benchmark: https://lnkd.in/dhGMsGVD
ยังไม่มีความคิดเห็น