1 คะแนน โดย GN⁺ 2025-03-12 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Factorio Learning Environment (FLE) ที่อิงจากเกม Factorio เป็นสภาพแวดล้อมสำหรับทดสอบการวางแผนระยะยาว การสร้างโปรแกรม และการเพิ่มประสิทธิภาพทรัพยากร
  • FLE มอบความท้าทายที่ขยายได้ตั้งแต่ระบบอัตโนมัติพื้นฐานไปจนถึงโรงงานที่ซับซ้อน และมีการตั้งค่า 2 แบบ: 'Lab-play' ซึ่งให้ทำงานแบบมีโครงสร้าง 24 งานด้วยทรัพยากรคงที่ และ 'Open-play' ซึ่งมอบภารกิจได้ไม่จำกัด
  • ความสำคัญของ FLE
    • FLE มีโครงสร้างพื้นฐาน, API และเมตริกสำหรับประเมินการสร้างโค้ด การให้เหตุผลเชิงพื้นที่ และการวางแผนระยะยาว
    • เอเจนต์ต้องสกัดทรัพยากรและจัดการสายการผลิตที่ซับซ้อน พร้อมทั้งตั้งและบรรลุเป้าหมายที่ซับซ้อนขึ้นเรื่อย ๆ
  • สภาพแวดล้อมและเอเจนต์
    • เอเจนต์โต้ตอบกับสภาพแวดล้อมผ่าน Python API โดยส่งโปรแกรมและรับฟีดแบ็กเพื่อนำไปปรับปรุงกลยุทธ์
    • โปรแกรมของเอเจนต์สร้างคะแนนการผลิต (PS) และหมุดหมายที่แสดงถึงความก้าวหน้าทางเทคโนโลยี
  • การตั้งค่าการทดลอง
    • มีการตั้งค่าการทดลอง 2 แบบ: 'Open-play' และ 'Lab-play'
    • ประเมินโมเดลภาษาล้ำสมัย 6 รุ่น: Claude 3.5-Sonnet, GPT-4o, GPT-4o-Mini, Deepseek-v3, Gemini-2-Flash, Llama-3.3-70B-Instruct
  • Open-Play
    • เอเจนต์มีเป้าหมายคือ "สร้างโรงงานที่ใหญ่ที่สุด" ในโลกที่สร้างขึ้นแบบเชิงกระบวนการ
    • ประเมินความสามารถของเอเจนต์ผ่านคะแนนการผลิต โดยโมเดลที่เหนือกว่าจะมีคะแนนสูงกว่าและมีเส้นโค้งการเติบโตที่ชันกว่า
  • Lab-Play
    • เอเจนต์จะได้รับทรัพยากรและต้องบรรลุเป้าหมายภายในเวลาที่จำกัด
    • ทำภารกิจผลิตเอนทิตีเป้าหมาย 24 รายการ โดยแต่ละเอนทิตีมีความซับซ้อนเพิ่มขึ้นเรื่อย ๆ
  • ข้อค้นพบสำคัญ
    • ความสามารถด้านการเขียนโค้ดเป็นตัวทำนายประสิทธิภาพ ขณะที่การลงทุนด้านเทคโนโลยีและการวางแผนเป็นตัวขับเคลื่อนการเติบโต
    • การให้เหตุผลเชิงพื้นที่และการกู้คืนจากข้อผิดพลาดเป็นความท้าทายหลัก
    • โมเดลต่าง ๆ แสดงรูปแบบการเขียนโปรแกรมที่แตกต่างกัน
  • สรุป
    • แม้แต่ LLM รุ่นล่าสุดก็ยังมีปัญหากับโจทย์การประสานงานและการเพิ่มประสิทธิภาพในงานอัตโนมัติ
    • ความซับซ้อนของ tech tree ใน Factorio ยังคงเป็นสถานการณ์ประเมินที่ท้าทาย แม้งานวิจัย AI จะก้าวหน้าต่อไปก็ตาม
    • FLE เปิดให้ใช้งานในฐานะแพลตฟอร์มโอเพนซอร์สสำหรับศึกษาความสามารถของเอเจนต์ในโดเมนที่ซับซ้อนและไร้ขีดจำกัด

1 ความคิดเห็น

 
GN⁺ 2025-03-12
ความคิดเห็นบน Hacker News
  • อยากสมัครเข้าร่วมแล็บวิจัย Factorio ของ Anthropic สงสัยว่ามีการส่งข้อมูลแบบมัลติโหมดหรือไม่ Qwen 2.5 VLM ที่เพิ่งออกมาดูล้ำเกินขนาดของมันมาก

    • มีการพูดถึงข้อจำกัดด้านความสามารถเชิงพื้นที่อยู่มาก อยากรู้ว่าคิดอย่างไรเกี่ยวกับการส่งภาพหรือไม่ส่งภาพ
    • งานนี้น่าทึ่งมาก อยากเข้าร่วมโปรเจ็กต์นี้เดี๋ยวนี้เลย
    • MCP ดูเหมือนเป็นงานที่จำเป็นโดยธรรมชาติในการเปิดใช้ไลบรารี Python
  • เคยมีโพสต์บน HN เกี่ยวกับทีมที่ใช้ reinforcement learning จนชนะ Pokémon Red สงสัยว่าวิธีนี้จะใช้กับ Factorio ได้หรือไม่

    • "งานจำเป็น" หลักของ Factorio คือการตั้งค่าอัตโนมัติสำหรับไอเท็มใหม่และ science pack
    • ฟังก์ชันรางวัลอาจรวมถึงรางวัลเล็กสำหรับอัตราการผลิตของแต่ละไอเท็ม รางวัลระดับกลางสำหรับการทำระบบอัตโนมัติของไอเท็มใหม่ และรางวัลใหญ่สำหรับการทำระบบอัตโนมัติของ science pack ใหม่
    • การบอกเอเจนต์ Factorio ว่า "สร้างโรงงานขนาดใหญ่" ก็เหมือนกับการบอกเอเจนต์ Pokémon Red ว่า "ชนะเกมให้ได้"
  • ทุกโมเดลแสดงข้อจำกัดด้านการวางแผนพื้นที่เมื่อสร้างโรงงานแบบหลายส่วน

    • เหตุผลที่ LLM อ่อนด้านการให้เหตุผลเชิงพื้นที่อาจเป็นเพราะมีข้อมูลฝึกไม่มาก
    • ถ้าแก้ปัญหาการให้เหตุผลเชิงพื้นที่ได้ จะมีความสามารถด้านการให้เหตุผลเพิ่มเติมแบบไหนปรากฏขึ้นอีกบ้างก็น่าสงสัย
  • สามารถใช้ LLM เป็นเอเจนต์ระดับสูงเพื่อสร้างโรงงานขนาดใหญ่ที่มีประสิทธิภาพได้แบบอัตโนมัติ

    • ตั้งเป้าหมายสำหรับการผลิตทรัพยากร
    • สร้างกราฟของโรงงานและคำนวณการขนส่งทรัพยากร
    • แมปกราฟไปยัง hardware description language
    • คอมไพล์เป็นเลย์เอาต์ 2D FPGA
    • แมปแผนไปเป็นดีไซน์ Factorio ที่เป็นรูปธรรม
  • มีองค์ประกอบน่าสนใจให้ทดลองมากมาย สถานการณ์ในแล็บที่มีองค์ประกอบด้านเวลาดูเป็นไอเดียที่ดี

    • ชอบการออกแบบเฟรมเวิร์กที่แตกต่างจากการทดลอง DOTA 2 หรือ StarCraft 2
    • สงสัยว่ามีแผนทำเบนช์มาร์กการปรับเลย์เอาต์ให้เหมาะสมที่สุดหรือไม่
  • สงสัยว่ามีเบนช์มาร์กการเล่นของมนุษย์สำหรับอินเทอร์เฟซสไตล์นี้หรือไม่

    • สงสัยว่า Factorio แบบเขียนโปรแกรมจะให้ความรู้สึกอย่างไร
  • สงสัยว่าอีกไม่กี่ปีต่อจากนี้ คู่ต่อสู้ในเกมทั้งหมดจะกลายเป็น LLM ที่เข้าถึง game control API ได้หรือไม่

    • สงสัยว่ามีประเภทของงานเฉพาะอะไรบ้างที่โมเดลยังลำบาก
  • ในฐานะอีกหมวดหนึ่งของงาน "Lab Play" การออกแบบ balancer น่าจะน่าสนใจ

    • แม้แต่ balancer ขนาดเล็กก็อาจซับซ้อนได้
  • อยากเห็นภาพของโรงงานที่ใหญ่กว่านี้อีก

    • มันแสดงจุดอ่อนใหญ่ของ LLM ในปัจจุบันได้ชัดเจน
    • คาดหวังการปรับปรุงที่มากขึ้นจากการเรียนรู้/การปรับตัวแบบออนไลน์
  • น่าสนใจที่มีสถานการณ์ซับซ้อนอยู่เพียงไม่กี่แบบ

    • ผมคิดมาตลอดว่าเอเจนต์เกม ML ต้องการปริศนาเล็ก ๆ หลายร้อยข้อเพื่อเรียนรู้กลไกของเกมอย่างเหมาะสม
    • สามารถสร้างสถานการณ์ขึ้นแบบโปรแกรมเพื่อใช้เหมือนคลังคำถามทดสอบ IQ
    • คาดว่าเอเจนต์ ML จะเรียนรู้ได้เร็วขึ้นเมื่อประเมินตัวอย่างจากคลังสถานการณ์ที่ใหญ่กว่า