civStation – เอเจนต์บนพื้นฐาน computer-use VLM สำหรับควบคุม Civilization VI ในระดับกลยุทธ์ (รวมถึง Human in the loop)
(github.com/NomaDamas)-
harness ของ computer-use VLM สำหรับเล่น Civilization VI ด้วยคำสั่งภาษาธรรมชาติ
“ขยายไปทางตะวันออก”, “เน้นเศรษฐกิจ”, “ชัยชนะทางวิทยาศาสตร์” เป็นต้น โดยป้อน intent ระดับสูง → เอเจนต์ทำการควบคุมจริง -
โครงสร้าง 3 ชั้นที่แยกกลยุทธ์ออกจากการปฏิบัติการ (Strategy / Action / HITL)
- Strategy Layer: ภาษาธรรมชาติ → แปลงเป็นเป้าหมายที่มีโครงสร้าง, รักษากลยุทธ์ระยะยาว และทำ task decomposition
- Action Layer: รับรู้สถานะจากหน้าจอด้วย VLM + ดำเนินการด้วยเมาส์/คีย์บอร์ด (ไม่มี game API)
- HITL Layer: โครงสร้าง controllable autonomy ที่สามารถแทรกแซง/แก้ไข/หยุดได้ระหว่างการทำงาน
-
หนึ่งกลยุทธ์ → ถูกแยกเป็นหลาย action sequence และเกิดการเรียกโมเดล 2~16 ครั้งต่อ task
-
ใช้แนวทางซับเอเจนต์เพื่อดำเนินงานเป็นหน่วย task ที่มีขอบเขตชัดเจน เช่น การจัดการเมือง การเคลื่อนย้ายยูนิต
-
เป็นการทดลองเปลี่ยนจากวิธี RL/IL/สคริปต์แบบเดิม ไปสู่ “การแปลงอินเทอร์เฟซจาก intent → action”
-
ไม่ใช่การสั่งงานโดยตรง แต่เป็นแนวทางมอบหมายกลยุทธ์และ orchestration ของเอเจนต์
-
ประเด็นทางเทคนิคหลัก:
- ความผิดพลาดในการรับรู้ของ VLM,
- execution drift,
- ความยากในการตรวจสอบความสำเร็จ
- ในการทำงานหลายขั้นตอน latency และค่าใช้จ่าย API เพิ่มขึ้น รวมถึงคุณภาพของ fallback strategy ลดลง
-
ไม่ได้เป็นระบบอัตโนมัติเต็มรูปแบบ แต่รองรับการปรับแก้และควบคุมกลยุทธ์แบบเรียลไทม์ด้วย human-in-the-loop
-
เป็นระบบเชิงทดลองที่จัดการปัญหา agent control / verification ในสภาพแวดล้อมที่มีแต่ UI
-
โฟกัสไม่ได้อยู่ที่การเล่นเกมเอง แต่คือ “การยกระดับอินเทอร์เฟซมนุษย์-ระบบไปสู่ระดับกลยุทธ์”
1 ความคิดเห็น
ระหว่างที่กำลังมุ่งหน้าไปสู่ชัยชนะแบบยึดครอง/วัฒนธรรม/วิทยาศาสตร์/การทูตอย่างขะมักเขม้น ก็มักจะโดนหักหลังด้วยชัยชนะทางศาสนาจากที่ไหนสักแห่งอยู่เสมอ