civStation – เอเจนต์บนพื้นฐาน computer-use VLM สำหรับควบคุม Civilization VI ในระดับกลยุทธ์ (รวมถึง Human in the loop)

ironman0722 · 2026-03-31T14:03:37+09:00

harness ของ computer-use VLM สำหรับเล่น Civilization VI ด้วยคำสั่งภาษาธรรมชาติ “ขยายไปทางตะวันออก”, “เน้นเศรษฐกิจ”, “ชัยชนะทางวิทยาศาสตร์” เป็นต้น โดยป้อน intent ระดับสูง → เอเจนต์ทำการควบคุมจริง โครงสร้าง 3 ชั้นที่แยกกลยุทธ์ออกจากการปฏิบัติการ (Strategy / Action / HITL) Strategy Layer: ภาษาธรรมชาติ → แปลงเป็นเป้าหมายที่มีโครงสร้าง, รักษากลยุทธ์ระยะยาว และทำ task decomposition Action Layer: รับรู้สถานะจากหน้าจอด้วย VLM + ดำเนินการด้วยเมาส์/คีย์บอร์ด (ไม่มี game API) HITL Layer: โครงสร้าง controllable autonomy ที่สามารถแทรกแซง/แก้ไข/หยุดได้ระหว่างการทำงาน หนึ่งกลยุทธ์ → ถูกแยกเป็นหลาย action sequence และเกิดการเรียกโมเดล 2~16 ครั้งต่อ task ใช้แนวทางซับเอเจนต์เพื่อดำเนินงานเป็นหน่วย task ที่มีขอบเขตชัดเจน เช่น การจัดการเมือง การเคลื่อนย้ายยูนิต เป็นการทดลองเปลี่ยนจากวิธี RL/IL/สคริปต์แบบเดิม ไปสู่ “การแปลงอินเทอร์เฟซจาก intent → action” ไม่ใช่การสั่งงานโดยตรง แต่เป็นแนวทางมอบหมายกลยุทธ์และ orchestration ของเอเจนต์ ประเด็นทางเทคนิคหลัก: ความผิดพลาดในการรับรู้ของ VLM, execution drift, ความยากในการตรวจสอบความสำเร็จ ในการทำงานหลายขั้นตอน latency และค่าใช้จ่าย API เพิ่มขึ้น รวมถึงคุณภาพของ fallback strategy ลดลง ไม่ได้เป็นระบบอัตโนมัติเต็มรูปแบบ แต่รองรับการปรับแก้และควบคุมกลยุทธ์แบบเรียลไทม์ด้วย human-in-the-loop เป็นระบบเชิงทดลองที่จัดการปัญหา agent control / verification ในสภาพแวดล้อมที่มีแต่ UI โฟกัสไม่ได้อยู่ที่การเล่นเกมเอง แต่คือ “การยกระดับอินเทอร์เฟซมนุษย์-ระบบไปสู่ระดับกลยุทธ์”

(github.com/NomaDamas)

7 คะแนน โดย ironman0722 2026-03-31 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

harness ของ computer-use VLM สำหรับเล่น Civilization VI ด้วยคำสั่งภาษาธรรมชาติ
“ขยายไปทางตะวันออก”, “เน้นเศรษฐกิจ”, “ชัยชนะทางวิทยาศาสตร์” เป็นต้น โดยป้อน intent ระดับสูง → เอเจนต์ทำการควบคุมจริง
โครงสร้าง 3 ชั้นที่แยกกลยุทธ์ออกจากการปฏิบัติการ (Strategy / Action / HITL)
- Strategy Layer: ภาษาธรรมชาติ → แปลงเป็นเป้าหมายที่มีโครงสร้าง, รักษากลยุทธ์ระยะยาว และทำ task decomposition
- Action Layer: รับรู้สถานะจากหน้าจอด้วย VLM + ดำเนินการด้วยเมาส์/คีย์บอร์ด (ไม่มี game API)
- HITL Layer: โครงสร้าง controllable autonomy ที่สามารถแทรกแซง/แก้ไข/หยุดได้ระหว่างการทำงาน
หนึ่งกลยุทธ์ → ถูกแยกเป็นหลาย action sequence และเกิดการเรียกโมเดล 2~16 ครั้งต่อ task
ใช้แนวทางซับเอเจนต์เพื่อดำเนินงานเป็นหน่วย task ที่มีขอบเขตชัดเจน เช่น การจัดการเมือง การเคลื่อนย้ายยูนิต
เป็นการทดลองเปลี่ยนจากวิธี RL/IL/สคริปต์แบบเดิม ไปสู่ “การแปลงอินเทอร์เฟซจาก intent → action”
ไม่ใช่การสั่งงานโดยตรง แต่เป็นแนวทางมอบหมายกลยุทธ์และ orchestration ของเอเจนต์
ประเด็นทางเทคนิคหลัก:
- ความผิดพลาดในการรับรู้ของ VLM,
- execution drift,
- ความยากในการตรวจสอบความสำเร็จ
- ในการทำงานหลายขั้นตอน latency และค่าใช้จ่าย API เพิ่มขึ้น รวมถึงคุณภาพของ fallback strategy ลดลง
ไม่ได้เป็นระบบอัตโนมัติเต็มรูปแบบ แต่รองรับการปรับแก้และควบคุมกลยุทธ์แบบเรียลไทม์ด้วย human-in-the-loop
เป็นระบบเชิงทดลองที่จัดการปัญหา agent control / verification ในสภาพแวดล้อมที่มีแต่ UI
โฟกัสไม่ได้อยู่ที่การเล่นเกมเอง แต่คือ “การยกระดับอินเทอร์เฟซมนุษย์-ระบบไปสู่ระดับกลยุทธ์”

1 ความคิดเห็น

bus710 2026-04-01

ระหว่างที่กำลังมุ่งหน้าไปสู่ชัยชนะแบบยึดครอง/วัฒนธรรม/วิทยาศาสตร์/การทูตอย่างขะมักเขม้น ก็มักจะโดนหักหลังด้วยชัยชนะทางศาสนาจากที่ไหนสักแห่งอยู่เสมอ

civStation – เอเจนต์บนพื้นฐาน computer-use VLM สำหรับควบคุม Civilization VI ในระดับกลยุทธ์ (รวมถึง Human in the loop)

บทความที่เกี่ยวข้อง

1 ความคิดเห็น