7 คะแนน โดย ironman0722 2026-03-31 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • harness ของ computer-use VLM สำหรับเล่น Civilization VI ด้วยคำสั่งภาษาธรรมชาติ
    “ขยายไปทางตะวันออก”, “เน้นเศรษฐกิจ”, “ชัยชนะทางวิทยาศาสตร์” เป็นต้น โดยป้อน intent ระดับสูง → เอเจนต์ทำการควบคุมจริง

  • โครงสร้าง 3 ชั้นที่แยกกลยุทธ์ออกจากการปฏิบัติการ (Strategy / Action / HITL)

    • Strategy Layer: ภาษาธรรมชาติ → แปลงเป็นเป้าหมายที่มีโครงสร้าง, รักษากลยุทธ์ระยะยาว และทำ task decomposition
    • Action Layer: รับรู้สถานะจากหน้าจอด้วย VLM + ดำเนินการด้วยเมาส์/คีย์บอร์ด (ไม่มี game API)
    • HITL Layer: โครงสร้าง controllable autonomy ที่สามารถแทรกแซง/แก้ไข/หยุดได้ระหว่างการทำงาน
  • หนึ่งกลยุทธ์ → ถูกแยกเป็นหลาย action sequence และเกิดการเรียกโมเดล 2~16 ครั้งต่อ task

  • ใช้แนวทางซับเอเจนต์เพื่อดำเนินงานเป็นหน่วย task ที่มีขอบเขตชัดเจน เช่น การจัดการเมือง การเคลื่อนย้ายยูนิต

  • เป็นการทดลองเปลี่ยนจากวิธี RL/IL/สคริปต์แบบเดิม ไปสู่ “การแปลงอินเทอร์เฟซจาก intent → action”

  • ไม่ใช่การสั่งงานโดยตรง แต่เป็นแนวทางมอบหมายกลยุทธ์และ orchestration ของเอเจนต์

  • ประเด็นทางเทคนิคหลัก:

    • ความผิดพลาดในการรับรู้ของ VLM,
    • execution drift,
    • ความยากในการตรวจสอบความสำเร็จ
    • ในการทำงานหลายขั้นตอน latency และค่าใช้จ่าย API เพิ่มขึ้น รวมถึงคุณภาพของ fallback strategy ลดลง
  • ไม่ได้เป็นระบบอัตโนมัติเต็มรูปแบบ แต่รองรับการปรับแก้และควบคุมกลยุทธ์แบบเรียลไทม์ด้วย human-in-the-loop

  • เป็นระบบเชิงทดลองที่จัดการปัญหา agent control / verification ในสภาพแวดล้อมที่มีแต่ UI

  • โฟกัสไม่ได้อยู่ที่การเล่นเกมเอง แต่คือ “การยกระดับอินเทอร์เฟซมนุษย์-ระบบไปสู่ระดับกลยุทธ์”

1 ความคิดเห็น

 
bus710 2026-04-01

ระหว่างที่กำลังมุ่งหน้าไปสู่ชัยชนะแบบยึดครอง/วัฒนธรรม/วิทยาศาสตร์/การทูตอย่างขะมักเขม้น ก็มักจะโดนหักหลังด้วยชัยชนะทางศาสนาจากที่ไหนสักแห่งอยู่เสมอ