• นำเกมสืบเชิงคลาสสิก Battleship มาปรับเป็นรูปแบบถาม-ตอบด้วยภาษาธรรมชาติ เพื่อสร้าง testbed สำหรับวัดความสามารถของเอเจนต์ AI ในการตั้ง คำถามที่ดี ภายใต้สภาพแวดล้อมที่ไม่แน่นอน
  • เกมดำเนินในโครงสร้างที่ผู้เล่นคนหนึ่งเป็น กัปตัน (captain) คอยถามตำแหน่งเรือที่ซ่อนอยู่ และเพื่อนร่วมทีมเป็น ผู้สังเกตการณ์ (spotter) คอยตอบแบบเรียลไทม์ พร้อมสร้างชุดข้อมูล BattleshipQA จากข้อมูลการเล่นของผู้เข้าร่วมมากกว่า 40 คน
  • แม้ไม่มีการฝึกล่วงหน้า โมเดลขนาดใหญ่เช่น GPT-5 ก็ชนะได้ด้วยจำนวนเทิร์นน้อยกว่ามนุษย์ แต่โมเดลขนาดเล็กยังไม่ชำนาญในการสร้างคำถามที่เป็นประโยชน์ จึงมีการใช้ กลยุทธ์การอนุมานแบบ Monte Carlo
  • Llama 4 Scout มีอัตราชนะเหนือมนุษย์เพิ่มจาก 8% เป็น 82% หลังการปรับปรุง และแซง GPT-5 ได้ ขณะที่มีต้นทุนเพียงราว 1%
  • เป็นหลักฐานว่าโมเดลขนาดเล็กสามารถเอาชนะโมเดลใหญ่ได้อย่างคุ้มค่าต้นทุน และชี้ให้เห็นศักยภาพในงานค้นพบทางวิทยาศาสตร์ที่ต้องการการค้นหาแบบ needle-in-a-haystack

ภูมิหลังของงานวิจัย: ข้อจำกัดของการสำรวจข้อมูลของเอเจนต์ AI

  • ในปี 2026 ความคาดหวังต่อเอเจนต์ AI สูงกว่าที่เคย และมีการใช้ language model (LM) ทำงานที่นิยามชัดเจน เช่น บริการลูกค้าและการพัฒนาซอฟต์แวร์
  • แต่ในสาขาอย่างการวินิจฉัยทางการแพทย์หรือการค้นพบทางวิทยาศาสตร์ ที่ต้องสำรวจคำตอบจำนวนมากในสภาพแวดล้อมที่ไม่แน่นอน LM ยังทำได้ยาก
  • นักวิจัยจาก MIT CSAIL และ Harvard SEAS ต้องการวิเคราะห์ปัญหาหลักของ LM ในสถานการณ์ความเสี่ยงสูง จึงเลือกใช้ Battleship ซึ่งถูกใช้ในการศึกษาด้าน การสำรวจข้อมูลของมนุษย์ ในสายวิทยาการรับรู้มาเป็นแบบทดสอบ

เกม Collaborative Battleship และชุดข้อมูล BattleshipQA

  • ปรับเกมให้อยู่ในรูปแบบที่เน้นการถาม-ตอบด้วยภาษาธรรมชาติ โดยผู้เข้าร่วมคนหนึ่งรับบท กัปตัน คอยถามตำแหน่งเรือที่ซ่อนอยู่ และเพื่อนร่วมทีมรับบท ผู้สังเกตการณ์ คอยตอบแบบเรียลไทม์
  • มีผู้เล่นมากกว่า 40 คนร่วมเล่นและเก็บรวบรวมคำถามกับคำตอบแบบใช่/ไม่ใช่ เพื่อสร้างชุดข้อมูล BattleshipQA
  • ข้อมูลนี้ถูกใช้เป็นเกณฑ์เปรียบเทียบในการทดสอบ LM รุ่นใหม่อย่าง GPT-5 และโมเดลขนาดเล็กอย่าง Llama 4 Scout
  • แม้ไม่มีการฝึกล่วงหน้า LM ระดับบนสุดก็สามารถ “ชนะ” เกมได้ด้วยจำนวนเทิร์นน้อยกว่ามนุษย์ แต่ระบบขนาดเล็กมีความไร้เหตุผลมากกว่าชัดเจน

การตั้งคำถามให้ดีขึ้น — กลยุทธ์การอนุมานแบบ Monte Carlo

  • ปัญหาหลักคือหลายโมเดลไม่สามารถสร้าง คำถามที่เป็นประโยชน์ ได้
  • นักวิจัยจึงมอบ กลยุทธ์การอนุมานแบบ Monte Carlo ให้แต่ละโมเดล เพื่อประเมินความเป็นไปได้ที่ตัวเลือกแต่ละข้อจะเป็นคำตอบที่ถูกต้องทุกครั้งที่ได้รับคำตอบกลับมา และทำให้ชนะผู้เล่นทั่วไปได้โดยไม่ขึ้นกับขนาดโมเดล
  • LM จะจัดการสมมติฐานที่เป็นไปได้เป็น particle แยกกัน และทุกครั้งที่ผู้สังเกตการณ์ตอบ ก็จะเพิ่มน้ำหนักให้สมมติฐานที่ดูสมเหตุสมผลมากกว่า
    • กลไกนี้ทำงานเหมือนลูกบอลในเกมที่พองหรือหดได้ทุกเทิร์น ทำให้กัปตันดึงข้อมูลจากผู้สังเกตการณ์ได้มากขึ้นมาก
  • Llama 4 Scout เคยมีอัตราชนะเหนือมนุษย์เพียง 8% ในฐานะโมเดลขนาดเล็ก แต่หลังปรับปรุงด้วยกลยุทธ์การอนุมานก็ขึ้นถึง 82% พร้อมแซง GPT-5 โดยมีต้นทุนราว 1% เท่านั้น

การตอบให้แม่นยำขึ้น — แปลงเป็นโค้ด Python

  • GPT-5 เป็นผู้สังเกตการณ์ที่เชื่อถือได้ แต่ระบบขนาดเล็กมีแนวโน้มตอบตำแหน่งเรือผิด
  • นักวิจัยจึงแปลงคำถามของกัปตันเป็น คำสั่งแบบเข้ารหัส โดยอัตโนมัติ เพื่อให้ LM ฝั่งผู้สังเกตการณ์ช่วยตรวจสอบคำตอบ ส่งผลให้ความแม่นยำเฉลี่ยดีขึ้น 15%
    • ตัวอย่าง: "มีเรือที่กินพื้นที่สองแถวในคอลัมน์ 1 หรือไม่?" → แปลงเป็นคำสั่งให้สำรวจพื้นที่นั้นและประเมินความกว้างของหมากในเกม
  • เมื่อให้คำสั่งที่ชัดเจนในภาษา Python ซึ่งเป็นภาษาที่โมเดลเข้าใจได้ดีเป็นพิเศษ อัตราการตอบถูกก็เพิ่มขึ้นมาก
    • โมเดลเบาอย่าง GPT-4o-mini มีประสิทธิภาพดีขึ้นราว 30% ส่วนโมเดลใหญ่ Claude 4 Opus ก็เพิ่มขึ้นราว 8 จุด
  • จากความสำเร็จของกลยุทธ์ auto-formalization ที่ให้ LM สร้างโค้ดเพื่อตรวจสอบคำตอบ งานวิจัยนี้จึงชี้ให้เห็นความเป็นไปได้ในการสร้างคำตอบที่ดีกว่าผ่านการปรับปรุงความสามารถด้านการสำรวจและการรวบรวมข้อมูล

ขยายไปยังเกมอื่น — Guess Who?

  • เทคนิคเดียวกันถูกนำไปใช้กับ Guess Who? ซึ่งเป็นเกมที่ต้องค่อย ๆ ตัดตัวเลือกจาก 100 ตัวเลือกเพื่อทายตัวละครที่ซ่อนอยู่
  • Llama 4 Scout เพิ่มจาก 30% เป็นมากกว่า 72% และ GPT-4o เพิ่มจาก 62% เป็น 90% โดยในแต่ละเกม GPT-5 รับบทเป็นผู้สังเกตการณ์
  • อย่างไรก็ตาม โมเดลยังคงมีปัญหาในการตอบ คำถามที่ซับซ้อน มากกว่ามนุษย์
    • GPT-5 ชนะผู้เล่น Battleship ระดับเฉลี่ยได้ และดีขึ้นเล็กน้อยเมื่อใช้เทคนิคนี้ แต่ต่างจากหมากรุกที่ผู้เล่นระดับเชี่ยวชาญยังเป็นคู่แข่งที่ทุกโมเดลเอาชนะได้ยาก

โจทย์ที่ยังเหลือและทิศทางต่อไป

  • เอเจนต์ AI มีศักยภาพในการค้นหาแบบ needle-in-a-haystack เพื่อหาคำตอบหายากท่ามกลางตัวเลือกมหาศาล
    • จึงอาจถูกใช้เป็นผู้ช่วยวิจัยที่มีประสิทธิภาพในงานวิทยาศาสตร์ เช่น การระบุโครงสร้างโมเลกุลของสารประกอบ
  • Collaborative Battleship ยังเป็น testbed ที่ค่อนข้างเรียบง่าย และจำเป็นต้องมีการตรวจสอบเพิ่มเติมใน สภาพแวดล้อมที่ซับซ้อน ซึ่งต้องพิจารณาตัวเลือกมากกว่านี้
  • แผนต่อไปคือศึกษาผลของการทำงานร่วมกันระหว่างมนุษย์กับ AI, การทำ fine-tuning จากการจำลองเกม และการเพิ่มทรัพยากรประมวลผลเพื่อให้ได้ความสามารถด้านการอนุมานที่สูงขึ้น
  • ยิ่งเอเจนต์มีความอัตโนมัติมากขึ้น ปัญหาทางสังคม อย่างการติดตามฐานความเข้าใจร่วม การคลี่คลายความเข้าใจผิด และการปรับตัวเข้ากับคู่สนทนา จะยิ่งกลายเป็นความท้าทายที่ยากที่สุด โดยมองว่าคอขวดที่แท้จริงไม่ใช่แค่การคำนวณคำถามที่เหมาะสมที่สุด แต่คือ การอนุมานเชิงปฏิบัติ ที่ใช้ประโยชน์จากคำตอบให้ได้สูงสุด

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น