สอนเอเจนต์ AI ให้ตั้งคำถามได้ดีขึ้นด้วยเกม 'Battleship'

(news.mit.edu)

1 คะแนน โดย GN⁺ 2026-06-04 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

นำเกมสืบเชิงคลาสสิก Battleship มาปรับเป็นรูปแบบถาม-ตอบด้วยภาษาธรรมชาติ เพื่อสร้าง testbed สำหรับวัดความสามารถของเอเจนต์ AI ในการตั้ง คำถามที่ดี ภายใต้สภาพแวดล้อมที่ไม่แน่นอน
เกมดำเนินในโครงสร้างที่ผู้เล่นคนหนึ่งเป็น กัปตัน (captain) คอยถามตำแหน่งเรือที่ซ่อนอยู่ และเพื่อนร่วมทีมเป็น ผู้สังเกตการณ์ (spotter) คอยตอบแบบเรียลไทม์ พร้อมสร้างชุดข้อมูล BattleshipQA จากข้อมูลการเล่นของผู้เข้าร่วมมากกว่า 40 คน
แม้ไม่มีการฝึกล่วงหน้า โมเดลขนาดใหญ่เช่น GPT-5 ก็ชนะได้ด้วยจำนวนเทิร์นน้อยกว่ามนุษย์ แต่โมเดลขนาดเล็กยังไม่ชำนาญในการสร้างคำถามที่เป็นประโยชน์ จึงมีการใช้ กลยุทธ์การอนุมานแบบ Monte Carlo
Llama 4 Scout มีอัตราชนะเหนือมนุษย์เพิ่มจาก 8% เป็น 82% หลังการปรับปรุง และแซง GPT-5 ได้ ขณะที่มีต้นทุนเพียงราว 1%
เป็นหลักฐานว่าโมเดลขนาดเล็กสามารถเอาชนะโมเดลใหญ่ได้อย่างคุ้มค่าต้นทุน และชี้ให้เห็นศักยภาพในงานค้นพบทางวิทยาศาสตร์ที่ต้องการการค้นหาแบบ needle-in-a-haystack

ภูมิหลังของงานวิจัย: ข้อจำกัดของการสำรวจข้อมูลของเอเจนต์ AI

ในปี 2026 ความคาดหวังต่อเอเจนต์ AI สูงกว่าที่เคย และมีการใช้ language model (LM) ทำงานที่นิยามชัดเจน เช่น บริการลูกค้าและการพัฒนาซอฟต์แวร์
แต่ในสาขาอย่างการวินิจฉัยทางการแพทย์หรือการค้นพบทางวิทยาศาสตร์ ที่ต้องสำรวจคำตอบจำนวนมากในสภาพแวดล้อมที่ไม่แน่นอน LM ยังทำได้ยาก
นักวิจัยจาก MIT CSAIL และ Harvard SEAS ต้องการวิเคราะห์ปัญหาหลักของ LM ในสถานการณ์ความเสี่ยงสูง จึงเลือกใช้ Battleship ซึ่งถูกใช้ในการศึกษาด้าน การสำรวจข้อมูลของมนุษย์ ในสายวิทยาการรับรู้มาเป็นแบบทดสอบ

เกม Collaborative Battleship และชุดข้อมูล BattleshipQA

ปรับเกมให้อยู่ในรูปแบบที่เน้นการถาม-ตอบด้วยภาษาธรรมชาติ โดยผู้เข้าร่วมคนหนึ่งรับบท กัปตัน คอยถามตำแหน่งเรือที่ซ่อนอยู่ และเพื่อนร่วมทีมรับบท ผู้สังเกตการณ์ คอยตอบแบบเรียลไทม์
มีผู้เล่นมากกว่า 40 คนร่วมเล่นและเก็บรวบรวมคำถามกับคำตอบแบบใช่/ไม่ใช่ เพื่อสร้างชุดข้อมูล BattleshipQA
ข้อมูลนี้ถูกใช้เป็นเกณฑ์เปรียบเทียบในการทดสอบ LM รุ่นใหม่อย่าง GPT-5 และโมเดลขนาดเล็กอย่าง Llama 4 Scout
แม้ไม่มีการฝึกล่วงหน้า LM ระดับบนสุดก็สามารถ “ชนะ” เกมได้ด้วยจำนวนเทิร์นน้อยกว่ามนุษย์ แต่ระบบขนาดเล็กมีความไร้เหตุผลมากกว่าชัดเจน

การตั้งคำถามให้ดีขึ้น — กลยุทธ์การอนุมานแบบ Monte Carlo

ปัญหาหลักคือหลายโมเดลไม่สามารถสร้าง คำถามที่เป็นประโยชน์ ได้
นักวิจัยจึงมอบ กลยุทธ์การอนุมานแบบ Monte Carlo ให้แต่ละโมเดล เพื่อประเมินความเป็นไปได้ที่ตัวเลือกแต่ละข้อจะเป็นคำตอบที่ถูกต้องทุกครั้งที่ได้รับคำตอบกลับมา และทำให้ชนะผู้เล่นทั่วไปได้โดยไม่ขึ้นกับขนาดโมเดล
LM จะจัดการสมมติฐานที่เป็นไปได้เป็น particle แยกกัน และทุกครั้งที่ผู้สังเกตการณ์ตอบ ก็จะเพิ่มน้ำหนักให้สมมติฐานที่ดูสมเหตุสมผลมากกว่า
- กลไกนี้ทำงานเหมือนลูกบอลในเกมที่พองหรือหดได้ทุกเทิร์น ทำให้กัปตันดึงข้อมูลจากผู้สังเกตการณ์ได้มากขึ้นมาก
Llama 4 Scout เคยมีอัตราชนะเหนือมนุษย์เพียง 8% ในฐานะโมเดลขนาดเล็ก แต่หลังปรับปรุงด้วยกลยุทธ์การอนุมานก็ขึ้นถึง 82% พร้อมแซง GPT-5 โดยมีต้นทุนราว 1% เท่านั้น

การตอบให้แม่นยำขึ้น — แปลงเป็นโค้ด Python

GPT-5 เป็นผู้สังเกตการณ์ที่เชื่อถือได้ แต่ระบบขนาดเล็กมีแนวโน้มตอบตำแหน่งเรือผิด
นักวิจัยจึงแปลงคำถามของกัปตันเป็น คำสั่งแบบเข้ารหัส โดยอัตโนมัติ เพื่อให้ LM ฝั่งผู้สังเกตการณ์ช่วยตรวจสอบคำตอบ ส่งผลให้ความแม่นยำเฉลี่ยดีขึ้น 15%
- ตัวอย่าง: "มีเรือที่กินพื้นที่สองแถวในคอลัมน์ 1 หรือไม่?" → แปลงเป็นคำสั่งให้สำรวจพื้นที่นั้นและประเมินความกว้างของหมากในเกม
เมื่อให้คำสั่งที่ชัดเจนในภาษา Python ซึ่งเป็นภาษาที่โมเดลเข้าใจได้ดีเป็นพิเศษ อัตราการตอบถูกก็เพิ่มขึ้นมาก
- โมเดลเบาอย่าง GPT-4o-mini มีประสิทธิภาพดีขึ้นราว 30% ส่วนโมเดลใหญ่ Claude 4 Opus ก็เพิ่มขึ้นราว 8 จุด
จากความสำเร็จของกลยุทธ์ auto-formalization ที่ให้ LM สร้างโค้ดเพื่อตรวจสอบคำตอบ งานวิจัยนี้จึงชี้ให้เห็นความเป็นไปได้ในการสร้างคำตอบที่ดีกว่าผ่านการปรับปรุงความสามารถด้านการสำรวจและการรวบรวมข้อมูล

ขยายไปยังเกมอื่น — Guess Who?

เทคนิคเดียวกันถูกนำไปใช้กับ Guess Who? ซึ่งเป็นเกมที่ต้องค่อย ๆ ตัดตัวเลือกจาก 100 ตัวเลือกเพื่อทายตัวละครที่ซ่อนอยู่
Llama 4 Scout เพิ่มจาก 30% เป็นมากกว่า 72% และ GPT-4o เพิ่มจาก 62% เป็น 90% โดยในแต่ละเกม GPT-5 รับบทเป็นผู้สังเกตการณ์
อย่างไรก็ตาม โมเดลยังคงมีปัญหาในการตอบ คำถามที่ซับซ้อน มากกว่ามนุษย์
- GPT-5 ชนะผู้เล่น Battleship ระดับเฉลี่ยได้ และดีขึ้นเล็กน้อยเมื่อใช้เทคนิคนี้ แต่ต่างจากหมากรุกที่ผู้เล่นระดับเชี่ยวชาญยังเป็นคู่แข่งที่ทุกโมเดลเอาชนะได้ยาก

โจทย์ที่ยังเหลือและทิศทางต่อไป

เอเจนต์ AI มีศักยภาพในการค้นหาแบบ needle-in-a-haystack เพื่อหาคำตอบหายากท่ามกลางตัวเลือกมหาศาล
- จึงอาจถูกใช้เป็นผู้ช่วยวิจัยที่มีประสิทธิภาพในงานวิทยาศาสตร์ เช่น การระบุโครงสร้างโมเลกุลของสารประกอบ
Collaborative Battleship ยังเป็น testbed ที่ค่อนข้างเรียบง่าย และจำเป็นต้องมีการตรวจสอบเพิ่มเติมใน สภาพแวดล้อมที่ซับซ้อน ซึ่งต้องพิจารณาตัวเลือกมากกว่านี้
แผนต่อไปคือศึกษาผลของการทำงานร่วมกันระหว่างมนุษย์กับ AI, การทำ fine-tuning จากการจำลองเกม และการเพิ่มทรัพยากรประมวลผลเพื่อให้ได้ความสามารถด้านการอนุมานที่สูงขึ้น
ยิ่งเอเจนต์มีความอัตโนมัติมากขึ้น ปัญหาทางสังคม อย่างการติดตามฐานความเข้าใจร่วม การคลี่คลายความเข้าใจผิด และการปรับตัวเข้ากับคู่สนทนา จะยิ่งกลายเป็นความท้าทายที่ยากที่สุด โดยมองว่าคอขวดที่แท้จริงไม่ใช่แค่การคำนวณคำถามที่เหมาะสมที่สุด แต่คือ การอนุมานเชิงปฏิบัติ ที่ใช้ประโยชน์จากคำตอบให้ได้สูงสุด

สอนเอเจนต์ AI ให้ตั้งคำถามได้ดีขึ้นด้วยเกม 'Battleship'

ภูมิหลังของงานวิจัย: ข้อจำกัดของการสำรวจข้อมูลของเอเจนต์ AI

เกม Collaborative Battleship และชุดข้อมูล BattleshipQA

การตั้งคำถามให้ดีขึ้น — กลยุทธ์การอนุมานแบบ Monte Carlo

การตอบให้แม่นยำขึ้น — แปลงเป็นโค้ด Python

ขยายไปยังเกมอื่น — Guess Who?

โจทย์ที่ยังเหลือและทิศทางต่อไป

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น