สอนเอเจนต์ AI ให้ตั้งคำถามได้ดีขึ้นด้วยเกม 'Battleship'
(news.mit.edu)- นำเกมสืบเชิงคลาสสิก Battleship มาปรับเป็นรูปแบบถาม-ตอบด้วยภาษาธรรมชาติ เพื่อสร้าง testbed สำหรับวัดความสามารถของเอเจนต์ AI ในการตั้ง คำถามที่ดี ภายใต้สภาพแวดล้อมที่ไม่แน่นอน
- เกมดำเนินในโครงสร้างที่ผู้เล่นคนหนึ่งเป็น กัปตัน (captain) คอยถามตำแหน่งเรือที่ซ่อนอยู่ และเพื่อนร่วมทีมเป็น ผู้สังเกตการณ์ (spotter) คอยตอบแบบเรียลไทม์ พร้อมสร้างชุดข้อมูล BattleshipQA จากข้อมูลการเล่นของผู้เข้าร่วมมากกว่า 40 คน
- แม้ไม่มีการฝึกล่วงหน้า โมเดลขนาดใหญ่เช่น GPT-5 ก็ชนะได้ด้วยจำนวนเทิร์นน้อยกว่ามนุษย์ แต่โมเดลขนาดเล็กยังไม่ชำนาญในการสร้างคำถามที่เป็นประโยชน์ จึงมีการใช้ กลยุทธ์การอนุมานแบบ Monte Carlo
- Llama 4 Scout มีอัตราชนะเหนือมนุษย์เพิ่มจาก 8% เป็น 82% หลังการปรับปรุง และแซง GPT-5 ได้ ขณะที่มีต้นทุนเพียงราว 1%
- เป็นหลักฐานว่าโมเดลขนาดเล็กสามารถเอาชนะโมเดลใหญ่ได้อย่างคุ้มค่าต้นทุน และชี้ให้เห็นศักยภาพในงานค้นพบทางวิทยาศาสตร์ที่ต้องการการค้นหาแบบ needle-in-a-haystack
ภูมิหลังของงานวิจัย: ข้อจำกัดของการสำรวจข้อมูลของเอเจนต์ AI
- ในปี 2026 ความคาดหวังต่อเอเจนต์ AI สูงกว่าที่เคย และมีการใช้ language model (LM) ทำงานที่นิยามชัดเจน เช่น บริการลูกค้าและการพัฒนาซอฟต์แวร์
- แต่ในสาขาอย่างการวินิจฉัยทางการแพทย์หรือการค้นพบทางวิทยาศาสตร์ ที่ต้องสำรวจคำตอบจำนวนมากในสภาพแวดล้อมที่ไม่แน่นอน LM ยังทำได้ยาก
- นักวิจัยจาก MIT CSAIL และ Harvard SEAS ต้องการวิเคราะห์ปัญหาหลักของ LM ในสถานการณ์ความเสี่ยงสูง จึงเลือกใช้ Battleship ซึ่งถูกใช้ในการศึกษาด้าน การสำรวจข้อมูลของมนุษย์ ในสายวิทยาการรับรู้มาเป็นแบบทดสอบ
เกม Collaborative Battleship และชุดข้อมูล BattleshipQA
- ปรับเกมให้อยู่ในรูปแบบที่เน้นการถาม-ตอบด้วยภาษาธรรมชาติ โดยผู้เข้าร่วมคนหนึ่งรับบท กัปตัน คอยถามตำแหน่งเรือที่ซ่อนอยู่ และเพื่อนร่วมทีมรับบท ผู้สังเกตการณ์ คอยตอบแบบเรียลไทม์
- มีผู้เล่นมากกว่า 40 คนร่วมเล่นและเก็บรวบรวมคำถามกับคำตอบแบบใช่/ไม่ใช่ เพื่อสร้างชุดข้อมูล BattleshipQA
- ข้อมูลนี้ถูกใช้เป็นเกณฑ์เปรียบเทียบในการทดสอบ LM รุ่นใหม่อย่าง GPT-5 และโมเดลขนาดเล็กอย่าง Llama 4 Scout
- แม้ไม่มีการฝึกล่วงหน้า LM ระดับบนสุดก็สามารถ “ชนะ” เกมได้ด้วยจำนวนเทิร์นน้อยกว่ามนุษย์ แต่ระบบขนาดเล็กมีความไร้เหตุผลมากกว่าชัดเจน
การตั้งคำถามให้ดีขึ้น — กลยุทธ์การอนุมานแบบ Monte Carlo
- ปัญหาหลักคือหลายโมเดลไม่สามารถสร้าง คำถามที่เป็นประโยชน์ ได้
- นักวิจัยจึงมอบ กลยุทธ์การอนุมานแบบ Monte Carlo ให้แต่ละโมเดล เพื่อประเมินความเป็นไปได้ที่ตัวเลือกแต่ละข้อจะเป็นคำตอบที่ถูกต้องทุกครั้งที่ได้รับคำตอบกลับมา และทำให้ชนะผู้เล่นทั่วไปได้โดยไม่ขึ้นกับขนาดโมเดล
- LM จะจัดการสมมติฐานที่เป็นไปได้เป็น particle แยกกัน และทุกครั้งที่ผู้สังเกตการณ์ตอบ ก็จะเพิ่มน้ำหนักให้สมมติฐานที่ดูสมเหตุสมผลมากกว่า
- กลไกนี้ทำงานเหมือนลูกบอลในเกมที่พองหรือหดได้ทุกเทิร์น ทำให้กัปตันดึงข้อมูลจากผู้สังเกตการณ์ได้มากขึ้นมาก
- Llama 4 Scout เคยมีอัตราชนะเหนือมนุษย์เพียง 8% ในฐานะโมเดลขนาดเล็ก แต่หลังปรับปรุงด้วยกลยุทธ์การอนุมานก็ขึ้นถึง 82% พร้อมแซง GPT-5 โดยมีต้นทุนราว 1% เท่านั้น
การตอบให้แม่นยำขึ้น — แปลงเป็นโค้ด Python
- GPT-5 เป็นผู้สังเกตการณ์ที่เชื่อถือได้ แต่ระบบขนาดเล็กมีแนวโน้มตอบตำแหน่งเรือผิด
- นักวิจัยจึงแปลงคำถามของกัปตันเป็น คำสั่งแบบเข้ารหัส โดยอัตโนมัติ เพื่อให้ LM ฝั่งผู้สังเกตการณ์ช่วยตรวจสอบคำตอบ ส่งผลให้ความแม่นยำเฉลี่ยดีขึ้น 15%
- ตัวอย่าง: "มีเรือที่กินพื้นที่สองแถวในคอลัมน์ 1 หรือไม่?" → แปลงเป็นคำสั่งให้สำรวจพื้นที่นั้นและประเมินความกว้างของหมากในเกม
- เมื่อให้คำสั่งที่ชัดเจนในภาษา Python ซึ่งเป็นภาษาที่โมเดลเข้าใจได้ดีเป็นพิเศษ อัตราการตอบถูกก็เพิ่มขึ้นมาก
- โมเดลเบาอย่าง GPT-4o-mini มีประสิทธิภาพดีขึ้นราว 30% ส่วนโมเดลใหญ่ Claude 4 Opus ก็เพิ่มขึ้นราว 8 จุด
- จากความสำเร็จของกลยุทธ์ auto-formalization ที่ให้ LM สร้างโค้ดเพื่อตรวจสอบคำตอบ งานวิจัยนี้จึงชี้ให้เห็นความเป็นไปได้ในการสร้างคำตอบที่ดีกว่าผ่านการปรับปรุงความสามารถด้านการสำรวจและการรวบรวมข้อมูล
ขยายไปยังเกมอื่น — Guess Who?
- เทคนิคเดียวกันถูกนำไปใช้กับ Guess Who? ซึ่งเป็นเกมที่ต้องค่อย ๆ ตัดตัวเลือกจาก 100 ตัวเลือกเพื่อทายตัวละครที่ซ่อนอยู่
- Llama 4 Scout เพิ่มจาก 30% เป็นมากกว่า 72% และ GPT-4o เพิ่มจาก 62% เป็น 90% โดยในแต่ละเกม GPT-5 รับบทเป็นผู้สังเกตการณ์
- อย่างไรก็ตาม โมเดลยังคงมีปัญหาในการตอบ คำถามที่ซับซ้อน มากกว่ามนุษย์
- GPT-5 ชนะผู้เล่น Battleship ระดับเฉลี่ยได้ และดีขึ้นเล็กน้อยเมื่อใช้เทคนิคนี้ แต่ต่างจากหมากรุกที่ผู้เล่นระดับเชี่ยวชาญยังเป็นคู่แข่งที่ทุกโมเดลเอาชนะได้ยาก
โจทย์ที่ยังเหลือและทิศทางต่อไป
- เอเจนต์ AI มีศักยภาพในการค้นหาแบบ needle-in-a-haystack เพื่อหาคำตอบหายากท่ามกลางตัวเลือกมหาศาล
- จึงอาจถูกใช้เป็นผู้ช่วยวิจัยที่มีประสิทธิภาพในงานวิทยาศาสตร์ เช่น การระบุโครงสร้างโมเลกุลของสารประกอบ
- Collaborative Battleship ยังเป็น testbed ที่ค่อนข้างเรียบง่าย และจำเป็นต้องมีการตรวจสอบเพิ่มเติมใน สภาพแวดล้อมที่ซับซ้อน ซึ่งต้องพิจารณาตัวเลือกมากกว่านี้
- แผนต่อไปคือศึกษาผลของการทำงานร่วมกันระหว่างมนุษย์กับ AI, การทำ fine-tuning จากการจำลองเกม และการเพิ่มทรัพยากรประมวลผลเพื่อให้ได้ความสามารถด้านการอนุมานที่สูงขึ้น
- ยิ่งเอเจนต์มีความอัตโนมัติมากขึ้น ปัญหาทางสังคม อย่างการติดตามฐานความเข้าใจร่วม การคลี่คลายความเข้าใจผิด และการปรับตัวเข้ากับคู่สนทนา จะยิ่งกลายเป็นความท้าทายที่ยากที่สุด โดยมองว่าคอขวดที่แท้จริงไม่ใช่แค่การคำนวณคำถามที่เหมาะสมที่สุด แต่คือ การอนุมานเชิงปฏิบัติ ที่ใช้ประโยชน์จากคำตอบให้ได้สูงสุด
ยังไม่มีความคิดเห็น