-
ปรากฏการณ์แปลก ๆ ของ LLM กับหมากรุก
- มีการถกเถียงกันว่า LLM (โมเดลภาษาขนาดใหญ่) สามารถเล่นหมากรุกได้ดีหรือไม่ แม้ LLM จะถูกออกแบบมาสำหรับการทำนายภาษา แต่ก็แสดงความสามารถในการทำนายเกมหมากรุกได้
- สิ่งที่น่าสนใจคือ LLM สามารถเล่นเกมหมากรุกต่อไปได้จนจบ ซึ่งอาจเป็นคำใบ้ว่ามันทำงานอย่างไรในสถานการณ์อื่น ๆ ด้วย
-
สิ่งที่ฉันทำ
- มีการใช้พรอมป์ต์เฉพาะเพื่อให้ LLM เล่นหมากรุก เช่น ขอว่า "คุณคือแกรนด์มาสเตอร์หมากรุก โปรดเลือกตาถัดไป"
- ใช้โมเดล
llama-3.2-3b เล่น 50 เกม แต่ผลลัพธ์ไม่ดี จากนั้นลองใช้โมเดลที่ใหญ่กว่าอย่าง llama-3.1-70b และ llama-3.1-70b-instruct แต่ก็ยังได้ผลไม่ดี
- โมเดล
gpt-3.5-turbo-instruct แสดงประสิทธิภาพที่ยอดเยี่ยมมาก แต่โมเดลอื่นทั้งหมดให้ผลลัพธ์ที่ไม่ดี
-
การอภิปราย
- หลายคนลองใช้ LLM เล่นหมากรุกแล้ว แต่โมเดลส่วนใหญ่ไม่สามารถทำผลงานได้ดี
- มีหลายทฤษฎีว่าเหตุใดโมเดล
gpt-3.5-turbo-instruct จึงเล่นหมากรุกได้ดีกว่าโมเดลอื่น
- มีทฤษฎีว่าการปรับแต่งตามคำสั่งเพิ่มเติมอาจทำให้ประสิทธิภาพของโมเดลลดลง
-
ทฤษฎีที่เป็นไปได้
- ทฤษฎี 1: โมเดลพื้นฐานอาจเล่นหมากรุกได้เมื่อมีขนาดใหญ่พอ แต่การปรับแต่งตามคำสั่งกลับรบกวนความสามารถนั้น
- ทฤษฎี 2:
gpt-3.5-instruct อาจได้รับการฝึกด้วยเกมหมากรุกจำนวนมากกว่า
- ทฤษฎี 3: อาจมีความแตกต่างจากสถาปัตยกรรมทรานส์ฟอร์เมอร์แบบอื่น
- ทฤษฎี 4: อาจมี "การแข่งขัน" ระหว่างประเภทของข้อมูล
-
รายละเอียด
- การทดลองดำเนินการโดยใช้สัญกรณ์พีชคณิตมาตรฐานสำหรับเกมหมากรุก
- โมเดลของ OpenAI ยังไม่รองรับไวยากรณ์แบบสมบูรณ์ จึงพยายามสูงสุด 10 ครั้งจนกว่าจะสร้างตาเดินที่ถูกกติกาได้
-
ความผิดปกติของโทเค็น
- หากมีช่องว่างอยู่ในพรอมป์ต์ ประสิทธิภาพของโมเดลจะลดลงอย่างมาก ซึ่งดูเหมือนจะเป็นปัญหาของตัวแยกโทเค็น
- วิธีที่ถูกต้องคือการใช้ "token healing" แต่ยังหาวิธีนำไปใช้อย่างง่ายไม่ได้
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ดูเหมือนว่าจะมองข้ามความเป็นไปได้ที่ OpenAI ใช้หมากรุกเป็นเกณฑ์สำคัญและปรับแต่งเป็นพิเศษให้กับ
gpt-3.5-turbo-instructแต่ไม่ได้ใส่เพิ่มในโมเดลรุ่นถัดมาได้รันโมเดลเปิดทั้งหมดด้วยการควอนไทซ์แบบ Q5_K_M แต่คิดว่านั่นเป็นเพียงการบีบอัดแบบสูญเสียข้อมูลของพารามิเตอร์ทั้งหมด จึงไม่น่ามีสาระสำคัญ
ไม่เข้าใจว่าทำไมคนที่มีการศึกษาถึงคาดหวังว่า LLM จะเล่นหมากรุกได้ดี
สงสัยว่าผลลัพธ์ที่ดีนั้นทำซ้ำได้หรือไม่
คิดว่าถ้าต้องการโมเดลที่ฉลาดจริง ๆ อาจต้องเลิกใช้โทเค็นไนเซชัน
พบผลการทดลองว่า
gpt-3.5-turbo-instructโดดเด่นกว่าด้านหมากรุกถ้าการเรียนหมากรุกคือการเรียนรู้ลำดับ ก็อาจเกิดปัญหาได้
อาจลองเพิ่มการคำนวณในพื้นที่ค้นหาของปัญหา
มีทฤษฎีว่า
GPT-3.5-instructสามารถเรียกเอนจินหมากรุกแบบดั้งเดิมมาเล่นหมากรุกได้ทราบดีว่าจากประสบการณ์มนุษย์ที่หลากหลาย มีทักษะและความฉลาดหลายประเภท