-
ช่วงหลังมีปริศนาว่าทำไมโมเดลภาษาขนาดใหญ่ (LLM) ถึงเล่นหมากรุกได้ไม่ดีนัก แต่
gpt-3.5-turbo-instructกลับเป็นข้อยกเว้นที่เล่นหมากรุกได้ดีในระดับสมัครเล่น โมเดลนี้เก่ากว่าและมีขนาดเล็กกว่าโมเดลรุ่นใหม่อื่น ๆ -
มีการเสนอทฤษฎีหลายข้อ:
- ทฤษฎี 1: โมเดลฐานที่มีขนาดใหญ่พอจะเล่นหมากรุกได้ดี แต่เมื่อผ่านการปรับแต่งคำสั่งให้เป็นแชตโมเดลแล้วจะไม่เป็นเช่นนั้น
- ทฤษฎี 2: มีความเป็นไปได้ว่า
gpt-3.5-turbo-instructได้เรียนรู้จากข้อมูลหมากรุกมากกว่า - ทฤษฎี 3: มีบางอย่างพิเศษอยู่ในสถาปัตยกรรม LLM บางแบบ
- ทฤษฎี 4: มี "การแข่งขัน" กันระหว่างประเภทของข้อมูล ดังนั้นถ้า LLM จะเล่นหมากรุกได้ดี ก็ต้องมีข้อมูลเกมหมากรุกจำนวนมาก
- ทฤษฎี 5: มีข้อกล่าวหาว่า OpenAI โกง
- ทฤษฎี 6: มีข้ออ้างว่า LLM จริง ๆ แล้วเล่นหมากรุกไม่ได้
-
ข้อกล่าวหาว่า OpenAI โกงนั้นฟังดูไม่น่าเชื่อ
gpt-3.5-turbo-instructเลือกเดินหมากต่างจากเอนจินหมากรุก และเมื่อวัดตามมาตรฐานผู้เชี่ยวชาญก็ไม่ได้โดดเด่น -
LLM สามารถเล่นหมากรุกได้
gpt-3.5-turbo-instructแทบไม่เสนอการเดินที่ผิดกติกา และยังเล่นได้ดีแม้กับสถานะกระดานใหม่ -
gpt-3.5-turbo-instructเป็นโมเดลแบบ "completion" ที่รับข้อความแล้วสร้างข้อความใหม่ ส่วนgpt-4o-miniและgpt-4oเป็นโมเดลแบบ "chat" ที่ใช้ system prompt และ user prompt -
จากการทดลองหลายแบบ พบว่าการปรับพรอมป์ต์ การเพิ่มตัวอย่าง และการ fine-tuning ล้วนส่งผลต่อประสิทธิภาพของโมเดลได้
-
การเพิ่มตัวอย่างส่งผลอย่างมากต่อประสิทธิภาพ และการ fine-tuning ก็ช่วยได้เช่นกัน แต่การให้รายการเดินที่ถูกกติกากลับทำให้ประสิทธิภาพลดลง
-
เมื่อชักนำให้
gpt-4oทำงานคล้ายโหมด "completion" ประสิทธิภาพจะดีขึ้น ซึ่งบ่งชี้ว่าgpt-4-baseอาจเล่นหมากรุกได้ดี -
โดยสรุป โมเดลฐานของ OpenAI มีแนวโน้มว่าจะได้เรียนรู้จากข้อมูลหมากรุกมากกว่า และแชตโมเดลอาจมีประสิทธิภาพด้อยกว่าโมเดลแบบ completion
-
การค้นหาพรอมป์ต์ ตัวอย่าง และการ fine-tuning ที่เหมาะสมที่สุดเป็นงานที่ยากและมีต้นทุนสูง
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ผู้เขียนไม่ได้ให้ข้อมูลเกี่ยวกับความถี่ของการเดินผิดกติกา จึงยากที่จะสรุปอะไรอย่างมีนัยสำคัญ
gpt-3.5-turbo-instruct แทบไม่เสนอการเดินผิดกติกาแม้ในช่วงท้ายเกม
วิธีทดสอบว่าเข้าใจหมากรุกหรือไม่ คือให้เดินตาถัดไปจากตำแหน่งที่ถูกต้องตามกติกาแบบสุ่ม 1000 ตำแหน่ง
ไม่ใช่ว่าทุกคนจะผิด
LLM ให้ความรู้สึกราวกับกำลังค้นหาคาถา
มีการอ้างว่าการฝึกด้วยตัวอย่างโค้ดช่วยให้ "การให้เหตุผล" ดีขึ้น
อาจเป็นกรณีพิเศษที่ gpt-3.5-turbo-instruct รู้จำสัญลักษณ์บันทึกหมากรุกและเรียกใช้เอนจินหมากรุกภายนอก
มีการวัดผลลัพธ์ทั้งที่ไม่ได้สั่ง LLM อย่างชัดเจนให้ชนะเกม
การปรับจูนแบบละเอียดช่วยได้ และตัวอย่างอาจใช้แทนการปรับจูนแบบละเอียดได้
น่าจะสนุกถ้าได้เล่นหมากรุกกับ LLM โดยไม่ต้องคิดเรื่องพรอมป์ต์