1 คะแนน โดย GN⁺ 2024-11-15 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ปรากฏการณ์แปลก ๆ ของ LLM กับหมากรุก

    • มีการถกเถียงกันว่า LLM (โมเดลภาษาขนาดใหญ่) สามารถเล่นหมากรุกได้ดีหรือไม่ แม้ LLM จะถูกออกแบบมาสำหรับการทำนายภาษา แต่ก็แสดงความสามารถในการทำนายเกมหมากรุกได้
    • สิ่งที่น่าสนใจคือ LLM สามารถเล่นเกมหมากรุกต่อไปได้จนจบ ซึ่งอาจเป็นคำใบ้ว่ามันทำงานอย่างไรในสถานการณ์อื่น ๆ ด้วย
  • สิ่งที่ฉันทำ

    • มีการใช้พรอมป์ต์เฉพาะเพื่อให้ LLM เล่นหมากรุก เช่น ขอว่า "คุณคือแกรนด์มาสเตอร์หมากรุก โปรดเลือกตาถัดไป"
    • ใช้โมเดล llama-3.2-3b เล่น 50 เกม แต่ผลลัพธ์ไม่ดี จากนั้นลองใช้โมเดลที่ใหญ่กว่าอย่าง llama-3.1-70b และ llama-3.1-70b-instruct แต่ก็ยังได้ผลไม่ดี
    • โมเดล gpt-3.5-turbo-instruct แสดงประสิทธิภาพที่ยอดเยี่ยมมาก แต่โมเดลอื่นทั้งหมดให้ผลลัพธ์ที่ไม่ดี
  • การอภิปราย

    • หลายคนลองใช้ LLM เล่นหมากรุกแล้ว แต่โมเดลส่วนใหญ่ไม่สามารถทำผลงานได้ดี
    • มีหลายทฤษฎีว่าเหตุใดโมเดล gpt-3.5-turbo-instruct จึงเล่นหมากรุกได้ดีกว่าโมเดลอื่น
    • มีทฤษฎีว่าการปรับแต่งตามคำสั่งเพิ่มเติมอาจทำให้ประสิทธิภาพของโมเดลลดลง
  • ทฤษฎีที่เป็นไปได้

    • ทฤษฎี 1: โมเดลพื้นฐานอาจเล่นหมากรุกได้เมื่อมีขนาดใหญ่พอ แต่การปรับแต่งตามคำสั่งกลับรบกวนความสามารถนั้น
    • ทฤษฎี 2: gpt-3.5-instruct อาจได้รับการฝึกด้วยเกมหมากรุกจำนวนมากกว่า
    • ทฤษฎี 3: อาจมีความแตกต่างจากสถาปัตยกรรมทรานส์ฟอร์เมอร์แบบอื่น
    • ทฤษฎี 4: อาจมี "การแข่งขัน" ระหว่างประเภทของข้อมูล
  • รายละเอียด

    • การทดลองดำเนินการโดยใช้สัญกรณ์พีชคณิตมาตรฐานสำหรับเกมหมากรุก
    • โมเดลของ OpenAI ยังไม่รองรับไวยากรณ์แบบสมบูรณ์ จึงพยายามสูงสุด 10 ครั้งจนกว่าจะสร้างตาเดินที่ถูกกติกาได้
  • ความผิดปกติของโทเค็น

    • หากมีช่องว่างอยู่ในพรอมป์ต์ ประสิทธิภาพของโมเดลจะลดลงอย่างมาก ซึ่งดูเหมือนจะเป็นปัญหาของตัวแยกโทเค็น
    • วิธีที่ถูกต้องคือการใช้ "token healing" แต่ยังหาวิธีนำไปใช้อย่างง่ายไม่ได้

1 ความคิดเห็น

 
GN⁺ 2024-11-15
ความคิดเห็นจาก Hacker News
  • ดูเหมือนว่าจะมองข้ามความเป็นไปได้ที่ OpenAI ใช้หมากรุกเป็นเกณฑ์สำคัญและปรับแต่งเป็นพิเศษให้กับ gpt-3.5-turbo-instruct แต่ไม่ได้ใส่เพิ่มในโมเดลรุ่นถัดมา

    • อาจเป็นเพราะหมากรุกไม่ได้สร้างกระแสข่าวอย่างต่อเนื่อง
  • ได้รันโมเดลเปิดทั้งหมดด้วยการควอนไทซ์แบบ Q5_K_M แต่คิดว่านั่นเป็นเพียงการบีบอัดแบบสูญเสียข้อมูลของพารามิเตอร์ทั้งหมด จึงไม่น่ามีสาระสำคัญ

  • ไม่เข้าใจว่าทำไมคนที่มีการศึกษาถึงคาดหวังว่า LLM จะเล่นหมากรุกได้ดี

    • หมากรุกต้องการการให้เหตุผลจริงและการคำนวณแบบกำหนดแน่นอน
  • สงสัยว่าผลลัพธ์ที่ดีนั้นทำซ้ำได้หรือไม่

    • ในอดีตเคยได้ผลลัพธ์ที่ดี แต่ไม่สามารถทำซ้ำได้อีก
    • เศรษฐศาสตร์ของเวนเจอร์แคปิตัลหมายถึงแรงกดดันที่ต้องทำให้เทคโนโลยีที่ถูกมองว่าเป็น "กลลวง" ดูมีความชอบธรรม
  • คิดว่าถ้าต้องการโมเดลที่ฉลาดจริง ๆ อาจต้องเลิกใช้โทเค็นไนเซชัน

    • การจำกัดโครงสร้างของสตรีมข้อมูลกำลังจำกัดมุมมองและการรับรู้ของโมเดล
  • พบผลการทดลองว่า gpt-3.5-turbo-instruct โดดเด่นกว่าด้านหมากรุก

  • ถ้าการเรียนหมากรุกคือการเรียนรู้ลำดับ ก็อาจเกิดปัญหาได้

    • เอนจินหมากรุกสมัยใหม่อย่างน้อยก็สามารถเสมอกับผู้เล่นทุกคนได้
  • อาจลองเพิ่มการคำนวณในพื้นที่ค้นหาของปัญหา

    • สามารถให้คำแนะนำทีละขั้นแบบที่ผู้เล่นหมากรุกมือใหม่ทำได้ เพื่อปรับพารามิเตอร์ที่หลากหลาย
  • มีทฤษฎีว่า GPT-3.5-instruct สามารถเรียกเอนจินหมากรุกแบบดั้งเดิมมาเล่นหมากรุกได้

  • ทราบดีว่าจากประสบการณ์มนุษย์ที่หลากหลาย มีทักษะและความฉลาดหลายประเภท

    • การที่โมเดลเล่นหมากรุกได้ดี อาจเป็นเพราะบังเอิญมี "การเชื่อมโยง" ที่เหมาะสม