1 คะแนน โดย GN⁺ 2024-11-23 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ช่วงหลังมีปริศนาว่าทำไมโมเดลภาษาขนาดใหญ่ (LLM) ถึงเล่นหมากรุกได้ไม่ดีนัก แต่ gpt-3.5-turbo-instruct กลับเป็นข้อยกเว้นที่เล่นหมากรุกได้ดีในระดับสมัครเล่น โมเดลนี้เก่ากว่าและมีขนาดเล็กกว่าโมเดลรุ่นใหม่อื่น ๆ

  • มีการเสนอทฤษฎีหลายข้อ:

    • ทฤษฎี 1: โมเดลฐานที่มีขนาดใหญ่พอจะเล่นหมากรุกได้ดี แต่เมื่อผ่านการปรับแต่งคำสั่งให้เป็นแชตโมเดลแล้วจะไม่เป็นเช่นนั้น
    • ทฤษฎี 2: มีความเป็นไปได้ว่า gpt-3.5-turbo-instruct ได้เรียนรู้จากข้อมูลหมากรุกมากกว่า
    • ทฤษฎี 3: มีบางอย่างพิเศษอยู่ในสถาปัตยกรรม LLM บางแบบ
    • ทฤษฎี 4: มี "การแข่งขัน" กันระหว่างประเภทของข้อมูล ดังนั้นถ้า LLM จะเล่นหมากรุกได้ดี ก็ต้องมีข้อมูลเกมหมากรุกจำนวนมาก
    • ทฤษฎี 5: มีข้อกล่าวหาว่า OpenAI โกง
    • ทฤษฎี 6: มีข้ออ้างว่า LLM จริง ๆ แล้วเล่นหมากรุกไม่ได้
  • ข้อกล่าวหาว่า OpenAI โกงนั้นฟังดูไม่น่าเชื่อ gpt-3.5-turbo-instruct เลือกเดินหมากต่างจากเอนจินหมากรุก และเมื่อวัดตามมาตรฐานผู้เชี่ยวชาญก็ไม่ได้โดดเด่น

  • LLM สามารถเล่นหมากรุกได้ gpt-3.5-turbo-instruct แทบไม่เสนอการเดินที่ผิดกติกา และยังเล่นได้ดีแม้กับสถานะกระดานใหม่

  • gpt-3.5-turbo-instruct เป็นโมเดลแบบ "completion" ที่รับข้อความแล้วสร้างข้อความใหม่ ส่วน gpt-4o-mini และ gpt-4o เป็นโมเดลแบบ "chat" ที่ใช้ system prompt และ user prompt

  • จากการทดลองหลายแบบ พบว่าการปรับพรอมป์ต์ การเพิ่มตัวอย่าง และการ fine-tuning ล้วนส่งผลต่อประสิทธิภาพของโมเดลได้

  • การเพิ่มตัวอย่างส่งผลอย่างมากต่อประสิทธิภาพ และการ fine-tuning ก็ช่วยได้เช่นกัน แต่การให้รายการเดินที่ถูกกติกากลับทำให้ประสิทธิภาพลดลง

  • เมื่อชักนำให้ gpt-4o ทำงานคล้ายโหมด "completion" ประสิทธิภาพจะดีขึ้น ซึ่งบ่งชี้ว่า gpt-4-base อาจเล่นหมากรุกได้ดี

  • โดยสรุป โมเดลฐานของ OpenAI มีแนวโน้มว่าจะได้เรียนรู้จากข้อมูลหมากรุกมากกว่า และแชตโมเดลอาจมีประสิทธิภาพด้อยกว่าโมเดลแบบ completion

  • การค้นหาพรอมป์ต์ ตัวอย่าง และการ fine-tuning ที่เหมาะสมที่สุดเป็นงานที่ยากและมีต้นทุนสูง

1 ความคิดเห็น

 
GN⁺ 2024-11-23
ความคิดเห็นจาก Hacker News
  • ผู้เขียนไม่ได้ให้ข้อมูลเกี่ยวกับความถี่ของการเดินผิดกติกา จึงยากที่จะสรุปอะไรอย่างมีนัยสำคัญ

    • ตัวอย่างเช่น คล้ายกับการอ้างว่า LLM เป็นแพทย์ระดับผู้เชี่ยวชาญ แต่ให้ข้อมูลโดยตัดคำแนะนำทางการแพทย์ที่ผิดพลาดออกไป
  • gpt-3.5-turbo-instruct แทบไม่เสนอการเดินผิดกติกาแม้ในช่วงท้ายเกม

    • จึงมีการอ้างว่าโมเดลนี้ "เข้าใจ" หมากรุกและ "ใช้เหตุผลเชิงตรรกะ" ได้
    • แต่ก็ตั้งข้อสงสัย เพราะผู้เล่นหมากรุกระดับ "สมัครเล่นขั้นสูง" เองก็ไม่ค่อยเดินผิดกติกาเช่นกัน
  • วิธีทดสอบว่าเข้าใจหมากรุกหรือไม่ คือให้เดินตาถัดไปจากตำแหน่งที่ถูกต้องตามกติกาแบบสุ่ม 1000 ตำแหน่ง

    • ตรวจสอบจากตำแหน่งที่สร้างผ่านโครงการ ChessPositionRanking ว่าไม่มีการเสนอการเดินผิดกติกา
    • ตำแหน่งเหล่านี้มีประโยชน์ต่อการทดสอบความถูกต้องตามกติกาของตาถัดไป แต่มีประโยชน์น้อยกว่าสำหรับการแยกแยะคุณภาพ
  • ไม่ใช่ว่าทุกคนจะผิด

    • ควรตั้งสมมติฐานว่าเบนช์มาร์กที่เผยแพร่แล้วถูกกำหนดเป้าหมายไว้โดยเฉพาะระหว่างการฝึก
    • เป็นเรื่องธรรมชาติที่ OpenAI จะใส่เกมหมากรุกไว้ในข้อมูลฝึก
  • LLM ให้ความรู้สึกราวกับกำลังค้นหาคาถา

    • หวังว่านวัตกรรมทางเทคโนโลยีจะดำเนินต่อไป แม้ว่า LLM จะน่าทึ่ง แต่บางครั้งก็ให้ความรู้สึกเหมือนหนังไซไฟ
  • มีการอ้างว่าการฝึกด้วยตัวอย่างโค้ดช่วยให้ "การให้เหตุผล" ดีขึ้น

    • ถ้างานวิจัย "world models from language" ใช้งานได้จริง หมากรุกก็น่าจะเป็นกรณีตัวอย่างที่เล็กที่สุด
  • อาจเป็นกรณีพิเศษที่ gpt-3.5-turbo-instruct รู้จำสัญลักษณ์บันทึกหมากรุกและเรียกใช้เอนจินหมากรุกภายนอก

    • มีการตั้งข้อสังเกตว่าอาจถูกฝึกให้สลับไปใช้ LLM ตัวอื่นเมื่อรู้จำสัญลักษณ์บันทึกหมากรุกได้
  • มีการวัดผลลัพธ์ทั้งที่ไม่ได้สั่ง LLM อย่างชัดเจนให้ชนะเกม

    • จึงตั้งคำถามว่านี่เป็นสิ่งที่แฝงอยู่ในพรอมป์ต์อย่าง "คุณคือปรมาจารย์หมากรุก" หรือไม่
  • การปรับจูนแบบละเอียดช่วยได้ และตัวอย่างอาจใช้แทนการปรับจูนแบบละเอียดได้

    • น่าสนใจที่การยกตัวอย่างอาจให้ผลเทียบเท่ากับการปรับจูนแบบละเอียด
  • น่าจะสนุกถ้าได้เล่นหมากรุกกับ LLM โดยไม่ต้องคิดเรื่องพรอมป์ต์

    • มันอาจเป็นวิธีใหม่ในการสัมผัสว่า LLM "คิด" อย่างไร