2 คะแนน โดย GN⁺ 2024-10-19 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

โดยไม่ใช้อัลกอริทึมระดับแกรนด์มาสเตอร์ของหมากรุก

  • รีโพซิทอรีนี้เป็นการนำงานวิจัย "โดยไม่ใช้อัลกอริทึมระดับแกรนด์มาสเตอร์ของหมากรุก" ไปพัฒนาเป็นงานจริง
  • ความสำเร็จของแมชชีนเลิร์นนิงในช่วงหลัง ส่วนใหญ่มาจากสถาปัตยกรรมแบบ attention ขนาดใหญ่และชุดข้อมูลที่มีขนาดไม่เคยมีมาก่อน
  • งานวิจัยนี้ศึกษาผลกระทบของการฝึกขนาดใหญ่สำหรับหมากรุก
  • แตกต่างจากเอนจินหมากรุกแบบดั้งเดิม ตรงที่ไม่พึ่งพา heuristic ที่ซับซ้อนหรือการค้นหาแบบชัดแจ้ง
  • ฝึกโมเดลทรานส์ฟอร์เมอร์ขนาด 270 ล้านพารามิเตอร์ด้วยการเรียนรู้แบบมีผู้สอนบนชุดข้อมูลเกมหมากรุก 10 ล้านเกม
  • ใช้ค่า action value ของเอนจิน Stockfish 16 เพื่อใส่คำอธิบายกำกับให้แต่ละกระดาน สร้างจุดข้อมูลราว 1.5 หมื่นล้านจุด
  • โมเดลที่ใหญ่ที่สุดทำ Elo 2895 ในโหมด Lichess blitz กับมนุษย์ และแก้ปริศนาหมากรุกยาก ๆ ได้โดยไม่ต้องใช้อัลกอริทึมการค้นหาแบบชัดแจ้ง
  • เหนือกว่าเครือข่าย policy และ value ของ AlphaZero (แบบไม่ใช้การค้นหา) และ GPT-3.5-turbo-instruct
  • การตรวจสอบอย่างเป็นระบบเกี่ยวกับขนาดของโมเดลและชุดข้อมูล แสดงให้เห็นว่าความสามารถหมากรุกที่แข็งแกร่งจะปรากฏขึ้นก็ต่อเมื่อมีสเกลมากพอ
  • มีการทดลองอย่างกว้างขวางเกี่ยวกับตัวเลือกการออกแบบและไฮเปอร์พารามิเตอร์เพื่อยืนยันผลลัพธ์

สรุปโดย GN⁺

  • โปรเจกต์นี้เป็นงานวิจัยสำคัญที่แสดงให้เห็นว่าสามารถบรรลุประสิทธิภาพสูงในหมากรุกได้แม้ไม่ใช้อัลกอริทึมการค้นหาแบบดั้งเดิม
  • ใช้ชุดข้อมูลขนาดใหญ่และโมเดลทรานส์ฟอร์เมอร์เพื่อสำรวจความเป็นไปได้ใหม่ ๆ ของเอนจินหมากรุก
  • เมื่อเทียบกับเอนจินหมากรุกทรงพลังที่มีอยู่เดิมอย่าง AlphaZero ก็แสดงประสิทธิภาพที่ดีกว่า
  • มอบข้อมูลที่น่าสนใจและเป็นประโยชน์ให้กับผู้ที่สนใจหมากรุก พร้อมชี้ให้เห็นความเป็นไปได้ใหม่ของการประยุกต์ใช้แมชชีนเลิร์นนิง
  • โปรเจกต์ที่มีความสามารถคล้ายกัน ได้แก่ AlphaZero และ Leela Chess Zero

1 ความคิดเห็น

 
GN⁺ 2024-10-19
ความคิดเห็นจาก Hacker News
  • ผู้ใช้หาคู่ต่อสู้หมากรุกที่มีระดับตามต้องการได้ยาก เอนจินส่วนใหญ่มักลดความลึกของการค้นหาเพื่อลดความยาก แต่ได้ผลไม่ดีนัก

    • ผู้ใช้ต้องการคู่ต่อสู้คอมพิวเตอร์ที่ให้ความรู้สึกเหมือนผู้เล่นมนุษย์
  • ผู้ใช้รายหนึ่งเคยนำเสนอเรื่องการกลั่นความรู้ที่เกี่ยวข้องกับหมากรุก โดยอธิบายวิธีกลั่นฟังก์ชันการค้นหาแบบไม่เชิงเส้นที่ซับซ้อนให้เป็นโมเดล transformer แบบกึ่งเชิงเส้นสำหรับอินพุตมาตรฐานอย่างหมากรุก

  • แนะนำ GitHub repository สำหรับผู้ที่สนใจ neural network ด้านหมากรุก ซึ่งมีโค้ดที่เข้าใจง่ายโดยใช้ PyTorch และมีสถาปัตยกรรมคล้ายกับ neural network หมากรุกที่มีประสิทธิภาพสูงสุดในปัจจุบัน

  • มีบล็อกโพสต์ที่เปรียบเทียบเครือข่าย LC0 กับเครือข่าย transformer ของ DeepMind

  • งานวิจัย "Grandmaster-Level Chess Without Search" เน้นย้ำความสำคัญของสถาปัตยกรรมขนาดใหญ่ที่อิง attention และชุดข้อมูล โดยใช้โมเดล transformer ขนาด 270M พารามิเตอร์เพื่อเรียนรู้หมากรุก

    • ใช้เอนจิน Stockfish 16 สร้างจุดข้อมูลมากกว่า 1 พันล้านจุด และทำ Elo แบบ blitz บน Lichess กับมนุษย์ได้ 2895
    • เหนือกว่าเครือข่าย policy และ value ของ AlphaZero
  • ชุดข้อมูลสังเคราะห์ขนาดใหญ่ถูกสร้างขึ้นด้วยการค้นหาแบบดั้งเดิม ซึ่งเทียบได้กับการเข้ารหัส search tree ลงในโมเดล transformer

  • Matthew Sadler ตั้งค่า Leela Zero ให้เล่นแบบอาศัยสัญชาตญาณ ซึ่งช่วยให้เล่นเกมฝึกได้อย่างมีประสิทธิภาพแม้ไม่มีการค้นหา

  • การแก้หมากรุกจะสร้าง tree ที่ใหญ่เกินไป และมีแนวทางอยู่สองแบบในการทำให้เหมาะที่สุด

    • ทำประมาณค่า tree และทำประมาณค่าคำอธิบายประกอบ
    • สามารถทำประมาณค่า tree ได้ด้วยข้อมูลขนาด 270M คำ
  • เข้ารหัสสถานะกระดานโดยแปลงสตริง FEN ให้เป็นสตริงความยาวคงที่ และเก็บการกระทำด้วยสัญกรณ์ UCI

    • หากต้องเขียน tokenizer ใหม่สำหรับการดัดแปลงปัญหาแต่ละครั้ง นั่นก็เป็นเพียงงานโปรแกรมมิงธรรมดาเท่านั้น