โดยไม่ใช้อัลกอริทึมระดับแกรนด์มาสเตอร์ของหมากรุก
- รีโพซิทอรีนี้เป็นการนำงานวิจัย "โดยไม่ใช้อัลกอริทึมระดับแกรนด์มาสเตอร์ของหมากรุก" ไปพัฒนาเป็นงานจริง
- ความสำเร็จของแมชชีนเลิร์นนิงในช่วงหลัง ส่วนใหญ่มาจากสถาปัตยกรรมแบบ attention ขนาดใหญ่และชุดข้อมูลที่มีขนาดไม่เคยมีมาก่อน
- งานวิจัยนี้ศึกษาผลกระทบของการฝึกขนาดใหญ่สำหรับหมากรุก
- แตกต่างจากเอนจินหมากรุกแบบดั้งเดิม ตรงที่ไม่พึ่งพา heuristic ที่ซับซ้อนหรือการค้นหาแบบชัดแจ้ง
- ฝึกโมเดลทรานส์ฟอร์เมอร์ขนาด 270 ล้านพารามิเตอร์ด้วยการเรียนรู้แบบมีผู้สอนบนชุดข้อมูลเกมหมากรุก 10 ล้านเกม
- ใช้ค่า action value ของเอนจิน Stockfish 16 เพื่อใส่คำอธิบายกำกับให้แต่ละกระดาน สร้างจุดข้อมูลราว 1.5 หมื่นล้านจุด
- โมเดลที่ใหญ่ที่สุดทำ Elo 2895 ในโหมด Lichess blitz กับมนุษย์ และแก้ปริศนาหมากรุกยาก ๆ ได้โดยไม่ต้องใช้อัลกอริทึมการค้นหาแบบชัดแจ้ง
- เหนือกว่าเครือข่าย policy และ value ของ AlphaZero (แบบไม่ใช้การค้นหา) และ GPT-3.5-turbo-instruct
- การตรวจสอบอย่างเป็นระบบเกี่ยวกับขนาดของโมเดลและชุดข้อมูล แสดงให้เห็นว่าความสามารถหมากรุกที่แข็งแกร่งจะปรากฏขึ้นก็ต่อเมื่อมีสเกลมากพอ
- มีการทดลองอย่างกว้างขวางเกี่ยวกับตัวเลือกการออกแบบและไฮเปอร์พารามิเตอร์เพื่อยืนยันผลลัพธ์
สรุปโดย GN⁺
- โปรเจกต์นี้เป็นงานวิจัยสำคัญที่แสดงให้เห็นว่าสามารถบรรลุประสิทธิภาพสูงในหมากรุกได้แม้ไม่ใช้อัลกอริทึมการค้นหาแบบดั้งเดิม
- ใช้ชุดข้อมูลขนาดใหญ่และโมเดลทรานส์ฟอร์เมอร์เพื่อสำรวจความเป็นไปได้ใหม่ ๆ ของเอนจินหมากรุก
- เมื่อเทียบกับเอนจินหมากรุกทรงพลังที่มีอยู่เดิมอย่าง AlphaZero ก็แสดงประสิทธิภาพที่ดีกว่า
- มอบข้อมูลที่น่าสนใจและเป็นประโยชน์ให้กับผู้ที่สนใจหมากรุก พร้อมชี้ให้เห็นความเป็นไปได้ใหม่ของการประยุกต์ใช้แมชชีนเลิร์นนิง
- โปรเจกต์ที่มีความสามารถคล้ายกัน ได้แก่ AlphaZero และ Leela Chess Zero
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ผู้ใช้หาคู่ต่อสู้หมากรุกที่มีระดับตามต้องการได้ยาก เอนจินส่วนใหญ่มักลดความลึกของการค้นหาเพื่อลดความยาก แต่ได้ผลไม่ดีนัก
ผู้ใช้รายหนึ่งเคยนำเสนอเรื่องการกลั่นความรู้ที่เกี่ยวข้องกับหมากรุก โดยอธิบายวิธีกลั่นฟังก์ชันการค้นหาแบบไม่เชิงเส้นที่ซับซ้อนให้เป็นโมเดล transformer แบบกึ่งเชิงเส้นสำหรับอินพุตมาตรฐานอย่างหมากรุก
แนะนำ GitHub repository สำหรับผู้ที่สนใจ neural network ด้านหมากรุก ซึ่งมีโค้ดที่เข้าใจง่ายโดยใช้ PyTorch และมีสถาปัตยกรรมคล้ายกับ neural network หมากรุกที่มีประสิทธิภาพสูงสุดในปัจจุบัน
มีบล็อกโพสต์ที่เปรียบเทียบเครือข่าย LC0 กับเครือข่าย transformer ของ DeepMind
งานวิจัย "Grandmaster-Level Chess Without Search" เน้นย้ำความสำคัญของสถาปัตยกรรมขนาดใหญ่ที่อิง attention และชุดข้อมูล โดยใช้โมเดล transformer ขนาด 270M พารามิเตอร์เพื่อเรียนรู้หมากรุก
ชุดข้อมูลสังเคราะห์ขนาดใหญ่ถูกสร้างขึ้นด้วยการค้นหาแบบดั้งเดิม ซึ่งเทียบได้กับการเข้ารหัส search tree ลงในโมเดล transformer
Matthew Sadler ตั้งค่า Leela Zero ให้เล่นแบบอาศัยสัญชาตญาณ ซึ่งช่วยให้เล่นเกมฝึกได้อย่างมีประสิทธิภาพแม้ไม่มีการค้นหา
การแก้หมากรุกจะสร้าง tree ที่ใหญ่เกินไป และมีแนวทางอยู่สองแบบในการทำให้เหมาะที่สุด
เข้ารหัสสถานะกระดานโดยแปลงสตริง FEN ให้เป็นสตริงความยาวคงที่ และเก็บการกระทำด้วยสัญกรณ์ UCI