- เป็น ทัวร์นาเมนต์เงินสดรายการแรกของโลก ที่ให้ LLM มาประชันฝีมือโป๊กเกอร์กัน โดยถูกออกแบบมาเพื่อทดสอบ ความสามารถในการให้เหตุผลของ AI ในเกมข้อมูลไม่สมบูรณ์
- ขณะนี้ Grok 4 อยู่อันดับ 1 ตามด้วย Gemini 2.5 Pro, Claude Sonnet 4.5, DeepSeek R1 และ OpenAI o3
- ใช้รูปแบบ Texas Hold'em cash game $10/$20 โดยมี โต๊ะ 9 คนจำนวน 4 โต๊ะ เล่นพร้อมกัน และ โมเดลที่สะสมเงินทุนได้มากที่สุดในช่วงหนึ่งสัปดาห์จะเป็นผู้ชนะ
- โมเดลผู้เข้าแข่งขันทั้งหมดใช้ system prompt เดียวกัน และ ในแต่ละจังหวะการตัดสินใจ LLM จะสร้างทั้งการวิเคราะห์และการกระทำจากไพ่ในมือ สแต็ก สถิติของคู่ต่อสู้ และโน้ต
- ดำเนินการแข่งขันแบบ โมเดลแข่งกันเอง โดยไม่มีผู้เล่นมนุษย์ จึงสามารถเปรียบเทียบประสิทธิภาพของอัลกอริทึมและผลลัพธ์การเรียนรู้ได้โดยตรง
- หลังจบทัวร์นาเมนต์ จะมีการวิเคราะห์ ชุดข้อมูลการให้เหตุผลรายแฮนด์และกระบวนการคิด ของแต่ละโมเดล เพื่อนำไปใช้ประเมินคุณภาพการคิดเชิงกลยุทธ์ของ LLM
- การทดลองครั้งนี้เป็นความพยายามในการตรวจสอบ ความน่าเชื่อถือของการให้เหตุผลของ AI และศักยภาพในการเรียนรู้เชิงกลยุทธ์ และได้รับความสนใจในฐานะรูปแบบงานวิจัยใหม่ที่ช่วยทำความเข้าใจการคิดเชิงความน่าจะเป็นแบบมนุษย์
ภาพรวมของ PokerBattle.ai
- PokerBattle.ai คือ ทัวร์นาเมนต์โป๊กเกอร์แบบเงินสดรายการแรกสำหรับ LLM
- ผู้เข้าแข่งขันไม่ใช่มนุษย์ แต่เป็น language model ที่แต่ละโมเดลจะเล่นกลยุทธ์โป๊กเกอร์ด้วยตัวเอง
- มีเงินรางวัลจริง ทำให้ผลการแข่งขันเชื่อมโยงกับผลตอบแทนทางการเงินจริง
- โปรเจ็กต์นี้ถูกออกแบบเป็นแพลตฟอร์มเชิงทดลองเพื่อทดสอบ ความสามารถในการตัดสินใจเชิงกลยุทธ์ของ AI
- ใช้โป๊กเกอร์ซึ่งเป็นเกมข้อมูลไม่สมบูรณ์ในการประเมิน ความสามารถในการให้เหตุผลและการปรับตัว ของโมเดล
- มุ่งเน้นการประเมิน พฤติกรรมที่อิงการตัดสินใจ ไม่ใช่แค่การสร้างภาษา
ภาพรวมและวัตถุประสงค์ของการแข่งขัน
- โป๊กเกอร์เป็น เกมที่มีข้อมูลไม่สมบูรณ์และการตัดสินใจเชิงความน่าจะเป็นเป็นหัวใจสำคัญ โดยมีโครงสร้างการตัดสินใจที่ซับซ้อนซึ่งต้องสร้างสมดุลระหว่างความเสี่ยงกับผลตอบแทน
- การแข่งขันนี้ถูกจัดขึ้นเพื่อทดลองว่า LLM จะสามารถ ตีความปัญหาเหล่านี้อย่างมีเหตุผลและสร้างกลยุทธ์ที่สอดคล้องกันได้หรือไม่
- มีเป้าหมายเพื่อตรวจสอบว่า LLM สามารถ ทำงานแบบบูรณาการตามแนวทางการเรียนรู้โป๊กเกอร์แบบดั้งเดิม ได้หรือไม่ เช่น การวิเคราะห์แฮนด์ การคำนวณทางคณิตศาสตร์ และการใช้ solver
วิธีดำเนินการแข่งขัน
- ทุกแมตช์เป็นการแข่งขันแบบ เผชิญหน้ากันโดยตรงระหว่าง LLM
- ไม่มีผู้เล่นมนุษย์เข้าร่วม และแต่ละโมเดลจะตัดสินใจการกระทำอย่างอิสระ
- ผลการแข่งขันจะถูกคำนวณอัตโนมัติตามกติกาโป๊กเกอร์ เพื่อกำหนดแพ้ชนะและเงินรางวัล
- มี การดำเนินการแข่งขันแบบเรียลไทม์ และ การเปิดเผยผลลัพธ์ เพื่อสร้างความโปร่งใส
- มีการบันทึก log การกระทำและตัวเลือกเชิงกลยุทธ์ของแต่ละโมเดลเพื่อใช้ในการวิเคราะห์
- ระยะที่ 1: เก็บข้อมูล (27–31 ตุลาคม)
- ระยะที่ 2: วิเคราะห์แฮนด์และการให้เหตุผล
- ในระยะที่ 1 จะมีการจัดทัวร์นาเมนต์ออนไลน์แบบเรียลไทม์และเก็บข้อมูลการเล่นของ LLM แต่ละตัว
- หลังจากนั้นจะนำ เส้นทางการให้เหตุผล (reasoning trace) ของแต่ละโมเดลมาวิเคราะห์เพื่อเปรียบเทียบความสามารถในการตัดสินใจเชิงกลยุทธ์
กติกาทัวร์นาเมนต์
- รูปแบบเกม: Texas Hold'em, blind $10/$20, ไม่มี ante/straddle
- การจัดโต๊ะ: โต๊ะ 9 คน × 4 โต๊ะ แข่งพร้อมกัน
- การจัดการสแต็ก: หากต่ำกว่า 100bb จะมีการเติมอัตโนมัติ
- เงื่อนไขชัยชนะ: หลังครบหนึ่งสัปดาห์ โมเดลที่มี bankroll มากที่สุดจะเป็นผู้ชนะ
วิธีการทำงานของโมเดล
- LLM ผู้เข้าแข่งขันทั้งหมดทำงานบนพื้นฐานของ system prompt เดียวกัน
- ในแต่ละเทิร์น โมเดลจะได้รับข้อมูลต่อไปนี้เป็นอินพุต:
- ข้อมูลแฮนด์ปัจจุบัน (ตำแหน่ง, สแต็ก, ไพ่)
- สถิติการเล่นของคู่ต่อสู้ (VPIP, PFR, 3bet เป็นต้น)
- โน้ตเกี่ยวกับคู่ต่อสู้ที่เขียนไว้จากแฮนด์ก่อนหน้า
- เอาต์พุตของโมเดล:
- การให้เหตุผลเชิงตรรกะต่อการตัดสินใจ
- การกระทำที่จะเลือก (call, raise, fold เป็นต้น)
- สรุปสำหรับผู้ชม (reasoning summary)
- มี ข้อจำกัดด้านโทเค็น และหากเกิดข้อผิดพลาดในการตอบกลับหรือหมดเวลา จะถูกนับเป็น หมอบอัตโนมัติ (fold)
ผู้จัด
- Max Pavlov — ผู้เชี่ยวชาญด้านการจัดการผลิตภัณฑ์ และผู้หลงใหลใน deep learning, AI และโป๊กเกอร์
- เขาออกแบบโปรเจ็กต์นี้เพื่อสำรวจว่า LLM จะสามารถ จำลองการคิดเชิงความน่าจะเป็นที่ซับซ้อนและการอนุมานเชิงกลยุทธ์แบบมนุษย์ได้มากเพียงใด
2 ความคิดเห็น
ว้าว ถ้ามีบทความ บทสัมภาษณ์ หรือเลกเชอร์ที่เปิดเผยต่อสาธารณะจากคนที่ปรับแต่งโมเดลนี้ ผมก็อยากดูเหมือนกันครับ
ความคิดเห็นจาก Hacker News
ฉันจบปริญญาเอกด้าน algorithmic game theory และเคยทำวิจัยเกี่ยวกับโป๊กเกอร์
ด้วยเหตุผลเหล่านี้ การที่ LLM จะเล่นโป๊กเกอร์ได้เก่งในตอนนี้จึงเป็นไปไม่ได้ในเชิงเทคนิค ต่างจากหมากรุก โป๊กเกอร์ไม่มีกลยุทธ์ที่เหมาะที่สุดแบบกำหนดตายตัว และต้องรักษาความสม่ำเสมอด้วย
ส่วนที่ยากที่สุดคือการเขียน Monte Carlo simulation ให้มีประสิทธิภาพ ต้องใส่น้ำหนักเชิงความน่าจะเป็นตามประวัติไพ่ในมือของผู้เล่น และสะท้อนความสุ่มเฉพาะตัวของพวกเขา
แม้จะไม่ได้ใช้ game theory แต่ถ้าใช้ก็คงดีกว่านี้มาก LLM แทบไม่มีโอกาสเข้าใจแนวคิดแบบนี้เลย
ในอนาคต ความสามารถของ LLM ในการเรียกใช้ game engine ภายนอก น่าจะสำคัญขึ้น แต่ในกรณีนั้นก็เท่ากับว่าเอนจินเป็นคนเล่นเกมอยู่ดี ทุกวันนี้ก็บอตโป๊กเกอร์ระดับโปรก็มีอยู่แล้ว
Pluribus จำกัดอยู่กับสแต็กคงที่ และทั้งการฝึกกับการเล่นก็ ใช้การคำนวณสูงมาก
ฉันไม่เห็นด้วยกับคำกล่าวที่ว่า LLM ไม่สามารถเรียนรู้กลยุทธ์แบบผสมได้ เพราะ LLM ส่งออกการกระจายของโทเค็นแล้วสุ่มตัวอย่างจากมันอยู่แล้ว
โป๊กเกอร์เป็น เกมผลรวมศูนย์ ดังนั้นโชคอาจมีผลมากในช่วงต้น ถ้ามีเพียงทัวร์นาเมนต์เดียว ความน่าเชื่อถือทางสถิติ ก็ต่ำ
นอกจากนี้ยังมีข้อมูลที่ดูแปลก — ยอดรวมมากกว่าอยู่ $20, หมายเลขแฮนด์บางส่วนหายไป และแม้จะมีแอนที $30 ก็ยังมี พอต $0 อยู่
จุดเหล่านี้ทำให้เกิดข้อสงสัยต่อความน่าเชื่อถือของผลลัพธ์
ถ้า LLM สามารถ คุยกันพร้อมบลัฟกันได้ น่าจะเป็นการทดลองที่น่าสนใจมาก ดูก็น่าจะสนุกด้วย
ฉันเป็น ผู้เชี่ยวชาญด้านเกมข้อมูลไม่สมบูรณ์ และการทดลองครั้งนี้น่าสนใจมาก
เกมอย่างโป๊กเกอร์หรือ Diplomacy ยากกว่าหมากรุกมาก และโดยเฉพาะ โป๊กเกอร์ 3 คนขึ้นไป ไม่ใช่เกมผลรวมศูนย์ จึงไม่มี สมดุลของแนช
เกมแบบนี้คล้ายกับการตัดสินใจในโลกจริง จึงเป็นสนามทดลองที่ดีสำหรับงานวิจัย LLM
ปัจจุบัน AI โป๊กเกอร์ที่ดีที่สุดอาศัย Counterfactual Regret Minimization (CFR) และผสานการค้นหาแบบเรียลไทม์
Noam Brown ได้ขยายแนวทางนี้ไปสู่การค้นหาในช่วงทดสอบเวลาและสร้าง Pluribus ซึ่งเอาชนะโปรได้
หลังจากนั้นเขาเข้าร่วม OpenAI และดูเหมือนว่าไอเดียเหล่านี้สะท้อนอยู่ในฟีเจอร์ “thinking” ของโมเดล o1-preview ด้วย
งานวิจัย AI โป๊กเกอร์มีอิทธิพลอย่างมากต่อพัฒนาการ AI สมัยใหม่
ตอนเรียนมหาวิทยาลัย ฉันทำเงินได้ 500,000 ดอลลาร์ จาก AI โป๊กเกอร์ และต่อมาก็สร้าง PokerTableRatings.com เพื่อตรวจจับการโกง
ฉันขายบริษัทให้ Zynga และทำงานเป็น CTO ของ Zynga Poker ช่วงหลังมานี้กำลังพัฒนา แพลตฟอร์มการเรียนรู้บนฐาน Pluribus ผ่าน pokerskill.com
พวกเราที่ TEN Protocol ได้จัดทัวร์นาเมนต์โป๊กเกอร์ LLM โดยใช้บล็อกเชนและ การสร้างเลขสุ่มบนฐาน TEE
LLM ห้าตัวลงแข่งหลายรายการตลอดหลายเดือน และเกมที่ยาวที่สุดกินเวลา มากกว่า 50 ชั่วโมง
ดูได้ที่ ภาพหน้าจอเกม, สรุปทวีต, ลิงก์บทความ
ถ้าสนใจ เราเปิดทัวร์นาเมนต์ใหม่ให้ดูสดได้
สงสัยว่า LLM จะเก่งขึ้นเรื่อยๆ ไหม ฉันเองก็อยาก ลงแข่งเอง เหมือนกัน
แต่ตอนนี้แม้แต่ การรับรู้แฮนด์ ขั้นพื้นฐานยังพลาดอยู่ เช่น บอกว่าเป็น “top pair” ทั้งที่จริงไม่ใช่
ฉันคือผู้สร้าง rs-poker ถ้า LLM จะเล่นโป๊กเกอร์เก่งได้ ต้องมี คณิตศาสตร์ การโกหก และความสุ่ม แต่ตอนนี้ยังขาดทั้งหมด
เรารู้วิธีคำนวณทางที่เหมาะที่สุดอยู่แล้ว แต่ปริมาณการคำนวณสูงเกินไป
อย่างไรก็ตาม มีความเป็นไปได้ที่จะใช้โมเดล attention แบบ BERT เพื่อแก้ปัญหาโป๊กเกอร์ ต้องการชุดข้อมูลที่ดีกว่าและการฝึกโมเดลเฉพาะทาง ถ้าสนใจก็ติดต่อได้ (elliott.neil.clark@gmail.com)
แม้ใช้โครงสร้างการเรียนรู้ง่ายๆ ก็น่าจะฝึกออกมาได้ค่อนข้างดี
การทดลองนี้แสดงให้เห็นว่า LLM เก่งแค่งานอย่าง การบีบอัดหรือ OCR มากกว่าการใช้เหตุผลเชิงตรรกะ
ตัวอย่างเช่น มักเกิด ข้อผิดพลาดพื้นฐาน อย่าง “ถ้าบอร์ด paired แล้วจะทำให้สเตรตสมบูรณ์ได้”
ด้วยระดับนี้ ฉันคิดว่าหนทางไปสู่ AGI ยังอีกไกล
มีการเปิดเผย โครงสร้างพรอมป์ต์ ตอนที่ LLM เล่น
ในแต่ละเทิร์น system prompt จะเหมือนกัน และ LLM จะอ้างอิง สถิติผู้เล่น (VPIP, PFR, 3bet ฯลฯ) กับโน้ตที่ผ่านมา
คำตอบจะมี เหตุผล การกระทำ และสรุป พร้อมข้อจำกัดโทเค็น หากเกิดปัญหาจะถูกนับเป็น หมอบ
ค่อนข้างน่าผิดหวังที่โมเดลเห็นสถิติของโมเดลอื่นโดยตรง
ถ้าให้ตัดสินจากโน้ตและบริบทเพียงอย่างเดียวก็น่าจะน่าสนใจกว่า อาจเป็นเพราะต้องการลดต้นทุน
ฉันคิดว่าการทดลองนี้เป็นไอเดียที่ อัจฉริยะมาก
ด้วยการออกแบบการทดลองแบบนี้ ดูเหมือน AI จะ พัฒนากลยุทธ์ใหม่ๆ ได้ยาก การปฏิบัติกับโป๊กเกอร์ในรูปแบบข้อความคล้ายกับปัญหาเรื่อง การขาดความเข้าใจความจริงเชิงนามธรรม แบบเดียวกับคณิตศาสตร์
ถ้าเปิดให้ คุยกันและบลัฟกัน ได้ น่าจะเป็นการทดลองที่ทั้งตลกและน่าสนใจมาก 😄