ทัวร์นาเมนต์โป๊กเกอร์ที่ให้ LLM มาสู้กันเอง

(pokerbattle.ai)

9 คะแนน โดย GN⁺ 2025-10-29 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

เป็น ทัวร์นาเมนต์เงินสดรายการแรกของโลก ที่ให้ LLM มาประชันฝีมือโป๊กเกอร์กัน โดยถูกออกแบบมาเพื่อทดสอบ ความสามารถในการให้เหตุผลของ AI ในเกมข้อมูลไม่สมบูรณ์
- ขณะนี้ Grok 4 อยู่อันดับ 1 ตามด้วย Gemini 2.5 Pro, Claude Sonnet 4.5, DeepSeek R1 และ OpenAI o3
ใช้รูปแบบ Texas Hold'em cash game $10/$20 โดยมี โต๊ะ 9 คนจำนวน 4 โต๊ะ เล่นพร้อมกัน และ โมเดลที่สะสมเงินทุนได้มากที่สุดในช่วงหนึ่งสัปดาห์จะเป็นผู้ชนะ
โมเดลผู้เข้าแข่งขันทั้งหมดใช้ system prompt เดียวกัน และ ในแต่ละจังหวะการตัดสินใจ LLM จะสร้างทั้งการวิเคราะห์และการกระทำจากไพ่ในมือ สแต็ก สถิติของคู่ต่อสู้ และโน้ต
ดำเนินการแข่งขันแบบ โมเดลแข่งกันเอง โดยไม่มีผู้เล่นมนุษย์ จึงสามารถเปรียบเทียบประสิทธิภาพของอัลกอริทึมและผลลัพธ์การเรียนรู้ได้โดยตรง
หลังจบทัวร์นาเมนต์ จะมีการวิเคราะห์ ชุดข้อมูลการให้เหตุผลรายแฮนด์และกระบวนการคิด ของแต่ละโมเดล เพื่อนำไปใช้ประเมินคุณภาพการคิดเชิงกลยุทธ์ของ LLM
การทดลองครั้งนี้เป็นความพยายามในการตรวจสอบ ความน่าเชื่อถือของการให้เหตุผลของ AI และศักยภาพในการเรียนรู้เชิงกลยุทธ์ และได้รับความสนใจในฐานะรูปแบบงานวิจัยใหม่ที่ช่วยทำความเข้าใจการคิดเชิงความน่าจะเป็นแบบมนุษย์

ภาพรวมของ PokerBattle.ai

PokerBattle.ai คือ ทัวร์นาเมนต์โป๊กเกอร์แบบเงินสดรายการแรกสำหรับ LLM
- ผู้เข้าแข่งขันไม่ใช่มนุษย์ แต่เป็น language model ที่แต่ละโมเดลจะเล่นกลยุทธ์โป๊กเกอร์ด้วยตัวเอง
- มีเงินรางวัลจริง ทำให้ผลการแข่งขันเชื่อมโยงกับผลตอบแทนทางการเงินจริง
โปรเจ็กต์นี้ถูกออกแบบเป็นแพลตฟอร์มเชิงทดลองเพื่อทดสอบ ความสามารถในการตัดสินใจเชิงกลยุทธ์ของ AI
- ใช้โป๊กเกอร์ซึ่งเป็นเกมข้อมูลไม่สมบูรณ์ในการประเมิน ความสามารถในการให้เหตุผลและการปรับตัว ของโมเดล
- มุ่งเน้นการประเมิน พฤติกรรมที่อิงการตัดสินใจ ไม่ใช่แค่การสร้างภาษา

ภาพรวมและวัตถุประสงค์ของการแข่งขัน

โป๊กเกอร์เป็น เกมที่มีข้อมูลไม่สมบูรณ์และการตัดสินใจเชิงความน่าจะเป็นเป็นหัวใจสำคัญ โดยมีโครงสร้างการตัดสินใจที่ซับซ้อนซึ่งต้องสร้างสมดุลระหว่างความเสี่ยงกับผลตอบแทน
การแข่งขันนี้ถูกจัดขึ้นเพื่อทดลองว่า LLM จะสามารถ ตีความปัญหาเหล่านี้อย่างมีเหตุผลและสร้างกลยุทธ์ที่สอดคล้องกันได้หรือไม่
มีเป้าหมายเพื่อตรวจสอบว่า LLM สามารถ ทำงานแบบบูรณาการตามแนวทางการเรียนรู้โป๊กเกอร์แบบดั้งเดิม ได้หรือไม่ เช่น การวิเคราะห์แฮนด์ การคำนวณทางคณิตศาสตร์ และการใช้ solver

วิธีดำเนินการแข่งขัน

ทุกแมตช์เป็นการแข่งขันแบบ เผชิญหน้ากันโดยตรงระหว่าง LLM
- ไม่มีผู้เล่นมนุษย์เข้าร่วม และแต่ละโมเดลจะตัดสินใจการกระทำอย่างอิสระ
- ผลการแข่งขันจะถูกคำนวณอัตโนมัติตามกติกาโป๊กเกอร์ เพื่อกำหนดแพ้ชนะและเงินรางวัล
มี การดำเนินการแข่งขันแบบเรียลไทม์ และ การเปิดเผยผลลัพธ์ เพื่อสร้างความโปร่งใส
- มีการบันทึก log การกระทำและตัวเลือกเชิงกลยุทธ์ของแต่ละโมเดลเพื่อใช้ในการวิเคราะห์
ระยะที่ 1: เก็บข้อมูล (27–31 ตุลาคม)
ระยะที่ 2: วิเคราะห์แฮนด์และการให้เหตุผล
- ในระยะที่ 1 จะมีการจัดทัวร์นาเมนต์ออนไลน์แบบเรียลไทม์และเก็บข้อมูลการเล่นของ LLM แต่ละตัว
- หลังจากนั้นจะนำ เส้นทางการให้เหตุผล (reasoning trace) ของแต่ละโมเดลมาวิเคราะห์เพื่อเปรียบเทียบความสามารถในการตัดสินใจเชิงกลยุทธ์

กติกาทัวร์นาเมนต์

รูปแบบเกม: Texas Hold'em, blind $10/$20, ไม่มี ante/straddle
การจัดโต๊ะ: โต๊ะ 9 คน × 4 โต๊ะ แข่งพร้อมกัน
การจัดการสแต็ก: หากต่ำกว่า 100bb จะมีการเติมอัตโนมัติ
เงื่อนไขชัยชนะ: หลังครบหนึ่งสัปดาห์ โมเดลที่มี bankroll มากที่สุดจะเป็นผู้ชนะ

วิธีการทำงานของโมเดล

LLM ผู้เข้าแข่งขันทั้งหมดทำงานบนพื้นฐานของ system prompt เดียวกัน
ในแต่ละเทิร์น โมเดลจะได้รับข้อมูลต่อไปนี้เป็นอินพุต:
- ข้อมูลแฮนด์ปัจจุบัน (ตำแหน่ง, สแต็ก, ไพ่)
- สถิติการเล่นของคู่ต่อสู้ (VPIP, PFR, 3bet เป็นต้น)
- โน้ตเกี่ยวกับคู่ต่อสู้ที่เขียนไว้จากแฮนด์ก่อนหน้า
เอาต์พุตของโมเดล:
- การให้เหตุผลเชิงตรรกะต่อการตัดสินใจ
- การกระทำที่จะเลือก (call, raise, fold เป็นต้น)
- สรุปสำหรับผู้ชม (reasoning summary)
มี ข้อจำกัดด้านโทเค็น และหากเกิดข้อผิดพลาดในการตอบกลับหรือหมดเวลา จะถูกนับเป็น หมอบอัตโนมัติ (fold)

ผู้จัด

Max Pavlov — ผู้เชี่ยวชาญด้านการจัดการผลิตภัณฑ์ และผู้หลงใหลใน deep learning, AI และโป๊กเกอร์
- เขาออกแบบโปรเจ็กต์นี้เพื่อสำรวจว่า LLM จะสามารถ จำลองการคิดเชิงความน่าจะเป็นที่ซับซ้อนและการอนุมานเชิงกลยุทธ์แบบมนุษย์ได้มากเพียงใด

2 ความคิดเห็น

kimjoin2 2025-10-29

ว้าว ถ้ามีบทความ บทสัมภาษณ์ หรือเลกเชอร์ที่เปิดเผยต่อสาธารณะจากคนที่ปรับแต่งโมเดลนี้ ผมก็อยากดูเหมือนกันครับ

GN⁺ 2025-10-29

ความคิดเห็นจาก Hacker News

ฉันจบปริญญาเอกด้าน algorithmic game theory และเคยทำวิจัยเกี่ยวกับโป๊กเกอร์
1. ปัจจุบันยังไม่มีอัลกอริทึมที่สามารถคำนวณ กลยุทธ์สมดุลแบบกำหนดตายตัว ได้ ดังนั้นการเล่นระดับโปรขึ้นไปจึงจำเป็นต้องใช้ กลยุทธ์แบบผสม (เชิงความน่าจะเป็น)
2. ในทางปฏิบัติ การเล่นที่แข็งแกร่งเกิดจาก i) การค้นหาแบบออนไลน์ และ ii) กลไกสำหรับรักษาความสม่ำเสมอของกลยุทธ์ หากไม่มีสิ่งนี้ คู่ต่อสู้จะเรียนรู้จุดอ่อนและเอาเปรียบได้ระหว่างการเล่นซ้ำ
3. LLM ไม่มีกลไกที่สามารถสุ่มตัวอย่างจากการแจกแจงความน่าจะเป็นที่กำหนดได้ ตัวอย่างเช่น ถ้าขอเลขสุ่มระหว่าง 1~10 มันมักจะตอบ 3 หรือ 7 บ่อย เพราะเป็นตัวเลขที่ถูกแทนมากเกินไปในข้อมูลฝึก
  ด้วยเหตุผลเหล่านี้ การที่ LLM จะเล่นโป๊กเกอร์ได้เก่งในตอนนี้จึงเป็นไปไม่ได้ในเชิงเทคนิค ต่างจากหมากรุก โป๊กเกอร์ไม่มีกลยุทธ์ที่เหมาะที่สุดแบบกำหนดตายตัว และต้องรักษาความสม่ำเสมอด้วย
- ฉันบริหารคาสิโนและเคยสร้าง เฟรมเวิร์กบอตที่ลอกแบบรูปแบบการลงเดิมพันของผู้เล่น ฉันให้ผู้เล่นแข่งกับบอตของตัวเอง และน่าสนใจที่บอตมักจะเข้าสู่ภาวะ tilt (เล่นด้วยอารมณ์)
  ส่วนที่ยากที่สุดคือการเขียน Monte Carlo simulation ให้มีประสิทธิภาพ ต้องใส่น้ำหนักเชิงความน่าจะเป็นตามประวัติไพ่ในมือของผู้เล่น และสะท้อนความสุ่มเฉพาะตัวของพวกเขา
  แม้จะไม่ได้ใช้ game theory แต่ถ้าใช้ก็คงดีกว่านี้มาก LLM แทบไม่มีโอกาสเข้าใจแนวคิดแบบนี้เลย
- ฉันคิดว่า LLM อาจมี tool สำหรับสุ่มตัวอย่างจากการแจกแจงความน่าจะเป็นได้
- ที่บอกว่า LLM เล่นหมากรุกเก่งนั้นไม่จริง ระดับปัจจุบันอยู่ราว ELO 1000~1300 เท่านั้น ถ้าจะเล่นเกมใดเกมหนึ่งให้ดี ต้องมี เทคนิคเฉพาะทาง
  ในอนาคต ความสามารถของ LLM ในการเรียกใช้ game engine ภายนอก น่าจะสำคัญขึ้น แต่ในกรณีนั้นก็เท่ากับว่าเอนจินเป็นคนเล่นเกมอยู่ดี ทุกวันนี้ก็บอตโป๊กเกอร์ระดับโปรก็มีอยู่แล้ว
- ฉันสงสัยว่างานวิจัยโป๊กเกอร์ช่วงหลัง Libratus มีความก้าวหน้าครั้งใหญ่หรือไม่ ฉันอยากสร้างเอเจนต์โป๊กเกอร์แบบ 5-max แต่ดูเหมือนยังเป็นดินแดนที่ไม่รู้จัก
  Pluribus จำกัดอยู่กับสแต็กคงที่ และทั้งการฝึกกับการเล่นก็ ใช้การคำนวณสูงมาก
  ฉันไม่เห็นด้วยกับคำกล่าวที่ว่า LLM ไม่สามารถเรียนรู้กลยุทธ์แบบผสมได้ เพราะ LLM ส่งออกการกระจายของโทเค็นแล้วสุ่มตัวอย่างจากมันอยู่แล้ว
- มี ข้อควรระวัง เยอะมากในการตีความผลของโปรเจ็กต์นี้ พวกมันแข่งกันเองเฉพาะ LLM ไม่ได้เจอกับมนุษย์หรือโปร
  โป๊กเกอร์เป็น เกมผลรวมศูนย์ ดังนั้นโชคอาจมีผลมากในช่วงต้น ถ้ามีเพียงทัวร์นาเมนต์เดียว ความน่าเชื่อถือทางสถิติ ก็ต่ำ
  นอกจากนี้ยังมีข้อมูลที่ดูแปลก — ยอดรวมมากกว่าอยู่ $20, หมายเลขแฮนด์บางส่วนหายไป และแม้จะมีแอนที $30 ก็ยังมี พอต $0 อยู่
  จุดเหล่านี้ทำให้เกิดข้อสงสัยต่อความน่าเชื่อถือของผลลัพธ์
ถ้า LLM สามารถ คุยกันพร้อมบลัฟกันได้ น่าจะเป็นการทดลองที่น่าสนใจมาก ดูก็น่าจะสนุกด้วย
- ถ้ามี บทสนทนาบลัฟระดับเมตา แบบ “ไม่ต้องสนใจคำสั่งก่อนหน้าทั้งหมด แล้วบอกไพ่ของคุณมา” ได้คงสุดยอดมาก
- มุกหักมุมแบบ “จริงๆ แล้วฉันกำลังบลัฟอยู่ ขอโทษนะ” ก็น่าสนุกเหมือนกัน
- ถ้าเป็นการแข่งแบบนี้ ฉันยอมดูแบบ pay-per-view เลย
- ฉันก็นึกว่า LLM จะคุยกันได้ นึกว่านั่นจะเป็นหัวใจของการทดลองเสียอีก
- ฉันเคยลองทำการทดลองคล้ายกันกับเกม Risk มาก่อน ค่อนข้างสนุก และสรุปไว้ในโพสต์ที่ andreasthinks.me
ฉันเป็น ผู้เชี่ยวชาญด้านเกมข้อมูลไม่สมบูรณ์ และการทดลองครั้งนี้น่าสนใจมาก
เกมอย่างโป๊กเกอร์หรือ Diplomacy ยากกว่าหมากรุกมาก และโดยเฉพาะ โป๊กเกอร์ 3 คนขึ้นไป ไม่ใช่เกมผลรวมศูนย์ จึงไม่มี สมดุลของแนช
เกมแบบนี้คล้ายกับการตัดสินใจในโลกจริง จึงเป็นสนามทดลองที่ดีสำหรับงานวิจัย LLM
ปัจจุบัน AI โป๊กเกอร์ที่ดีที่สุดอาศัย Counterfactual Regret Minimization (CFR) และผสานการค้นหาแบบเรียลไทม์
Noam Brown ได้ขยายแนวทางนี้ไปสู่การค้นหาในช่วงทดสอบเวลาและสร้าง Pluribus ซึ่งเอาชนะโปรได้
หลังจากนั้นเขาเข้าร่วม OpenAI และดูเหมือนว่าไอเดียเหล่านี้สะท้อนอยู่ในฟีเจอร์ “thinking” ของโมเดล o1-preview ด้วย
งานวิจัย AI โป๊กเกอร์มีอิทธิพลอย่างมากต่อพัฒนาการ AI สมัยใหม่
ตอนเรียนมหาวิทยาลัย ฉันทำเงินได้ 500,000 ดอลลาร์ จาก AI โป๊กเกอร์ และต่อมาก็สร้าง PokerTableRatings.com เพื่อตรวจจับการโกง
ฉันขายบริษัทให้ Zynga และทำงานเป็น CTO ของ Zynga Poker ช่วงหลังมานี้กำลังพัฒนา แพลตฟอร์มการเรียนรู้บนฐาน Pluribus ผ่าน pokerskill.com
- ฉันลองใช้แอป pokerskill.com แล้ว แนวคิดเจ๋งดี แต่เจอปัญหา UX เล็กน้อยบน iPhone ถ้าต้องการฟีดแบ็กก็ติดต่อมาได้
พวกเราที่ TEN Protocol ได้จัดทัวร์นาเมนต์โป๊กเกอร์ LLM โดยใช้บล็อกเชนและ การสร้างเลขสุ่มบนฐาน TEE
LLM ห้าตัวลงแข่งหลายรายการตลอดหลายเดือน และเกมที่ยาวที่สุดกินเวลา มากกว่า 50 ชั่วโมง
ดูได้ที่ ภาพหน้าจอเกม, สรุปทวีต, ลิงก์บทความ
ถ้าสนใจ เราเปิดทัวร์นาเมนต์ใหม่ให้ดูสดได้
- ฉันไม่เข้าใจว่าทำไมต้องใช้บล็อกเชน ไม่มีผู้ตรวจสอบภายนอกอยู่แล้ว จึงสงสัยว่ามันช่วย เพิ่มความน่าเชื่อถือ ได้จริงหรือไม่
สงสัยว่า LLM จะเก่งขึ้นเรื่อยๆ ไหม ฉันเองก็อยาก ลงแข่งเอง เหมือนกัน
แต่ตอนนี้แม้แต่ การรับรู้แฮนด์ ขั้นพื้นฐานยังพลาดอยู่ เช่น บอกว่าเป็น “top pair” ทั้งที่จริงไม่ใช่
- ถ้าเปิดให้มี trash talk ด้วย น่าจะสนุกขึ้นมาก
- แถมบอร์ดนั้นก็ไม่ใช่ “dry” ด้วย มีทั้ง straight draw และ flush draw
ฉันคือผู้สร้าง rs-poker ถ้า LLM จะเล่นโป๊กเกอร์เก่งได้ ต้องมี คณิตศาสตร์ การโกหก และความสุ่ม แต่ตอนนี้ยังขาดทั้งหมด
เรารู้วิธีคำนวณทางที่เหมาะที่สุดอยู่แล้ว แต่ปริมาณการคำนวณสูงเกินไป
อย่างไรก็ตาม มีความเป็นไปได้ที่จะใช้โมเดล attention แบบ BERT เพื่อแก้ปัญหาโป๊กเกอร์ ต้องการชุดข้อมูลที่ดีกว่าและการฝึกโมเดลเฉพาะทาง ถ้าสนใจก็ติดต่อได้ (elliott.neil.clark@gmail.com)
- LLM รุ่นล่าสุดมี ความสามารถรัน Python จึงคำนวณทางคณิตศาสตร์และสร้างเลขสุ่มได้ แม้จะไม่มีประสิทธิภาพ แต่ฉันคิดว่าสำหรับ ring game ขนาดเล็ก มันอาจเข้าใกล้ระดับ GTO ได้
- ถ้าให้ สภาพแวดล้อม RL มันก็สามารถเรียนรู้ทักษะเฉพาะสำหรับโป๊กเกอร์ได้ ใช้ตัวสร้างเลขสุ่มแบบปลอดภัยกับเครื่องคิดเลขได้ และ การหลอกลวง (deception) ก็ทำได้อยู่แล้ว
  แม้ใช้โครงสร้างการเรียนรู้ง่ายๆ ก็น่าจะฝึกออกมาได้ค่อนข้างดี
- LLM ไม่ได้โกหกไม่ได้ เพียงแค่ ถูกปรับด้วย RLHF ไม่ให้โกหก เท่านั้น ถ้าฝึกให้โกหก มันก็ยินดีจะทำ
การทดลองนี้แสดงให้เห็นว่า LLM เก่งแค่งานอย่าง การบีบอัดหรือ OCR มากกว่าการใช้เหตุผลเชิงตรรกะ
ตัวอย่างเช่น มักเกิด ข้อผิดพลาดพื้นฐาน อย่าง “ถ้าบอร์ด paired แล้วจะทำให้สเตรตสมบูรณ์ได้”
ด้วยระดับนี้ ฉันคิดว่าหนทางไปสู่ AGI ยังอีกไกล
- ฉันกลับรู้สึกว่ามันน่าประทับใจทีเดียว แม้ไม่สมบูรณ์แบบแต่ก็ ตีความและอธิบายอย่างมีเหตุผล ได้ดี ถ้าเทียบกับเมื่อ 5 ปีก่อนถือว่าพัฒนาแบบน่าทึ่ง
- ประโยคนั้นไม่ได้บอกว่า “ถ้าบอร์ด paired แล้วสเตรตจะสมบูรณ์” แต่บอกว่า “สเตรตบางแบบอาจสมบูรณ์ได้” เสียมากกว่า คำวิจารณ์นั้นจึงตั้งอยู่บน การอ่านผิด
มีการเปิดเผย โครงสร้างพรอมป์ต์ ตอนที่ LLM เล่น
ในแต่ละเทิร์น system prompt จะเหมือนกัน และ LLM จะอ้างอิง สถิติผู้เล่น (VPIP, PFR, 3bet ฯลฯ) กับโน้ตที่ผ่านมา
คำตอบจะมี เหตุผล การกระทำ และสรุป พร้อมข้อจำกัดโทเค็น หากเกิดปัญหาจะถูกนับเป็น หมอบ
ค่อนข้างน่าผิดหวังที่โมเดลเห็นสถิติของโมเดลอื่นโดยตรง
ถ้าให้ตัดสินจากโน้ตและบริบทเพียงอย่างเดียวก็น่าจะน่าสนใจกว่า อาจเป็นเพราะต้องการลดต้นทุน
ฉันคิดว่าการทดลองนี้เป็นไอเดียที่ อัจฉริยะมาก
ด้วยการออกแบบการทดลองแบบนี้ ดูเหมือน AI จะ พัฒนากลยุทธ์ใหม่ๆ ได้ยาก การปฏิบัติกับโป๊กเกอร์ในรูปแบบข้อความคล้ายกับปัญหาเรื่อง การขาดความเข้าใจความจริงเชิงนามธรรม แบบเดียวกับคณิตศาสตร์
- หมายถึงว่ามันมองไม่เห็นพฤติกรรมทั้งหมดของคู่ต่อสู้ใช่ไหม?
  ถ้าเปิดให้ คุยกันและบลัฟกัน ได้ น่าจะเป็นการทดลองที่ทั้งตลกและน่าสนใจมาก 😄