การทดลองจำลองการเทรดหุ้น 8 เดือน โดยให้ LLM 5 ตัวบริหารเงินตัวละ 140 ล้านบาท

(aitradearena.com)

11 คะแนน โดย GN⁺ 2025-12-06 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

LLM ขนาดใหญ่ 5 ตัว ได้แก่ GPT-5, Claude, Gemini, Grok, DeepSeek ทำการ เทรดหุ้นเสมือนจริง เป็นเวลา 8 เดือน โดยอิงจากข้อมูลตลาดจริง
แต่ละโมเดลได้รับ เงินจำลอง 100,000 ดอลลาร์ เพื่อซื้อขายหุ้นหลักแบบรายวัน พร้อมบันทึกการตัดสินใจและการเปลี่ยนแปลงพอร์ตทั้งหมด
ผลลัพธ์คือ Grok ทำผลตอบแทนสูงสุด, DeepSeek ตามมาเป็นอันดับ 2 แบบเฉียดฉิว, ส่วน Gemini อยู่อันดับท้ายสุดด้วยพอร์ตที่เน้นหุ้นนอกกลุ่มเทคโนโลยี
การทดลองดำเนินการตั้งแต่ 3 กุมภาพันธ์ 2025 ถึง 20 ตุลาคม 2025 และสร้างสภาพแวดล้อม API แบบ กรองตามเวลา เพื่อให้โมเดลเข้าถึงได้เฉพาะข้อมูลหลังช่วงเวลาที่ใช้ฝึก
ทีมวิจัยวางแผนใช้การทดลองนี้เป็นจุดเริ่มต้น และจะตรวจสอบความสามารถด้านการวิเคราะห์การเงินของ LLM อย่างเป็นระบบผ่าน การเทรดแบบเรียลไทม์และการทดลองควบคุมตัวแปร

ภาพรวมของ AI Trade Arena

AI Trade Arena เป็นแพลตฟอร์มทดลองที่สร้างขึ้นเพื่อประเมินความสามารถของ LLM ในการวิเคราะห์และคาดการณ์ข้อมูลการเงินจริง
- พัฒนาโดย Kam และ Josh ร่วมกัน
- ออกแบบให้โมเดลทำการซื้อขายหุ้นจากข่าว งบการเงิน และข้อมูลตลาด
แพลตฟอร์มติดตาม หุ้นที่ถืออยู่, ประวัติการซื้อขาย, ผลลัพธ์การดำเนินงาน ของแต่ละโมเดล และเปิดเผยกระบวนการซื้อขายทั้งหมดผ่าน เดโมแบบอินเทอร์แอ็กทีฟ

การทดลองครั้งแรก: เทรดหุ้นด้วย LLM 5 ตัว

โมเดลที่เข้าร่วมคือ GPT-5, Claude Sonnet 4.5, Gemini 2.5 Pro, Grok 4, DeepSeek
- แต่ละโมเดลได้รับ เงินจำลอง 100,000 ดอลลาร์
- ไม่รวมการเทรดออปชัน และซื้อขายเฉพาะหุ้นหลัก
การซื้อขายทั้งหมดอิงจากราคาหุ้นย้อนหลังจริง โดยโมเดลเข้าถึงได้เฉพาะ ข้อมูลที่ถูกเปิดเผย ณ ช่วงเวลานั้น
- มีการจัดเตรียม API ข่าวสาร ข้อมูลการเงินบริษัท และข้อมูลตลาดแบบ กรองตามเวลา
ช่วงเวลาทดลองคือ 3 กุมภาพันธ์ 2025 ~ 20 ตุลาคม 2025 รวมประมาณ 8 เดือน

แนวคิดและข้อจำกัดของการแบ็กเทสต์

แบ็กเทสต์คือวิธี ตรวจสอบประสิทธิภาพของอัลกอริทึมการเทรดด้วยข้อมูลในอดีต
- จำลองว่า LLM จะตัดสินใจอย่างไรในแต่ละช่วงเวลาในอดีต
- แยก API ตามลำดับเวลาเพื่อป้องกันไม่ให้ข้อมูลอนาคตรั่วไหล
ข้อดี
- ประเมินโมเดลขนาดใหญ่ได้จำนวนมาก
- ทดสอบได้รวดเร็วในหลายสถานการณ์
- สามารถได้ผลลัพธ์ที่มีนัยสำคัญทางสถิติ
ข้อเสีย
- ไม่สามารถจำลองสภาพตลาดจริงที่มีการแข่งขันและสภาพคล่องได้อย่างสมบูรณ์
- มีความเสี่ยงเรื่อง slippage, ข้อจำกัดด้านปริมาณการซื้อขาย, และการรั่วไหลของข้อมูลอนาคต
- มีโอกาสเกิด overfitting กับข้อมูลในอดีต

ผลการทดลองและข้อสังเกต

ทุกโมเดลถูกทดสอบเฉพาะในช่วงเวลา หลังจุด cutoff ของข้อมูลฝึก
- เพื่อป้องกันไม่ให้โมเดลเทรดโดยอาศัยการจดจำผลลัพธ์ตลาดในอดีต
Grok ทำผลงานดีที่สุด และ DeepSeek ตามมาเป็นอันดับ 2 แบบเฉียดฉิว
- โมเดลส่วนใหญ่จัดพอร์ตโดย เน้นหุ้นกลุ่มเทคโนโลยี ทำให้ได้ผลตอบแทนสูง
- ส่วน Gemini มีสัดส่วนหุ้นนอกกลุ่มเทคโนโลยีสูง จึง ทำผลงานต่ำสุด
ทีมวิจัยเปิดเผยทั้งกระบวนการเทรดและเหตุผลทั้งหมดเพื่อ สร้างความโปร่งใส
- สามารถตรวจสอบเหตุผลของแต่ละดีลได้โดยตรงจาก UI

แผนต่อไป

ทีมวิจัยมีแผนขยายจาก การแบ็กเทสต์ไปสู่การทดลองเทรดแบบเรียลไทม์
- แนวทาง 3 ระยะ: แบ็กเทสต์สถานการณ์ในอดีต → การเทรดจำลองแบบเรียลไทม์ → การเทรดในตลาดจริง
เป้าหมายคือทำความเข้าใจ ความสามารถในการวิเคราะห์ตลาดการเงินและคุณภาพการตัดสินใจ ของ LLM อย่างเป็นระบบ
- ใช้ข้อมูลตลาดเป็น ตัวชี้วัดการประเมินที่อิงโลกจริง
- พยายามแยกแยะระหว่างดวงกับฝีมือผ่าน การวิเคราะห์ปัจจัยแบบ Barra เป็นต้น
จากบันทึกการเทรด สามารถระบุความแตกต่างระหว่าง การตัดสินใจจากการจดจำ กับ การใช้เหตุผลจริง ได้
- ตัวอย่างเช่น การซื้อ Nvidia เพราะจำได้เฉย ๆ กับการวิเคราะห์รายงาน 10-K แล้วได้ข้อสรุปเชิงพื้นฐานนั้นต่างกัน
การวิเคราะห์กระบวนการตัดสินใจอย่าง โปร่งใส เช่นนี้ ยังช่วยปรับปรุง การจัดเครื่องมือและเวิร์กโฟลว์ ของโมเดลได้

การเข้าร่วมและการสำรวจข้อมูล

สามารถเข้าไปสำรวจการซื้อขาย กลยุทธ์ และกระบวนการให้เหตุผลของแต่ละโมเดลได้โดยตรงผ่าน เดโมแบบอินเทอร์แอ็กทีฟ บนเว็บไซต์
ทีมวิจัยกำลังวางแผนการทดลองเพิ่มเติม และเปิดรับความคิดเห็นผ่าน ชุมชน Discord และ Twitter DM

1 ความคิดเห็น

GN⁺ 2025-12-06

ความเห็นจาก Hacker News

Grok ทำผลงานได้ดีที่สุด และ DeepSeek ตามมาเป็นอันดับสองแบบเฉียดฉิว
ดูเหมือนว่าเหตุผลที่โมเดลส่วนใหญ่ได้ผลลัพธ์ดี เป็นเพราะถือ พอร์ตที่เน้นหุ้นเทคโนโลยี
ในทางกลับกัน Gemini มีสัดส่วนหุ้นนอกกลุ่มเทคสูงกว่า จึงจบเป็นอันดับสุดท้าย
ผมไม่ใช่นักลงทุนหรือนักวิจัย แต่ผลลัพธ์นี้ทำให้รู้สึกว่า ตัวชี้วัดที่ใช้วัดน่าจะผิดฝาผิดตัว
- ถ้าเชื่อว่าภาคเทคจะขึ้นต่อ ก็มีโอกาสชนะค่าเฉลี่ยตลาดได้
  แต่ปัญหาคือไม่มีใครทำนาย จังหวะการปรับฐาน ได้
  ถ้าในข้อมูลไม่มีช่วงตลาดขาลง โมเดลก็จะไม่มีทางเรียนรู้สถานการณ์แบบนั้นได้
  ที่จริงน่าสนใจกว่าถ้าจะแบ่งข้อมูลครึ่งหนึ่งเพื่อฝึก แล้วใช้อีกครึ่งหนึ่งทดสอบ
  มันทำให้นึกถึงว่าแม้แต่เฮดจ์ฟันด์ก็อาจชนะตลาดได้ 2-4 ปี แต่แทบเป็นไปไม่ได้เลยถ้าจะทำได้นานเกิน 10 ปี
- วิธีที่สมเหตุสมผลกว่าคือให้แต่ละโมเดลสร้างพอร์ต 100 พอร์ต แล้วรัน การจำลองแบบมอนติคาร์โล เพื่อดูผลตอบแทนเฉลี่ย
- น่าจะลองทำการศึกษานี้ซ้ำใน ตลาดหมี (bear market) ด้วย
- แม้แต่ S&P 500 เองก็มีน้ำหนักหุ้นเทคสูง และเป็นดัชนีที่เอาชนะได้ยากในระยะยาว
- การทดลองนี้ดูเหมือนจะแสดงแค่ผลลัพธ์ล่าสุด โดยไม่คำนึงถึงบริบทของแต่ละช่วงเวลา
  ถ้าฝึกโมเดลใหม่ตามแต่ละช่วงเวลาแล้วทำ แบ็กเทสต์ (backtesting) น่าจะได้ผลที่มีความหมายกว่า
ผมเคยทำงานกับ API โบรกเกอร์สำหรับอัลกอริทึมเทรดดิ้ง มาก่อน และพบว่ากลยุทธ์ที่ดูดีในแบ็กเทสต์มักล้มเหลวในตลาดจริง
แม้แต่การเทรดกระดาษแบบเรียลไทม์ (paper trading) ก็ยังทำงานต่างจากตลาดจริง
DeepSeek ทำผลงานดีเพราะถือหุ้นเทคจำนวนมากโดยแทบไม่ขาย แต่กลยุทธ์ที่กระจุกอยู่ในเซกเตอร์เดียวมีความเสี่ยง
และการที่ซื้อขายได้แค่วันละครั้ง ก็หมายความว่านี่ไม่ใช่การทดลองเรื่อง การตัดสินใจแบบเรียลไทม์
ถ้า LLM สามารถสลับเซกเตอร์ได้ถูกจังหวะจริง ๆ นั่นถึงจะน่าประทับใจ
- ในตลาดจริง คำสั่งอาจถูกจับคู่ก่อนโดย market maker ที่ทำ front running และ
  ยังมี ผลกระทบต่อตลาด (market impact) จากผู้เล่นรายอื่นที่ยกเลิกคำสั่งหรือวิ่งตามคำสั่งด้วย
  สิ่งเหล่านี้ไม่เกิดขึ้นในการเทรดกระดาษ
- เมื่อมีเงินจริงอยู่ในเกม ปัจจัยทางอารมณ์ จะเข้ามา ทำให้ยากที่จะเชื่อการตัดสินใจของเครื่องทั้งหมด
- ถ้าลองกลยุทธ์จำนวนมากพอ สุดท้ายก็อาจมีกลยุทธ์ที่บังเอิญเข้ากับข้อมูลอดีตได้ จึง ไม่มีความหมายถ้าดูแค่แบ็กเทสต์
- ผมเองก็เคยเพิ่มเงินจากการเทรดกระดาษใน ThinkOrSwim ได้ 2-3 เท่า แต่พอลงตลาดจริงกลับพังไม่เป็นท่า
ถ้ารันแค่ครั้งเดียวต่อโมเดล นั่นไม่ใช่แบ็กเทสต์ที่ถูกต้อง
ถ้าดูผลจากจุดเวลาเดียว แม้แต่กลยุทธ์ง่าย ๆ อย่าง “ซื้อหุ้น AI” ก็อาจบังเอิญเวิร์กได้
ต้องรันแบบอิสระ 100 ครั้งใน ช่วงตลาดที่แตกต่างกัน 10 ช่วง ถึงจะได้สถิติที่มีความหมาย
การทดลองตอนนี้แทบไม่ต่างจาก เครื่องสร้างเลขสุ่ม (random number generator) ราคาแพง
- งบประมาณมีจำกัด เลยไม่สามารถรันโมเดลหลายรอบได้
  อย่างเช่น Claude ใช้เงินราว 200-300 ดอลลาร์สำหรับการรัน 8 เดือน
  จริง ๆ แล้วอยากขยายขนาดการทดลองเพื่อให้ได้ผลที่มีนัยสำคัญทางสถิติ
- ในงานวิจัยก็ระบุไว้แล้วว่าผลลัพธ์ ไม่มีนัยสำคัญทางสถิติ แต่คิดว่าน่าจะเน้นประเด็นนี้ให้มากกว่านี้
  ตอนนี้มันดูเหมือนบทความที่โฟกัสแต่ผลลัพธ์
- ปัญหาอีกอย่างคือไม่มี เมตริก (metric) อื่นนอกจากผลตอบแทนรวม
  เพราะแม้แต่การสุ่มเลือกหุ้น ก็ยังมีโอกาสชนะ S&P 500 ได้สูง
- เอาให้สุดโต่งก็อาจตั้งการทดลองว่า “ถ้าซื้อหุ้นอะไรในวันที่ 1 มกราคม 2010 แล้วถือ 15 ปีจะได้ผลตอบแทนสูงสุด?”
  แต่คงไม่มีใครใช้กลยุทธ์นั้นต่อไปอีก 15 ปีข้างหน้าแบบเดิม
- ผลจากการรันครั้งเดียวโดยพื้นฐานแล้วก็แทบเป็นแค่ random walk
ตอนนี้ก็มี ลีดเดอร์บอร์ดของ nof1.ai อยู่เหมือนกัน
ผลลัพธ์ต่ำกว่าที่คาด และ AI ส่วนใหญ่กำลัง เทรดสั้นหุ้นเทค Mag7 จนขาดทุน
- ข้อจำกัดของ nof1 คือแทบไม่ได้ใช้ ข้อมูลวิเคราะห์บริษัท ที่นักลงทุนจริงจะนำไปอ้างอิง
  เรากำลังพยายามอุดช่องนี้ด้วยการทำการทดลองคล้ายกันที่ rallies.ai/arena
- เมื่อวานเห็นเป็นกระแสบน X (Twitter) ก็คิดว่าเป็นผลของ nof1 แต่จริง ๆ แล้วเป็นการทดลองคนละอัน
  ถึงอย่างนั้น แดชบอร์ดคอมเมนต์การลงทุนแบบเรียลไทม์ ของ nof1 ก็ยังดูเพลินดี
- ดูจากเว็บแล้วเหมือนโมเดลจะเทรดได้แค่หุ้นเทคไม่กี่ตัวกับ เหรียญ XYZ100 เท่านั้น
- แอบสงสัยว่า “โมเดลลึกลับ” นั้นอาจเป็นโมเดลของพวกเขาเองหรือเปล่า
- เพราะข้อมูลราคากระจายเร็วมาก ผลลัพธ์จึงขึ้นอยู่กับ สถาปัตยกรรมเอเจนต์และลูปป้อนกลับ อย่างมาก
ผู้เขียน (OP) มาเอง
ผมรู้ข้อจำกัดของแบ็กเทสต์กับเงินจำลองอยู่แล้ว แต่ก็ยังอยากแสดงให้เห็นว่า โมเดลมองตลาดอย่างไร
ไม่ได้หมายความว่ามันจะชนะตลาดได้ในระยะยาว
- น่าจะมี การทดลองควบคุม เปรียบเทียบกับผู้เข้าร่วมที่เป็นมนุษย์ด้วย
- เพราะไม่ใช่การซื้อขายด้วยเงินจริง จึงไม่มี ผลกระทบต่อตลาด เลย
- ถ้าไม่เปิดเผย ผลตอบแทนที่ปรับด้วยความเสี่ยง ความหมายของผลลัพธ์ก็จะอ่อนลงมาก
  การถือพอร์ตที่มีเบต้าสูงในตลาดขาขึ้นไม่ใช่ผลงานที่พิเศษอะไร
- ควรใช้ “came in a close second” แทน “DeepSeek came close to second”
- ในฐานะคนจบปริญญาเอกด้านวิจัยตลาดทุน ผมคิดว่าต้องคำนวณ ผลตอบแทนผิดปกติ (alpha) ด้วย จึงจะตัดสินได้ว่าเป็นผลตอบแทนส่วนเกินจริงหรือไม่
เราเองก็กำลังทำ การทดลองแบบเรียลไทม์ กับหุ้นและออปชันอยู่
โมเดลมี สิทธิ์เข้าถึงเครื่องมือ หลายอย่าง เช่น เอกสารยื่นต่อ SEC, ข้อมูลพื้นฐาน, ราคาตลาดแบบเรียลไทม์ และข้อมูลออปชัน
ผมมองว่าแบ็กเทสต์ไม่มีความหมายแล้ว เพราะ LLM จดจำข้อมูลในอดีตไปแทบหมด
เลยหันมาทำ forward test ซึ่งแม้ข้อมูลยังมีไม่มาก แต่ผลเริ่มต้นก็น่าสนใจ
rallies.ai/arena
- ถ้าโค้ดหรือพรอมป์ต์ไม่เป็น โอเพนซอร์ส มันก็ยากที่จะเชื่อถือไม่ใช่หรือ
- สงสัยว่าทำไม Qwen ถึงทำผลงานแย่กว่าโมเดลอื่นมาก
เคยมีการทดลองคล้ายกันกับคริปโต โดยใช้ เงินจริงและการเทรดแบบเรียลไทม์
ลิงก์ที่เกี่ยวข้อง
ผมมองว่าการป้องกัน การรั่วไหลของข้อมูลอนาคต ใน LLM แทบเป็นไปไม่ได้
งานวิจัยก็ชี้แบบนั้น และผมเองก็ทำงานกับโมเดลพยากรณ์จึงเจอความยากนี้โดยตรง
แบ็กเทสต์ต่างจากการเทรดจริงมาก จึงไม่ได้มีความหมายมากนัก
แถม 8 เดือนก็สั้นเกินไป
สำหรับผม ตลาดในอีก 8 ปีข้างหน้า สำคัญกว่ามาก
- ถ้าจะทำแบ็กเทสต์กับ LLM ต้อง ล้างข้อมูล (white-wash) อดีตให้หมดจริง ๆ
  ต่อให้ลบชื่อหุ้นออก โมเดลก็อาจถูกฝึกมาจน เดาได้ว่าเป็น NVDA จากรูปแบบกราฟ เพียงอย่างเดียว
ผลแบ็กเทสต์ของโมเดลพวกนี้เชื่อถือได้ยาก
ถ้าจะให้มีความหมาย ต้องทำ การทดลองสด 8 เดือน โดยคิดต้นทุนจริงเข้าไปด้วย
- ตอนนี้เรากำลังทำ การทดลองแบบไลฟ์ กับหุ้นและออปชันอยู่
  rallies.ai/arena
นี่เป็นแนวทางที่ผิดตั้งแต่ต้น
ผมทำงานเป็น นักวิจัยที่ใช้ LLM กับงานเทรดดิ้งจริง
LLM นั้นไร้เดียงสา ถูกชักจูงได้ง่าย และ ไม่เป็นเชิงกำหนด (non-deterministic)
ถ้าทำการทดลองเดิม 10 ครั้ง ก็อาจได้ผลต่างกันทุกครั้ง
วิธีที่ถูกต้องคือต้องสร้าง อัลกอริทึมเทรดดิ้งแบบกำหนดแน่นอน ขึ้นมาก่อน แล้วค่อยวาง LLM เป็นเครื่องมือเสริมบนชั้นนั้น
ถ้าเอา LLM ใส่เข้าไปในท่อการเทรดโดยตรง จะมีแต่เพิ่มความไม่แน่นอนโดยไม่จำเป็น
มันมีคุณค่าในงานอย่างการวิเคราะห์อารมณ์หรือการเชื่อมงาน ML เสริมต่าง ๆ ให้เร็วขึ้น
แต่การทดลองแบบนี้คือ ตัวอย่างคลาสสิกของการเอา AI มาแปะโดยไม่เข้าใจโดเมน
งานวิจัยที่มีความหมายจริงควรควบคุมตัวแปรอย่างการเปิดรับความเสี่ยงรายเซกเตอร์ และทำซ้ำเป็นพันครั้งเพื่อวิเคราะห์ รูปแบบอคติของ LLM แต่ละตัว
ถ้า LLM สามารถพูดเองว่า “ฉันจะออกแบบอัลกอริทึมควอนต์” แล้วทำสำเร็จจริง นั่นถึงจะน่าทึ่ง

การทดลองจำลองการเทรดหุ้น 8 เดือน โดยให้ LLM 5 ตัวบริหารเงินตัวละ 140 ล้านบาท

ภาพรวมของ AI Trade Arena

การทดลองครั้งแรก: เทรดหุ้นด้วย LLM 5 ตัว

แนวคิดและข้อจำกัดของการแบ็กเทสต์

ผลการทดลองและข้อสังเกต

แผนต่อไป

การเข้าร่วมและการสำรวจข้อมูล

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News