- LLM ขนาดใหญ่ 5 ตัว ได้แก่ GPT-5, Claude, Gemini, Grok, DeepSeek ทำการ เทรดหุ้นเสมือนจริง เป็นเวลา 8 เดือน โดยอิงจากข้อมูลตลาดจริง
- แต่ละโมเดลได้รับ เงินจำลอง 100,000 ดอลลาร์ เพื่อซื้อขายหุ้นหลักแบบรายวัน พร้อมบันทึกการตัดสินใจและการเปลี่ยนแปลงพอร์ตทั้งหมด
- ผลลัพธ์คือ Grok ทำผลตอบแทนสูงสุด, DeepSeek ตามมาเป็นอันดับ 2 แบบเฉียดฉิว, ส่วน Gemini อยู่อันดับท้ายสุดด้วยพอร์ตที่เน้นหุ้นนอกกลุ่มเทคโนโลยี
- การทดลองดำเนินการตั้งแต่ 3 กุมภาพันธ์ 2025 ถึง 20 ตุลาคม 2025 และสร้างสภาพแวดล้อม API แบบ กรองตามเวลา เพื่อให้โมเดลเข้าถึงได้เฉพาะข้อมูลหลังช่วงเวลาที่ใช้ฝึก
- ทีมวิจัยวางแผนใช้การทดลองนี้เป็นจุดเริ่มต้น และจะตรวจสอบความสามารถด้านการวิเคราะห์การเงินของ LLM อย่างเป็นระบบผ่าน การเทรดแบบเรียลไทม์และการทดลองควบคุมตัวแปร
ภาพรวมของ AI Trade Arena
- AI Trade Arena เป็นแพลตฟอร์มทดลองที่สร้างขึ้นเพื่อประเมินความสามารถของ LLM ในการวิเคราะห์และคาดการณ์ข้อมูลการเงินจริง
- พัฒนาโดย Kam และ Josh ร่วมกัน
- ออกแบบให้โมเดลทำการซื้อขายหุ้นจากข่าว งบการเงิน และข้อมูลตลาด
- แพลตฟอร์มติดตาม หุ้นที่ถืออยู่, ประวัติการซื้อขาย, ผลลัพธ์การดำเนินงาน ของแต่ละโมเดล และเปิดเผยกระบวนการซื้อขายทั้งหมดผ่าน เดโมแบบอินเทอร์แอ็กทีฟ
การทดลองครั้งแรก: เทรดหุ้นด้วย LLM 5 ตัว
- โมเดลที่เข้าร่วมคือ GPT-5, Claude Sonnet 4.5, Gemini 2.5 Pro, Grok 4, DeepSeek
- แต่ละโมเดลได้รับ เงินจำลอง 100,000 ดอลลาร์
- ไม่รวมการเทรดออปชัน และซื้อขายเฉพาะหุ้นหลัก
- การซื้อขายทั้งหมดอิงจากราคาหุ้นย้อนหลังจริง โดยโมเดลเข้าถึงได้เฉพาะ ข้อมูลที่ถูกเปิดเผย ณ ช่วงเวลานั้น
- มีการจัดเตรียม API ข่าวสาร ข้อมูลการเงินบริษัท และข้อมูลตลาดแบบ กรองตามเวลา
- ช่วงเวลาทดลองคือ 3 กุมภาพันธ์ 2025 ~ 20 ตุลาคม 2025 รวมประมาณ 8 เดือน
แนวคิดและข้อจำกัดของการแบ็กเทสต์
- แบ็กเทสต์คือวิธี ตรวจสอบประสิทธิภาพของอัลกอริทึมการเทรดด้วยข้อมูลในอดีต
- จำลองว่า LLM จะตัดสินใจอย่างไรในแต่ละช่วงเวลาในอดีต
- แยก API ตามลำดับเวลาเพื่อป้องกันไม่ให้ข้อมูลอนาคตรั่วไหล
- ข้อดี
- ประเมินโมเดลขนาดใหญ่ได้จำนวนมาก
- ทดสอบได้รวดเร็วในหลายสถานการณ์
- สามารถได้ผลลัพธ์ที่มีนัยสำคัญทางสถิติ
- ข้อเสีย
- ไม่สามารถจำลองสภาพตลาดจริงที่มีการแข่งขันและสภาพคล่องได้อย่างสมบูรณ์
- มีความเสี่ยงเรื่อง slippage, ข้อจำกัดด้านปริมาณการซื้อขาย, และการรั่วไหลของข้อมูลอนาคต
- มีโอกาสเกิด overfitting กับข้อมูลในอดีต
ผลการทดลองและข้อสังเกต
- ทุกโมเดลถูกทดสอบเฉพาะในช่วงเวลา หลังจุด cutoff ของข้อมูลฝึก
- เพื่อป้องกันไม่ให้โมเดลเทรดโดยอาศัยการจดจำผลลัพธ์ตลาดในอดีต
- Grok ทำผลงานดีที่สุด และ DeepSeek ตามมาเป็นอันดับ 2 แบบเฉียดฉิว
- โมเดลส่วนใหญ่จัดพอร์ตโดย เน้นหุ้นกลุ่มเทคโนโลยี ทำให้ได้ผลตอบแทนสูง
- ส่วน Gemini มีสัดส่วนหุ้นนอกกลุ่มเทคโนโลยีสูง จึง ทำผลงานต่ำสุด
- ทีมวิจัยเปิดเผยทั้งกระบวนการเทรดและเหตุผลทั้งหมดเพื่อ สร้างความโปร่งใส
- สามารถตรวจสอบเหตุผลของแต่ละดีลได้โดยตรงจาก UI
แผนต่อไป
- ทีมวิจัยมีแผนขยายจาก การแบ็กเทสต์ไปสู่การทดลองเทรดแบบเรียลไทม์
- แนวทาง 3 ระยะ: แบ็กเทสต์สถานการณ์ในอดีต → การเทรดจำลองแบบเรียลไทม์ → การเทรดในตลาดจริง
- เป้าหมายคือทำความเข้าใจ ความสามารถในการวิเคราะห์ตลาดการเงินและคุณภาพการตัดสินใจ ของ LLM อย่างเป็นระบบ
- ใช้ข้อมูลตลาดเป็น ตัวชี้วัดการประเมินที่อิงโลกจริง
- พยายามแยกแยะระหว่างดวงกับฝีมือผ่าน การวิเคราะห์ปัจจัยแบบ Barra เป็นต้น
- จากบันทึกการเทรด สามารถระบุความแตกต่างระหว่าง การตัดสินใจจากการจดจำ กับ การใช้เหตุผลจริง ได้
- ตัวอย่างเช่น การซื้อ Nvidia เพราะจำได้เฉย ๆ กับการวิเคราะห์รายงาน 10-K แล้วได้ข้อสรุปเชิงพื้นฐานนั้นต่างกัน
- การวิเคราะห์กระบวนการตัดสินใจอย่าง โปร่งใส เช่นนี้ ยังช่วยปรับปรุง การจัดเครื่องมือและเวิร์กโฟลว์ ของโมเดลได้
การเข้าร่วมและการสำรวจข้อมูล
- สามารถเข้าไปสำรวจการซื้อขาย กลยุทธ์ และกระบวนการให้เหตุผลของแต่ละโมเดลได้โดยตรงผ่าน เดโมแบบอินเทอร์แอ็กทีฟ บนเว็บไซต์
- ทีมวิจัยกำลังวางแผนการทดลองเพิ่มเติม และเปิดรับความคิดเห็นผ่าน ชุมชน Discord และ Twitter DM
1 ความคิดเห็น
ความเห็นจาก Hacker News
Grok ทำผลงานได้ดีที่สุด และ DeepSeek ตามมาเป็นอันดับสองแบบเฉียดฉิว
ดูเหมือนว่าเหตุผลที่โมเดลส่วนใหญ่ได้ผลลัพธ์ดี เป็นเพราะถือ พอร์ตที่เน้นหุ้นเทคโนโลยี
ในทางกลับกัน Gemini มีสัดส่วนหุ้นนอกกลุ่มเทคสูงกว่า จึงจบเป็นอันดับสุดท้าย
ผมไม่ใช่นักลงทุนหรือนักวิจัย แต่ผลลัพธ์นี้ทำให้รู้สึกว่า ตัวชี้วัดที่ใช้วัดน่าจะผิดฝาผิดตัว
แต่ปัญหาคือไม่มีใครทำนาย จังหวะการปรับฐาน ได้
ถ้าในข้อมูลไม่มีช่วงตลาดขาลง โมเดลก็จะไม่มีทางเรียนรู้สถานการณ์แบบนั้นได้
ที่จริงน่าสนใจกว่าถ้าจะแบ่งข้อมูลครึ่งหนึ่งเพื่อฝึก แล้วใช้อีกครึ่งหนึ่งทดสอบ
มันทำให้นึกถึงว่าแม้แต่เฮดจ์ฟันด์ก็อาจชนะตลาดได้ 2-4 ปี แต่แทบเป็นไปไม่ได้เลยถ้าจะทำได้นานเกิน 10 ปี
ถ้าฝึกโมเดลใหม่ตามแต่ละช่วงเวลาแล้วทำ แบ็กเทสต์ (backtesting) น่าจะได้ผลที่มีความหมายกว่า
ผมเคยทำงานกับ API โบรกเกอร์สำหรับอัลกอริทึมเทรดดิ้ง มาก่อน และพบว่ากลยุทธ์ที่ดูดีในแบ็กเทสต์มักล้มเหลวในตลาดจริง
แม้แต่การเทรดกระดาษแบบเรียลไทม์ (paper trading) ก็ยังทำงานต่างจากตลาดจริง
DeepSeek ทำผลงานดีเพราะถือหุ้นเทคจำนวนมากโดยแทบไม่ขาย แต่กลยุทธ์ที่กระจุกอยู่ในเซกเตอร์เดียวมีความเสี่ยง
และการที่ซื้อขายได้แค่วันละครั้ง ก็หมายความว่านี่ไม่ใช่การทดลองเรื่อง การตัดสินใจแบบเรียลไทม์
ถ้า LLM สามารถสลับเซกเตอร์ได้ถูกจังหวะจริง ๆ นั่นถึงจะน่าประทับใจ
ยังมี ผลกระทบต่อตลาด (market impact) จากผู้เล่นรายอื่นที่ยกเลิกคำสั่งหรือวิ่งตามคำสั่งด้วย
สิ่งเหล่านี้ไม่เกิดขึ้นในการเทรดกระดาษ
ถ้ารันแค่ครั้งเดียวต่อโมเดล นั่นไม่ใช่แบ็กเทสต์ที่ถูกต้อง
ถ้าดูผลจากจุดเวลาเดียว แม้แต่กลยุทธ์ง่าย ๆ อย่าง “ซื้อหุ้น AI” ก็อาจบังเอิญเวิร์กได้
ต้องรันแบบอิสระ 100 ครั้งใน ช่วงตลาดที่แตกต่างกัน 10 ช่วง ถึงจะได้สถิติที่มีความหมาย
การทดลองตอนนี้แทบไม่ต่างจาก เครื่องสร้างเลขสุ่ม (random number generator) ราคาแพง
อย่างเช่น Claude ใช้เงินราว 200-300 ดอลลาร์สำหรับการรัน 8 เดือน
จริง ๆ แล้วอยากขยายขนาดการทดลองเพื่อให้ได้ผลที่มีนัยสำคัญทางสถิติ
ตอนนี้มันดูเหมือนบทความที่โฟกัสแต่ผลลัพธ์
เพราะแม้แต่การสุ่มเลือกหุ้น ก็ยังมีโอกาสชนะ S&P 500 ได้สูง
แต่คงไม่มีใครใช้กลยุทธ์นั้นต่อไปอีก 15 ปีข้างหน้าแบบเดิม
ตอนนี้ก็มี ลีดเดอร์บอร์ดของ nof1.ai อยู่เหมือนกัน
ผลลัพธ์ต่ำกว่าที่คาด และ AI ส่วนใหญ่กำลัง เทรดสั้นหุ้นเทค Mag7 จนขาดทุน
เรากำลังพยายามอุดช่องนี้ด้วยการทำการทดลองคล้ายกันที่ rallies.ai/arena
ถึงอย่างนั้น แดชบอร์ดคอมเมนต์การลงทุนแบบเรียลไทม์ ของ nof1 ก็ยังดูเพลินดี
ผู้เขียน (OP) มาเอง
ผมรู้ข้อจำกัดของแบ็กเทสต์กับเงินจำลองอยู่แล้ว แต่ก็ยังอยากแสดงให้เห็นว่า โมเดลมองตลาดอย่างไร
ไม่ได้หมายความว่ามันจะชนะตลาดได้ในระยะยาว
การถือพอร์ตที่มีเบต้าสูงในตลาดขาขึ้นไม่ใช่ผลงานที่พิเศษอะไร
เราเองก็กำลังทำ การทดลองแบบเรียลไทม์ กับหุ้นและออปชันอยู่
โมเดลมี สิทธิ์เข้าถึงเครื่องมือ หลายอย่าง เช่น เอกสารยื่นต่อ SEC, ข้อมูลพื้นฐาน, ราคาตลาดแบบเรียลไทม์ และข้อมูลออปชัน
ผมมองว่าแบ็กเทสต์ไม่มีความหมายแล้ว เพราะ LLM จดจำข้อมูลในอดีตไปแทบหมด
เลยหันมาทำ forward test ซึ่งแม้ข้อมูลยังมีไม่มาก แต่ผลเริ่มต้นก็น่าสนใจ
rallies.ai/arena
เคยมีการทดลองคล้ายกันกับคริปโต โดยใช้ เงินจริงและการเทรดแบบเรียลไทม์
ลิงก์ที่เกี่ยวข้อง
ผมมองว่าการป้องกัน การรั่วไหลของข้อมูลอนาคต ใน LLM แทบเป็นไปไม่ได้
งานวิจัยก็ชี้แบบนั้น และผมเองก็ทำงานกับโมเดลพยากรณ์จึงเจอความยากนี้โดยตรง
แบ็กเทสต์ต่างจากการเทรดจริงมาก จึงไม่ได้มีความหมายมากนัก
แถม 8 เดือนก็สั้นเกินไป
สำหรับผม ตลาดในอีก 8 ปีข้างหน้า สำคัญกว่ามาก
ต่อให้ลบชื่อหุ้นออก โมเดลก็อาจถูกฝึกมาจน เดาได้ว่าเป็น NVDA จากรูปแบบกราฟ เพียงอย่างเดียว
ผลแบ็กเทสต์ของโมเดลพวกนี้เชื่อถือได้ยาก
ถ้าจะให้มีความหมาย ต้องทำ การทดลองสด 8 เดือน โดยคิดต้นทุนจริงเข้าไปด้วย
rallies.ai/arena
นี่เป็นแนวทางที่ผิดตั้งแต่ต้น
ผมทำงานเป็น นักวิจัยที่ใช้ LLM กับงานเทรดดิ้งจริง
LLM นั้นไร้เดียงสา ถูกชักจูงได้ง่าย และ ไม่เป็นเชิงกำหนด (non-deterministic)
ถ้าทำการทดลองเดิม 10 ครั้ง ก็อาจได้ผลต่างกันทุกครั้ง
วิธีที่ถูกต้องคือต้องสร้าง อัลกอริทึมเทรดดิ้งแบบกำหนดแน่นอน ขึ้นมาก่อน แล้วค่อยวาง LLM เป็นเครื่องมือเสริมบนชั้นนั้น
ถ้าเอา LLM ใส่เข้าไปในท่อการเทรดโดยตรง จะมีแต่เพิ่มความไม่แน่นอนโดยไม่จำเป็น
มันมีคุณค่าในงานอย่างการวิเคราะห์อารมณ์หรือการเชื่อมงาน ML เสริมต่าง ๆ ให้เร็วขึ้น
แต่การทดลองแบบนี้คือ ตัวอย่างคลาสสิกของการเอา AI มาแปะโดยไม่เข้าใจโดเมน
งานวิจัยที่มีความหมายจริงควรควบคุมตัวแปรอย่างการเปิดรับความเสี่ยงรายเซกเตอร์ และทำซ้ำเป็นพันครั้งเพื่อวิเคราะห์ รูปแบบอคติของ LLM แต่ละตัว
ถ้า LLM สามารถพูดเองว่า “ฉันจะออกแบบอัลกอริทึมควอนต์” แล้วทำสำเร็จจริง นั่นถึงจะน่าทึ่ง