11 คะแนน โดย GN⁺ 2025-12-06 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • LLM ขนาดใหญ่ 5 ตัว ได้แก่ GPT-5, Claude, Gemini, Grok, DeepSeek ทำการ เทรดหุ้นเสมือนจริง เป็นเวลา 8 เดือน โดยอิงจากข้อมูลตลาดจริง
  • แต่ละโมเดลได้รับ เงินจำลอง 100,000 ดอลลาร์ เพื่อซื้อขายหุ้นหลักแบบรายวัน พร้อมบันทึกการตัดสินใจและการเปลี่ยนแปลงพอร์ตทั้งหมด
  • ผลลัพธ์คือ Grok ทำผลตอบแทนสูงสุด, DeepSeek ตามมาเป็นอันดับ 2 แบบเฉียดฉิว, ส่วน Gemini อยู่อันดับท้ายสุดด้วยพอร์ตที่เน้นหุ้นนอกกลุ่มเทคโนโลยี
  • การทดลองดำเนินการตั้งแต่ 3 กุมภาพันธ์ 2025 ถึง 20 ตุลาคม 2025 และสร้างสภาพแวดล้อม API แบบ กรองตามเวลา เพื่อให้โมเดลเข้าถึงได้เฉพาะข้อมูลหลังช่วงเวลาที่ใช้ฝึก
  • ทีมวิจัยวางแผนใช้การทดลองนี้เป็นจุดเริ่มต้น และจะตรวจสอบความสามารถด้านการวิเคราะห์การเงินของ LLM อย่างเป็นระบบผ่าน การเทรดแบบเรียลไทม์และการทดลองควบคุมตัวแปร

ภาพรวมของ AI Trade Arena

  • AI Trade Arena เป็นแพลตฟอร์มทดลองที่สร้างขึ้นเพื่อประเมินความสามารถของ LLM ในการวิเคราะห์และคาดการณ์ข้อมูลการเงินจริง
    • พัฒนาโดย Kam และ Josh ร่วมกัน
    • ออกแบบให้โมเดลทำการซื้อขายหุ้นจากข่าว งบการเงิน และข้อมูลตลาด
  • แพลตฟอร์มติดตาม หุ้นที่ถืออยู่, ประวัติการซื้อขาย, ผลลัพธ์การดำเนินงาน ของแต่ละโมเดล และเปิดเผยกระบวนการซื้อขายทั้งหมดผ่าน เดโมแบบอินเทอร์แอ็กทีฟ

การทดลองครั้งแรก: เทรดหุ้นด้วย LLM 5 ตัว

  • โมเดลที่เข้าร่วมคือ GPT-5, Claude Sonnet 4.5, Gemini 2.5 Pro, Grok 4, DeepSeek
    • แต่ละโมเดลได้รับ เงินจำลอง 100,000 ดอลลาร์
    • ไม่รวมการเทรดออปชัน และซื้อขายเฉพาะหุ้นหลัก
  • การซื้อขายทั้งหมดอิงจากราคาหุ้นย้อนหลังจริง โดยโมเดลเข้าถึงได้เฉพาะ ข้อมูลที่ถูกเปิดเผย ณ ช่วงเวลานั้น
    • มีการจัดเตรียม API ข่าวสาร ข้อมูลการเงินบริษัท และข้อมูลตลาดแบบ กรองตามเวลา
  • ช่วงเวลาทดลองคือ 3 กุมภาพันธ์ 2025 ~ 20 ตุลาคม 2025 รวมประมาณ 8 เดือน

แนวคิดและข้อจำกัดของการแบ็กเทสต์

  • แบ็กเทสต์คือวิธี ตรวจสอบประสิทธิภาพของอัลกอริทึมการเทรดด้วยข้อมูลในอดีต
    • จำลองว่า LLM จะตัดสินใจอย่างไรในแต่ละช่วงเวลาในอดีต
    • แยก API ตามลำดับเวลาเพื่อป้องกันไม่ให้ข้อมูลอนาคตรั่วไหล
  • ข้อดี
    • ประเมินโมเดลขนาดใหญ่ได้จำนวนมาก
    • ทดสอบได้รวดเร็วในหลายสถานการณ์
    • สามารถได้ผลลัพธ์ที่มีนัยสำคัญทางสถิติ
  • ข้อเสีย
    • ไม่สามารถจำลองสภาพตลาดจริงที่มีการแข่งขันและสภาพคล่องได้อย่างสมบูรณ์
    • มีความเสี่ยงเรื่อง slippage, ข้อจำกัดด้านปริมาณการซื้อขาย, และการรั่วไหลของข้อมูลอนาคต
    • มีโอกาสเกิด overfitting กับข้อมูลในอดีต

ผลการทดลองและข้อสังเกต

  • ทุกโมเดลถูกทดสอบเฉพาะในช่วงเวลา หลังจุด cutoff ของข้อมูลฝึก
    • เพื่อป้องกันไม่ให้โมเดลเทรดโดยอาศัยการจดจำผลลัพธ์ตลาดในอดีต
  • Grok ทำผลงานดีที่สุด และ DeepSeek ตามมาเป็นอันดับ 2 แบบเฉียดฉิว
    • โมเดลส่วนใหญ่จัดพอร์ตโดย เน้นหุ้นกลุ่มเทคโนโลยี ทำให้ได้ผลตอบแทนสูง
    • ส่วน Gemini มีสัดส่วนหุ้นนอกกลุ่มเทคโนโลยีสูง จึง ทำผลงานต่ำสุด
  • ทีมวิจัยเปิดเผยทั้งกระบวนการเทรดและเหตุผลทั้งหมดเพื่อ สร้างความโปร่งใส
    • สามารถตรวจสอบเหตุผลของแต่ละดีลได้โดยตรงจาก UI

แผนต่อไป

  • ทีมวิจัยมีแผนขยายจาก การแบ็กเทสต์ไปสู่การทดลองเทรดแบบเรียลไทม์
    • แนวทาง 3 ระยะ: แบ็กเทสต์สถานการณ์ในอดีต → การเทรดจำลองแบบเรียลไทม์ → การเทรดในตลาดจริง
  • เป้าหมายคือทำความเข้าใจ ความสามารถในการวิเคราะห์ตลาดการเงินและคุณภาพการตัดสินใจ ของ LLM อย่างเป็นระบบ
    • ใช้ข้อมูลตลาดเป็น ตัวชี้วัดการประเมินที่อิงโลกจริง
    • พยายามแยกแยะระหว่างดวงกับฝีมือผ่าน การวิเคราะห์ปัจจัยแบบ Barra เป็นต้น
  • จากบันทึกการเทรด สามารถระบุความแตกต่างระหว่าง การตัดสินใจจากการจดจำ กับ การใช้เหตุผลจริง ได้
    • ตัวอย่างเช่น การซื้อ Nvidia เพราะจำได้เฉย ๆ กับการวิเคราะห์รายงาน 10-K แล้วได้ข้อสรุปเชิงพื้นฐานนั้นต่างกัน
  • การวิเคราะห์กระบวนการตัดสินใจอย่าง โปร่งใส เช่นนี้ ยังช่วยปรับปรุง การจัดเครื่องมือและเวิร์กโฟลว์ ของโมเดลได้

การเข้าร่วมและการสำรวจข้อมูล

  • สามารถเข้าไปสำรวจการซื้อขาย กลยุทธ์ และกระบวนการให้เหตุผลของแต่ละโมเดลได้โดยตรงผ่าน เดโมแบบอินเทอร์แอ็กทีฟ บนเว็บไซต์
  • ทีมวิจัยกำลังวางแผนการทดลองเพิ่มเติม และเปิดรับความคิดเห็นผ่าน ชุมชน Discord และ Twitter DM

1 ความคิดเห็น

 
GN⁺ 2025-12-06
ความเห็นจาก Hacker News
  • Grok ทำผลงานได้ดีที่สุด และ DeepSeek ตามมาเป็นอันดับสองแบบเฉียดฉิว
    ดูเหมือนว่าเหตุผลที่โมเดลส่วนใหญ่ได้ผลลัพธ์ดี เป็นเพราะถือ พอร์ตที่เน้นหุ้นเทคโนโลยี
    ในทางกลับกัน Gemini มีสัดส่วนหุ้นนอกกลุ่มเทคสูงกว่า จึงจบเป็นอันดับสุดท้าย
    ผมไม่ใช่นักลงทุนหรือนักวิจัย แต่ผลลัพธ์นี้ทำให้รู้สึกว่า ตัวชี้วัดที่ใช้วัดน่าจะผิดฝาผิดตัว

    • ถ้าเชื่อว่าภาคเทคจะขึ้นต่อ ก็มีโอกาสชนะค่าเฉลี่ยตลาดได้
      แต่ปัญหาคือไม่มีใครทำนาย จังหวะการปรับฐาน ได้
      ถ้าในข้อมูลไม่มีช่วงตลาดขาลง โมเดลก็จะไม่มีทางเรียนรู้สถานการณ์แบบนั้นได้
      ที่จริงน่าสนใจกว่าถ้าจะแบ่งข้อมูลครึ่งหนึ่งเพื่อฝึก แล้วใช้อีกครึ่งหนึ่งทดสอบ
      มันทำให้นึกถึงว่าแม้แต่เฮดจ์ฟันด์ก็อาจชนะตลาดได้ 2-4 ปี แต่แทบเป็นไปไม่ได้เลยถ้าจะทำได้นานเกิน 10 ปี
    • วิธีที่สมเหตุสมผลกว่าคือให้แต่ละโมเดลสร้างพอร์ต 100 พอร์ต แล้วรัน การจำลองแบบมอนติคาร์โล เพื่อดูผลตอบแทนเฉลี่ย
    • น่าจะลองทำการศึกษานี้ซ้ำใน ตลาดหมี (bear market) ด้วย
    • แม้แต่ S&P 500 เองก็มีน้ำหนักหุ้นเทคสูง และเป็นดัชนีที่เอาชนะได้ยากในระยะยาว
    • การทดลองนี้ดูเหมือนจะแสดงแค่ผลลัพธ์ล่าสุด โดยไม่คำนึงถึงบริบทของแต่ละช่วงเวลา
      ถ้าฝึกโมเดลใหม่ตามแต่ละช่วงเวลาแล้วทำ แบ็กเทสต์ (backtesting) น่าจะได้ผลที่มีความหมายกว่า
  • ผมเคยทำงานกับ API โบรกเกอร์สำหรับอัลกอริทึมเทรดดิ้ง มาก่อน และพบว่ากลยุทธ์ที่ดูดีในแบ็กเทสต์มักล้มเหลวในตลาดจริง
    แม้แต่การเทรดกระดาษแบบเรียลไทม์ (paper trading) ก็ยังทำงานต่างจากตลาดจริง
    DeepSeek ทำผลงานดีเพราะถือหุ้นเทคจำนวนมากโดยแทบไม่ขาย แต่กลยุทธ์ที่กระจุกอยู่ในเซกเตอร์เดียวมีความเสี่ยง
    และการที่ซื้อขายได้แค่วันละครั้ง ก็หมายความว่านี่ไม่ใช่การทดลองเรื่อง การตัดสินใจแบบเรียลไทม์
    ถ้า LLM สามารถสลับเซกเตอร์ได้ถูกจังหวะจริง ๆ นั่นถึงจะน่าประทับใจ

    • ในตลาดจริง คำสั่งอาจถูกจับคู่ก่อนโดย market maker ที่ทำ front running และ
      ยังมี ผลกระทบต่อตลาด (market impact) จากผู้เล่นรายอื่นที่ยกเลิกคำสั่งหรือวิ่งตามคำสั่งด้วย
      สิ่งเหล่านี้ไม่เกิดขึ้นในการเทรดกระดาษ
    • เมื่อมีเงินจริงอยู่ในเกม ปัจจัยทางอารมณ์ จะเข้ามา ทำให้ยากที่จะเชื่อการตัดสินใจของเครื่องทั้งหมด
    • ถ้าลองกลยุทธ์จำนวนมากพอ สุดท้ายก็อาจมีกลยุทธ์ที่บังเอิญเข้ากับข้อมูลอดีตได้ จึง ไม่มีความหมายถ้าดูแค่แบ็กเทสต์
    • ผมเองก็เคยเพิ่มเงินจากการเทรดกระดาษใน ThinkOrSwim ได้ 2-3 เท่า แต่พอลงตลาดจริงกลับพังไม่เป็นท่า
  • ถ้ารันแค่ครั้งเดียวต่อโมเดล นั่นไม่ใช่แบ็กเทสต์ที่ถูกต้อง
    ถ้าดูผลจากจุดเวลาเดียว แม้แต่กลยุทธ์ง่าย ๆ อย่าง “ซื้อหุ้น AI” ก็อาจบังเอิญเวิร์กได้
    ต้องรันแบบอิสระ 100 ครั้งใน ช่วงตลาดที่แตกต่างกัน 10 ช่วง ถึงจะได้สถิติที่มีความหมาย
    การทดลองตอนนี้แทบไม่ต่างจาก เครื่องสร้างเลขสุ่ม (random number generator) ราคาแพง

    • งบประมาณมีจำกัด เลยไม่สามารถรันโมเดลหลายรอบได้
      อย่างเช่น Claude ใช้เงินราว 200-300 ดอลลาร์สำหรับการรัน 8 เดือน
      จริง ๆ แล้วอยากขยายขนาดการทดลองเพื่อให้ได้ผลที่มีนัยสำคัญทางสถิติ
    • ในงานวิจัยก็ระบุไว้แล้วว่าผลลัพธ์ ไม่มีนัยสำคัญทางสถิติ แต่คิดว่าน่าจะเน้นประเด็นนี้ให้มากกว่านี้
      ตอนนี้มันดูเหมือนบทความที่โฟกัสแต่ผลลัพธ์
    • ปัญหาอีกอย่างคือไม่มี เมตริก (metric) อื่นนอกจากผลตอบแทนรวม
      เพราะแม้แต่การสุ่มเลือกหุ้น ก็ยังมีโอกาสชนะ S&P 500 ได้สูง
    • เอาให้สุดโต่งก็อาจตั้งการทดลองว่า “ถ้าซื้อหุ้นอะไรในวันที่ 1 มกราคม 2010 แล้วถือ 15 ปีจะได้ผลตอบแทนสูงสุด?”
      แต่คงไม่มีใครใช้กลยุทธ์นั้นต่อไปอีก 15 ปีข้างหน้าแบบเดิม
    • ผลจากการรันครั้งเดียวโดยพื้นฐานแล้วก็แทบเป็นแค่ random walk
  • ตอนนี้ก็มี ลีดเดอร์บอร์ดของ nof1.ai อยู่เหมือนกัน
    ผลลัพธ์ต่ำกว่าที่คาด และ AI ส่วนใหญ่กำลัง เทรดสั้นหุ้นเทค Mag7 จนขาดทุน

    • ข้อจำกัดของ nof1 คือแทบไม่ได้ใช้ ข้อมูลวิเคราะห์บริษัท ที่นักลงทุนจริงจะนำไปอ้างอิง
      เรากำลังพยายามอุดช่องนี้ด้วยการทำการทดลองคล้ายกันที่ rallies.ai/arena
    • เมื่อวานเห็นเป็นกระแสบน X (Twitter) ก็คิดว่าเป็นผลของ nof1 แต่จริง ๆ แล้วเป็นการทดลองคนละอัน
      ถึงอย่างนั้น แดชบอร์ดคอมเมนต์การลงทุนแบบเรียลไทม์ ของ nof1 ก็ยังดูเพลินดี
    • ดูจากเว็บแล้วเหมือนโมเดลจะเทรดได้แค่หุ้นเทคไม่กี่ตัวกับ เหรียญ XYZ100 เท่านั้น
    • แอบสงสัยว่า “โมเดลลึกลับ” นั้นอาจเป็นโมเดลของพวกเขาเองหรือเปล่า
    • เพราะข้อมูลราคากระจายเร็วมาก ผลลัพธ์จึงขึ้นอยู่กับ สถาปัตยกรรมเอเจนต์และลูปป้อนกลับ อย่างมาก
  • ผู้เขียน (OP) มาเอง
    ผมรู้ข้อจำกัดของแบ็กเทสต์กับเงินจำลองอยู่แล้ว แต่ก็ยังอยากแสดงให้เห็นว่า โมเดลมองตลาดอย่างไร
    ไม่ได้หมายความว่ามันจะชนะตลาดได้ในระยะยาว

    • น่าจะมี การทดลองควบคุม เปรียบเทียบกับผู้เข้าร่วมที่เป็นมนุษย์ด้วย
    • เพราะไม่ใช่การซื้อขายด้วยเงินจริง จึงไม่มี ผลกระทบต่อตลาด เลย
    • ถ้าไม่เปิดเผย ผลตอบแทนที่ปรับด้วยความเสี่ยง ความหมายของผลลัพธ์ก็จะอ่อนลงมาก
      การถือพอร์ตที่มีเบต้าสูงในตลาดขาขึ้นไม่ใช่ผลงานที่พิเศษอะไร
    • ควรใช้ “came in a close second” แทน “DeepSeek came close to second”
    • ในฐานะคนจบปริญญาเอกด้านวิจัยตลาดทุน ผมคิดว่าต้องคำนวณ ผลตอบแทนผิดปกติ (alpha) ด้วย จึงจะตัดสินได้ว่าเป็นผลตอบแทนส่วนเกินจริงหรือไม่
  • เราเองก็กำลังทำ การทดลองแบบเรียลไทม์ กับหุ้นและออปชันอยู่
    โมเดลมี สิทธิ์เข้าถึงเครื่องมือ หลายอย่าง เช่น เอกสารยื่นต่อ SEC, ข้อมูลพื้นฐาน, ราคาตลาดแบบเรียลไทม์ และข้อมูลออปชัน
    ผมมองว่าแบ็กเทสต์ไม่มีความหมายแล้ว เพราะ LLM จดจำข้อมูลในอดีตไปแทบหมด
    เลยหันมาทำ forward test ซึ่งแม้ข้อมูลยังมีไม่มาก แต่ผลเริ่มต้นก็น่าสนใจ
    rallies.ai/arena

    • ถ้าโค้ดหรือพรอมป์ต์ไม่เป็น โอเพนซอร์ส มันก็ยากที่จะเชื่อถือไม่ใช่หรือ
    • สงสัยว่าทำไม Qwen ถึงทำผลงานแย่กว่าโมเดลอื่นมาก
  • เคยมีการทดลองคล้ายกันกับคริปโต โดยใช้ เงินจริงและการเทรดแบบเรียลไทม์
    ลิงก์ที่เกี่ยวข้อง
    ผมมองว่าการป้องกัน การรั่วไหลของข้อมูลอนาคต ใน LLM แทบเป็นไปไม่ได้
    งานวิจัยก็ชี้แบบนั้น และผมเองก็ทำงานกับโมเดลพยากรณ์จึงเจอความยากนี้โดยตรง

  • แบ็กเทสต์ต่างจากการเทรดจริงมาก จึงไม่ได้มีความหมายมากนัก
    แถม 8 เดือนก็สั้นเกินไป
    สำหรับผม ตลาดในอีก 8 ปีข้างหน้า สำคัญกว่ามาก

    • ถ้าจะทำแบ็กเทสต์กับ LLM ต้อง ล้างข้อมูล (white-wash) อดีตให้หมดจริง ๆ
      ต่อให้ลบชื่อหุ้นออก โมเดลก็อาจถูกฝึกมาจน เดาได้ว่าเป็น NVDA จากรูปแบบกราฟ เพียงอย่างเดียว
  • ผลแบ็กเทสต์ของโมเดลพวกนี้เชื่อถือได้ยาก
    ถ้าจะให้มีความหมาย ต้องทำ การทดลองสด 8 เดือน โดยคิดต้นทุนจริงเข้าไปด้วย

    • ตอนนี้เรากำลังทำ การทดลองแบบไลฟ์ กับหุ้นและออปชันอยู่
      rallies.ai/arena
  • นี่เป็นแนวทางที่ผิดตั้งแต่ต้น
    ผมทำงานเป็น นักวิจัยที่ใช้ LLM กับงานเทรดดิ้งจริง
    LLM นั้นไร้เดียงสา ถูกชักจูงได้ง่าย และ ไม่เป็นเชิงกำหนด (non-deterministic)
    ถ้าทำการทดลองเดิม 10 ครั้ง ก็อาจได้ผลต่างกันทุกครั้ง
    วิธีที่ถูกต้องคือต้องสร้าง อัลกอริทึมเทรดดิ้งแบบกำหนดแน่นอน ขึ้นมาก่อน แล้วค่อยวาง LLM เป็นเครื่องมือเสริมบนชั้นนั้น
    ถ้าเอา LLM ใส่เข้าไปในท่อการเทรดโดยตรง จะมีแต่เพิ่มความไม่แน่นอนโดยไม่จำเป็น
    มันมีคุณค่าในงานอย่างการวิเคราะห์อารมณ์หรือการเชื่อมงาน ML เสริมต่าง ๆ ให้เร็วขึ้น
    แต่การทดลองแบบนี้คือ ตัวอย่างคลาสสิกของการเอา AI มาแปะโดยไม่เข้าใจโดเมน
    งานวิจัยที่มีความหมายจริงควรควบคุมตัวแปรอย่างการเปิดรับความเสี่ยงรายเซกเตอร์ และทำซ้ำเป็นพันครั้งเพื่อวิเคราะห์ รูปแบบอคติของ LLM แต่ละตัว
    ถ้า LLM สามารถพูดเองว่า “ฉันจะออกแบบอัลกอริทึมควอนต์” แล้วทำสำเร็จจริง นั่นถึงจะน่าทึ่ง