การพยากรณ์อนุกรมเวลาระยะยาวด้วย xLSTM: XLSTMTime
(arxiv.org)xLSTMTime: Long-term Time Series Forecasting With xLSTM
- ในช่วงไม่กี่ปีที่ผ่านมา โมเดลที่อิงกับ Transformer แสดงผลงานโดดเด่นในการพยากรณ์อนุกรมเวลาพหุตัวแปรระยะยาว (LTSF) อย่างไรก็ตาม ยังเผชิญกับปัญหาอย่างความต้องการด้านการคำนวณที่สูง ความยากในการจับพลวัตเชิงเวลา และการจัดการการพึ่งพาระยะยาว
- การมาถึงของ LTSF-Linear ซึ่งมีโครงสร้างเชิงเส้นอย่างเรียบง่าย ได้แสดงผลลัพธ์ที่เหนือกว่าโมเดลที่อิงกับ Transformer ทำให้เกิดการประเมินใหม่ถึงประโยชน์ของ Transformer ในงานพยากรณ์อนุกรมเวลา
- เพื่อตอบโจทย์นี้ งานวิจัยนี้นำเสนอผลการประยุกต์ใช้สถาปัตยกรรมล่าสุดอย่าง expanded LSTM (xLSTM) กับ LTSF โดย xLSTM มีศักยภาพที่เหมาะกับ LTSF จากการใช้ exponential gating และโครงสร้างหน่วยความจำที่ปรับแก้ให้มีความจุสูงขึ้น
- xLSTMTime ซึ่งเป็นสถาปัตยกรรม LTSF ที่เรานำมาใช้ มีประสิทธิภาพเหนือกว่าแนวทางปัจจุบัน จากการเปรียบเทียบประสิทธิภาพของ xLSTMTime กับโมเดลล้ำสมัยหลากหลายแบบบนชุดข้อมูลจริงหลายชุด พบว่าสามารถแสดงความสามารถในการพยากรณ์ที่ยอดเยี่ยม
- ผลการวิจัยของเราชี้ให้เห็นว่า สถาปัตยกรรมแบบเวียนกลับที่ได้รับการปรับปรุงสามารถเป็นทางเลือกที่มีศักยภาพในการแข่งขันกับโมเดลที่อิงกับ Transformer สำหรับงาน LTSF และอาจนิยามภูมิทัศน์ของการพยากรณ์อนุกรมเวลาใหม่
สรุปโดย GN⁺
- งานวิจัยนี้นำ xLSTM มาใช้เพื่อก้าวข้ามข้อจำกัดของโมเดลที่อิงกับ Transformer และแสดงประสิทธิภาพที่ยอดเยี่ยมในการพยากรณ์อนุกรมเวลาระยะยาว
- xLSTMTime พิสูจน์ความสามารถในการพยากรณ์ที่เหนือกว่าโมเดลเดิมผ่าน exponential gating และโครงสร้างหน่วยความจำที่ปรับแก้
- งานวิจัยนี้ช่วยจุดประกายความเป็นไปได้ของสถาปัตยกรรมแบบเวียนกลับในงานพยากรณ์อนุกรมเวลาอีกครั้ง และนำเสนอทางเลือกใหม่แทนโมเดลที่อิงกับ Transformer
- โปรเจกต์ที่มีฟังก์ชันคล้ายกัน ได้แก่ Prophet ของ Facebook และ DeepAR ของ Amazon
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
จริงอยู่ที่ในช่วงไม่กี่ปีที่ผ่านมา โมเดลที่อิง Transformer ได้รับ ความสนใจ ในงานพยากรณ์อนุกรมเวลาระยะยาวแบบหลายตัวแปร แต่ก็ยังน่าสงสัยว่าโดยทั่วไปแล้วมันดีกว่าโมเดลที่ไม่ใช่ deep learning จริงหรือไม่
ตามที่ผมเข้าใจคือไม่ใช่แบบนั้น แต่ผมก็ไม่ได้ติดตามวงการนี้อย่างใกล้ชิดมากนัก
โมเดล deep learning เก่งในการเรียนรู้ฤดูกาล แต่ค่อนข้างรับมือกับแนวโน้มที่ซับซ้อนหรือเหตุการณ์กระแทกได้ไม่ดี
ข้อมูลเศรษฐกิจและการเงินมักมีฤดูกาลที่เรียบง่าย แต่มีแนวโน้มที่ซับซ้อน จึงดูเหมือนว่า deep learning จะทำผลงานได้ค่อนข้างแย่
ผมเห็นด้วยกับบทความนี้ โครงสร้าง deep learning สำหรับอนุกรมเวลาที่ดีที่ผมเคยใช้มักเป็นส่วนขยายง่าย ๆ ของ MLP หรือ recurrent neural network อย่าง DeepAR หรือ N-BEATS ส่วนโครงสร้างที่อิง Transformer นั้นแย่มากจริง ๆ โดยเฉพาะอย่างยิ่งรวมถึง foundation model ที่อิง Transformer ซึ่งช่วงนี้ออกมากันมากมายด้วย
อย่างไรก็ดี แม้แต่ในบรรดาโมเดล deep learning ด้วยกันเอง ประสิทธิภาพก็แตกต่างกันมากระหว่าง Transformer, bidirectional LSTM, MLP ทั่วไป, VAE เป็นต้น
เพื่อนคนนั้นบอกว่าโครงสร้างที่อิง Transformer มักให้ประสิทธิภาพที่พอใช้ได้กับงานอนุกรมเวลา โดยใช้ความพยายามค่อนข้างน้อยเมื่อเทียบกับโมเดล tree
ตามที่ผมเข้าใจ หากจูนพารามิเตอร์มากพอ โมเดล tree-based มักจะเอาชนะ Transformer ได้ แต่โมเดลอย่าง TimeGPT ให้ผลที่พอใช้ได้โดยไม่ต้องจูนกว้างขวาง จึงน่าสนใจสำหรับการนำไปใช้แบบรวดเร็ว
ส่วนหนึ่งของงานผมคือการสร้างโมเดล nowcasting และพยากรณ์ด้านเศรษฐกิจจริง ๆ โดยทำกับตัวชี้วัดเศรษฐกิจอย่างเงินเฟ้อ, GDP และตัวชี้วัดการเงินอย่างสภาพคล่องในตลาด
ผมยังไม่ได้อ่านบทความ แต่เห็นด้วยอย่างยิ่งกับโทนโดยรวมที่ว่า “Transformer นั้นยอดเยี่ยมในสิ่งที่มันทำได้ดี แต่ โมเดลตระกูล LSTM ก็ยังมีคุณค่าสูงมาก”
สิ่งนี้เกี่ยวข้องกับโมเดลพยากรณ์อากาศที่ใช้ AI ของ Google อย่างไร?
https://deepmind.google/discover/blog/graphcast-ai-model-for...
อนึ่ง Graphcast เหนือกว่าการพยากรณ์แบบ deterministic ระดับโลกดั้งเดิมทั้งหมด อย่างน้อยก็ในด้านการพยากรณ์แพตเทิร์นขนาดใหญ่ระดับโลก โดยวัดจากตัวชี้วัดอย่าง Z500 ในช่วง lead time ประมาณ 3–10 วัน
ECMWF มี AIFS ซึ่งเป็นอนุพันธ์ของ Graphcast และมีความเป็นไปได้สูงว่าจะนำมันหรือสิ่งที่คล้ายกันขึ้นสู่สภาพแวดล้อมใช้งานจริงภายในไม่กี่ปี
ถ้ามันถูกทำตลาดเป็นเครื่องมือพยากรณ์ แล้วมันใช้กับ การจำแนกเหตุการณ์ ในอนุกรมเวลาไม่ได้หรือ?
เสียดายที่ ลิงก์ชุดข้อมูล ในบทความใช้งานไม่ได้ หวังว่าจะมีการแก้ไข
โมเดลอนุกรมเวลาที่ดีที่สุดแบบ deep learning คงเป็นของ ภายใน hedge fund และไม่เปิดเผยต่อสาธารณะ
วิธีที่ใช้ได้ดีใน hedge fund อาจแย่ในโดเมนที่มีปริมาณข้อมูลและลักษณะข้อมูลต่างกัน และต้องการ inductive bias น้อยกว่าหรือแตกต่างออกไป
การพยากรณ์อนุกรมเวลาทำงานได้ดีที่สุดใน โดเมนเชิงกำหนด
ไม่มีเทคนิค LLM, AI, deep learning หรือ machine learning ที่เปิดเผยต่อสาธารณะใด ๆ ที่ใช้ได้ผลกับตลาดหุ้น ไม่มีเลยจริง ๆ ผมลองมาหมดแล้ว
ถ้าวิธีพยากรณ์อนุกรมเวลาของใครสักคนใช้ได้จริง เขาคงไม่เปิดเผยมันหรอก
ผมอ่านผิดเป็น XSLT
รอวันที่ใครสักคนพยายามใช้สิ่งนี้เพื่อ พยากรณ์หุ้น แล้วเสียทรัพย์สินทั้งหมดอยู่เลย