การพยากรณ์อนุกรมเวลาระยะยาวด้วย xLSTM: XLSTMTime

(arxiv.org)

1 คะแนน โดย GN⁺ 2024-07-18 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

xLSTMTime: Long-term Time Series Forecasting With xLSTM

ในช่วงไม่กี่ปีที่ผ่านมา โมเดลที่อิงกับ Transformer แสดงผลงานโดดเด่นในการพยากรณ์อนุกรมเวลาพหุตัวแปรระยะยาว (LTSF) อย่างไรก็ตาม ยังเผชิญกับปัญหาอย่างความต้องการด้านการคำนวณที่สูง ความยากในการจับพลวัตเชิงเวลา และการจัดการการพึ่งพาระยะยาว
การมาถึงของ LTSF-Linear ซึ่งมีโครงสร้างเชิงเส้นอย่างเรียบง่าย ได้แสดงผลลัพธ์ที่เหนือกว่าโมเดลที่อิงกับ Transformer ทำให้เกิดการประเมินใหม่ถึงประโยชน์ของ Transformer ในงานพยากรณ์อนุกรมเวลา
เพื่อตอบโจทย์นี้ งานวิจัยนี้นำเสนอผลการประยุกต์ใช้สถาปัตยกรรมล่าสุดอย่าง expanded LSTM (xLSTM) กับ LTSF โดย xLSTM มีศักยภาพที่เหมาะกับ LTSF จากการใช้ exponential gating และโครงสร้างหน่วยความจำที่ปรับแก้ให้มีความจุสูงขึ้น
xLSTMTime ซึ่งเป็นสถาปัตยกรรม LTSF ที่เรานำมาใช้ มีประสิทธิภาพเหนือกว่าแนวทางปัจจุบัน จากการเปรียบเทียบประสิทธิภาพของ xLSTMTime กับโมเดลล้ำสมัยหลากหลายแบบบนชุดข้อมูลจริงหลายชุด พบว่าสามารถแสดงความสามารถในการพยากรณ์ที่ยอดเยี่ยม
ผลการวิจัยของเราชี้ให้เห็นว่า สถาปัตยกรรมแบบเวียนกลับที่ได้รับการปรับปรุงสามารถเป็นทางเลือกที่มีศักยภาพในการแข่งขันกับโมเดลที่อิงกับ Transformer สำหรับงาน LTSF และอาจนิยามภูมิทัศน์ของการพยากรณ์อนุกรมเวลาใหม่

สรุปโดย GN⁺

งานวิจัยนี้นำ xLSTM มาใช้เพื่อก้าวข้ามข้อจำกัดของโมเดลที่อิงกับ Transformer และแสดงประสิทธิภาพที่ยอดเยี่ยมในการพยากรณ์อนุกรมเวลาระยะยาว
xLSTMTime พิสูจน์ความสามารถในการพยากรณ์ที่เหนือกว่าโมเดลเดิมผ่าน exponential gating และโครงสร้างหน่วยความจำที่ปรับแก้
งานวิจัยนี้ช่วยจุดประกายความเป็นไปได้ของสถาปัตยกรรมแบบเวียนกลับในงานพยากรณ์อนุกรมเวลาอีกครั้ง และนำเสนอทางเลือกใหม่แทนโมเดลที่อิงกับ Transformer
โปรเจกต์ที่มีฟังก์ชันคล้ายกัน ได้แก่ Prophet ของ Facebook และ DeepAR ของ Amazon

1 ความคิดเห็น

GN⁺ 2024-07-18

ความคิดเห็นจาก Hacker News

จริงอยู่ที่ในช่วงไม่กี่ปีที่ผ่านมา โมเดลที่อิง Transformer ได้รับ ความสนใจ ในงานพยากรณ์อนุกรมเวลาระยะยาวแบบหลายตัวแปร แต่ก็ยังน่าสงสัยว่าโดยทั่วไปแล้วมันดีกว่าโมเดลที่ไม่ใช่ deep learning จริงหรือไม่
ตามที่ผมเข้าใจคือไม่ใช่แบบนั้น แต่ผมก็ไม่ได้ติดตามวงการนี้อย่างใกล้ชิดมากนัก
- จากประสบการณ์พยากรณ์การชำระเงิน/การใช้จ่าย โดยทั่วไป deep learning ทำผลงานได้แย่กว่า gradient boosted trees
  โมเดล deep learning เก่งในการเรียนรู้ฤดูกาล แต่ค่อนข้างรับมือกับแนวโน้มที่ซับซ้อนหรือเหตุการณ์กระแทกได้ไม่ดี
  ข้อมูลเศรษฐกิจและการเงินมักมีฤดูกาลที่เรียบง่าย แต่มีแนวโน้มที่ซับซ้อน จึงดูเหมือนว่า deep learning จะทำผลงานได้ค่อนข้างแย่
  ผมเห็นด้วยกับบทความนี้ โครงสร้าง deep learning สำหรับอนุกรมเวลาที่ดีที่ผมเคยใช้มักเป็นส่วนขยายง่าย ๆ ของ MLP หรือ recurrent neural network อย่าง DeepAR หรือ N-BEATS ส่วนโครงสร้างที่อิง Transformer นั้นแย่มากจริง ๆ โดยเฉพาะอย่างยิ่งรวมถึง foundation model ที่อิง Transformer ซึ่งช่วงนี้ออกมากันมากมายด้วย
- ในงานด้านความปลอดภัยการบิน deep learning ดีกว่าโมเดลแบบดั้งเดิมที่ไม่ใช่ deep learning ในการพยากรณ์อนุกรมเวลาแบบหลายตัวแปร
  อย่างไรก็ดี แม้แต่ในบรรดาโมเดล deep learning ด้วยกันเอง ประสิทธิภาพก็แตกต่างกันมากระหว่าง Transformer, bidirectional LSTM, MLP ทั่วไป, VAE เป็นต้น
- ผมไม่ได้ลองใช้เอง แต่เคยคุยเรื่องนี้กับเพื่อนที่เพิ่งใช้ โมเดลแบบ tree-based อย่าง XGBoost ในการวิเคราะห์อนุกรมเวลา
  เพื่อนคนนั้นบอกว่าโครงสร้างที่อิง Transformer มักให้ประสิทธิภาพที่พอใช้ได้กับงานอนุกรมเวลา โดยใช้ความพยายามค่อนข้างน้อยเมื่อเทียบกับโมเดล tree
  ตามที่ผมเข้าใจ หากจูนพารามิเตอร์มากพอ โมเดล tree-based มักจะเอาชนะ Transformer ได้ แต่โมเดลอย่าง TimeGPT ให้ผลที่พอใช้ได้โดยไม่ต้องจูนกว้างขวาง จึงน่าสนใจสำหรับการนำไปใช้แบบรวดเร็ว
- ย่อหน้าถัดจากใน论文พูดถึงเรื่องนั้นเลย และ xLSTMTime ก็ไม่ได้อิง Transformer
- ยังไม่ถึงขั้นยอดเยี่ยมมาก แต่ความพยายามด้าน transfer learning ช่วงหลัง ๆ ดูมีแนวโน้มดี
ส่วนหนึ่งของงานผมคือการสร้างโมเดล nowcasting และพยากรณ์ด้านเศรษฐกิจจริง ๆ โดยทำกับตัวชี้วัดเศรษฐกิจอย่างเงินเฟ้อ, GDP และตัวชี้วัดการเงินอย่างสภาพคล่องในตลาด
ผมยังไม่ได้อ่านบทความ แต่เห็นด้วยอย่างยิ่งกับโทนโดยรวมที่ว่า “Transformer นั้นยอดเยี่ยมในสิ่งที่มันทำได้ดี แต่ โมเดลตระกูล LSTM ก็ยังมีคุณค่าสูงมาก”
- อยากทราบว่าคุณเคยมีโอกาสนำ Mamba ไปใช้ในงานหรือไม่ และมีความเห็นอย่างไร
สิ่งนี้เกี่ยวข้องกับโมเดลพยากรณ์อากาศที่ใช้ AI ของ Google อย่างไร?
https://deepmind.google/discover/blog/graphcast-ai-model-for...
- ไม่เกี่ยว Graphcast เป็น graph transformer ที่ฝึกด้วยข้อมูลการสร้างสภาพบรรยากาศย้อนหลัง ERA5 ไม่ใช่โมเดลพยากรณ์อนุกรมเวลาอเนกประสงค์
  อนึ่ง Graphcast เหนือกว่าการพยากรณ์แบบ deterministic ระดับโลกดั้งเดิมทั้งหมด อย่างน้อยก็ในด้านการพยากรณ์แพตเทิร์นขนาดใหญ่ระดับโลก โดยวัดจากตัวชี้วัดอย่าง Z500 ในช่วง lead time ประมาณ 3–10 วัน
  ECMWF มี AIFS ซึ่งเป็นอนุพันธ์ของ Graphcast และมีความเป็นไปได้สูงว่าจะนำมันหรือสิ่งที่คล้ายกันขึ้นสู่สภาพแวดล้อมใช้งานจริงภายในไม่กี่ปี
ถ้ามันถูกทำตลาดเป็นเครื่องมือพยากรณ์ แล้วมันใช้กับ การจำแนกเหตุการณ์ ในอนุกรมเวลาไม่ได้หรือ?
- ผมมองว่านั่นเป็นงานที่ต่างออกไปเล็กน้อย ผมไม่ใช่ผู้เชี่ยวชาญด้านนี้ แต่ถ้าจำนวนเหตุการณ์ n น้อยมาก ก็น่าจะจัดการได้เหมือน ปัญหาพยากรณ์แบบหลายตัวแปร โดยใช้ความน่าจะเป็นของแต่ละเหตุการณ์เป็นค่าเป้าหมาย
- ผมก็สงสัยเช่นกันว่าแนวทางนี้หรือแนวทางที่อิง Transformer/LLM จะช่วยปรับปรุงงานอย่าง anomaly detection ได้ตรงไหนบ้าง
เสียดายที่ ลิงก์ชุดข้อมูล ในบทความใช้งานไม่ได้ หวังว่าจะมีการแก้ไข
โมเดลอนุกรมเวลาที่ดีที่สุดแบบ deep learning คงเป็นของ ภายใน hedge fund และไม่เปิดเผยต่อสาธารณะ
- จริง ๆ แล้วงานยากส่วนใหญ่ไม่ใช่โมเดลเดี่ยวขนาดยักษ์ แต่เป็น การสร้างฟีเจอร์ เท่าที่ผมรู้ gradient boosting ยังเป็นแนวทางที่ครองอยู่
- เพราะทฤษฎี no free lunch โดยทั่วไปจึงไม่มีสิ่งที่เรียกว่าโมเดลที่ดีที่สุด
  วิธีที่ใช้ได้ดีใน hedge fund อาจแย่ในโดเมนที่มีปริมาณข้อมูลและลักษณะข้อมูลต่างกัน และต้องการ inductive bias น้อยกว่าหรือแตกต่างออกไป
- อย่างน้อยผมคิดว่า hedge fund ระดับสูงไม่ใช้ time-series modeling กันแล้ว มันค่อนข้างล้าสมัยตามมาตรฐานปัจจุบัน
การพยากรณ์อนุกรมเวลาทำงานได้ดีที่สุดใน โดเมนเชิงกำหนด
ไม่มีเทคนิค LLM, AI, deep learning หรือ machine learning ที่เปิดเผยต่อสาธารณะใด ๆ ที่ใช้ได้ผลกับตลาดหุ้น ไม่มีเลยจริง ๆ ผมลองมาหมดแล้ว
ถ้าวิธีพยากรณ์อนุกรมเวลาของใครสักคนใช้ได้จริง เขาคงไม่เปิดเผยมันหรอก
- ก็ไม่จำเป็นเสมอไป จริง ๆ แล้วมีการเปิดเผยกันเยอะมาก งานอนุกรมเวลาส่วนใหญ่แบบท่วมท้นไม่ได้เกี่ยวกับ ราคาสินทรัพย์ หรือการเอาชนะผลตอบแทนตลาดหุ้น
- โมเดล Transformer ก็เป็นหนึ่งในโมเดลที่ประสบความสำเร็จที่สุดในประวัติศาสตร์ AI แต่ก็ถูกเผยแพร่เป็นบทความ
ผมอ่านผิดเป็น XSLT
- ผมคลิกเข้ามาเพราะสงสัยว่าบทความเกี่ยวกับ XML ในปี 2024 จะน่าสนใจแค่ไหน แล้วก็ทั้งผิดหวังและพอใจในเวลาเดียวกัน
- ใช่ และนี่ก็เป็นบทความเกี่ยวกับการแปลงเหมือนกัน
- ผมก็เป็นเหมือนกัน ผมแก่แล้วหรือเปล่า?
รอวันที่ใครสักคนพยายามใช้สิ่งนี้เพื่อ พยากรณ์หุ้น แล้วเสียทรัพย์สินทั้งหมดอยู่เลย

การพยากรณ์อนุกรมเวลาระยะยาวด้วย xLSTM: XLSTMTime

xLSTMTime: Long-term Time Series Forecasting With xLSTM

สรุปโดย GN⁺

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News