1 คะแนน โดย GN⁺ 2024-07-18 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

xLSTMTime: Long-term Time Series Forecasting With xLSTM

  • ในช่วงไม่กี่ปีที่ผ่านมา โมเดลที่อิงกับ Transformer แสดงผลงานโดดเด่นในการพยากรณ์อนุกรมเวลาพหุตัวแปรระยะยาว (LTSF) อย่างไรก็ตาม ยังเผชิญกับปัญหาอย่างความต้องการด้านการคำนวณที่สูง ความยากในการจับพลวัตเชิงเวลา และการจัดการการพึ่งพาระยะยาว
  • การมาถึงของ LTSF-Linear ซึ่งมีโครงสร้างเชิงเส้นอย่างเรียบง่าย ได้แสดงผลลัพธ์ที่เหนือกว่าโมเดลที่อิงกับ Transformer ทำให้เกิดการประเมินใหม่ถึงประโยชน์ของ Transformer ในงานพยากรณ์อนุกรมเวลา
  • เพื่อตอบโจทย์นี้ งานวิจัยนี้นำเสนอผลการประยุกต์ใช้สถาปัตยกรรมล่าสุดอย่าง expanded LSTM (xLSTM) กับ LTSF โดย xLSTM มีศักยภาพที่เหมาะกับ LTSF จากการใช้ exponential gating และโครงสร้างหน่วยความจำที่ปรับแก้ให้มีความจุสูงขึ้น
  • xLSTMTime ซึ่งเป็นสถาปัตยกรรม LTSF ที่เรานำมาใช้ มีประสิทธิภาพเหนือกว่าแนวทางปัจจุบัน จากการเปรียบเทียบประสิทธิภาพของ xLSTMTime กับโมเดลล้ำสมัยหลากหลายแบบบนชุดข้อมูลจริงหลายชุด พบว่าสามารถแสดงความสามารถในการพยากรณ์ที่ยอดเยี่ยม
  • ผลการวิจัยของเราชี้ให้เห็นว่า สถาปัตยกรรมแบบเวียนกลับที่ได้รับการปรับปรุงสามารถเป็นทางเลือกที่มีศักยภาพในการแข่งขันกับโมเดลที่อิงกับ Transformer สำหรับงาน LTSF และอาจนิยามภูมิทัศน์ของการพยากรณ์อนุกรมเวลาใหม่

สรุปโดย GN⁺

  • งานวิจัยนี้นำ xLSTM มาใช้เพื่อก้าวข้ามข้อจำกัดของโมเดลที่อิงกับ Transformer และแสดงประสิทธิภาพที่ยอดเยี่ยมในการพยากรณ์อนุกรมเวลาระยะยาว
  • xLSTMTime พิสูจน์ความสามารถในการพยากรณ์ที่เหนือกว่าโมเดลเดิมผ่าน exponential gating และโครงสร้างหน่วยความจำที่ปรับแก้
  • งานวิจัยนี้ช่วยจุดประกายความเป็นไปได้ของสถาปัตยกรรมแบบเวียนกลับในงานพยากรณ์อนุกรมเวลาอีกครั้ง และนำเสนอทางเลือกใหม่แทนโมเดลที่อิงกับ Transformer
  • โปรเจกต์ที่มีฟังก์ชันคล้ายกัน ได้แก่ Prophet ของ Facebook และ DeepAR ของ Amazon

1 ความคิดเห็น

 
GN⁺ 2024-07-18
ความคิดเห็นจาก Hacker News
  • จริงอยู่ที่ในช่วงไม่กี่ปีที่ผ่านมา โมเดลที่อิง Transformer ได้รับ ความสนใจ ในงานพยากรณ์อนุกรมเวลาระยะยาวแบบหลายตัวแปร แต่ก็ยังน่าสงสัยว่าโดยทั่วไปแล้วมันดีกว่าโมเดลที่ไม่ใช่ deep learning จริงหรือไม่
    ตามที่ผมเข้าใจคือไม่ใช่แบบนั้น แต่ผมก็ไม่ได้ติดตามวงการนี้อย่างใกล้ชิดมากนัก

    • จากประสบการณ์พยากรณ์การชำระเงิน/การใช้จ่าย โดยทั่วไป deep learning ทำผลงานได้แย่กว่า gradient boosted trees
      โมเดล deep learning เก่งในการเรียนรู้ฤดูกาล แต่ค่อนข้างรับมือกับแนวโน้มที่ซับซ้อนหรือเหตุการณ์กระแทกได้ไม่ดี
      ข้อมูลเศรษฐกิจและการเงินมักมีฤดูกาลที่เรียบง่าย แต่มีแนวโน้มที่ซับซ้อน จึงดูเหมือนว่า deep learning จะทำผลงานได้ค่อนข้างแย่
      ผมเห็นด้วยกับบทความนี้ โครงสร้าง deep learning สำหรับอนุกรมเวลาที่ดีที่ผมเคยใช้มักเป็นส่วนขยายง่าย ๆ ของ MLP หรือ recurrent neural network อย่าง DeepAR หรือ N-BEATS ส่วนโครงสร้างที่อิง Transformer นั้นแย่มากจริง ๆ โดยเฉพาะอย่างยิ่งรวมถึง foundation model ที่อิง Transformer ซึ่งช่วงนี้ออกมากันมากมายด้วย
    • ในงานด้านความปลอดภัยการบิน deep learning ดีกว่าโมเดลแบบดั้งเดิมที่ไม่ใช่ deep learning ในการพยากรณ์อนุกรมเวลาแบบหลายตัวแปร
      อย่างไรก็ดี แม้แต่ในบรรดาโมเดล deep learning ด้วยกันเอง ประสิทธิภาพก็แตกต่างกันมากระหว่าง Transformer, bidirectional LSTM, MLP ทั่วไป, VAE เป็นต้น
    • ผมไม่ได้ลองใช้เอง แต่เคยคุยเรื่องนี้กับเพื่อนที่เพิ่งใช้ โมเดลแบบ tree-based อย่าง XGBoost ในการวิเคราะห์อนุกรมเวลา
      เพื่อนคนนั้นบอกว่าโครงสร้างที่อิง Transformer มักให้ประสิทธิภาพที่พอใช้ได้กับงานอนุกรมเวลา โดยใช้ความพยายามค่อนข้างน้อยเมื่อเทียบกับโมเดล tree
      ตามที่ผมเข้าใจ หากจูนพารามิเตอร์มากพอ โมเดล tree-based มักจะเอาชนะ Transformer ได้ แต่โมเดลอย่าง TimeGPT ให้ผลที่พอใช้ได้โดยไม่ต้องจูนกว้างขวาง จึงน่าสนใจสำหรับการนำไปใช้แบบรวดเร็ว
    • ย่อหน้าถัดจากใน论文พูดถึงเรื่องนั้นเลย และ xLSTMTime ก็ไม่ได้อิง Transformer
    • ยังไม่ถึงขั้นยอดเยี่ยมมาก แต่ความพยายามด้าน transfer learning ช่วงหลัง ๆ ดูมีแนวโน้มดี
  • ส่วนหนึ่งของงานผมคือการสร้างโมเดล nowcasting และพยากรณ์ด้านเศรษฐกิจจริง ๆ โดยทำกับตัวชี้วัดเศรษฐกิจอย่างเงินเฟ้อ, GDP และตัวชี้วัดการเงินอย่างสภาพคล่องในตลาด
    ผมยังไม่ได้อ่านบทความ แต่เห็นด้วยอย่างยิ่งกับโทนโดยรวมที่ว่า “Transformer นั้นยอดเยี่ยมในสิ่งที่มันทำได้ดี แต่ โมเดลตระกูล LSTM ก็ยังมีคุณค่าสูงมาก”

    • อยากทราบว่าคุณเคยมีโอกาสนำ Mamba ไปใช้ในงานหรือไม่ และมีความเห็นอย่างไร
  • สิ่งนี้เกี่ยวข้องกับโมเดลพยากรณ์อากาศที่ใช้ AI ของ Google อย่างไร?
    https://deepmind.google/discover/blog/graphcast-ai-model-for...

    • ไม่เกี่ยว Graphcast เป็น graph transformer ที่ฝึกด้วยข้อมูลการสร้างสภาพบรรยากาศย้อนหลัง ERA5 ไม่ใช่โมเดลพยากรณ์อนุกรมเวลาอเนกประสงค์
      อนึ่ง Graphcast เหนือกว่าการพยากรณ์แบบ deterministic ระดับโลกดั้งเดิมทั้งหมด อย่างน้อยก็ในด้านการพยากรณ์แพตเทิร์นขนาดใหญ่ระดับโลก โดยวัดจากตัวชี้วัดอย่าง Z500 ในช่วง lead time ประมาณ 3–10 วัน
      ECMWF มี AIFS ซึ่งเป็นอนุพันธ์ของ Graphcast และมีความเป็นไปได้สูงว่าจะนำมันหรือสิ่งที่คล้ายกันขึ้นสู่สภาพแวดล้อมใช้งานจริงภายในไม่กี่ปี
  • ถ้ามันถูกทำตลาดเป็นเครื่องมือพยากรณ์ แล้วมันใช้กับ การจำแนกเหตุการณ์ ในอนุกรมเวลาไม่ได้หรือ?

    • ผมมองว่านั่นเป็นงานที่ต่างออกไปเล็กน้อย ผมไม่ใช่ผู้เชี่ยวชาญด้านนี้ แต่ถ้าจำนวนเหตุการณ์ n น้อยมาก ก็น่าจะจัดการได้เหมือน ปัญหาพยากรณ์แบบหลายตัวแปร โดยใช้ความน่าจะเป็นของแต่ละเหตุการณ์เป็นค่าเป้าหมาย
    • ผมก็สงสัยเช่นกันว่าแนวทางนี้หรือแนวทางที่อิง Transformer/LLM จะช่วยปรับปรุงงานอย่าง anomaly detection ได้ตรงไหนบ้าง
  • เสียดายที่ ลิงก์ชุดข้อมูล ในบทความใช้งานไม่ได้ หวังว่าจะมีการแก้ไข

  • โมเดลอนุกรมเวลาที่ดีที่สุดแบบ deep learning คงเป็นของ ภายใน hedge fund และไม่เปิดเผยต่อสาธารณะ

    • จริง ๆ แล้วงานยากส่วนใหญ่ไม่ใช่โมเดลเดี่ยวขนาดยักษ์ แต่เป็น การสร้างฟีเจอร์ เท่าที่ผมรู้ gradient boosting ยังเป็นแนวทางที่ครองอยู่
    • เพราะทฤษฎี no free lunch โดยทั่วไปจึงไม่มีสิ่งที่เรียกว่าโมเดลที่ดีที่สุด
      วิธีที่ใช้ได้ดีใน hedge fund อาจแย่ในโดเมนที่มีปริมาณข้อมูลและลักษณะข้อมูลต่างกัน และต้องการ inductive bias น้อยกว่าหรือแตกต่างออกไป
    • อย่างน้อยผมคิดว่า hedge fund ระดับสูงไม่ใช้ time-series modeling กันแล้ว มันค่อนข้างล้าสมัยตามมาตรฐานปัจจุบัน
  • การพยากรณ์อนุกรมเวลาทำงานได้ดีที่สุดใน โดเมนเชิงกำหนด
    ไม่มีเทคนิค LLM, AI, deep learning หรือ machine learning ที่เปิดเผยต่อสาธารณะใด ๆ ที่ใช้ได้ผลกับตลาดหุ้น ไม่มีเลยจริง ๆ ผมลองมาหมดแล้ว

  • ถ้าวิธีพยากรณ์อนุกรมเวลาของใครสักคนใช้ได้จริง เขาคงไม่เปิดเผยมันหรอก

    • ก็ไม่จำเป็นเสมอไป จริง ๆ แล้วมีการเปิดเผยกันเยอะมาก งานอนุกรมเวลาส่วนใหญ่แบบท่วมท้นไม่ได้เกี่ยวกับ ราคาสินทรัพย์ หรือการเอาชนะผลตอบแทนตลาดหุ้น
    • โมเดล Transformer ก็เป็นหนึ่งในโมเดลที่ประสบความสำเร็จที่สุดในประวัติศาสตร์ AI แต่ก็ถูกเผยแพร่เป็นบทความ
  • ผมอ่านผิดเป็น XSLT

    • ผมคลิกเข้ามาเพราะสงสัยว่าบทความเกี่ยวกับ XML ในปี 2024 จะน่าสนใจแค่ไหน แล้วก็ทั้งผิดหวังและพอใจในเวลาเดียวกัน
    • ใช่ และนี่ก็เป็นบทความเกี่ยวกับการแปลงเหมือนกัน
    • ผมก็เป็นเหมือนกัน ผมแก่แล้วหรือเปล่า?
  • รอวันที่ใครสักคนพยายามใช้สิ่งนี้เพื่อ พยากรณ์หุ้น แล้วเสียทรัพย์สินทั้งหมดอยู่เลย