OpenTSLM - โมเดลภาษาที่เข้าใจข้อมูลอนุกรมเวลา

(opentslm.com)

2 คะแนน โดย GN⁺ 2025-10-03 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

โมเดลพื้นฐานแบบเดิมรองรับข้อความ ภาพ เสียง และวิดีโอ แต่ ยังขาดความสามารถในการให้เหตุผลเชิงเวลาเกี่ยวกับข้อมูลอนุกรมเวลาที่ขับเคลื่อนโลกจริง (เช่น สัญญาณชีพ ราคา telemetry บันทึกล็อก ฯลฯ)
Time Series Language Models (TSLMs) รองรับอนุกรมเวลาในฐานะโมดาลิตีเฉพาะที่เทียบเท่ากับข้อความ ทำให้ผู้ใช้สามารถถามด้วยภาษาธรรมชาติและรับคำอธิบายพร้อมคำแนะนำได้
OpenTSLM เป็นโมเดลภาษาแบบใหม่ที่ออกแบบมาเพื่อ ประมวลผลข้อมูลอนุกรมเวลาและข้อความทางคลินิกไปพร้อมกัน ในโดเมนการแพทย์
- ใช้สถาปัตยกรรม cross-attention จึง ขยายไปสู่อนุกรมเวลาที่ยาวได้ และต่างจากวิธีเดิมตรงที่เหมาะกับการใช้งานขนาดใหญ่ในทางปฏิบัติ
- มีการเสนอ 2 โครงสร้าง: SoftPrompt (แทรกอนุกรมเวลาเป็นโทเค็น) และ Flamingo (อิง cross-attention) ซึ่งแต่ละแบบมีข้อดีข้อเสียต่างกัน
- นำเสนอ ชุดข้อมูล Chain-of-Thought (CoT) ใหม่ 3 ชุด (HAR, Sleep, ECG-QA) เพื่อประเมินความสามารถในการให้เหตุผลของโมเดล
เมื่อเทียบกับ GPT-4o โมเดลที่เล็กกว่า 200 เท่า สามารถทำความแม่นยำได้ดีกว่าในงานจำแนกระยะการนอนหลับ 4.4 เท่า การรู้จำกิจกรรม 6 เท่า และการตีความ ECG 2 เท่า (ด้านประสิทธิภาพสูงกว่าตามลำดับ 880 เท่า, 1,000 เท่า, 400 เท่า)
เป็นครั้งแรกในวงการแพทย์ที่ ประมวลผลสัญญาณ ECG แบบ 12-lead และข้อความพร้อมกัน พร้อมให้เหตุผลแบบ chain-of-thought ที่ผ่านการตรวจสอบโดยแพทย์โรคหัวใจ
ประมวลผลอนุกรมเวลาหลายชุดที่มีความยาวแปรผันพร้อมกัน และผสานเข้ากับบริบทข้อความเพื่อสร้างคำอธิบายที่ตีความได้ซึ่งผ่านการตรวจสอบโดยผู้เชี่ยวชาญโดเมน
งานวิจัยนี้ชี้ให้เห็นถึง ศักยภาพในการขยายไปสู่การประยุกต์ใช้อนุกรมเวลาในหลากหลายสาขา เช่น การเงิน ซัพพลายเชน และการมอนิเตอร์ภาคอุตสาหกรรม

ภาพรวมงานวิจัย

การวินิจฉัยและการรักษาทางคลินิกมีพื้นฐานอยู่ที่ความเข้าใจ การเปลี่ยนแปลงตามเวลา โดยเนื้อแท้
LLM แบบเดิมสามารถประมวลผลโมดาลิตีหลากหลาย เช่น ภาพ ข้อความ และเสียงได้ แต่ ยังขาดความสามารถในการตีความข้อมูลอนุกรมเวลาแบบต่อเนื่อง
เพื่อแก้ปัญหานี้ OpenTSLM จึงเสนอวิธีรวมข้อมูลอนุกรมเวลาเป็น โมดาลิตีเนทีฟใหม่ของ LLM

สถาปัตยกรรมโมเดล

OpenTSLM-SoftPrompt
- ฝังอนุกรมเวลาเป็น embedding แล้วป้อนเข้าพร้อมกับโทเค็นข้อความ
- เรียบง่ายและประหยัดพารามิเตอร์ แต่ในลำดับที่ยาวมีข้อจำกัดคือ การใช้หน่วยความจำเพิ่มขึ้นอย่างรวดเร็ว
OpenTSLM-Flamingo
- ประมวลผลอนุกรมเวลาเป็นโมดาลิตีแยก และรวมกับข้อความด้วย cross-attention
- การใช้หน่วยความจำคงที่แม้ลำดับยาว และเหมาะกับ การประมวลผลแบบอเนกประสงค์

ชุดข้อมูลและการฝึก

HAR-CoT: การรู้จำกิจกรรมของมนุษย์ผ่านเซ็นเซอร์วัดความเร่ง
Sleep-CoT: การจำแนกระยะการนอนหลับบนพื้นฐาน EEG
ECG-QA-CoT: การถามตอบโดยใช้ข้อมูลคลื่นไฟฟ้าหัวใจ
ใช้การฝึกแบบ curriculum เป็นลำดับขั้น จากการเรียนรู้รูปแบบอนุกรมเวลาอย่างง่าย → ขยายไปสู่การเรียนรู้ความสามารถในการให้เหตุผล

ผลลัพธ์สำคัญ

SoftPrompt-Llama3.2-1B: ทำได้ 69.9% F1 บน Sleep-CoT และ 65.4% F1 บน HAR-CoT
Flamingo-Llama3.2-3B: ทำผลงานดีที่สุดบน ECG-QA-CoT ที่ 40.25% F1
เหนือกว่า GPT-4o: แม้แต่โมเดลขนาดเล็ก (OpenTSLM-1B) ก็ยังทำคะแนน F1 สูงกว่า GPT-4o
การประเมินโดยแพทย์: 92.9% ของกระบวนการให้เหตุผลใน ECG-QA ถูกตัดสินว่าถูกต้องหรือถูกต้องบางส่วน

ประสิทธิภาพด้านหน่วยความจำ

SoftPrompt มี VRAM เพิ่มขึ้นแบบยกกำลังตามความยาวอินพุต (เช่น ใน ECG-QA ต้องใช้มากกว่า 110GB)
Flamingo รักษาการใช้หน่วยความจำได้อย่างเสถียร (แม้ใน Llama-3B ก็อยู่ที่ระดับ 60~70GB)

ข้อถกเถียง

OpenTSLM แสดงให้เห็นว่า โมเดลขนาดเล็กสามารถเหนือกว่าโมเดลขนาดมหึมาได้
SoftPrompt เหมาะกับอนุกรมเวลาสั้น ส่วน Flamingo เหมาะกับ อนุกรมเวลาระยะยาว/หลายชุด
มอบ ความโปร่งใสของกระบวนการให้เหตุผล ในข้อมูลทางการแพทย์ ช่วยเสริมความน่าเชื่อถือ
ต่างจากแนวทางแบบตัวจำแนกเดิม โดยทำให้ การให้เหตุผลด้วยภาษาธรรมชาติ + การผสานอนุกรมเวลา เป็นจริง

ข้อจำกัดและงานในอนาคต

วิธีปัจจุบันในการเก็บรักษาสเกลและหน่วยของอนุกรมเวลาด้วยข้อความอาจยังไม่ใช่วิธีที่เหมาะสมที่สุด
เนื่องจาก GPT-4o มีส่วนเกี่ยวข้องในกระบวนการสร้างชุดข้อมูล CoT จึงมี ความเป็นไปได้ของอคติในข้อมูล
ยังจำเป็นต้องมีการออกแบบ loss function ที่รับประกันการทำนายคำตอบ การทำสถาปัตยกรรมให้ง่ายขึ้น และการตรวจสอบความสามารถในการทำให้ทั่วไป

บทสรุป

OpenTSLM มีศักยภาพสูงที่จะนำไปใช้กับ การประมวลผลข้อมูลระยะยาว นอกเหนือจากวงการแพทย์ เช่น การเงิน ซัพพลายเชน และการมอนิเตอร์ภาคอุตสาหกรรม
งานวิจัยนี้วางรากฐานให้กับแนวคิด Time Series Language Model (TSLM) และมุ่งขยายไปสู่ โมเดลให้เหตุผลกับอนุกรมเวลาแบบทั่วไป

1 ความคิดเห็น

GN⁺ 2025-10-03

ความเห็นจาก Hacker News

เข้าใจประเด็นที่ว่าสามารถโต้ตอบกับข้อมูลอนุกรมเวลาได้ผ่านภาษาธรรมชาติ แต่ก็สงสัยว่ามันมีข้อดีอะไรเมื่อเทียบกับการใช้ไลบรารีประมวลผลสัญญาณหรืออัลกอริทึมแบบอิงกฎเกณฑ์ (หรือใช้แมชชีนเลิร์นนิงถ้าข้อมูลมีความผันผวน) ผ่านการเรียกใช้เครื่องมือ
ตัวอย่างเช่น ถ้าสั่งให้ LLM ทั่วไปวิเคราะห์ข้อมูล ECG มันก็อาจเรียกใช้ไลบรารีวิเคราะห์อนุกรมเวลา ECG
ไลบรารีนั้นจะไล่ดูข้อมูลทั้งหมดแล้วดึงค่าสถิติและเหตุการณ์ออกมา - เช่น “อัตราการเต้นหัวใจเฉลี่ย 60bpm, ตรวจพบ AFib ณ ช่วงเวลาหนึ่ง” เป็นต้น
แบบนี้ LLM ก็จะได้ข้อมูลทั้งหมดที่ต้องใช้ในการวิเคราะห์ แถมต้นทุนการประมวลผลก็ต่ำกว่ามาก
ยิ่งไปกว่านั้น วิธีแบบนี้ต้องอาศัยชุดข้อมูลที่มีการทำ annotation ขนาดใหญ่และโมเดลที่ pretrain มาแล้ว ถ้าผมเข้าใจผิดก็ยินดีให้แก้ แต่ผมคิดว่าโมเดลเอนกประสงค์ที่จัดการข้อมูลอนุกรมเวลาแบบ “ทั่วไป” ได้คงเป็นไปไม่ได้
พูดอีกอย่างคือ โมเดลที่ฝึกด้วยข้อมูล ECG ไม่สามารถใช้กับข้อมูลตลาดหุ้นได้
โมเดลตัวเดียวที่เข้าใจข้อมูลต่างชนิดกันทั้งหมดนั้นยังเป็นไปไม่ได้ในตอนนี้
- การรันระบบแบบนี้บน edge เป็นเรื่องยาก
  ประเด็นคือมันต้องทำงานบน edge ได้อย่างเชื่อถือได้
  ไม่มีใครอยากฝากการติดตามอัตราการเต้นหัวใจของตัวเองไว้กับคลาวด์ - บริการระยะไกลมีทั้งปัญหา outage และความน่าเชื่อถือ รวมถึงยังมีความยากเพิ่มเติมที่มาพร้อมกับการทำ inference ของ LLM
  ฟังก์ชันตรวจจับแบบอิงกฎเกณฑ์ที่มีอยู่เดิมก็มีในอุปกรณ์พวกนี้อยู่แล้ว และถ้านำมารวมกับความสามารถตรวจจับแพทเทิร์นขั้นสูงที่ LLM มอบให้ ก็อาจลดการแจ้งเตือนที่ไม่จำเป็นลงและตรวจจับแพทเทิร์นใหม่ที่ซับซ้อนได้
- นี่คือการให้ส่วนติดต่อแบบพูดคุยกับข้อมูลมหาศาลบนอินเทอร์เน็ต (ChatGPT)
  แต่ผมยังไม่แน่ใจว่ามันดีกว่าการค้นด้วย Google แล้วคลิกลิงก์อันดับต้น ๆ, หลบโฆษณา, กดยอมรับคุกกี้, อ่านหัวข้อ, เลื่อนหน้าเพื่อปิดป๊อปอัปจ่ายเงิน, อ่านบทความที่เหลือ แล้วทำแบบนี้ซ้ำอีก 4 รอบ อย่างไรในแง่ประสิทธิภาพ
  โอเค เข้าใจแล้ว
มีข้อความว่า "Stanford Repo Released Sep 31, 2025" ซึ่งให้ความรู้สึกเหมือนสุ่มมาจากการแจกแจงความน่าจะเป็นที่วันที่ถัดจาก 30 กันยายน 2025 คือวันที่ 31
- ขอบคุณสำหรับฟีดแบ็ก
  ชี้ให้เห็นว่าเรื่องนี้ช่างย้อนแย้ง เพราะบทความนี้ว่าด้วยโมเดลที่เข้าใจเวลา
- ดูเหมือนว่าข้อผิดพลาดเรื่องวันที่จะถูกแก้แล้ว
รากฐานของงานวิจัยครั้งนี้คือระบบชื่อ “Flamingo”
ระบบนี้เชี่ยวชาญในการทำความเข้าใจข้อความและภาพในรูปแบบลำดับสลับกัน
กล่าวคือ มันสามารถจัดการโมดาลิตีแบบลำดับได้พร้อมกันสองแบบ
งานวิจัยใหม่นี้ดูเหมือนจะเพิ่มความสามารถรับรู้เวลา โดยแทรก time token ลงในช่องโมดาลิตีหนึ่ง
(ว่าแต่ดีไซน์เว็บไซต์น่ารักมาก - ตัวอักษรยังมีเอฟเฟกต์ไล่สีจากซ้ายไปขวาด้วย)
ลิงก์งานวิจัยเกี่ยวกับ Flamingo
อันนี้เจ๋งมาก
อ่านจากงานวิจัยแล้ว ดูเหมือนเทคนิคนี้จะทำงานได้ดีสำหรับการถามตอบบนข้อมูลอนุกรมเวลา
สิ่งที่ผมสนใจที่สุดในวงการ medical AI คือการตรวจจับสัญญาณของโรคที่แม้แต่มนุษย์ก็ยังสังเกตไม่เห็น
เช่น การประมาณค่า ejection fraction จาก ECG ซึ่งแม้แต่ผู้เชี่ยวชาญโรคหัวใจก็ทำไม่ได้ (แต่ตัวอัลกอริทึมได้รับการยืนยันแล้วผ่าน RCT)
ลิงก์งานวิจัยที่เกี่ยวข้อง
OpenTSLM แปลงข้อมูลอนุกรมเวลาเป็นโทเคนใน embedding space ของ LLM และผมสงสัยว่ากระบวนการนี้จะจับสัญญาณละเอียดอ่อนแบบนั้นได้หรือไม่
หรือแนวทางนี้จะสามารถขยายให้เหมาะกับ use case แบบนี้ได้ไหม
- โมเดล OpenTSLM ถูกออกแบบมาเพื่อจับสัญญาณละเอียดอ่อนแบบนี้โดยตรง
  นี่คือแรงจูงใจที่ใหญ่ที่สุดอย่างหนึ่งในช่วงต้นของการวิจัย
  ในโมเดลนั้น ข้อมูลอนุกรมเวลาแบบต้นฉบับจะถูกรวมเข้าด้วย cross-attention และเรียนรู้ representation ของอนุกรมเวลาอย่างเฉพาะเจาะจงจาก raw time-series encoder
ถ้าโมเดลต้องประมวลผลอนุกรมเวลา การให้มันสร้างสคริปต์ที่เรียกใช้ไลบรารี TS แล้วส่งต่อไปยังตัวรันน่าจะดีกว่า
มนุษย์เองก็น่าจะทำแบบนั้น
ผมไม่แน่ใจว่าจำเป็นต้องฝังความสามารถนั้นเข้าไปในโมเดลโดยตรงหรือไม่
ถ้ามีความสามารถประมวลผล TS แบบ native อยู่ในโมเดล มันจะทำอะไรได้ที่การ tool calling ทำไม่ได้หรือเปล่า
- Anthropic เองก็แนะนำแนวทาง “ให้โมเดลเขียนสคริปต์” ในประกาศล่าสุดของ Claude Agent SDK
  การสร้างโค้ดมีความชัดเจน ใช้ซ้ำได้ และประกอบต่อได้ดี จึงเหมาะอย่างยิ่งสำหรับการทำงานซับซ้อนให้เชื่อถือได้
  ถ้าระหว่างพัฒนาเอเจนต์คุณลองคิดว่างานแบบไหนเหมาะจะนิยามเป็นโค้ด ก็จะเปิดโอกาสใหม่ ๆ ได้
  ลิงก์เกี่ยวกับ Claude Agent SDK
- คิดว่าคุณอาจพลาดประเด็นไป
  ลองนึกดูว่าจะให้เรียกใช้ไลบรารีวิเคราะห์ภาพเพื่ออธิบายรูปภาพ หรือจะให้โมเดลเข้าใจและให้เหตุผลกับภาพโดยตรงในฐานะอนุกรมเวลา แบบไหนดีกว่ากัน
  ถ้าดูกราฟในงานวิจัยก็จะเห็นว่าโมเดลพวกนี้ทำอะไรได้บ้าง
- โดยพื้นฐานแล้วผมสงสัยว่ามันมี “แนวคิดเรื่องเวลา” จริงหรือไม่ และมันเข้าใจเหตุและผลหรือเปล่า
วันนี้กลับถึงบ้านแล้วผมจะลองใช้ทันที
ผมทำงานกับข้อมูลอนุกรมเวลาเสียงจำนวนมาก (ไม่ใช่คำพูด และมีความแปรผันละเอียดอ่อนเยอะ) เลยอยากดูว่าวิธีใหม่นี้ทำได้ดีแค่ไหนเมื่อเทียบกับเทคนิคสถิติแบบดั้งเดิม
พวกเขาสร้างพื้นที่บน huggingface และอัปโหลดน้ำหนักโมเดลบางส่วนไว้แล้ว
แต่บนเว็บไซต์ทางการ, งานวิจัย และ Github ยังไม่เห็นลิงก์นี้
หน้า OpenTSLM บน huggingface
นึกภาพว่าอยากให้ claude code คอยมอนิเตอร์อนุกรมเวลาอัตราการเต้นหัวใจของผมแบบเรียลไทม์ แล้วตรวจจับได้ด้วยว่าผมนอนพลิกตัวบนเตียงนานแค่ไหน
- อนึ่ง claude2 ที่ออกมาเมื่อไม่กี่วันก่อนให้ความรู้สึกใช้งานลื่นกว่าเดิมมาก
ถ้าผมเข้าใจถูก โมเดลนี้น่าจะถูกฝึกมาสำหรับการจัดประเภทและตีความข้อมูลอนุกรมเวลา อยากรู้ว่าได้ลอง benchmark ด้านการพยากรณ์ (forecasting) ไว้ด้วยหรือไม่
คำอธิบายและคำแนะนำมักเชื่อมโยงใกล้ชิดกับการคาดการณ์ ดังนั้นคิดว่าคุณลักษณะของโมเดลน่าจะปรากฏให้เห็นในด้านนี้ด้วย
เป็น litmus test ที่น่าสนุก ถ้าลบเทรนด์ของ S&P500 ออกแล้วแยกเป็นองค์ประกอบของหุ้นทั้ง 500 ตัว จากนั้นวิเคราะห์และจัดอันดับว่าแต่ละตัวมีส่วนร่วมมากแค่ไหน
แต่แค่งานแบบนี้อย่างเดียวคงยังไม่พอให้ได้งานที่ Rentec หรือ NSA
ในภาคธุรกิจและการแพทย์โดยทั่วไป สัญญาณมักค่อนข้าง stationary และใช้งานร่วมกับ white noise (ไม่สัมพันธ์กัน) ขณะที่ใน NSA และ Rentec มักต้องรับมือกับสัญญาณ non-stationary รวมถึง regime change และ correlated noise
สัญญาณแบบนี้ไม่สามารถ denoise ได้โดยไม่สูญเสียข้อมูล
เป้าหมายของการวิเคราะห์ลักษณะนี้ไม่ใช่การทำนาย tick ถัดไป แต่คือการตรวจจับการเปลี่ยนแปลงของแพทเทิร์น (regime change) ให้เร็วที่สุด แล้วจับคู่มันเข้ากับแพทเทิร์นการซื้อขายหุ้นหรือรูปแบบกิจกรรมข่าวกรองที่มีอยู่เดิม

OpenTSLM - โมเดลภาษาที่เข้าใจข้อมูลอนุกรมเวลา

ภาพรวมงานวิจัย

สถาปัตยกรรมโมเดล

ชุดข้อมูลและการฝึก

ผลลัพธ์สำคัญ

ประสิทธิภาพด้านหน่วยความจำ

ข้อถกเถียง

ข้อจำกัดและงานในอนาคต

บทสรุป

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News