- โมเดลพื้นฐานแบบเดิมรองรับข้อความ ภาพ เสียง และวิดีโอ แต่ ยังขาดความสามารถในการให้เหตุผลเชิงเวลาเกี่ยวกับข้อมูลอนุกรมเวลาที่ขับเคลื่อนโลกจริง (เช่น สัญญาณชีพ ราคา telemetry บันทึกล็อก ฯลฯ)
- Time Series Language Models (TSLMs) รองรับอนุกรมเวลาในฐานะโมดาลิตีเฉพาะที่เทียบเท่ากับข้อความ ทำให้ผู้ใช้สามารถถามด้วยภาษาธรรมชาติและรับคำอธิบายพร้อมคำแนะนำได้
- OpenTSLM เป็นโมเดลภาษาแบบใหม่ที่ออกแบบมาเพื่อ ประมวลผลข้อมูลอนุกรมเวลาและข้อความทางคลินิกไปพร้อมกัน ในโดเมนการแพทย์
- ใช้สถาปัตยกรรม cross-attention จึง ขยายไปสู่อนุกรมเวลาที่ยาวได้ และต่างจากวิธีเดิมตรงที่เหมาะกับการใช้งานขนาดใหญ่ในทางปฏิบัติ
- มีการเสนอ 2 โครงสร้าง: SoftPrompt (แทรกอนุกรมเวลาเป็นโทเค็น) และ Flamingo (อิง cross-attention) ซึ่งแต่ละแบบมีข้อดีข้อเสียต่างกัน
- นำเสนอ ชุดข้อมูล Chain-of-Thought (CoT) ใหม่ 3 ชุด (HAR, Sleep, ECG-QA) เพื่อประเมินความสามารถในการให้เหตุผลของโมเดล
- เมื่อเทียบกับ GPT-4o โมเดลที่เล็กกว่า 200 เท่า สามารถทำความแม่นยำได้ดีกว่าในงานจำแนกระยะการนอนหลับ 4.4 เท่า การรู้จำกิจกรรม 6 เท่า และการตีความ ECG 2 เท่า (ด้านประสิทธิภาพสูงกว่าตามลำดับ 880 เท่า, 1,000 เท่า, 400 เท่า)
- เป็นครั้งแรกในวงการแพทย์ที่ ประมวลผลสัญญาณ ECG แบบ 12-lead และข้อความพร้อมกัน พร้อมให้เหตุผลแบบ chain-of-thought ที่ผ่านการตรวจสอบโดยแพทย์โรคหัวใจ
- ประมวลผลอนุกรมเวลาหลายชุดที่มีความยาวแปรผันพร้อมกัน และผสานเข้ากับบริบทข้อความเพื่อสร้างคำอธิบายที่ตีความได้ซึ่งผ่านการตรวจสอบโดยผู้เชี่ยวชาญโดเมน
- งานวิจัยนี้ชี้ให้เห็นถึง ศักยภาพในการขยายไปสู่การประยุกต์ใช้อนุกรมเวลาในหลากหลายสาขา เช่น การเงิน ซัพพลายเชน และการมอนิเตอร์ภาคอุตสาหกรรม
ภาพรวมงานวิจัย
- การวินิจฉัยและการรักษาทางคลินิกมีพื้นฐานอยู่ที่ความเข้าใจ การเปลี่ยนแปลงตามเวลา โดยเนื้อแท้
- LLM แบบเดิมสามารถประมวลผลโมดาลิตีหลากหลาย เช่น ภาพ ข้อความ และเสียงได้ แต่ ยังขาดความสามารถในการตีความข้อมูลอนุกรมเวลาแบบต่อเนื่อง
- เพื่อแก้ปัญหานี้ OpenTSLM จึงเสนอวิธีรวมข้อมูลอนุกรมเวลาเป็น โมดาลิตีเนทีฟใหม่ของ LLM
สถาปัตยกรรมโมเดล
- OpenTSLM-SoftPrompt
- ฝังอนุกรมเวลาเป็น embedding แล้วป้อนเข้าพร้อมกับโทเค็นข้อความ
- เรียบง่ายและประหยัดพารามิเตอร์ แต่ในลำดับที่ยาวมีข้อจำกัดคือ การใช้หน่วยความจำเพิ่มขึ้นอย่างรวดเร็ว
- OpenTSLM-Flamingo
- ประมวลผลอนุกรมเวลาเป็นโมดาลิตีแยก และรวมกับข้อความด้วย cross-attention
- การใช้หน่วยความจำคงที่แม้ลำดับยาว และเหมาะกับ การประมวลผลแบบอเนกประสงค์
ชุดข้อมูลและการฝึก
- HAR-CoT: การรู้จำกิจกรรมของมนุษย์ผ่านเซ็นเซอร์วัดความเร่ง
- Sleep-CoT: การจำแนกระยะการนอนหลับบนพื้นฐาน EEG
- ECG-QA-CoT: การถามตอบโดยใช้ข้อมูลคลื่นไฟฟ้าหัวใจ
- ใช้การฝึกแบบ curriculum เป็นลำดับขั้น จากการเรียนรู้รูปแบบอนุกรมเวลาอย่างง่าย → ขยายไปสู่การเรียนรู้ความสามารถในการให้เหตุผล
ผลลัพธ์สำคัญ
- SoftPrompt-Llama3.2-1B: ทำได้ 69.9% F1 บน Sleep-CoT และ 65.4% F1 บน HAR-CoT
- Flamingo-Llama3.2-3B: ทำผลงานดีที่สุดบน ECG-QA-CoT ที่ 40.25% F1
- เหนือกว่า GPT-4o: แม้แต่โมเดลขนาดเล็ก (OpenTSLM-1B) ก็ยังทำคะแนน F1 สูงกว่า GPT-4o
- การประเมินโดยแพทย์: 92.9% ของกระบวนการให้เหตุผลใน ECG-QA ถูกตัดสินว่าถูกต้องหรือถูกต้องบางส่วน
ประสิทธิภาพด้านหน่วยความจำ
- SoftPrompt มี VRAM เพิ่มขึ้นแบบยกกำลังตามความยาวอินพุต (เช่น ใน ECG-QA ต้องใช้มากกว่า 110GB)
- Flamingo รักษาการใช้หน่วยความจำได้อย่างเสถียร (แม้ใน Llama-3B ก็อยู่ที่ระดับ 60~70GB)
ข้อถกเถียง
- OpenTSLM แสดงให้เห็นว่า โมเดลขนาดเล็กสามารถเหนือกว่าโมเดลขนาดมหึมาได้
- SoftPrompt เหมาะกับอนุกรมเวลาสั้น ส่วน Flamingo เหมาะกับ อนุกรมเวลาระยะยาว/หลายชุด
- มอบ ความโปร่งใสของกระบวนการให้เหตุผล ในข้อมูลทางการแพทย์ ช่วยเสริมความน่าเชื่อถือ
- ต่างจากแนวทางแบบตัวจำแนกเดิม โดยทำให้ การให้เหตุผลด้วยภาษาธรรมชาติ + การผสานอนุกรมเวลา เป็นจริง
ข้อจำกัดและงานในอนาคต
- วิธีปัจจุบันในการเก็บรักษาสเกลและหน่วยของอนุกรมเวลาด้วยข้อความอาจยังไม่ใช่วิธีที่เหมาะสมที่สุด
- เนื่องจาก GPT-4o มีส่วนเกี่ยวข้องในกระบวนการสร้างชุดข้อมูล CoT จึงมี ความเป็นไปได้ของอคติในข้อมูล
- ยังจำเป็นต้องมีการออกแบบ loss function ที่รับประกันการทำนายคำตอบ การทำสถาปัตยกรรมให้ง่ายขึ้น และการตรวจสอบความสามารถในการทำให้ทั่วไป
บทสรุป
- OpenTSLM มีศักยภาพสูงที่จะนำไปใช้กับ การประมวลผลข้อมูลระยะยาว นอกเหนือจากวงการแพทย์ เช่น การเงิน ซัพพลายเชน และการมอนิเตอร์ภาคอุตสาหกรรม
- งานวิจัยนี้วางรากฐานให้กับแนวคิด Time Series Language Model (TSLM) และมุ่งขยายไปสู่ โมเดลให้เหตุผลกับอนุกรมเวลาแบบทั่วไป
1 ความคิดเห็น
ความเห็นจาก Hacker News
เข้าใจประเด็นที่ว่าสามารถโต้ตอบกับข้อมูลอนุกรมเวลาได้ผ่านภาษาธรรมชาติ แต่ก็สงสัยว่ามันมีข้อดีอะไรเมื่อเทียบกับการใช้ไลบรารีประมวลผลสัญญาณหรืออัลกอริทึมแบบอิงกฎเกณฑ์ (หรือใช้แมชชีนเลิร์นนิงถ้าข้อมูลมีความผันผวน) ผ่านการเรียกใช้เครื่องมือ
ตัวอย่างเช่น ถ้าสั่งให้ LLM ทั่วไปวิเคราะห์ข้อมูล ECG มันก็อาจเรียกใช้ไลบรารีวิเคราะห์อนุกรมเวลา ECG
ไลบรารีนั้นจะไล่ดูข้อมูลทั้งหมดแล้วดึงค่าสถิติและเหตุการณ์ออกมา - เช่น “อัตราการเต้นหัวใจเฉลี่ย 60bpm, ตรวจพบ AFib ณ ช่วงเวลาหนึ่ง” เป็นต้น
แบบนี้ LLM ก็จะได้ข้อมูลทั้งหมดที่ต้องใช้ในการวิเคราะห์ แถมต้นทุนการประมวลผลก็ต่ำกว่ามาก
ยิ่งไปกว่านั้น วิธีแบบนี้ต้องอาศัยชุดข้อมูลที่มีการทำ annotation ขนาดใหญ่และโมเดลที่ pretrain มาแล้ว ถ้าผมเข้าใจผิดก็ยินดีให้แก้ แต่ผมคิดว่าโมเดลเอนกประสงค์ที่จัดการข้อมูลอนุกรมเวลาแบบ “ทั่วไป” ได้คงเป็นไปไม่ได้
พูดอีกอย่างคือ โมเดลที่ฝึกด้วยข้อมูล ECG ไม่สามารถใช้กับข้อมูลตลาดหุ้นได้
โมเดลตัวเดียวที่เข้าใจข้อมูลต่างชนิดกันทั้งหมดนั้นยังเป็นไปไม่ได้ในตอนนี้
การรันระบบแบบนี้บน edge เป็นเรื่องยาก
ประเด็นคือมันต้องทำงานบน edge ได้อย่างเชื่อถือได้
ไม่มีใครอยากฝากการติดตามอัตราการเต้นหัวใจของตัวเองไว้กับคลาวด์ - บริการระยะไกลมีทั้งปัญหา outage และความน่าเชื่อถือ รวมถึงยังมีความยากเพิ่มเติมที่มาพร้อมกับการทำ inference ของ LLM
ฟังก์ชันตรวจจับแบบอิงกฎเกณฑ์ที่มีอยู่เดิมก็มีในอุปกรณ์พวกนี้อยู่แล้ว และถ้านำมารวมกับความสามารถตรวจจับแพทเทิร์นขั้นสูงที่ LLM มอบให้ ก็อาจลดการแจ้งเตือนที่ไม่จำเป็นลงและตรวจจับแพทเทิร์นใหม่ที่ซับซ้อนได้
นี่คือการให้ส่วนติดต่อแบบพูดคุยกับข้อมูลมหาศาลบนอินเทอร์เน็ต (ChatGPT)
แต่ผมยังไม่แน่ใจว่ามันดีกว่าการค้นด้วย Google แล้วคลิกลิงก์อันดับต้น ๆ, หลบโฆษณา, กดยอมรับคุกกี้, อ่านหัวข้อ, เลื่อนหน้าเพื่อปิดป๊อปอัปจ่ายเงิน, อ่านบทความที่เหลือ แล้วทำแบบนี้ซ้ำอีก 4 รอบ อย่างไรในแง่ประสิทธิภาพ
โอเค เข้าใจแล้ว
มีข้อความว่า "Stanford Repo Released Sep 31, 2025" ซึ่งให้ความรู้สึกเหมือนสุ่มมาจากการแจกแจงความน่าจะเป็นที่วันที่ถัดจาก 30 กันยายน 2025 คือวันที่ 31
ขอบคุณสำหรับฟีดแบ็ก
ชี้ให้เห็นว่าเรื่องนี้ช่างย้อนแย้ง เพราะบทความนี้ว่าด้วยโมเดลที่เข้าใจเวลา
ดูเหมือนว่าข้อผิดพลาดเรื่องวันที่จะถูกแก้แล้ว
รากฐานของงานวิจัยครั้งนี้คือระบบชื่อ “Flamingo”
ระบบนี้เชี่ยวชาญในการทำความเข้าใจข้อความและภาพในรูปแบบลำดับสลับกัน
กล่าวคือ มันสามารถจัดการโมดาลิตีแบบลำดับได้พร้อมกันสองแบบ
งานวิจัยใหม่นี้ดูเหมือนจะเพิ่มความสามารถรับรู้เวลา โดยแทรก time token ลงในช่องโมดาลิตีหนึ่ง
(ว่าแต่ดีไซน์เว็บไซต์น่ารักมาก - ตัวอักษรยังมีเอฟเฟกต์ไล่สีจากซ้ายไปขวาด้วย)
ลิงก์งานวิจัยเกี่ยวกับ Flamingo
อันนี้เจ๋งมาก
อ่านจากงานวิจัยแล้ว ดูเหมือนเทคนิคนี้จะทำงานได้ดีสำหรับการถามตอบบนข้อมูลอนุกรมเวลา
สิ่งที่ผมสนใจที่สุดในวงการ medical AI คือการตรวจจับสัญญาณของโรคที่แม้แต่มนุษย์ก็ยังสังเกตไม่เห็น
เช่น การประมาณค่า ejection fraction จาก ECG ซึ่งแม้แต่ผู้เชี่ยวชาญโรคหัวใจก็ทำไม่ได้ (แต่ตัวอัลกอริทึมได้รับการยืนยันแล้วผ่าน RCT)
ลิงก์งานวิจัยที่เกี่ยวข้อง
OpenTSLM แปลงข้อมูลอนุกรมเวลาเป็นโทเคนใน embedding space ของ LLM และผมสงสัยว่ากระบวนการนี้จะจับสัญญาณละเอียดอ่อนแบบนั้นได้หรือไม่
หรือแนวทางนี้จะสามารถขยายให้เหมาะกับ use case แบบนี้ได้ไหม
นี่คือแรงจูงใจที่ใหญ่ที่สุดอย่างหนึ่งในช่วงต้นของการวิจัย
ในโมเดลนั้น ข้อมูลอนุกรมเวลาแบบต้นฉบับจะถูกรวมเข้าด้วย cross-attention และเรียนรู้ representation ของอนุกรมเวลาอย่างเฉพาะเจาะจงจาก raw time-series encoder
ถ้าโมเดลต้องประมวลผลอนุกรมเวลา การให้มันสร้างสคริปต์ที่เรียกใช้ไลบรารี TS แล้วส่งต่อไปยังตัวรันน่าจะดีกว่า
มนุษย์เองก็น่าจะทำแบบนั้น
ผมไม่แน่ใจว่าจำเป็นต้องฝังความสามารถนั้นเข้าไปในโมเดลโดยตรงหรือไม่
ถ้ามีความสามารถประมวลผล TS แบบ native อยู่ในโมเดล มันจะทำอะไรได้ที่การ tool calling ทำไม่ได้หรือเปล่า
Anthropic เองก็แนะนำแนวทาง “ให้โมเดลเขียนสคริปต์” ในประกาศล่าสุดของ Claude Agent SDK
การสร้างโค้ดมีความชัดเจน ใช้ซ้ำได้ และประกอบต่อได้ดี จึงเหมาะอย่างยิ่งสำหรับการทำงานซับซ้อนให้เชื่อถือได้
ถ้าระหว่างพัฒนาเอเจนต์คุณลองคิดว่างานแบบไหนเหมาะจะนิยามเป็นโค้ด ก็จะเปิดโอกาสใหม่ ๆ ได้
ลิงก์เกี่ยวกับ Claude Agent SDK
คิดว่าคุณอาจพลาดประเด็นไป
ลองนึกดูว่าจะให้เรียกใช้ไลบรารีวิเคราะห์ภาพเพื่ออธิบายรูปภาพ หรือจะให้โมเดลเข้าใจและให้เหตุผลกับภาพโดยตรงในฐานะอนุกรมเวลา แบบไหนดีกว่ากัน
ถ้าดูกราฟในงานวิจัยก็จะเห็นว่าโมเดลพวกนี้ทำอะไรได้บ้าง
โดยพื้นฐานแล้วผมสงสัยว่ามันมี “แนวคิดเรื่องเวลา” จริงหรือไม่ และมันเข้าใจเหตุและผลหรือเปล่า
วันนี้กลับถึงบ้านแล้วผมจะลองใช้ทันที
ผมทำงานกับข้อมูลอนุกรมเวลาเสียงจำนวนมาก (ไม่ใช่คำพูด และมีความแปรผันละเอียดอ่อนเยอะ) เลยอยากดูว่าวิธีใหม่นี้ทำได้ดีแค่ไหนเมื่อเทียบกับเทคนิคสถิติแบบดั้งเดิม
พวกเขาสร้างพื้นที่บน huggingface และอัปโหลดน้ำหนักโมเดลบางส่วนไว้แล้ว
แต่บนเว็บไซต์ทางการ, งานวิจัย และ Github ยังไม่เห็นลิงก์นี้
หน้า OpenTSLM บน huggingface
นึกภาพว่าอยากให้ claude code คอยมอนิเตอร์อนุกรมเวลาอัตราการเต้นหัวใจของผมแบบเรียลไทม์ แล้วตรวจจับได้ด้วยว่าผมนอนพลิกตัวบนเตียงนานแค่ไหน
ถ้าผมเข้าใจถูก โมเดลนี้น่าจะถูกฝึกมาสำหรับการจัดประเภทและตีความข้อมูลอนุกรมเวลา อยากรู้ว่าได้ลอง benchmark ด้านการพยากรณ์ (forecasting) ไว้ด้วยหรือไม่
คำอธิบายและคำแนะนำมักเชื่อมโยงใกล้ชิดกับการคาดการณ์ ดังนั้นคิดว่าคุณลักษณะของโมเดลน่าจะปรากฏให้เห็นในด้านนี้ด้วย
เป็น litmus test ที่น่าสนุก ถ้าลบเทรนด์ของ S&P500 ออกแล้วแยกเป็นองค์ประกอบของหุ้นทั้ง 500 ตัว จากนั้นวิเคราะห์และจัดอันดับว่าแต่ละตัวมีส่วนร่วมมากแค่ไหน
แต่แค่งานแบบนี้อย่างเดียวคงยังไม่พอให้ได้งานที่ Rentec หรือ NSA
ในภาคธุรกิจและการแพทย์โดยทั่วไป สัญญาณมักค่อนข้าง stationary และใช้งานร่วมกับ white noise (ไม่สัมพันธ์กัน) ขณะที่ใน NSA และ Rentec มักต้องรับมือกับสัญญาณ non-stationary รวมถึง regime change และ correlated noise
สัญญาณแบบนี้ไม่สามารถ denoise ได้โดยไม่สูญเสียข้อมูล
เป้าหมายของการวิเคราะห์ลักษณะนี้ไม่ใช่การทำนาย tick ถัดไป แต่คือการตรวจจับการเปลี่ยนแปลงของแพทเทิร์น (regime change) ให้เร็วที่สุด แล้วจับคู่มันเข้ากับแพทเทิร์นการซื้อขายหุ้นหรือรูปแบบกิจกรรมข่าวกรองที่มีอยู่เดิม