ML ที่น่าจับตาในสัปดาห์นี้

(discuss.pytorch.kr)

10 คะแนน โดย ninebow 2025-12-29 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

[2025/12/22 ~ 28] รวมงานวิจัย AI/ML ที่น่าจับตาในสัปดาห์นี้

PyTorchKR🔥🇰🇷 🤔💭

1️⃣ กลยุทธ์การตรวจจับและบรรเทาอาการหลอนเชิงลึก (Deep Hallucination Detection & Mitigation): เมื่อดูงานวิจัยที่คัดมาในสัปดาห์นี้ จะเห็นได้ชัดว่าความพยายามเด่น ๆ ไม่ได้หยุดอยู่แค่การเพิ่มขนาดโมเดล แต่กำลังมุ่งแก้ปัญหาเรื้อรังของ LLM อย่าง อาการหลอน (Hallucination) ที่ต้นตออย่างจริงจัง โดย QuCo-RAG ตัดสินใจเลือกจังหวะในการค้นคืนข้อมูลด้วยตัวชี้วัดเชิงวัตถุวิสัยอย่างสถิติของข้อมูลพรีเทรน แทนที่จะพึ่งความเชื่อมั่นเชิงอัตวิสัยภายในโมเดล ขณะที่ H-Neurons ใช้แนวทางระดับจุลภาคในการระบุนิวรอนเฉพาะที่ก่อให้เกิดอาการหลอนและติดตามที่มาของมัน นอกจากนี้ Model-First Reasoning ยังลดข้อผิดพลาดเชิงโครงสร้างด้วยการบังคับให้ผ่านขั้นตอนการสร้างแบบจำลองอย่างชัดเจนก่อนเริ่มแก้ปัญหา ทั้งหมดนี้สะท้อนให้เห็นว่างานวิจัย AI กำลังพัฒนาจากการสร้างเพียง ‘คำตอบที่ดูสมเหตุสมผล’ ไปสู่การมี ‘กลไกที่ตรวจสอบได้และเชื่อถือได้’

2️⃣ วิวัฒนาการของประสิทธิภาพการอนุมานและเทคโนโลยีประมวลผลแบบเรียลไทม์ (Evolution of Inference Efficiency & Real-Time Processing): อีกด้านหนึ่ง เมื่อโมเดลมีขนาดใหญ่ขึ้น งานวิจัยที่มุ่งเพิ่ม ความเร็วในการอนุมานและประสิทธิภาพด้านหน่วยความจำ ให้สูงสุดก็ยิ่งคึกคักขึ้น WorldPlay แก้ปัญหา trade-off ระหว่างความเร็วกับหน่วยความจำจนทำให้การสร้างวิดีโอแบบเรียลไทม์เป็นไปได้ ส่วน Jacobi Forcing ยกระดับความเร็วในการอนุมานอย่างก้าวกระโดดด้วยการถอดรหัสแบบขนาน โดยก้าวข้ามข้อจำกัดของวิธีสร้างแบบลำดับต่อเนื่อง (AR) ขณะเดียวกัน qTTT ก็เสนอแนวทางใหม่ที่ทำการเรียนรู้แบบเบาในขั้นตอนอนุมาน เพื่อป้องกันประสิทธิภาพตกลงระหว่างการประมวลผลบริบทยาว ๆ (score dilution) สิ่งนี้ตีความได้ว่าเป็นกระบวนการปรับแต่งที่จำเป็นสำหรับการนำโมเดลสมรรถนะสูงไปใช้งานในระดับบริการจริง (Real-time application)

3️⃣ เสริมความเข้าใจโลกแบบพลวัตและความสามารถในการอนุมานเชิงโครงสร้าง (Enhanced Dynamic World Understanding & Structured Reasoning): นอกเหนือจากการวิเคราะห์ภาพนิ่งหรือข้อความแบบเดิม แนวโน้มสำคัญคือความพยายามในการทำความเข้าใจ การไหลของเวลา (4D) และโครงสร้างทางกายภาพ/ตรรกะ ให้ได้ดีขึ้น 4D-RGPT พยายามรับรู้แบบ 4D โดยเพิ่มแกนเวลาเข้าไปในปริภูมิ 3D เพื่อทำความเข้าใจพลวัตเชิงเวลาในวิดีโอ ส่วน WorldPlay ทำการสร้างแบบจำลองโลกโดยคงความสอดคล้องเชิงเรขาคณิตไว้ และ NEPA ก็พยายามยกระดับความเข้าใจเชิงภาพผ่านการทำนาย embedding แทนการกู้คืนพิกเซลโดยตรง แนวโน้มนี้ชี้ว่า AI กำลังก้าวข้ามการจับคู่แพตเทิร์นแบบง่าย ๆ ไปสู่ขั้นที่สามารถทำให้ ‘หลักการทำงานของโลก’ ซึ่งรวมถึงกฎฟิสิกส์และความสัมพันธ์เชิงเหตุผลทางตรรกะ กลายเป็นส่วนหนึ่งของตัวโมเดลได้มากขึ้น

WorldPlay: มุ่งสู่ความสอดคล้องเชิงเรขาคณิตระยะยาวสำหรับการสร้างแบบจำลองโลกเชิงโต้ตอบแบบเรียลไทม์ / WorldPlay: Towards Long-Term Geometric Consistency for Real-Time Interactive World Modeling

แนะนำงานวิจัย

WorldPlay คือโมเดล diffusion วิดีโอแบบสตรีมมิงที่ล้ำสมัยสำหรับการสร้างแบบจำลองโลกเชิงโต้ตอบแบบเรียลไทม์ โดยได้รับการพัฒนาขึ้นโดยมุ่งเน้นการรักษาความสอดคล้องเชิงเรขาคณิตในระยะยาวไปพร้อมกับแก้ปัญหา trade-off ระหว่างความเร็วและหน่วยความจำ โมเดลนี้เพิ่มประสิทธิภาพสูงสุดผ่านนวัตกรรมหลัก 3 ส่วน ประการแรก Dual Action Representation ช่วยให้ควบคุมการเคลื่อนไหวจากอินพุตของผู้ใช้ได้อย่างทรงพลัง ทำให้สร้างการเคลื่อนไหวที่สมจริงตามหลักฟิสิกส์ได้ในฉากหลายระดับสเกล ประการที่สอง Reconstituted Context Memory ช่วยสร้างข้อมูลของเฟรมก่อนหน้าใหม่แบบไดนามิก เพื่อคงความสอดคล้องระยะยาวไว้ได้ โดยทำให้เฟรมเก่า ๆ ที่มีความสำคัญเชิงเรขาคณิตยังคงเข้าถึงได้ จึงช่วยเพิ่มประสิทธิภาพด้านหน่วยความจำ และประการที่สาม มีการนำวิธี distillation แบบใหม่ชื่อ Context Forcing มาใช้เพื่อยกระดับประสิทธิภาพของโมเดลที่รับรู้หน่วยความจำ วิธีนี้จัดแนว memory context ระหว่างโมเดลครูกับโมเดลนักเรียน เพื่อช่วยให้โมเดลนักเรียนใช้ข้อมูลระยะยาวได้อย่างมีประสิทธิภาพ

WorldPlay สร้างวิดีโอ 720p ที่ 24 เฟรมต่อวินาที และแสดงความสอดคล้องที่เหนือกว่าเมื่อเทียบกับเทคโนโลยีเดิม โมเดลนี้ประสบความสำเร็จในการบรรลุทั้งความเร็วในการสร้างวิดีโอแบบเรียลไทม์และความสอดคล้องเชิงเรขาคณิตระยะยาวพร้อมกัน อีกทั้งยังแสดงการทำให้ทั่วไปที่แข็งแกร่งในฉากหลากหลายแบบ นอกจากนี้ยังรองรับการสร้างใหม่แบบ 3D คุณภาพสูง และสนับสนุนปฏิสัมพันธ์ที่ขับเคลื่อนด้วยพรอมป์ต์ซึ่งสามารถกระตุ้นเหตุการณ์ต่าง ๆ ในโลกแบบพลวัตได้ คุณลักษณะเหล่านี้ทำให้ WorldPlay เป็นผลงานสำคัญในสาขาการสร้างวิดีโอเชิงโต้ตอบแบบเรียลไทม์ และเปิดทางไปสู่การประยุกต์ใช้ที่หลากหลายในอนาคต

บทคัดย่อ (Abstract)

บทความนี้นำเสนอ WorldPlay ซึ่งเป็นโมเดล diffusion สำหรับวิดีโอแบบสตรีมมิงที่ทำให้การสร้างแบบจำลองโลกเชิงโต้ตอบแบบเรียลไทม์เป็นไปได้ WorldPlay แก้ปัญหา trade-off ระหว่างความเร็วและหน่วยความจำที่จำกัดวิธีการในปัจจุบัน พร้อมรักษาความสอดคล้องเชิงเรขาคณิตในระยะยาวไว้ได้ WorldPlay ขับเคลื่อนด้วยนวัตกรรมหลัก 3 ประการ 1) เราใช้ Dual Action Representation เพื่อให้ควบคุมการกระทำที่ตอบสนองต่ออินพุตคีย์บอร์ดและเมาส์ของผู้ใช้ได้อย่างมีประสิทธิภาพ 2) เพื่อรักษาความสอดคล้องระยะยาว Reconstituted Context Memory ของเราจะสร้างบริบทจากเฟรมในอดีตขึ้นใหม่แบบไดนามิก และใช้ temporal reframing เพื่อให้ยังเข้าถึงเฟรมเก่ามากที่สำคัญเชิงเรขาคณิตได้ ซึ่งช่วยบรรเทาการเสื่อมถอยของหน่วยความจำได้อย่างมีประสิทธิภาพ 3) เรายังเสนอ Context Forcing ซึ่งเป็นวิธี distillation แบบใหม่ที่ออกแบบมาสำหรับโมเดลที่รับรู้หน่วยความจำ โดยการจัดแนวบริบทของหน่วยความจำระหว่าง teacher และ student จะช่วยคงความสามารถของ student ในการใช้ข้อมูลระยะไกล ทำให้ได้ความเร็วระดับเรียลไทม์พร้อมป้องกัน error drift โดยรวมแล้ว WorldPlay สามารถสตรีมวิดีโอ 720p ระยะยาวที่ 24 FPS ได้ พร้อมความสอดคล้องที่เหนือกว่าเมื่อเทียบกับเทคนิคที่มีอยู่ และแสดงการทำงานแบบ generalization ที่แข็งแกร่งในฉากที่หลากหลาย ดูหน้าโปรเจกต์และเดโมออนไลน์ได้ที่: https://3d-models.hunyuan.tencent.com/world/ และ https://3d.hunyuan.tencent.com/sceneTo3D
> บทความนี้นำเสนอ WorldPlay ซึ่งเป็นโมเดล diffusion สำหรับวิดีโอแบบสตรีมมิงที่ทำให้การสร้างแบบจำลองโลกเชิงโต้ตอบแบบเรียลไทม์พร้อมความสอดคล้องเชิงเรขาคณิตในระยะยาวเป็นไปได้ โดยแก้ปัญหา trade-off ระหว่างความเร็วและหน่วยความจำที่จำกัดวิธีการในปัจจุบัน WorldPlay ขับเคลื่อนด้วยนวัตกรรมหลัก 3 ประการ 1) เราใช้ Dual Action Representation เพื่อให้ควบคุมการกระทำที่ตอบสนองต่ออินพุตคีย์บอร์ดและเมาส์ของผู้ใช้ได้อย่างมีประสิทธิภาพ 2) เพื่อบังคับใช้ความสอดคล้องระยะยาว Reconstituted Context Memory ของเราจะสร้างบริบทจากเฟรมในอดีตขึ้นใหม่แบบไดนามิก และใช้ temporal reframing เพื่อให้ยังเข้าถึงเฟรมเก่ามากที่สำคัญเชิงเรขาคณิตได้ ซึ่งช่วยบรรเทาการเสื่อมถอยของหน่วยความจำได้อย่างมีประสิทธิภาพ 3) เรายังเสนอ Context Forcing ซึ่งเป็นวิธี distillation แบบใหม่ที่ออกแบบมาสำหรับโมเดลที่รับรู้หน่วยความจำ การจัดแนวบริบทของหน่วยความจำระหว่าง teacher และ student ช่วยรักษาความสามารถของ student ในการใช้ข้อมูลระยะไกล ทำให้ได้ความเร็วระดับเรียลไทม์พร้อมป้องกัน error drift โดยรวมแล้ว WorldPlay สร้างวิดีโอสตรีมมิง 720p ระยะยาวที่ 24 FPS ด้วยความสอดคล้องที่เหนือกว่า เปรียบเทียบได้ดีเมื่อเทียบกับเทคนิคที่มีอยู่ และแสดงการทำงานแบบ generalization ที่แข็งแกร่งในฉากที่หลากหลาย ดูหน้าโปรเจกต์และเดโมออนไลน์ได้ที่: https://3d-models.hunyuan.tencent.com/world/ และ https://3d.hunyuan.tencent.com/sceneTo3D

ลิงก์บทความ

https://arxiv.org/abs/2512.14614

อ่านเพิ่มเติม

https://3d-models.hunyuan.tencent.com/world/

https://3d.hunyuan.tencent.com/sceneTo3D

QuCo-RAG: วิธีสำหรับการสร้างแบบ retrieval-augmented generation แบบไดนามิกด้วยการวัดเชิงปริมาณความไม่แน่นอนจากข้อมูล pre-training / QuCo-RAG: Quantifying Uncertainty from the Pre-training Corpus for Dynamic Retrieval-Augmented Generation

แนะนำบทความ

QuCo-RAG เป็นวิธีการใหม่ที่ช่วยบรรเทาอาการหลอนข้อมูลด้วยการตัดสินใจแบบไดนามิกว่าจะทำการค้นหาเมื่อใดระหว่างกระบวนการสร้างของโมเดลภาษาขนาดใหญ่ (LLM) แนวทางเดิมพึ่งพาสัญญาณภายในของโมเดล แต่มีปัญหาที่ LLM มักมีการปรับเทียบไม่ดีและแสดงความมั่นใจสูงต่อผลลัพธ์ที่ผิดพลาด งานวิจัยนี้จึงเสนอวิธีใหม่ที่วัดเชิงปริมาณความไม่แน่นอนด้วยสถิติที่เป็นวัตถุวิสัยซึ่งคำนวณจากข้อมูล pre-training แทนการใช้ค่าความมั่นใจเชิงอัตวิสัย

การวัดเชิงปริมาณความไม่แน่นอนของ QuCo-RAG ประกอบด้วย 2 ขั้นตอนหลัก ขั้นตอนแรกคือการระบุเอนทิตีความถี่ต่ำที่สะท้อนช่องว่างของความรู้แบบ long-tail ก่อนการสร้าง ขั้นตอนที่สองคือระหว่างการสร้าง ระบบจะตรวจสอบการเกิดร่วมกันของเอนทิตีในข้อมูล pre-training และหากการเกิดร่วมกันเป็น 0 ก็จะส่งสัญญาณความเสี่ยงของอาการหลอนข้อมูล ทั้งสองขั้นตอนนี้ใช้ Infini-gram เพื่อทำการคิวรีบนโทเคน 4 ล้านล้านรายการด้วยความหน่วงระดับมิลลิวินาที และทริกเกอร์การค้นหาเมื่ออยู่ในสถานการณ์ที่มีความไม่แน่นอนสูง

ผลการทดลองแสดงให้เห็นว่า QuCo-RAG ทำให้ความแม่นยำ (EM) ดีขึ้น 5-12 คะแนนเหนือ baseline ล่าสุดบนเบนช์มาร์กการตอบคำถาม (QA) แบบหลายขั้นตอน โดยใช้โมเดล OLMo-2 นอกจากนี้ยังถ่ายโอนประสิทธิภาพไปยังโมเดลที่มีข้อมูล pre-training ที่ไม่เปิดเผยอย่างเป็นทางการ (Llama, Qwen, GPT) ได้อย่างมีประสิทธิภาพ และเพิ่ม EM ได้สูงสุด 14 คะแนน การทดลองเรื่องการทำงานข้ามโดเมนใน biomedical QA ยังยืนยันความแข็งแกร่งของ QuCo-RAG เพิ่มเติม

QuCo-RAG นำเสนอพาราไดม์ใหม่ของ retrieval-augmented generation แบบไดนามิกผ่านการตรวจสอบที่อิงกับคอร์ปัส pre-training ซึ่งเป็นแนวทางที่ไม่ขึ้นกับโมเดลและสามารถประยุกต์ใช้กับ LLM ได้หลากหลาย งานวิจัยนี้มีส่วนช่วยลดความเสี่ยงของอาการหลอนข้อมูล และมีแผนสำรวจความเป็นไปได้ในการประยุกต์ใช้กับโดเมนต่าง ๆ ต่อไปในอนาคต

บทคัดย่อ(Abstract)

Dynamic Retrieval-Augmented Generation เป็นวิธีที่กำหนดช่วงเวลาที่จะดึงข้อมูลระหว่างการสร้างคำตอบแบบปรับตามสถานการณ์ เพื่อบรรเทาอาการหลอนของโมเดลภาษาขนาดใหญ่ (LLMs) อย่างไรก็ตาม วิธีการเดิมพึ่งพาสัญญาณภายในโมเดล (เช่น logits, entropy) ซึ่งไม่น่าเชื่อถือโดยพื้นฐาน เพราะโดยทั่วไป LLM มักปรับเทียบได้ไม่ดีและมักแสดงความมั่นใจสูงต่อผลลัพธ์ที่ผิดพลาด เราเสนอ QuCo-RAG ซึ่งเปลี่ยนจากความมั่นใจเชิงอัตวิสัยไปสู่สถิติเชิงวัตถุที่คำนวณจากข้อมูล pre-training วิธีของเราวัดความไม่แน่นอนผ่านสองขั้นตอน: (1) ก่อนการสร้าง เราระบุเอนทิตีความถี่ต่ำที่บ่งชี้ช่องว่างความรู้แบบ long-tail; (2) ระหว่างการสร้าง เราตรวจสอบการเกิดร่วมกันของเอนทิตีในคอร์ปัส pre-training โดยกรณีที่ไม่เกิดร่วมกันมักเป็นสัญญาณของความเสี่ยงต่ออาการหลอน ทั้งสองขั้นตอนใช้ Infini-gram เพื่อทำคิวรีหน่วงเวลาระดับมิลลิวินาทีบนโทเคน 4 ล้านล้านตัว และจะทริกเกอร์การดึงข้อมูลเมื่อความไม่แน่นอนสูง ผลการทดลองบนเบนช์มาร์ก QA แบบหลายฮอปแสดงให้เห็นว่า QuCo-RAG ทำคะแนน EM สูงกว่า baseline ระดับ state-of-the-art 5-12 คะแนนเมื่อใช้โมเดล OLMo-2 และยังถ่ายโอนได้อย่างมีประสิทธิภาพไปยังโมเดลที่ไม่เปิดเผยข้อมูล pre-training (Llama, Qwen, GPT) โดยปรับปรุง EM ได้สูงสุด 14 คะแนน การทำ domain generalization บน biomedical QA ยังยืนยันความทนทานของพาราไดม์นี้เพิ่มเติม ผลลัพธ์เหล่านี้ยืนยันว่าการตรวจสอบแบบอิงคอร์ปัสเป็นพาราไดม์ที่มีหลักการชัดเจนและในทางปฏิบัติไม่ขึ้นกับโมเดลสำหรับ dynamic RAG โค้ดของเราเปิดให้ใช้งานสาธารณะที่ https://github.com/ZhishanQ/QuCo-RAG
> Dynamic Retrieval-Augmented Generation ปรับเวลาการดึงข้อมูลระหว่างการสร้างอย่างยืดหยุ่นเพื่อลดอาการหลอนในโมเดลภาษาขนาดใหญ่ (LLMs) อย่างไรก็ตาม วิธีที่มีอยู่เดิมอาศัยสัญญาณภายในโมเดล (เช่น logits, entropy) ซึ่งไม่น่าเชื่อถือโดยพื้นฐาน เพราะ LLM มักปรับเทียบได้ไม่ดีและมักแสดงความมั่นใจสูงต่อผลลัพธ์ที่ผิดพลาด เราเสนอ QuCo-RAG ซึ่งเปลี่ยนจากความมั่นใจเชิงอัตวิสัยไปสู่สถิติเชิงวัตถุที่คำนวณจากข้อมูล pre-training วิธีของเราวัดความไม่แน่นอนผ่านสองขั้นตอน: (1) ก่อนการสร้าง เราระบุเอนทิตีความถี่ต่ำที่บ่งชี้ช่องว่างความรู้แบบ long-tail; (2) ระหว่างการสร้าง เราตรวจสอบการเกิดร่วมกันของเอนทิตีในคอร์ปัส pre-training โดยกรณีที่ไม่เกิดร่วมกันมักเป็นสัญญาณของความเสี่ยงต่ออาการหลอน ทั้งสองขั้นตอนใช้ Infini-gram เพื่อทำคิวรีหน่วงเวลาระดับมิลลิวินาทีบนโทเคน 4 ล้านล้านตัว และจะทริกเกอร์การดึงข้อมูลเมื่อความไม่แน่นอนสูง การทดลองบนเบนช์มาร์ก QA แบบหลายฮอปแสดงให้เห็นว่า QuCo-RAG ทำคะแนน EM สูงกว่า baseline ระดับ state-of-the-art 5--12 คะแนนเมื่อใช้โมเดล OLMo-2 และยังถ่ายโอนได้อย่างมีประสิทธิภาพไปยังโมเดลที่ไม่เปิดเผยข้อมูล pre-training (Llama, Qwen, GPT) โดยปรับปรุง EM ได้สูงสุด 14 คะแนน การทำ domain generalization บน biomedical QA ยังยืนยันความทนทานของพาราไดม์นี้เพิ่มเติม ผลลัพธ์เหล่านี้ยืนยันว่าการตรวจสอบแบบอิงคอร์ปัสเป็นพาราไดม์ที่มีหลักการชัดเจนและในทางปฏิบัติไม่ขึ้นกับโมเดลสำหรับ dynamic RAG โค้ดของเราเปิดให้ใช้งานสาธารณะที่ https://github.com/ZhishanQ/QuCo-RAG.

ลิงก์งานวิจัย

https://arxiv.org/abs/2512.19134

อ่านเพิ่มเติม

https://github.com/ZhishanQ/QuCo-RAG

4D-RGPT: แนวทางการกลั่นเชิงการรับรู้เพื่อความเข้าใจ 4D ระดับภูมิภาค / 4D-RGPT: Toward Region-level 4D Understanding via Perceptual Distillation

แนะนำงานวิจัย

4D-RGPT เป็นโมเดลภาษาขนาดใหญ่แบบหลายโมดัล (MMLM) ที่ออกแบบมาโดยเฉพาะเพื่อจับการแทนค่าแบบ 4D จากอินพุตวิดีโอได้อย่างมีประสิทธิภาพ เบนช์มาร์ก video question answering (VQA) แบบ 3D และ 4D ที่มีอยู่เดิมมุ่งเน้นไปที่ฉากนิ่ง และขาดพรอมป์ต์ระดับภูมิภาค จึงทำให้ความเข้าใจพลวัตตามเวลามีข้อจำกัด เพื่อแก้ปัญหานี้ งานวิจัยนี้ได้นำเสนอกรอบการเรียนรู้ใหม่ชื่อ perceptual 4D distillation (P4D) ซึ่งทำให้เกิดการรับรู้ 4D อย่างครอบคลุมด้วยการถ่ายโอนการแทนค่า 4D จากโมเดลผู้เชี่ยวชาญที่ถูกตรึงไว้ไปยัง 4D-RGPT

ยังมีการเสนอเบนช์มาร์กใหม่ชื่อ R4D-Bench ซึ่งรวมพรอมป์ต์ระดับภูมิภาคสำหรับฉากพลวัตที่รับรู้ความลึกไว้ด้วย R4D-Bench ถูกสร้างขึ้นผ่านไปป์ไลน์แบบผสมระหว่างระบบอัตโนมัติและการตรวจสอบโดยมนุษย์ เพื่อมุ่งแก้ข้อจำกัดของเบนช์มาร์ก 4D VQA เดิมที่ไม่ได้อิงระดับภูมิภาค เบนช์มาร์กนี้ประกอบด้วยคำถาม 9 หมวดหมู่เพื่อประเมินแง่มุมที่หลากหลายของความเข้าใจ 4D โดยแต่ละหมวดหมู่ให้เกณฑ์สำหรับการประเมินประสิทธิภาพของ MMLM อย่างครอบคลุม

รูปแบบตัวเลือกคำถามต้องการความแม่นยำที่จำเป็นสำหรับ MMLM ในการให้คำตอบที่ถูกต้อง ซึ่งเป็นสิ่งสำคัญต่อการเข้าใจตำแหน่งและทิศทางของวัตถุ แนวทางนี้ช่วยยกระดับความสามารถด้านความเข้าใจ 4D ของ MMLM และทำให้สามารถประเมินได้ลึกยิ่งขึ้นผ่านคำถามที่อิงระดับภูมิภาค งานวิจัยนี้มีส่วนสำคัญในการก้าวข้ามข้อจำกัดของระบบ VQA เดิมผ่าน 4D-RGPT และ R4D-Bench พร้อมทั้งยกระดับการรับรู้ 4D และความเข้าใจเชิงเวลา

บทคัดย่อ (Abstract)

แม้จะมีความก้าวหน้าของโมเดลภาษาขนาดใหญ่หลายโมดัล (MLLMs) หลากหลายรูปแบบ แต่ความสามารถในการให้เหตุผลเกี่ยวกับโครงสร้าง 3D และพลวัตตามเวลา ยังมีข้อจำกัดอยู่มาก โดยถูกจำกัดจากการรับรู้ 4D และความเข้าใจเชิงเวลาที่ยังอ่อนแอ เบนช์มาร์ก Video Question Answering (VQA) แบบ 3D และ 4D ที่มีอยู่เดิมก็มุ่งเน้นไปที่ฉากนิ่ง และขาดการพรอมป์ต์ในระดับภูมิภาค เราแก้ปัญหาเหล่านี้ด้วยการนำเสนอสิ่งต่อไปนี้: (a) 4D-RGPT ซึ่งเป็น MLLM เฉพาะทางที่ออกแบบมาเพื่อจับการแทนค่าแบบ 4D จากอินพุตวิดีโอด้วยการรับรู้เชิงเวลาที่ดีขึ้น; (b) Perceptual 4D Distillation (P4D) กรอบการฝึกที่ถ่ายโอนการแทนค่า 4D จากโมเดลผู้เชี่ยวชาญที่ถูกแช่แข็งเข้าสู่ 4D-RGPT เพื่อการรับรู้ 4D อย่างครอบคลุม; และ (c) R4D-Bench เบนช์มาร์กสำหรับฉากไดนามิกที่รับรู้ความลึกพร้อมการพรอมป์ต์ระดับภูมิภาค ซึ่งสร้างขึ้นผ่านไปป์ไลน์แบบผสมผสานระหว่างระบบอัตโนมัติกับการตรวจสอบโดยมนุษย์ 4D-RGPT ของเราสร้างผลลัพธ์ที่ดีขึ้นอย่างมีนัยสำคัญทั้งบนเบนช์มาร์ก 4D VQA เดิมและเบนช์มาร์ก R4D-Bench ที่เสนอขึ้นมา
> แม้จะมีความก้าวหน้าของ Multimodal LLMs (MLLMs) แต่ความสามารถในการให้เหตุผลเหนือโครงสร้าง 3D และพลวัตตามเวลา ยังมีข้อจำกัด โดยถูกจำกัดจากการรับรู้ 4D และความเข้าใจเชิงเวลาที่ยังอ่อนแอ เบนช์มาร์ก 3D และ 4D Video Question Answering (VQA) ที่มีอยู่เดิมยังเน้นฉากนิ่งและขาดการพรอมป์ต์ระดับภูมิภาค เราแก้ปัญหาเหล่านี้ด้วยการนำเสนอ: (a) 4D-RGPT, MLLM เฉพาะทางที่ออกแบบมาเพื่อจับการแทนค่า 4D จากอินพุตวิดีโอด้วยการรับรู้เชิงเวลาที่ดีขึ้น; (b) Perceptual 4D Distillation (P4D), กรอบการฝึกที่ถ่ายโอนการแทนค่า 4D จากโมเดลผู้เชี่ยวชาญที่ถูกแช่แข็งเข้าสู่ 4D-RGPT เพื่อการรับรู้ 4D อย่างครอบคลุม; และ (c) R4D-Bench, เบนช์มาร์กสำหรับฉากไดนามิกที่รับรู้ความลึกพร้อมการพรอมป์ต์ระดับภูมิภาค ซึ่งสร้างผ่านไปป์ไลน์แบบผสมผสานระหว่างระบบอัตโนมัติกับการตรวจสอบโดยมนุษย์ 4D-RGPT ของเราบรรลุการปรับปรุงที่โดดเด่นทั้งบนเบนช์มาร์ก 4D VQA ที่มีอยู่เดิมและเบนช์มาร์ก R4D-Bench ที่เสนอขึ้น

ลิงก์บทความวิจัย

https://arxiv.org/abs/2512.17012

อ่านเพิ่มเติม

https://ca-joe-yang.github.io/resource/projects/4D_RGPT

H-Neurons: การศึกษาการมีอยู่ ผลกระทบ และที่มาของนิวรอนที่เกี่ยวข้องกับอาการหลอนในโมเดลภาษาขนาดใหญ่ / H-Neurons: On the Existence, Impact, and Origin of Hallucination-Associated Neurons in LLMs

แนะนำบทความวิจัย

ปัญหา hallucination ที่เกิดขึ้นในโมเดลภาษาขนาดใหญ่ (LLMs) เป็นหนึ่งในปัจจัยหลักที่บั่นทอนความน่าเชื่อถือของโมเดล โดยหมายถึงปรากฏการณ์ที่โมเดลสร้างผลลัพธ์ที่ดูสมเหตุสมผลแต่ไม่ตรงกับข้อเท็จจริง งานวิจัยนี้ได้วิเคราะห์อย่างเป็นระบบถึงการมีอยู่ ผลกระทบ และที่มาของนิวรอนที่เกี่ยวข้องกับ hallucination หรือ H-Neurons ในกระบวนการระบุ H-Neurons ผู้วิจัยแสดงให้เห็นว่าชุดนิวรอนแบบเบาบางที่มีสัดส่วนน้อยกว่า 0.1% ของนิวรอนทั้งหมด สามารถทำนายการเกิด hallucination ได้อย่างน่าเชื่อถือ นิวรอนเหล่านี้ยังแสดงความสามารถในการทำให้เป็นทั่วไปได้ดีในสถานการณ์ที่หลากหลาย

ในด้านผลกระทบเชิงพฤติกรรม การแทรกแซงแบบควบคุมเผยให้เห็นว่า H-Neurons มีความเชื่อมโยงเชิงเหตุและผลกับพฤติกรรมการยินยอมมากเกินไป สิ่งนี้ชี้ให้เห็นว่านิวรอนที่มีส่วนต่อการเกิด hallucination ไม่ได้ถูกกระตุ้นขึ้นมาโดยบังเอิญเท่านั้น แต่ยังสัมพันธ์อย่างใกล้ชิดกับรูปแบบพฤติกรรมเฉพาะอีกด้วย

ในด้านที่มา ผู้วิจัยยืนยันว่า H-Neurons มีต้นกำเนิดมาจากโมเดลฐานที่ผ่านการพรีเทรนมาแล้ว และนิวรอนเหล่านี้ยังคงความสามารถในการทำนายสำหรับการตรวจจับ hallucination ได้ ซึ่งให้ข้อค้นพบสำคัญว่า H-Neurons ก่อตัวขึ้นตั้งแต่ในช่วงการเรียนรู้เริ่มต้นของโมเดล

ในด้านระเบียบวิธีวิจัย เพื่อระบุนิวรอนที่เกี่ยวข้องกับ hallucination ได้อย่างแม่นยำ งานวิจัยนี้ใช้ชุดข้อมูล TriviaQA เพื่อสร้างชุดเปรียบเทียบคุณภาพสูงที่แยกความแตกต่างระหว่างผลลัพธ์ที่เชื่อถือได้กับผลลัพธ์ที่เป็น hallucination จากนั้นจึงฝึกตัวจำแนกเชิงเส้นเพื่อวัดปริมาณการมีส่วนร่วมของนิวรอนแต่ละตัว และใช้วิธีนี้สร้างป้ายกำกับแบบไบนารีสำหรับทำนายว่ามี hallucination หรือไม่ แนวทางนี้ได้วางรากฐานสำหรับการประเมินผลกระทบเชิงหน้าที่ของ H-Neurons อย่างชัดเจน

สุดท้าย งานวิจัยนี้มีส่วนช่วยต่อความเข้าใจกลไกทางประสาทของนิวรอนที่เกี่ยวข้องกับ hallucination ใน LLM และมอบข้อมูลพื้นฐานสำคัญสำหรับการพัฒนา LLM ที่น่าเชื่อถือยิ่งขึ้นในอนาคต ข้อค้นพบเหล่านี้มอบอินไซต์ที่จำเป็นต่อการวิจัยเพื่อยกระดับความน่าเชื่อถือของ LLM และวางรากฐานสำคัญสำหรับทิศทางการวิจัยในอนาคต

บทคัดย่อ (Abstract)

โมเดลภาษาขนาดใหญ่ (LLMs) มักสร้าง hallucination อยู่บ่อยครั้ง ซึ่งเป็นผลลัพธ์ที่ดูสมเหตุสมผลแต่ไม่สอดคล้องกับข้อเท็จจริง และบั่นทอนความน่าเชื่อถือของโมเดล แม้งานก่อนหน้านี้จะศึกษาปรากฏการณ์ hallucination จากมุมมองระดับมหภาค เช่น ข้อมูลฝึกและวัตถุประสงค์การฝึก แต่กลไกระดับนิวรอนที่เป็นรากฐานยังแทบไม่ได้รับการสำรวจ ในบทความนี้ เราดำเนินการศึกษาอย่างเป็นระบบเกี่ยวกับนิวรอนที่เกี่ยวข้องกับ hallucination (H-Neurons) ใน LLM จากสามมุมมอง ได้แก่ การระบุ ผลกระทบเชิงพฤติกรรม และที่มา ในด้านการระบุ เราแสดงให้เห็นว่าชุดย่อยของนิวรอนที่เบาบางอย่างน่าทึ่ง (น้อยกว่า $0.1%$ ของนิวรอนทั้งหมด) สามารถทำนายการเกิด hallucination ได้อย่างน่าเชื่อถือ พร้อมความสามารถในการทำให้เป็นทั่วไปที่แข็งแกร่งในสถานการณ์ที่หลากหลาย ในด้านผลกระทบเชิงพฤติกรรม การแทรกแซงแบบควบคุมเผยให้เห็นว่านิวรอนเหล่านี้มีความเชื่อมโยงเชิงเหตุและผลกับพฤติกรรมการยินยอมมากเกินไป ในด้านที่มา เราติดตามย้อนกลับนิวรอนเหล่านี้ไปยังโมเดลฐานที่ผ่านการพรีเทรน และพบว่านิวรอนเหล่านี้ยังคงมีพลังในการทำนายสำหรับการตรวจจับ hallucination ซึ่งบ่งชี้ว่ามันเกิดขึ้นระหว่างช่วงพรีเทรน ข้อค้นพบของเราเชื่อมโยงรูปแบบพฤติกรรมระดับมหภาคเข้ากับกลไกประสาทระดับจุลภาค และมอบอินไซต์สำหรับการพัฒนา LLM ที่น่าเชื่อถือยิ่งขึ้น
> โมเดลภาษาขนาดใหญ่ (LLMs) มักสร้าง hallucinations อยู่บ่อยครั้ง — ผลลัพธ์ที่ดูสมเหตุสมผลแต่ไม่ถูกต้องตามข้อเท็จจริง — ซึ่งบั่นทอนความน่าเชื่อถือของพวกมัน แม้งานก่อนหน้านี้จะศึกษาปัญหา hallucinations จากมุมมองระดับมหภาค เช่น ข้อมูลฝึกและวัตถุประสงค์ แต่กลไกระดับนิวรอนที่อยู่เบื้องหลังยังแทบไม่ได้รับการสำรวจ ในบทความนี้ เราศึกษาอย่างเป็นระบบเกี่ยวกับนิวรอนที่เกี่ยวข้องกับ hallucination (H-Neurons) ใน LLMs จากสามมุมมอง: การระบุ ผลกระทบเชิงพฤติกรรม และที่มา สำหรับการระบุ เราแสดงให้เห็นว่าชุดย่อยของนิวรอนที่เบาบางอย่างน่าทึ่ง (น้อยกว่า $0.1%$ ของนิวรอนทั้งหมด) สามารถทำนายการเกิด hallucination ได้อย่างน่าเชื่อถือ พร้อมความสามารถในการทำให้เป็นทั่วไปอย่างแข็งแกร่งในสถานการณ์ที่หลากหลาย ในด้านผลกระทบเชิงพฤติกรรม การแทรกแซงแบบควบคุมเผยว่านิวรอนเหล่านี้มีความเชื่อมโยงเชิงเหตุและผลกับพฤติกรรมการยินยอมมากเกินไป ในด้านที่มา เราติดตามนิวรอนเหล่านี้ย้อนกลับไปยังโมเดลฐานที่ผ่านการพรีเทรน และพบว่านิวรอนเหล่านี้ยังคงมีความสามารถในการทำนายสำหรับการตรวจจับ hallucination ซึ่งบ่งชี้ว่าพวกมันเกิดขึ้นระหว่างการพรีเทรน ข้อค้นพบของเราเชื่อมโยงรูปแบบพฤติกรรมระดับมหภาคเข้ากับกลไกประสาทระดับจุลภาค และมอบอินไซต์สำหรับการพัฒนา LLMs ที่น่าเชื่อถือยิ่งขึ้น

ลิงก์บทความวิจัย

https://arxiv.org/abs/2512.01797

การทำนายเอมเบดดิงถัดไปสร้างผู้เรียนรู้ด้านวิชันที่แข็งแกร่ง / Next-Embedding Prediction Makes Strong Vision Learners

แนะนำงานวิจัย

การเรียนรู้แบบกำกับตนเอง (self-supervised learning) ได้กลายเป็นระเบียบวิธีสำคัญสำหรับการเรียนรู้ representation จากชุดข้อมูลขนาดใหญ่ที่ไม่มีการกำกับ และในช่วงหลังมานี้ก็มีแนวทางหลากหลายอย่างการเรียนรู้แบบเปรียบเทียบ (contrastive learning) และการกลั่นตัวเอง (self-distillation) พัฒนาขึ้นมาอย่างต่อเนื่อง อย่างไรก็ตาม วิธีเหล่านี้มักต้องการแบตช์ขนาดใหญ่หรือ memory bank ขณะที่เป้าหมายการสร้างกลับ (reconstruction objectives) ผ่านดีโคเดอร์ขนาดเบาก็เริ่มเผยข้อจำกัดของตนเอง ทางเลือกที่ถูกเสนอเพื่อตอบโจทย์นี้คือการเรียนรู้ representation เชิงทำนาย (predictive representation learning) ซึ่งเป็นแนวทางที่ทำนายเอมเบดดิงเชิงความหมายแทนอินพุตดิบ โดยเฉพาะวิธีอย่าง JEPA (Just-Embedding Predictive Autoregression) ที่ได้รับความสนใจ อย่างไรก็ดี JEPA ยังมีข้อจำกัดตรงที่เน้น representation เป็นศูนย์กลาง โดยเอ็นโค้ดเดอร์ที่พรีเทรนไว้จะสร้างคุณลักษณะที่ถูกนำไปใช้โดยโมดูล downstream แยกต่างหาก

จากพื้นฐานนี้ แนวทาง Next-Embedding Predictive Autoregression (NEPA) ที่ถูกเสนอขึ้นมา ใช้วิธีทำนายเอมเบดดิงของแพตช์ในอนาคตโดยมีเอมเบดดิงของแพตช์ในอดีตเป็นเงื่อนไข พร้อมใช้เทคนิค causal masking และ stop gradient โดย NEPA มุ่งเน้นการฝึกให้โมเดลทำงานการทำนายโดยตรง แทนที่จะให้โมเดลส่งออกคุณลักษณะสำหรับงาน downstream วิธีการนี้อิงอยู่บนสถาปัตยกรรม Transformer ที่เรียบง่าย และแสดงประสิทธิภาพสูงผ่านการพรีเทรนบนชุดข้อมูล ImageNet-1k โดยเฉพาะอย่างยิ่ง จุดที่น่าสนใจคือยังคงให้ผลลัพธ์ที่แข็งแกร่งได้แม้ไม่มีการสร้างกลับระดับพิกเซล, โทเค็นแบบไม่ต่อเนื่อง, contrastive loss หรือ task-specific head

NEPA ใช้แบ็กโบน ViT-B และ ViT-L และทำ top-1 accuracy ได้ 83.8% และ 85.3% ตามลำดับบน ImageNet-1K อีกทั้งยังถ่ายโอนไปสู่งาน semantic segmentation บน ADE20K ได้อย่างมีประสิทธิภาพ ผลลัพธ์เหล่านี้แสดงให้เห็นว่า NEPA สามารถมีส่วนช่วยต่อการเรียนรู้แบบกำกับตนเองด้านวิชันในฐานะทางเลือกที่เรียบง่าย ขยายขนาดได้ และอาจไม่ยึดติดกับ modality ใด modality หนึ่ง งานวิจัย NEPA ยังชี้ให้เห็นความเป็นไปได้ของการชักนำพฤติกรรมของงานโดยตรงผ่านการทำนาย และถือเป็นคุณูปการสำคัญที่เปิดทางสู่การประยุกต์ใช้ในงานวิชันที่หลากหลายในอนาคต

บทคัดย่อ(Abstract)

โดยได้รับแรงบันดาลใจจากความสำเร็จของ generative pretraining ในภาษาธรรมชาติ เราตั้งคำถามว่าหลักการเดียวกันนี้จะสามารถสร้างผู้เรียนรู้ด้านวิชันแบบกำกับตนเองที่แข็งแกร่งได้หรือไม่ แทนที่จะฝึกโมเดลให้ส่งออกคุณลักษณะสำหรับการใช้งาน downstream เราฝึกให้โมเดลสร้างเอมเบดดิงเพื่อทำงานการทำนายโดยตรง งานนี้สำรวจการเปลี่ยนผ่านจากการเรียนรู้ representation ไปสู่การเรียนรู้โมเดล โดยเฉพาะ โมเดลจะถูกฝึกให้ทำนายเอมเบดดิงของแพตช์ในอนาคตโดยมีเอมเบดดิงในอดีตเป็นเงื่อนไข ผ่านการใช้ causal masking และ stop gradient ซึ่งเราเรียกแนวทางนี้ว่า Next-Embedding Predictive Autoregression (NEPA) เราแสดงให้เห็นว่า Transformer แบบเรียบง่ายที่พรีเทรนบน ImageNet-1k โดยใช้การทำนายเอมเบดดิงถัดไปเป็นเป้าหมายการเรียนรู้เพียงอย่างเดียวมีประสิทธิภาพ โดยไม่ต้องใช้การสร้างกลับระดับพิกเซล, โทเค็นแบบไม่ต่อเนื่อง, contrastive loss หรือ task-specific head สูตรวิธีนี้ยังคงรักษาความเรียบง่ายเชิงสถาปัตยกรรมและความสามารถในการขยายขนาด โดยไม่ต้องเพิ่มความซับซ้อนด้านการออกแบบ NEPA ทำผลงานได้แข็งแกร่งในหลากหลายงาน โดยหลัง fine-tuning สามารถทำ top-1 accuracy ได้ 83.8% และ 85.3% บน ImageNet-1K เมื่อใช้แบ็กโบน ViT-B และ ViT-L ตามลำดับ และถ่ายโอนไปสู่งาน semantic segmentation บน ADE20K ได้อย่างมีประสิทธิภาพ เราเชื่อว่า generative pretraining จากเอมเบดดิงเป็นทางเลือกที่เรียบง่าย ขยายขนาดได้ และอาจไม่ยึดติดกับ modality สำหรับการเรียนรู้แบบกำกับตนเองด้านวิชัน
> Inspired by the success of generative pretraining in natural language, we ask whether the same principles can yield strong self-supervised visual learners. Instead of training models to output features for downstream use, we train them to generate embeddings to perform predictive tasks directly. This work explores such a shift from learning representations to learning models. Specifically, models learn to predict future patch embeddings conditioned on past ones, using causal masking and stop gradient, which we refer to as Next-Embedding Predictive Autoregression (NEPA). We demonstrate that a simple Transformer pretrained on ImageNet-1k with next embedding prediction as its sole learning objective is effective - no pixel reconstruction, discrete tokens, contrastive loss, or task-specific heads. This formulation retains architectural simplicity and scalability, without requiring additional design complexity. NEPA achieves strong results across tasks, attaining 83.8% and 85.3% top-1 accuracy on ImageNet-1K with ViT-B and ViT-L backbones after fine-tuning, and transferring effectively to semantic segmentation on ADE20K. We believe generative pretraining from embeddings provides a simple, scalable, and potentially modality-agnostic alternative to visual self-supervised learning.

ลิงก์งานวิจัย

https://arxiv.org/abs/2512.16922

อ่านเพิ่มเติม

https://sihanxu.me/nepa

เอเจนต์ LLM แบบให้โมเดลมาก่อนในการให้เหตุผล: ลดอาการหลอนด้วยการสร้างแบบจำลองปัญหาอย่างชัดเจน / Model-First Reasoning LLM Agents: Reducing Hallucinations through Explicit Problem Modeling

แนะนำงานวิจัย

โมเดลภาษาขนาดใหญ่ (LLM) มีแนวโน้มจะแสดงการละเมิดข้อจำกัดในสัดส่วนสูงและให้คำตอบที่ไม่สอดคล้องกันในงานวางแผนหลายขั้นตอนที่ซับซ้อน กลยุทธ์เดิมอย่าง Chain-of-Thought (สายโซ่ความคิด) และ ReAct (การกระทำเชิงตอบสนอง) พึ่งพาการติดตามสถานะแบบแฝง และยังไม่สามารถก้าวข้ามข้อจำกัดเหล่านี้ได้เนื่องจากขาดการแทนปัญหาอย่างชัดเจน งานวิจัยนี้จึงเสนอกรอบแนวคิดสองขั้นตอนใหม่ชื่อ Model-First Reasoning (MFR) ซึ่งได้รับแรงบันดาลใจจากการวางแผนในปัญญาประดิษฐ์ (AI) แบบคลาสสิก ในแนวทางนี้ LLM จะสร้างโมเดลของปัญหาอย่างชัดเจนก่อน แล้วจึงสร้างแผนคำตอบบนพื้นฐานของโมเดลดังกล่าว

MFR แสดงให้เห็นผ่านการทดลองในหลายโดเมนของการวางแผนว่าสามารถปรับปรุงการปฏิบัติตามข้อจำกัดและคุณภาพของคำตอบได้ โดยเฉพาะอย่างยิ่ง ประสิทธิผลของ MFR ได้รับการพิสูจน์ในหลายสาขา เช่น การจัดตารางทางการแพทย์ การวางแผนเส้นทาง การจัดสรรทรัพยากร ปริศนาเชิงตรรกะ และ procedural synthesis การศึกษาแบบ ablation ยังเน้นย้ำว่าขั้นตอนการสร้างแบบจำลองอย่างชัดเจนเป็นสิ่งจำเป็นต่อผลลัพธ์เหล่านี้ ผลการวิจัยบ่งชี้ว่าความล้มเหลวในการวางแผนของ LLM มีสาเหตุหลักมาจากข้อบกพร่องด้านการแทนปัญหา มากกว่าจะเป็นข้อจำกัดของการให้เหตุผล

MFR แบ่งออกเป็นขั้นตอนการสร้างโมเดลของปัญหาอย่างชัดเจน และขั้นตอนการสร้างคำตอบ โดยในกระบวนการนี้จะนิยามเอนทิตี ตัวแปรสถานะ การกระทำ และข้อจำกัด การสร้างแบบจำลองอย่างชัดเจนเช่นนี้ช่วยให้ LLM เข้าใจและแก้ปัญหาได้อย่างมีโครงสร้างมากขึ้น งานวิจัยนี้วางรากฐานสำหรับการแก้ปัญหาความล้มเหลวด้านการแทนปัญหาในงานวางแผนและการให้เหตุผลที่ใช้ LLM เป็นฐาน และเป็นคุณูปการสำคัญต่อเอเจนต์ AI ที่เชื่อถือได้ มีการจัดทำเอกสารของทุก prompt ขั้นตอนการประเมิน และชุดข้อมูลงานเพื่อส่งเสริมการทำซ้ำได้ และวางพื้นฐานสำหรับงานวิจัยในอนาคต

บทคัดย่อ(Abstract)

โมเดลภาษาขนาดใหญ่ (LLM) มักประสบปัญหากับงานวางแผนหลายขั้นตอนที่ซับซ้อน โดยแสดงอัตราการละเมิดข้อจำกัดสูงและให้คำตอบที่ไม่สม่ำเสมอ กลยุทธ์ที่มีอยู่เดิมอย่าง Chain-of-Thought และ ReAct อาศัยการติดตามสถานะแบบแฝงและขาดการแทนปัญหาอย่างชัดเจน โดยได้แรงบันดาลใจจากการวางแผน AI แบบดั้งเดิม เราจึงเสนอ Model-First Reasoning (MFR) ซึ่งเป็นกระบวนทัศน์สองเฟสที่ LLM จะสร้างโมเดลที่ชัดเจนของปัญหาก่อน โดยกำหนดเอนทิตี ตัวแปรสถานะ การกระทำ และข้อจำกัด แล้วจึงค่อยสร้างแผนคำตอบ ในหลายโดเมนของการวางแผน เช่น การจัดตารางทางการแพทย์ การวางแผนเส้นทาง การจัดสรรทรัพยากร ปริศนาเชิงตรรกะ และ procedural synthesis นั้น MFR ช่วยลดการละเมิดข้อจำกัดและปรับปรุงคุณภาพของคำตอบเมื่อเทียบกับ Chain-of-Thought และ ReAct ผลการศึกษาแบบ ablation แสดงให้เห็นว่าขั้นตอนการสร้างโมเดลอย่างชัดเจนมีความสำคัญต่อการปรับปรุงเหล่านี้ ผลลัพธ์ของเราชี้ให้เห็นว่าความล้มเหลวในการวางแผนของ LLM จำนวนมากมีต้นตอมาจากข้อบกพร่องด้านการแทนข้อมูล มากกว่าจะเป็นข้อจำกัดด้านการให้เหตุผล ซึ่งตอกย้ำว่าการสร้างโมเดลอย่างชัดเจนเป็นองค์ประกอบสำคัญสำหรับ AI agent ที่แข็งแกร่งและตีความได้ โดยมีการจัดทำเอกสารพร้อมทั้งพรอมป์ต์ ขั้นตอนการประเมิน และชุดข้อมูลงานทั้งหมด เพื่อเอื้อต่อการทำซ้ำผลการทดลอง
> Large Language Models (LLMs) often struggle with complex multi-step planning tasks, showing high rates of constraint violations and inconsistent solutions. Existing strategies such as Chain-of-Thought and ReAct rely on implicit state tracking and lack an explicit problem representation. Inspired by classical AI planning, we propose Model-First Reasoning (MFR), a two-phase paradigm in which the LLM first constructs an explicit model of the problem, defining entities, state variables, actions, and constraints, before generating a solution plan. Across multiple planning domains, including medical scheduling, route planning, resource allocation, logic puzzles, and procedural synthesis, MFR reduces constraint violations and improves solution quality compared to Chain-of-Thought and ReAct. Ablation studies show that the explicit modeling phase is critical for these gains. Our results suggest that many LLM planning failures stem from representational deficiencies rather than reasoning limitations, highlighting explicit modeling as a key component for robust and interpretable AI agents. All prompts, evaluation procedures, and task datasets are documented to facilitate reproducibility.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2512.14474

อย่าเพียงพึ่งพาบริบทอย่างเดียว: การฝึกตอนทดสอบสำหรับ LLM บริบทยาว / Let's (not) just put things in Context: Test-Time Training for Long-Context LLMs

แนะนำบทความวิจัย

ความก้าวหน้าของโมเดลภาษาขนาดใหญ่ (LLM) ได้ยกระดับความสามารถในการประมวลผลคอนเท็กซ์ที่ยาวขึ้นอย่างมาก แต่การแก้ปัญหาที่โมเดลเหล่านี้ยังทำงานได้ไม่เต็มประสิทธิภาพในคอนเท็กซ์ยาวจริงยังคงเป็นเรื่องสำคัญ งานวิจัยนี้ชี้ให้เห็นว่าวิธีการช่วงเวลาอนุมานแบบเดิมที่ใช้การสร้าง thinking tokens เพื่อปรับปรุงประสิทธิภาพนั้นมีข้อจำกัดจากปัญหา score dilution โดย score dilution เกิดจากคุณลักษณะของ static self-attention และส่งผลให้ความแม่นยำของโมเดลลดลงในคอนเท็กซ์ยาว

เพื่อแก้ปัญหานี้ งานวิจัยจึงเสนอวิธีใหม่ชื่อ query-only test-time training (qTTT) qTTT เอาชนะข้อจำกัดของ static self-attention ผ่านการอัปเดตกราดิเอนต์แบบกำหนดเป้าหมายสำหรับคอนเท็กซ์ที่กำหนด และมุ่งยกระดับประสิทธิภาพในคอนเท็กซ์ยาว ผลการทดลองแสดงให้เห็นว่า qTTT เป็นแนวทางที่มีประสิทธิภาพมากกว่าวิธีช่วงเวลาอนุมานแบบเดิม โดยทำให้โมเดล Qwen3-4B มีประสิทธิภาพเพิ่มขึ้นเฉลี่ย 12.6% และ 14.1% points บนชุดย่อยของเบนช์มาร์ก LongBench-v2 และ ZeroScrolls ตามลำดับ

งานวิจัยนี้เน้นย้ำว่าการปรับปรุงประสิทธิภาพในคอนเท็กซ์ยาวจำเป็นต้องมีการเรียนรู้ปริมาณเล็กน้อยที่เฉพาะกับคอนเท็กซ์ ซึ่งหมายถึงการใช้การคำนวณระหว่างอนุมานได้อย่างมีประสิทธิภาพยิ่งขึ้น การนำ qTTT มาใช้จึงนำเสนอวิธีที่ใช้งานได้จริงในการดึงประสิทธิภาพของ LLM บริบทยาวออกมาให้สูงสุด และคาดว่าจะชี้ทิศทางใหม่ของการประมวลผลคอนเท็กซ์ยาวในงานวิจัยอนาคต แนวทางที่เป็นนวัตกรรมนี้น่าจะช่วยขยายศักยภาพการใช้งานของ LLM และมีส่วนช่วยปรับปรุงประสิทธิภาพในสาขาการประยุกต์ใช้งานที่หลากหลาย

บทคัดย่อ(Abstract)

ความก้าวหน้าด้านกลยุทธ์การฝึกและสถาปัตยกรรมทำให้เกิดโมเดลภาษาขนาดใหญ่ (LLM) ที่มีความยาวบริบทยาวระดับหลายล้านโทเค็นได้ อย่างไรก็ตาม หลักฐานเชิงประจักษ์ชี้ว่า LLM แบบบริบทยาวเหล่านี้สามารถรับข้อความได้มากกว่าที่จะนำมาใช้อย่างน่าเชื่อถือได้มาก ในอีกด้านหนึ่ง มีการพิสูจน์แล้วว่าการใช้การคำนวณในช่วงอนุมานสามารถขยายประสิทธิภาพของ LLM ได้ โดยมักทำผ่านการสร้าง thinking tokens สำหรับงานที่ท้าทายซึ่งเกี่ยวข้องกับการให้เหตุผลหลายขั้นตอน จากการทดลองแบบควบคุมบนงาน sandbox long-context เราพบว่ากลยุทธ์ในช่วงอนุมานลักษณะนี้ให้ผลตอบแทนลดลงอย่างรวดเร็วและล้มเหลวเมื่อบริบทยาวขึ้น เราอธิบายความล้มเหลวนี้ด้วย score dilution ซึ่งเป็นปรากฏการณ์ที่มีอยู่โดยธรรมชาติใน static self-attention นอกจากนี้ เรายังแสดงให้เห็นว่ากลยุทธ์ช่วงอนุมานในปัจจุบันไม่สามารถดึงสัญญาณที่เกี่ยวข้องจากบริบทยาวได้ภายใต้เงื่อนไขบางประการ เราเสนอวิธีการอย่างง่ายที่ใช้ targeted gradient updates กับบริบทที่กำหนด เพื่อเอาชนะข้อจำกัดของ static self-attention ได้อย่างพิสูจน์ได้ เราพบว่าการเปลี่ยนวิธีใช้การคำนวณในช่วงอนุมานนี้นำไปสู่การปรับปรุงประสิทธิภาพอย่างมากอย่างสม่ำเสมอในหลายโมเดลและ benchmark บริบทยาว วิธีของเราช่วยให้ Qwen3-4B มีผลลัพธ์ดีขึ้นเฉลี่ย 12.6 และ 14.1 percentage points บนชุดย่อยของ benchmark LongBench-v2 และ ZeroScrolls ตามลำดับ ข้อสรุปเชิงปฏิบัติคือ สำหรับบริบทยาว การฝึกเฉพาะบริบทเพียงเล็กน้อยเป็นการใช้ inference compute ได้ดีกว่ากลยุทธ์การขยายช่วงอนุมานในปัจจุบัน เช่น การสร้าง thinking tokens ให้มากขึ้น
> Progress on training and architecture strategies has enabled LLMs with millions of tokens in context length. However, empirical evidence suggests that such long-context LLMs can consume far more text than they can reliably use. On the other hand, it has been shown that inference-time compute can be used to scale performance of LLMs, often by generating thinking tokens, on challenging tasks involving multi-step reasoning. Through controlled experiments on sandbox long-context tasks, we find that such inference-time strategies show rapidly diminishing returns and fail at long context. We attribute these failures to score dilution, a phenomenon inherent to static self-attention. Further, we show that current inference-time strategies cannot retrieve relevant long-context signals under certain conditions. We propose a simple method that, through targeted gradient updates on the given context, provably overcomes limitations of static self-attention. We find that this shift in how inference-time compute is spent leads to consistently large performance improvements across models and long-context benchmarks. Our method leads to large 12.6 and 14.1 percentage point improvements for Qwen3-4B on average across subsets of LongBench-v2 and ZeroScrolls benchmarks. The takeaway is practical: for long context, a small amount of context-specific training is a better use of inference compute than current inference-time scaling strategies like producing more thinking tokens.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2512.13898

การทำให้ Reinforcement Learning มีเสถียรภาพด้วยการใช้โมเดลภาษาขนาดใหญ่: การจัดรูปแบบและแนวปฏิบัติ / Stabilizing Reinforcement Learning with LLMs: Formulation and Practices

แนะนำบทความวิจัย

Reinforcement Learning (RL) ถูกนำไปใช้อย่างประสบความสำเร็จในหลากหลายสาขา แต่ปัญหาความไม่เสถียรระหว่างกระบวนการฝึกยังคงเป็นความท้าทายสำคัญที่ต้องแก้ไข งานวิจัยนี้เสนอวิธีการใหม่เพื่อเพิ่มเสถียรภาพของ RL โดยใช้โมเดลภาษาขนาดใหญ่ (Large Language Models, LLMs) โดยเฉพาะอย่างยิ่ง งานนี้ได้ระบุเงื่อนไขที่ทำให้สามารถเพิ่มประสิทธิภาพเป้าหมายระดับโทเค็นซึ่งมาแทนรางวัลระดับซีเควนซ์ได้ ผ่านระเบียบวิธี policy gradient อย่าง REINFORCE จากการประมาณอันดับหนึ่ง งานวิจัยแสดงให้เห็นว่าเงื่อนไขที่ทำให้เป้าหมายทดแทนนี้ใช้ได้ผลคือ เมื่อความไม่สอดคล้องระหว่างการเรียนรู้กับการอนุมาน และความล้าสมัยของนโยบาย ถูกทำให้เหลือน้อยที่สุด

ข้อมูลเชิงลึกนี้ช่วยอธิบายผลของเทคนิคต่าง ๆ เช่น importance sampling correction, clipping และ Routing Replay สำหรับโมเดล Mixture-of-Experts (MoE) ที่มีต่อการทำให้การฝึก RL มีเสถียรภาพ จากการทดลองที่ใช้เวลารวมหลายล้าน GPU ชั่วโมงกับโมเดล 30B MoE งานวิจัยพิสูจน์ว่าอัลกอริทึมนโยบายกราเดียนต์พื้นฐานที่มี importance sampling correction ในการฝึกแบบ on-policy สามารถบรรลุเสถียรภาพในการฝึกได้สูงที่สุด นอกจากนี้ เมื่อมีการนำ off-policy updates มาใช้เพื่อเร่งการลู่เข้า ก็พบว่าการผสาน clipping และ Routing Replay เป็นสิ่งจำเป็นในการบรรเทาความไม่เสถียรที่เกิดจากความล้าสมัยของนโยบาย

หลังจากทำให้การฝึกมีเสถียรภาพแล้ว งานวิจัยแสดงให้เห็นว่าการเพิ่มประสิทธิภาพอย่างต่อเนื่องให้ผลลัพธ์สุดท้ายที่สม่ำเสมอ ไม่ว่ารูปแบบการเริ่มต้นจะเป็นแบบใด ผลการวิจัยเหล่านี้มอบมุมมองใหม่สำหรับการฝึก RL อย่างมีเสถียรภาพ และวางรากฐานสำคัญที่สามารถต่อยอดสู่การวิจัยในอนาคตได้ บทความนี้นำเสนอแนวทางที่ล้ำสมัยในการทำให้ Reinforcement Learning มีเสถียรภาพด้วยโมเดลภาษาขนาดใหญ่ และมีส่วนช่วยสำคัญต่อการแก้ปัญหาความไม่เสถียรในการฝึก RL

บทคัดย่อ (Abstract)

บทความนี้เสนอกรอบแนวคิดใหม่สำหรับการเรียนรู้เสริมกำลัง (RL) ด้วยโมเดลภาษาขนาดใหญ่ (LLM) โดยอธิบายว่ารางวัลที่แท้จริงในระดับลำดับสามารถถูกปรับให้เหมาะสมผ่านวัตถุประสงค์ตัวแทนในระดับโทเคนในวิธี policy gradient เช่น REINFORCE ได้อย่างไรและภายใต้เงื่อนไขใด โดยเฉพาะ ผ่านการประมาณอันดับหนึ่ง เราแสดงให้เห็นว่าตัวแทนนี้จะมีความใช้ได้มากขึ้นเรื่อย ๆ ก็ต่อเมื่อทั้งความคลาดเคลื่อนระหว่างการฝึกกับการอนุมาน และความล้าสมัยของนโยบาย ถูกทำให้ต่ำที่สุด ข้อค้นพบนี้ให้คำอธิบายเชิงหลักการว่าทำไมเทคนิคที่ถูกใช้อย่างแพร่หลายหลายอย่างจึงมีบทบาทสำคัญต่อการทำให้การฝึก RL มีเสถียรภาพ ได้แก่ importance sampling correction, clipping และโดยเฉพาะ Routing Replay สำหรับโมเดล Mixture-of-Experts (MoE) จากการทดลองอย่างกว้างขวางด้วยโมเดล MoE ขนาด 30B ที่ใช้เวลา GPU รวมหลายแสนชั่วโมง เราแสดงให้เห็นว่าสำหรับการฝึกแบบ on-policy อัลกอริทึม policy gradient พื้นฐานที่มี importance sampling correction ให้เสถียรภาพในการฝึกสูงที่สุด เมื่อมีการนำการอัปเดตแบบ off-policy มาใช้เพื่อเร่งการลู่เข้า การผสาน clipping และ Routing Replay กลายเป็นสิ่งจำเป็นในการบรรเทาความไม่เสถียรที่เกิดจากความล้าสมัยของนโยบาย ที่น่าสังเกตคือ เมื่อการฝึกมีเสถียรภาพแล้ว การปรับให้เหมาะสมในระยะยาวจะให้ประสิทธิภาพสุดท้ายที่ใกล้เคียงกันอย่างสม่ำเสมอโดยไม่ขึ้นกับการเริ่มต้นแบบ cold-start เราหวังว่าข้อค้นพบที่แบ่งปันไว้และสูตรวิธีที่พัฒนาขึ้นสำหรับการฝึก RL อย่างมีเสถียรภาพจะช่วยส่งเสริมงานวิจัยในอนาคต
> บทความนี้เสนอกรอบแนวคิดใหม่สำหรับ reinforcement learning (RL) กับ large language models โดยอธิบายว่ารางวัลที่แท้จริงในระดับลำดับสามารถถูกปรับให้เหมาะสมผ่านวัตถุประสงค์ตัวแทนในระดับโทเคนในวิธี policy gradient เช่น REINFORCE ได้อย่างไรและภายใต้เงื่อนไขใด โดยเฉพาะ ผ่านการประมาณอันดับหนึ่ง เราแสดงให้เห็นว่าตัวแทนนี้จะมีความใช้ได้มากขึ้นเรื่อย ๆ ก็ต่อเมื่อทั้งความคลาดเคลื่อนระหว่างการฝึกกับการอนุมานและความล้าสมัยของนโยบายถูกทำให้ต่ำที่สุด ข้อค้นพบนี้ให้คำอธิบายเชิงหลักการถึงบทบาทสำคัญของเทคนิคที่ถูกใช้อย่างแพร่หลายหลายอย่างในการทำให้การฝึก RL มีเสถียรภาพ รวมถึง importance sampling correction, clipping และโดยเฉพาะ Routing Replay สำหรับโมเดล Mixture-of-Experts (MoE) จากการทดลองอย่างกว้างขวางด้วยโมเดล MoE ขนาด 30B ที่ใช้เวลา GPU รวมหลายแสนชั่วโมง เราแสดงให้เห็นว่าสำหรับการฝึกแบบ on-policy อัลกอริทึม policy gradient พื้นฐานที่มี importance sampling correction ให้เสถียรภาพในการฝึกสูงที่สุด เมื่อมีการนำการอัปเดตแบบ off-policy มาใช้เพื่อเร่งการลู่เข้า การผสาน clipping และ Routing Replay กลายเป็นสิ่งจำเป็นในการบรรเทาความไม่เสถียรที่เกิดจากความล้าสมัยของนโยบาย ที่น่าสังเกตคือ เมื่อการฝึกมีเสถียรภาพแล้ว การปรับให้เหมาะสมในระยะยาวจะให้ประสิทธิภาพสุดท้ายที่ใกล้เคียงกันอย่างสม่ำเสมอโดยไม่ขึ้นกับการเริ่มต้นแบบ cold-start เราหวังว่าข้อค้นพบที่แบ่งปันไว้และสูตรวิธีที่พัฒนาขึ้นสำหรับการฝึก RL อย่างมีเสถียรภาพจะช่วยส่งเสริมงานวิจัยในอนาคต

ลิงก์บทความ

https://arxiv.org/abs/2512.01374

การถอดรหัสเชิงสาเหตุแบบขนานที่รวดเร็วและแม่นยำด้วย Jacobi Forcing / Fast and Accurate Causal Parallel Decoding using Jacobi Forcing

แนะนำบทความ

ท่ามกลางงานวิจัยที่ดำเนินกันอย่างคึกคักเพื่อเพิ่มความเร็วในการอนุมานของโมเดลภาษาขนาดใหญ่ งานวิจัยนี้เสนอแนวทางใหม่ที่มีนวัตกรรมชื่อว่า Jacobi Forcing วิธีการนี้มุ่งเน้นการลดเวลาแฝงของการอนุมานให้ต่ำที่สุด โดยทำให้การถอดรหัสแบบขนานของโมเดลที่อิง Transformer เป็นไปได้ผ่าน การสร้างหลายโทเคน แนวทาง diffusion large language models (dLLMs) แบบเดิมมีข้อจำกัดในการเพิ่มประสิทธิภาพเนื่องจากความไม่สอดคล้องกันระหว่าง pre-training และ post-training โดยเฉพาะ dLLMs ใช้ bidirectional attention ซึ่งก่อให้เกิดความขัดแย้งกับ causal prior และขัดขวางการนำ KV cache (key-value cache) กลับมาใช้ซ้ำได้อย่างถูกต้อง

Jacobi Forcing เป็นกระบวนทัศน์การกลั่นแบบค่อยเป็นค่อยไปที่ทำให้โมเดลเรียนรู้จากเส้นทางการถอดรหัสแบบขนานที่สร้างขึ้นด้วยตนเอง จึงสามารถเปลี่ยนเป็นตัวถอดรหัสแบบขนานที่มีประสิทธิภาพได้ ขณะเดียวกันก็ยังคงคุณสมบัติการอนุมานเชิงสาเหตุที่ผ่านการ pre-train มาแล้วไว้ โมเดล Jacobi Forcing ที่ฝึกด้วยวิธีนี้สามารถเร่งความเร็วแบบ wall-clock ได้ 3.8 เท่าบนเบนช์มาร์กด้านโค้ดและคณิตศาสตร์ โดยมีการสูญเสียประสิทธิภาพเพียงเล็กน้อย นอกจากนี้ ยังมีการนำ multi-block decoding มาใช้ผ่าน rejection recycling ทำให้รองรับโทเคนได้มากขึ้นสูงสุด 4.5 เท่าในแต่ละรอบ และได้ความเร็วแบบ wall-clock เกือบ 4.0 เท่า

งานวิจัยนี้นำเสนอวิธีการที่ทำให้การถอดรหัสแบบขนานที่มีประสิทธิภาพเป็นไปได้ โดยยังคงคุณสมบัติการอนุมานเชิงสาเหตุของโมเดล AR ผ่าน Jacobi Forcing และแสดงให้เห็นถึงศักยภาพในการยกระดับความเร็วการอนุมานของโมเดลภาษาขนาดใหญ่ได้อย่างก้าวกระโดด แนวทางนี้มีศักยภาพในการปรับปรุงประสิทธิภาพของโมเดลในงานด้านการประมวลผลภาษาธรรมชาติ (NLP) อย่างมาก และคาดว่าจะเป็นส่วนสำคัญต่อการวิจัยในอนาคต

บทคัดย่อ (Abstract)

การสร้างหลายโทเค็นกำลังก้าวขึ้นมาเป็นพาราไดม์ที่มีแนวโน้มสูงสำหรับเร่งการอนุมานของโมเดลขนาดใหญ่ที่อิงทรานส์ฟอร์เมอร์ งานวิจัยช่วงหลังมุ่งสำรวจ diffusion Large Language Models (dLLMs) สำหรับการถอดรหัสแบบขนานเพื่อลด latency ของการอนุมานเป็นหลัก เพื่อให้ได้คุณภาพการสร้างในระดับ AR หลายเทคนิคจึงปรับ AR model ให้เป็น dLLMs เพื่อเปิดใช้การถอดรหัสแบบขนาน อย่างไรก็ตาม วิธีเหล่านี้ยังได้ประโยชน์ด้านความเร็วอย่างจำกัดเมื่อเทียบกับ AR model เนื่องจากความไม่สอดคล้องกันระหว่าง pretraining กับ post-training กล่าวคือ การกระจายของข้อมูลแบบ masked ในช่วง post-training แตกต่างอย่างมากจากการกระจายของข้อมูลจริงที่พบระหว่าง pretraining และ dLLMs ยังพึ่งพา bidirectional attention ซึ่งขัดกับ causal prior ที่เรียนรู้ไว้ระหว่าง pretraining และเป็นอุปสรรคต่อการผสานการนำ exact KV cache reuse กลับมาใช้ใหม่ เพื่อแก้ปัญหานี้ เราเสนอ Jacobi Forcing ซึ่งเป็นพาราไดม์การกลั่นแบบค่อยเป็นค่อยไปที่ฝึกโมเดลบน trajectory ของการถอดรหัสแบบขนานที่โมเดลสร้างขึ้นเอง ช่วยเปลี่ยน AR model ให้เป็น parallel decoder ที่มีประสิทธิภาพอย่างราบรื่น พร้อมคงคุณสมบัติการอนุมานเชิงสาเหตุที่ได้จาก pretraining ไว้ โมเดลที่ฝึกภายใต้พาราไดม์นี้หรือ Jacobi Forcing Model ทำความเร็วแบบ wall-clock ได้ดีขึ้น 3.8 เท่าบนเบนช์มาร์กด้านโค้ดและคณิตศาสตร์ โดยสูญเสียประสิทธิภาพน้อยมาก จากคุณลักษณะของ trajectory ใน Jacobi Forcing Models เรายังเสนอ multi-block decoding พร้อม rejection recycling ซึ่งเพิ่มจำนวนโทเค็นที่ยอมรับได้ต่อ iteration ได้สูงสุด 4.5 เท่า และทำความเร็วแบบ wall-clock ได้เกือบ 4.0 เท่า โดยแลกการคำนวณที่เพิ่มขึ้นกับ latency การอนุมานที่ลดลงอย่างมีประสิทธิภาพ โค้ดของเราเปิดให้ใช้งานที่ https://github.com/hao-ai-lab/JacobiForcing
> Multi-token generation has emerged as a promising paradigm for accelerating transformer-based large model inference. Recent efforts primarily explore diffusion Large Language Models (dLLMs) for parallel decoding to reduce inference latency. To achieve AR-level generation quality, many techniques adapt AR models into dLLMs to enable parallel decoding. However, they suffer from limited speedup compared to AR models due to a pretrain-to-posttrain mismatch. Specifically, the masked data distribution in post-training deviates significantly from the real-world data distribution seen during pretraining, and dLLMs rely on bidirectional attention, which conflicts with the causal prior learned during pretraining and hinders the integration of exact KV cache reuse. To address this, we introduce Jacobi Forcing, a progressive distillation paradigm where models are trained on their own generated parallel decoding trajectories, smoothly shifting AR models into efficient parallel decoders while preserving their pretrained causal inference property. The models trained under this paradigm, Jacobi Forcing Model, achieves 3.8x wall-clock speedup on coding and math benchmarks with minimal loss in performance. Based on Jacobi Forcing Models' trajectory characteristics, we introduce multi-block decoding with rejection recycling, which enables up to 4.5x higher token acceptance count per iteration and nearly 4.0x wall-clock speedup, effectively trading additional compute for lower inference latency. Our code is available at https://github.com/hao-ai-lab/JacobiForcing.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2512.14681

อ่านเพิ่มเติม

https://github.com/hao-ai-lab/JacobiForcing

อันตรายจากโมเดลภาษาขนาดใหญ่ (LLM): การจัดหมวดหมู่และการอภิปราย / LLM Harms: A Taxonomy and Discussion

แนะนำบทความวิจัย

เป็นงานวิจัยที่ว่าด้วยการจัดหมวดหมู่อันตรายที่เกี่ยวข้องกับโมเดลภาษาขนาดใหญ่ (LLM) โดยงานวิจัยนี้นำเสนออันตราย 5 หมวดหมู่ที่อาจเกิดขึ้นก่อน ระหว่าง และหลังการพัฒนาแอปพลิเคชัน AI ได้แก่ ก่อนการพัฒนา ผลลัพธ์โดยตรง การใช้งานในทางที่ผิดและการประยุกต์ใช้เชิงประสงค์ร้าย และแอปพลิเคชันปลายน้ำ งานวิจัยเน้นย้ำถึงความจำเป็นในการนิยามความเสี่ยงในบริบทปัจจุบัน พร้อมเสนอวิธีจัดการด้านความรับผิดชอบ ความโปร่งใส และอคติ นอกจากนี้ยังเสนอแนวทางบรรเทาผลกระทบสำหรับโดเมนเฉพาะและทิศทางในอนาคต รวมถึงข้อเสนอที่เป็นมาตรฐานสำหรับระบบตรวจสอบแบบไดนามิกเพื่อชี้นำการพัฒนาและบูรณาการ LLM อย่างมีความรับผิดชอบ

บทคัดย่อ(Abstract)

งานวิจัยนี้กล่าวถึงหมวดหมู่อันตรายที่รายล้อมโมเดลภาษาขนาดใหญ่ (LLMs) ในสาขาปัญญาประดิษฐ์ โดยครอบคลุมอันตราย 5 หมวดหมู่ที่ต้องพิจารณาก่อน ระหว่าง และหลังการพัฒนาแอปพลิเคชัน AI ได้แก่ ก่อนการพัฒนา ผลลัพธ์โดยตรง การใช้งานในทางที่ผิดและการประยุกต์ใช้เชิงประสงค์ร้าย และแอปพลิเคชันปลายน้ำ งานวิจัยเน้นย้ำถึงความจำเป็นในการนิยามความเสี่ยงในภูมิทัศน์ปัจจุบัน เพื่อให้มั่นใจถึงความรับผิดชอบ ความโปร่งใส และการรับมือกับอคติเมื่อปรับใช้ LLM กับงานจริง อีกทั้งยังเสนอแนวทางบรรเทาผลกระทบและทิศทางในอนาคตสำหรับโดเมนเฉพาะ ตลอดจนระบบตรวจสอบแบบไดนามิกในรูปแบบข้อเสนอที่เป็นมาตรฐาน เพื่อชี้นำการพัฒนาและบูรณาการ LLM อย่างมีความรับผิดชอบ
> This study addresses categories of harm surrounding Large Language Models (LLMs) in the field of artificial intelligence. It addresses five categories of harms addressed before, during, and after development of AI applications: pre-development, direct output, Misuse and Malicious Application, and downstream application. By underscoring the need to define risks of the current landscape to ensure accountability, transparency and navigating bias when adapting LLMs for practical applications. It proposes mitigation strategies and future directions for specific domains and a dynamic auditing system guiding responsible development and integration of LLMs in a standardized proposal.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2512.05929

⚠️โฆษณา⚠️: บทความนี้ที่ 🔥ชุมชนผู้ใช้ PyTorch เกาหลี🇰🇷 รวบรวมไว้มีประโยชน์ไหม? หาก สมัครสมาชิก เราจะส่งบทความสำคัญให้ทางอีเมล💌! (ค่าเริ่มต้นคือ Weekly แต่ เปลี่ยนเป็น Daily ได้)

[2025/12/22 ~ 28] รวมงานวิจัย AI/ML ที่น่าจับตาในสัปดาห์นี้