[2025/12/15 ~ 21] รวมงานวิจัย AI/ML ที่น่าจับตาในสัปดาห์นี้

PyTorchKR🔥🇰🇷 🤔💭

1️⃣ ความสำคัญของการปรับตัวของเอเจนต์: งานวิจัยที่คัดเลือกในสัปดาห์นี้เน้นย้ำถึงความจำเป็นของการปรับตัว (adaptation) เพื่อยกระดับประสิทธิภาพและความน่าเชื่อถือของระบบ AI แบบเอเจนต์ มีการเสนอเฟรมเวิร์กเชิงระบบที่ผสานการปรับตัวของเอเจนต์และเครื่องมือเข้าด้วยกัน ซึ่งช่วยทำให้พื้นที่การออกแบบของกลยุทธ์การปรับตัวที่หลากหลายชัดเจนขึ้น และให้แนวทางเชิงปฏิบัติ

2️⃣ พัฒนาการของระบบหน่วยความจำ: หน่วยความจำของเอเจนต์ได้กลายเป็นความสามารถหลักของระบบ AI และมีการวิจัยระบบหน่วยความจำในรูปแบบและหน้าที่ที่หลากหลาย โดยตระหนักว่าการจัดประเภทหน่วยความจำแบบเดิมยังไม่เพียงพอที่จะครอบคลุมความหลากหลายของหน่วยความจำเอเจนต์สมัยใหม่ จึงมีการวิเคราะห์รูปแบบ หน้าที่ และพลวัตของหน่วยความจำอย่างบูรณาการ พร้อมเสนอทิศทางการวิจัยใหม่

3️⃣ การเปลี่ยนผ่านและการเพิ่มประสิทธิภาพโมเดลอย่างมีประสิทธิผล: งานวิจัยล่าสุดกำลังค้นหาวิธีปรับปรุงทั้งความเร็วและความแม่นยำพร้อมกัน ผ่านการเปลี่ยนจากโมเดลภาษาแบบออโตรีเกรสซีฟ (AR) ไปเป็นโมเดลภาษาแบบ diffusion (dLM) โดยเฉพาะการเปรียบเทียบแพตเทิร์น attention และกลยุทธ์การฝึกที่หลากหลาย พร้อมเสนอหลักการและระเบียบวิธีสำหรับการเปลี่ยนผ่านอย่างมีประสิทธิภาพเพื่อเพิ่มสมรรถนะของโมเดลให้สูงสุด


การปรับตัวของ Agentic AI / Adaptation of Agentic AI

แนะนำงานวิจัย

ระบบ Agentic AI ระดับแนวหน้าสร้างขึ้นบน foundation models และกำลังมีความสามารถในการทำงานที่ซับซ้อนและเฉพาะทางมากขึ้นเรื่อย ๆ เพื่อยกระดับประสิทธิภาพ ความน่าเชื่อถือ และความสามารถในการทั่วไปของระบบเหล่านี้ การปรับตัวจึงกลายเป็นกลไกสำคัญ งานวิจัยนี้นำเสนอเฟรมเวิร์กเชิงระบบที่ครอบคลุมทั้งการปรับตัวของเอเจนต์และการปรับตัวของเครื่องมือ ซึ่งช่วยทำให้พื้นที่การออกแบบของกลยุทธ์การปรับตัวที่หลากหลายชัดเจนขึ้น และทำให้เห็น trade-off ระหว่างกลยุทธ์ต่าง ๆ อย่างชัดเจน เฟรมเวิร์กนี้แบ่งย่อยออกเป็นการปรับตัวในรูปแบบสัญญาณจากการรันเครื่องมือและสัญญาณจากเอาต์พุตของเอเจนต์ รวมถึงแบ่งการปรับตัวของเครื่องมือเป็นรูปแบบ critic agent และ supervisor agent

งานวิจัยนี้ทบทวนแนวทางตัวแทนในแต่ละหมวดหมู่ วิเคราะห์จุดแข็งและข้อจำกัดของแต่ละแนวทาง พร้อมเน้นประเด็นเปิดสำคัญและโอกาสในอนาคต โดยเฉพาะวิธีแบบ A1 ยุคแรกที่เน้น Supervised Fine-Tuning และ Direct Preference Optimization ซึ่งแนวทางเหล่านี้ได้พัฒนามาในทิศทางของการเก็บรวบรวมการตอบสนองของโมเดลที่เกี่ยวข้องกับการใช้เครื่องมือเพื่อใช้เป็นสัญญาณการเรียนรู้ โมเดลยุคแรกอย่าง Toolformer พยายามปรับปรุงการใช้เครื่องมือด้วยสัญญาณการเรียนรู้แบบ self-supervised แต่ยังมีข้อจำกัดในการใช้งานในสภาพแวดล้อมจริง

เพื่อก้าวข้ามข้อจำกัดเหล่านี้ โมเดลรุ่นถัดมาอย่าง TRICE และ ToolAlpaca ได้นำ reinforcement learning ผ่าน execution feedback มาใช้ เพื่อยกระดับความสามารถในการใช้เครื่องมือโดยตรง TP-LLaMA เสนอแนวทางใหม่ที่ใช้เส้นทางที่ล้มเหลวเพื่อให้โมเดลเรียนรู้จากความล้มเหลว ขณะที่ Gorilla เน้นความถูกต้องเชิงโครงสร้างในการสร้าง API call ที่ถูกต้องจากชุด machine learning API ขนาดใหญ่ CodeAct เสนอกระบวนทัศน์การเรียนรู้ผ่านการโต้ตอบโดยตรงกับสภาพแวดล้อมโค้ดที่สามารถรันได้ ทำให้สามารถกำหนดเป้าหมายการเรียนรู้บนพื้นฐานของผลลัพธ์ที่ตรวจสอบได้

ท้ายที่สุด วิธีที่อิงกับ RLVR (รางวัลที่ตรวจสอบได้) ทำให้โมเดลสามารถเรียนรู้ได้โดยตรงผ่านการโต้ตอบออนไลน์กับเครื่องมือและสภาพแวดล้อม ส่งผลให้การปรับตัวมีความเป็นพลวัตและรับรู้บริบทได้มากขึ้น งานวิจัยเหล่านี้มีส่วนช่วยต่อพัฒนาการของระบบ Agentic AI และเป็นรากฐานสำคัญที่ชี้ให้เห็นความเป็นไปได้ในการประยุกต์ใช้ทั้งในการวิจัยและการทำงานจริงในอนาคต

บทคัดย่อ(Abstract)

ระบบ Agent AI ระดับแนวหน้าสร้างขึ้นบน foundation models ที่สามารถปรับให้วางแผน ให้เหตุผล และโต้ตอบกับเครื่องมือภายนอก เพื่อทำงานที่ซับซ้อนและเฉพาะทางมากขึ้นเรื่อย ๆ เมื่อระบบเหล่านี้ขยายตัวทั้งด้านขีดความสามารถและขอบเขต การปรับตัวจึงกลายเป็นกลไกศูนย์กลางในการยกระดับประสิทธิภาพ ความน่าเชื่อถือ และความสามารถในการทั่วไป ในบทความนี้ เรารวบรวมภูมิทัศน์การวิจัยที่กำลังขยายตัวอย่างรวดเร็วให้เป็นเฟรมเวิร์กเชิงระบบที่ครอบคลุมทั้งการปรับตัวของเอเจนต์และการปรับตัวของเครื่องมือ โดยเรายังแบ่งย่อยสิ่งเหล่านี้ออกเป็นการปรับตัวของเอเจนต์ที่อาศัยสัญญาณจากการรันเครื่องมือ และการปรับตัวของเอเจนต์ที่อาศัยสัญญาณจากเอาต์พุตของเอเจนต์ ตลอดจนการปรับตัวของเครื่องมือแบบไม่ขึ้นกับเอเจนต์ และแบบมีเอเจนต์กำกับ เราแสดงให้เห็นว่าเฟรมเวิร์กนี้ช่วยทำให้พื้นที่การออกแบบของกลยุทธ์การปรับตัวใน Agentic AI ชัดเจนขึ้น ทำให้ trade-off ของแต่ละแนวทางปรากฏชัด และให้แนวทางเชิงปฏิบัติสำหรับการเลือกหรือสลับใช้กลยุทธ์ระหว่างการออกแบบระบบ จากนั้นเราทบทวนแนวทางตัวแทนในแต่ละหมวดหมู่ วิเคราะห์จุดแข็งและข้อจำกัดของแนวทางเหล่านั้น และเน้นความท้าทายสำคัญที่ยังเปิดอยู่รวมถึงโอกาสในอนาคต โดยรวมแล้ว บทความนี้มุ่งเสนอทั้งรากฐานเชิงแนวคิดและโรดแมปเชิงปฏิบัติสำหรับนักวิจัยและผู้ปฏิบัติงานที่ต้องการสร้างระบบ Agentic AI ที่มีความสามารถสูงขึ้น มีประสิทธิภาพมากขึ้น และเชื่อถือได้มากขึ้น
> Cutting-edge agentic AI systems are built on foundation models that can be adapted to plan, reason, and interact with external tools to perform increasingly complex and specialized tasks. As these systems grow in capability and scope, adaptation becomes a central mechanism for improving performance, reliability, and generalization. In this paper, we unify the rapidly expanding research landscape into a systematic framework that spans both agent adaptations and tool adaptations. We further decompose these into tool-execution-signaled and agent-output-signaled forms of agent adaptation, as well as agent-agnostic and agent-supervised forms of tool adaptation. We demonstrate that this framework helps clarify the design space of adaptation strategies in agentic AI, makes their trade-offs explicit, and provides practical guidance for selecting or switching among strategies during system design. We then review the representative approaches in each category, analyze their strengths and limitations, and highlight key open challenges and future opportunities. Overall, this paper aims to offer a conceptual foundation and practical roadmap for researchers and practitioners seeking to build more capable, efficient, and reliable agentic AI systems.

ลิงก์งานวิจัย

https://arxiv.org/abs/2512.16301

อ่านเพิ่มเติม

https://github.com/pat-jj/Awesome-Adaptation-of-Agentic-AI


ความทรงจำในยุคของ AI Agents / Memory in the Age of AI Agents

แนะนำงานวิจัย

หน่วยความจำของเอเจนต์ได้กลายเป็นองค์ประกอบสำคัญในระบบปัญญาประดิษฐ์ (AI) สมัยใหม่ และงานวิจัยนี้มีเป้าหมายเพื่อจัดระเบียบและวิเคราะห์ความซับซ้อนกับความหลากหลายของหน่วยความจำดังกล่าวอย่างเป็นระบบ งานวิจัยก่อนหน้านี้มีความแตกต่างกันมากทั้งในด้านแรงจูงใจของหน่วยความจำ วิธีการนำไปใช้ และโปรโตคอลการประเมินผล ส่งผลให้ยังขาดความชัดเจนในเชิงแนวคิด ดังนั้น บทความนี้จึงกำหนดขอบเขตของหน่วยความจำเอเจนต์ให้ชัดเจน และเน้นความแตกต่างจากหน่วยความจำของ large language model (LLM), retrieval-augmented generation (RAG) และ context engineering

งานวิจัยนี้วิเคราะห์หน่วยความจำของเอเจนต์ผ่านสามมุมมอง ได้แก่ รูปแบบ หน้าที่ และพลวัต ในมุมมองด้านรูปแบบ มีการนำเสนอสามรูปแบบหลัก ได้แก่ หน่วยความจำระดับโทเคน หน่วยความจำเชิงพารามิเตอร์ และหน่วยความจำเชิงแฝง พร้อมอธิบายคุณลักษณะและกลไกการทำงานของแต่ละรูปแบบ ในมุมมองด้านหน้าที่ มีการแบ่งเป็นหน่วยความจำเชิงข้อเท็จจริง หน่วยความจำเชิงประสบการณ์ และหน่วยความจำการทำงาน เพื่ออธิบายบทบาทของแต่ละประเภทให้ชัดเจน ส่วนในมุมมองด้านพลวัต งานวิจัยสำรวจว่าหน่วยความจำถูกก่อตัว พัฒนา และถูกเรียกใช้กลับมาอย่างไร โดยวิเคราะห์ว่าหน่วยความจำทำงานอย่างไรในระหว่างที่เอเจนต์โต้ตอบกับสภาพแวดล้อม

งานวิจัยนี้ยังจัดทำสรุปที่ครอบคลุมเกี่ยวกับ memory benchmark และโอเพนซอร์สเฟรมเวิร์กเพื่อสนับสนุนการพัฒนาเชิงปฏิบัติ พร้อมนำเสนอมุมมองต่อแนวหน้าการวิจัยใหม่ ๆ เช่น การทำ memory automation, การบูรณาการ reinforcement learning, multimodal memory และ multi-agent memory แนวทางดังกล่าววางรากฐานให้สามารถทบทวนความหมายของหน่วยความจำในฐานะแนวคิดปฐมภูมิระดับแรกในการออกแบบระบบหน่วยความจำของเอเจนต์ และชี้ทิศทางสำหรับงานวิจัยในอนาคต

โดยสรุป บทความนี้ได้รวบรวมและจัดระเบียบสถานะปัจจุบันของงานวิจัยด้าน agent memory อย่างครอบคลุม และคาดว่าจะมีส่วนช่วยพัฒนาระบบหน่วยความจำของ AI agent ด้วยการมอบข้อมูลเชิงลึกสำหรับการวิจัยในอนาคต

บทคัดย่อของงานวิจัย (Abstract)

หน่วยความจำได้ก้าวขึ้นมาเป็นความสามารถแกนหลักของเอเจนต์ที่อิงกับ foundation model และจะยังคงมีบทบาทสำคัญต่อไปในอนาคต ขณะที่งานวิจัยด้าน agent memory ขยายตัวอย่างรวดเร็วและได้รับความสนใจอย่างไม่เคยมีมาก่อน สาขานี้ก็ยิ่งมีแนวโน้มกระจัดกระจายมากขึ้น งานที่มีอยู่เดิมซึ่งอยู่ภายใต้ร่มของ agent memory มักแตกต่างกันอย่างมากทั้งในด้านแรงจูงใจ วิธีการนำไปใช้ และโปรโตคอลการประเมินผล ขณะเดียวกันการแพร่กระจายของคำศัพท์ด้าน memory ที่นิยามไว้อย่างหลวม ๆ ก็ยิ่งทำให้ความชัดเจนเชิงแนวคิดพร่าเลือนไปอีก อนุกรมวิธานแบบดั้งเดิมอย่างหน่วยความจำระยะยาว/ระยะสั้นได้พิสูจน์แล้วว่าไม่เพียงพอในการอธิบายความหลากหลายของระบบ agent memory สมัยใหม่ งานนี้มีเป้าหมายเพื่อมอบภาพภูมิทัศน์ล่าสุดของงานวิจัยด้าน agent memory ในปัจจุบัน เราเริ่มจากการกำหนดขอบเขตของ agent memory ให้ชัดเจน และแยกมันออกจากแนวคิดที่เกี่ยวข้อง เช่น LLM memory, retrieval-augmented generation (RAG) และ context engineering จากนั้นเราศึกษา agent memory ผ่านกรอบมุมมองแบบบูรณาการของรูปแบบ หน้าที่ และพลวัต ในมุมมองด้านรูปแบบ เราระบุรูปแบบการเกิดขึ้นหลักของ agent memory ไว้สามแบบ ได้แก่ token-level, parametric และ latent memory ในมุมมองด้านหน้าที่ เราเสนออนุกรมวิธานที่ละเอียดขึ้นซึ่งแยก factual, experiential และ working memory ออกจากกัน ในมุมมองด้านพลวัต เราวิเคราะห์ว่าหน่วยความจำถูกก่อรูป พัฒนาเปลี่ยนแปลง และถูกดึงกลับมาใช้อย่างไรเมื่อเวลาผ่านไป เพื่อสนับสนุนการพัฒนาเชิงปฏิบัติ เราได้รวบรวมสรุปที่ครอบคลุมของ memory benchmark และโอเพนซอร์สเฟรมเวิร์ก นอกเหนือจากการรวบรวมองค์ความรู้แล้ว เรายังอธิบายมุมมองเชิงอนาคตต่อแนวหน้าการวิจัยที่กำลังก่อตัวขึ้น รวมถึง memory automation, การบูรณาการ reinforcement learning, multimodal memory, multi-agent memory และประเด็นด้านความน่าเชื่อถือ เราหวังว่า survey นี้จะไม่เพียงทำหน้าที่เป็นแหล่งอ้างอิงสำหรับงานที่มีอยู่เท่านั้น แต่ยังเป็นรากฐานเชิงแนวคิดสำหรับการทบทวนหน่วยความจำใหม่ในฐานะ primitive ระดับแรกในการออกแบบ agentic intelligence ในอนาคตด้วย

Memory has emerged, and will continue to remain, a core capability of foundation model-based agents. As research on agent memory rapidly expands and attracts unprecedented attention, the field has also become increasingly fragmented. Existing works that fall under the umbrella of agent memory often differ substantially in their motivations, implementations, and evaluation protocols, while the proliferation of loosely defined memory terminologies has further obscured conceptual clarity. Traditional taxonomies such as long/short-term memory have proven insufficient to capture the diversity of contemporary agent memory systems. This work aims to provide an up-to-date landscape of current agent memory research. We begin by clearly delineating the scope of agent memory and distinguishing it from related concepts such as LLM memory, retrieval augmented generation (RAG), and context engineering. We then examine agent memory through the unified lenses of forms, functions, and dynamics. From the perspective of forms, we identify three dominant realizations of agent memory, namely token-level, parametric, and latent memory. From the perspective of functions, we propose a finer-grained taxonomy that distinguishes factual, experiential, and working memory. From the perspective of dynamics, we analyze how memory is formed, evolved, and retrieved over time. To support practical development, we compile a comprehensive summary of memory benchmarks and open-source frameworks. Beyond consolidation, we articulate a forward-looking perspective on emerging research frontiers, including memory automation, reinforcement learning integration, multimodal memory, multi-agent memory, and trustworthiness issues. We hope this survey serves not only as a reference for existing work, but also as a conceptual foundation for rethinking memory as a first-class primitive in the design of future agentic intelligence.

ลิงก์งานวิจัย

https://arxiv.org/abs/2512.13564

อ่านเพิ่มเติม

https://github.com/Shichun-Liu/Agent-Memory-Paper-List


สมดุลเชิงละเอียดในเอเจนต์ที่ขับเคลื่อนด้วย large language model / Detailed balance in large language model-driven agents

แนะนำงานวิจัย

เอเจนต์ที่อิงกับ large language model (LLM) นำเสนอแนวทางที่ปฏิวัติวงการในการแก้ปัญหาที่ซับซ้อน แต่แม้ระบบเหล่านี้จะประสบความสำเร็จเชิงประจักษ์ ก็ยังขาดกรอบทฤษฎีมารองรับ งานวิจัยนี้เสนอระเบียบวิธีใหม่ในการประมาณทิศทางการสร้างของ LLM โดยอาศัยหลักการการออกฤทธิ์น้อยที่สุด วิธีการนี้พิสูจน์เชิงสถิติถึงสมดุลเชิงละเอียดที่ค้นพบในการเปลี่ยนผ่านระหว่างการสร้างของ LLM ด้วยการวัดความน่าจะเป็นของการเปลี่ยนผ่านระหว่างสถานะที่ LLM สร้างขึ้นในเชิงทดลอง การค้นพบนี้ชี้ให้เห็นว่า LLM อาจไม่ได้เรียนรู้เพียงชุดกฎหรือกลยุทธ์เฉพาะ แต่กำลังเรียนรู้โดยนัยถึงคลาสของฟังก์ชันศักย์ที่สามารถครอบคลุมได้ข้ามทั้งสถาปัตยกรรม LLM และเทมเพลตพรอมป์ต์ที่หลากหลาย

งานวิจัยนี้เป็นกรณีแรกที่ค้นพบกฎฟิสิกส์ระดับมหภาคในพลวัตที่เกิดจาก LLM และสะท้อนความพยายามในการวางรากฐานทฤษฎีพลวัตระดับมหภาคของระบบปัญญาประดิษฐ์ (AI) ที่ซับซ้อน โดยมีเป้าหมายให้การวิจัย AI agent พัฒนาจากการเป็นเพียงชุดของแนวปฏิบัติทางวิศวกรรม ไปสู่การเป็นวิทยาศาสตร์ที่สามารถคาดการณ์และวัดเชิงปริมาณได้ การทำความเข้าใจพลวัตของการเปลี่ยนผ่านที่เกิดขึ้นในกระบวนการสร้างของ LLM เป็นสิ่งจำเป็นต่อการอธิบายหลักการทำงานของระบบเหล่านี้

งานวิจัยนี้นำเสนอกรอบทฤษฎีใหม่ที่สามารถอธิบายพลวัตการสร้างของ LLM ได้ และด้วยเหตุนี้จึงชี้แนวทางใหม่ให้กับงานวิจัย AI ข้อมูลที่รวบรวมผ่านแนวทางเชิงทดลองมีส่วนสำคัญต่อความเข้าใจหลักการทำงานของ LLM และสามารถใช้เป็นข้อมูลพื้นฐานสำหรับงานวิจัยในอนาคตได้ ผลลัพธ์เหล่านี้คาดว่าจะมอบข้อมูลเชิงลึกสำคัญต่อการออกแบบและการใช้งานเอเจนต์ที่อิงกับ LLM และมีส่วนช่วยต่อความก้าวหน้าของเทคโนโลยี AI

บทคัดย่อของงานวิจัย (Abstract)

เอเจนต์ที่ขับเคลื่อนด้วยโมเดลภาษาขนาดใหญ่ (LLM) กำลังก้าวขึ้นมาเป็นพาราไดม์ใหม่อันทรงพลังสำหรับการแก้ปัญหาที่ซับซ้อน แม้ว่าวิธีปฏิบัติเหล่านี้จะประสบความสำเร็จเชิงประจักษ์ แต่ก็ยังขาดกรอบทฤษฎีสำหรับทำความเข้าใจและบูรณาการพลวัตระดับมหภาคของมัน งานวิจัยนี้เสนอวิธีการที่อาศัยหลักการลงแรงน้อยที่สุดเพื่อประเมินทิศทางการกำเนิดพื้นฐานของ LLM ที่ฝังอยู่ภายในเอเจนต์ ด้วยการวัดความน่าจะเป็นของการเปลี่ยนผ่านระหว่างสถานะที่ LLM สร้างขึ้นในเชิงทดลอง เราได้ค้นพบสมดุลแบบละเอียดในเชิงสถิติในการเปลี่ยนผ่านที่ LLM สร้างขึ้น ซึ่งบ่งชี้ว่าการสร้างของ LLM อาจไม่ได้เกิดจากการเรียนรู้ชุดกฎและกลยุทธ์โดยทั่วไป แต่เกิดจากการเรียนรู้โดยนัยของกลุ่มฟังก์ชันศักย์พื้นฐานที่อาจข้ามพ้นสถาปัตยกรรม LLM และเทมเพลตพรอมป์ต์ที่แตกต่างกัน เท่าที่เราทราบ นี่คือการค้นพบกฎทางฟิสิกส์ระดับมหภาคครั้งแรกในพลวัตการกำเนิดของ LLM ที่ไม่ขึ้นกับรายละเอียดเฉพาะของโมเดล งานนี้เป็นความพยายามในการสถาปนาทฤษฎีพลวัตระดับมหภาคของระบบ AI ที่ซับซ้อน โดยมีเป้าหมายเพื่อยกระดับการศึกษาเอเจนต์ AI จากการเป็นเพียงชุดของแนวปฏิบัติด้านวิศวกรรม ไปสู่ศาสตร์ที่ตั้งอยู่บนการวัดเชิงประสิทธิผลซึ่งสามารถคาดการณ์และวัดเชิงปริมาณได้
> Large language model (LLM)-driven agents are emerging as a powerful new paradigm for solving complex problems. Despite the empirical success of these practices, a theoretical framework to understand and unify their macroscopic dynamics remains lacking. This Letter proposes a method based on the least action principle to estimate the underlying generative directionality of LLMs embedded within agents. By experimentally measuring the transition probabilities between LLM-generated states, we statistically discover a detailed balance in LLM-generated transitions, indicating that LLM generation may not be achieved by generally learning rule sets and strategies, but rather by implicitly learning a class of underlying potential functions that may transcend different LLM architectures and prompt templates. To our knowledge, this is the first discovery of a macroscopic physical law in LLM generative dynamics that does not depend on specific model details. This work is an attempt to establish a macroscopic dynamics theory of complex AI systems, aiming to elevate the study of AI agents from a collection of engineering practices to a science built on effective measurements that are predictable and quantifiable.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2512.10047


Efficient-DLM ที่มีประสิทธิภาพ: จาก Autoregressive สู่ Diffusion Language Models และไกลไปกว่าด้านความเร็ว / Efficient-DLM: From Autoregressive to Diffusion Language Models, and Beyond in Speed

แนะนำงานวิจัย

Diffusion Language Models (dLM) กำลังก้าวขึ้นมาเป็นพาราไดม์ที่มีอนาคตสำหรับการสร้างแบบขนานที่ไม่ใช่ออโตรีเกรสซีฟ แต่เมื่อเทียบกับ Autoregressive Language Models (AR) แล้วกลับมีปัญหาด้านประสิทธิภาพการฝึกที่ด้อยกว่า เพื่อแก้ปัญหานี้ จึงมีการเสนอระเบียบวิธีสำหรับแปลงโมเดล AR ให้เป็น dLM ที่มีประสิทธิภาพ นักวิจัยได้วิเคราะห์ข้อจำกัดของวิธีการแปลงจาก AR เป็น dLM ที่มีอยู่เดิม และพบว่าการคงการกระจายของค่าน้ำหนักที่ผ่านการพรีเทรนไว้แล้วของโมเดล AR เป็นสิ่งจำเป็นต่อการแปลงอย่างมีประสิทธิภาพ

จากพื้นฐานดังกล่าว จึงได้มีการนำวิธีพรีเทรนต่อเนื่องที่รักษาแพตเทิร์น attention ระดับบล็อกมาใช้ วิธีนี้ทำให้สามารถทำการโมเดลแบบสองทิศทางภายในแต่ละบล็อกได้ จึงช่วยรักษาการกระจายของค่าน้ำหนักของโมเดล AR ได้ดียิ่งขึ้น นอกจากนี้ยังเปิดให้ใช้ KV caching ได้ จึงให้ข้อดีทั้งด้านความแม่นยำและประสิทธิภาพพร้อมกัน อีกทั้งยังมีการเสนอกลยุทธ์การมาสก์โทเค็นที่ขึ้นกับตำแหน่งเพื่อลดความแตกต่างของการกระจายโทเค็นมาสก์ระหว่างการฝึก โดยวิธีนี้จะให้ความน่าจะเป็นในการมาสก์สูงกว่ากับโทเค็นลำดับถัดไปในระหว่างการฝึก เพื่อให้เลียนแบบพฤติกรรมขณะทดสอบได้ดีขึ้น

ด้วยระเบียบวิธีเหล่านี้ จึงมีการศึกษากว้างขวางเกี่ยวกับแพตเทิร์น attention พลวัตการฝึก และตัวเลือกด้านการออกแบบของ dLM ซึ่งให้ข้อมูลเชิงลึกที่นำไปใช้ได้จริงสำหรับการแปลงจาก AR เป็น dLM อย่างปรับขนาดได้ ในท้ายที่สุด ตระกูล Efficient-DLM แสดงประสิทธิภาพเหนือกว่าโมเดล AR และ dLM รุ่นล้ำสมัย โดยเฉพาะ Efficient-DLM 8B ทำความแม่นยำได้สูงกว่า Dream 7B และ Qwen3 4B อยู่ +5.4% และ +2.7% ตามลำดับ พร้อมมี throughput สูงกว่า 4.5 เท่าและ 2.7 เท่า งานวิจัยนี้นำเสนอระเบียบวิธีใหม่สำหรับการแปลงจากโมเดล AR ไปเป็น dLM อย่างมีประสิทธิภาพ และมีส่วนช่วยยกระดับทั้งประสิทธิภาพการฝึกและสมรรถนะของโมเดล

บทคัดย่อ (Abstract)

โมเดลภาษาการแพร่กระจาย (dLMs) ได้ก้าวขึ้นมาเป็นแนวทางที่มีอนาคตสำหรับการสร้างแบบขนานที่ไม่ใช่ออโตเรเกรสซีฟ แต่เมื่อฝึกตั้งแต่เริ่มต้น ประสิทธิภาพการเรียนรู้ยังด้อยกว่าโมเดลภาษาแบบออโตเรเกรสซีฟ (AR) เพื่อแก้ปัญหานี้ เราศึกษาการแปลงจาก AR ไปเป็น dLM เพื่อเปลี่ยนโมเดล AR ที่พรีเทรนไว้แล้วให้เป็น dLM ที่มีประสิทธิภาพ ซึ่งเด่นทั้งด้านความเร็วพร้อมยังคงความแม่นยำของงานจากโมเดล AR เอาไว้ เราทำได้โดยระบุข้อจำกัดของรูปแบบ attention และวัตถุประสงค์ของวิธี AR-to-dLM ที่มีอยู่ จากนั้นจึงเสนอหลักการและระเบียบวิธีสำหรับการแปลง AR-to-dLM ที่มีประสิทธิผลมากขึ้น โดยเฉพาะอย่างยิ่ง เราเริ่มจากการเปรียบเทียบรูปแบบ attention ที่หลากหลายอย่างเป็นระบบ และพบว่าการคงการกระจายน้ำหนักของ AR ที่พรีเทรนไว้มีความสำคัญอย่างยิ่งต่อการแปลง AR-to-dLM ที่มีประสิทธิภาพ ดังนั้น เราจึงนำเสนอแนวทาง continuous pretraining ที่ใช้รูปแบบ attention แบบเป็นบล็อก ซึ่งยังคงความเป็นเหตุเป็นผลระหว่างบล็อก ขณะเดียวกันก็เปิดให้มีการสร้างแบบจำลองสองทิศทางภายในแต่ละบล็อก เราพบว่าแนวทางนี้สามารถรักษาการกระจายน้ำหนักของโมเดล AR ที่พรีเทรนไว้ได้ดีกว่าการสร้างแบบจำลองสองทิศทางเต็มรูปแบบ อีกทั้งยังมีข้อดีที่ทราบกันอยู่แล้วคือรองรับ KV caching และให้ผลลัพธ์ที่ได้ทั้งความแม่นยำและประสิทธิภาพไปพร้อมกัน ประการที่สอง เพื่อบรรเทาช่องว่างระหว่างการฝึกกับการทดสอบในด้านการกระจายของ mask token (แบบสม่ำเสมอเทียบกับแบบซ้ายไปขวาอย่างมาก) เราเสนอวิธี token masking ที่ขึ้นกับตำแหน่ง โดยกำหนดความน่าจะเป็นในการมาสก์ให้สูงขึ้นกับโทเคนช่วงท้ายระหว่างการฝึก เพื่อเลียนแบบพฤติกรรมขณะทดสอบได้ดีขึ้น ด้วยกรอบงานนี้ เราได้ศึกษารูปแบบ attention พลวัตของการฝึก และตัวเลือกการออกแบบอื่น ๆ ของ dLM อย่างกว้างขวาง พร้อมมอบข้อค้นพบที่นำไปใช้ได้จริงสำหรับการแปลง AR-to-dLM ที่ขยายสเกลได้ งานศึกษาเหล่านี้นำไปสู่ตระกูล Efficient-DLM ซึ่งมีประสิทธิภาพเหนือกว่าโมเดล AR และ dLM ระดับแนวหน้าปัจจุบัน ตัวอย่างเช่น Efficient-DLM 8B ของเรามีความแม่นยำสูงกว่า Dream 7B และ Qwen3 4B อยู่ +5.4%/+2.7% ตามลำดับ พร้อมมี throughput สูงกว่า 4.5x/2.7x
> Diffusion language models (dLMs) have emerged as a promising paradigm that enables parallel, non-autoregressive generation, but their learning efficiency lags behind that of autoregressive (AR) language models when trained from scratch. To this end, we study AR-to-dLM conversion to transform pretrained AR models into efficient dLMs that excel in speed while preserving AR models' task accuracy. We achieve this by identifying limitations in the attention patterns and objectives of existing AR-to-dLM methods and then proposing principles and methodologies for more effective AR-to-dLM conversion. Specifically, we first systematically compare different attention patterns and find that maintaining pretrained AR weight distributions is critical for effective AR-to-dLM conversion. As such, we introduce a continuous pretraining scheme with a block-wise attention pattern, which remains causal across blocks while enabling bidirectional modeling within each block. We find that this approach can better preserve pretrained AR models' weight distributions than fully bidirectional modeling, in addition to its known benefit of enabling KV caching, and leads to a win-win in accuracy and efficiency. Second, to mitigate the training-test gap in mask token distributions (uniform vs. highly left-to-right), we propose a position-dependent token masking strategy that assigns higher masking probabilities to later tokens during training to better mimic test-time behavior. Leveraging this framework, we conduct extensive studies of dLMs' attention patterns, training dynamics, and other design choices, providing actionable insights into scalable AR-to-dLM conversion. These studies lead to the Efficient-DLM family, which outperforms state-of-the-art AR models and dLMs, e.g., our Efficient-DLM 8B achieves +5.4%/+2.7% higher accuracy with 4.5x/2.7x higher throughput compared to Dream 7B and Qwen3 4B, respectively.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2512.14067


ทุกสิ่งล้วนคือบริบท: นามธรรมระบบไฟล์เชิงเอเจนต์สำหรับวิศวกรรมบริบท / Everything is Context: Agentic File System Abstraction for Context Engineering

แนะนำบทความวิจัย

ความก้าวหน้าของ Generative AI (GenAI) ได้นำมาซึ่งการเปลี่ยนแปลงครั้งสำคัญต่อการออกแบบระบบซอฟต์แวร์ โดยเฉพาะผ่านฟาวน์เดชันโมเดลที่กำลังนิยามใหม่ทั้งสถาปัตยกรรมและการปฏิบัติการ ความท้าทายสำคัญในปัจจุบันได้ขยับจากการปรับจูนโมเดลไปสู่ “วิศวกรรมบริบท” ซึ่งเป็นการจับ เก็บโครงสร้าง และจัดระเบียบความรู้ภายนอก หน่วยความจำ เครื่องมือ และข้อมูลป้อนเข้าจากมนุษย์อย่างมีประสิทธิภาพ แนวทางเดิมอย่าง prompt engineering หรือ retrieval-augmented generation (RAG) ยังมีลักษณะกระจัดกระจาย และทำให้คอนเท็กซ์อาร์ติแฟกต์ที่ถูกสร้างขึ้นมักมีอายุสั้นและตรวจสอบยืนยันได้ยาก

งานวิจัยนี้ได้แรงบันดาลใจจากปรัชญา Unix ที่ว่า “ทุกสิ่งคือไฟล์” และเสนอ file system abstraction สำหรับวิศวกรรมบริบท นามธรรมนี้มอบโครงสร้างพื้นฐานแบบถาวรและมีการจัดการสำหรับดูแลคอนเท็กซ์อาร์ติแฟกต์ที่หลากหลาย ทำให้สามารถทำ mounting, metadata และ access control ได้อย่างสอดคล้องกัน สถาปัตยกรรมนี้ซึ่งถูกนำไปใช้ภายในเฟรมเวิร์ก AIGNE สามารถประกอบ ส่งต่อ และตรวจสอบบริบทภายใต้ข้อจำกัดของโทเคน ผ่านไปป์ไลน์วิศวกรรมบริบทที่ตรวจสอบได้ ซึ่งประกอบด้วยตัวสร้างบริบท ตัวโหลด และตัวประเมิน

เมื่อ GenAI กลายเป็นผู้ร่วมงานเชิงรุกในการสนับสนุนการตัดสินใจ มนุษย์ก็จะมีบทบาทสำคัญในฐานะผู้คัดสรร ผู้ตรวจสอบ และผู้ร่วมให้เหตุผล งานวิจัยนี้แสดงให้เห็นถึงการใช้งานได้จริงของสถาปัตยกรรมที่เสนอผ่านเอเจนต์ที่มีหน่วยความจำและ GitHub assistant ที่อิง MCP พร้อมชี้ให้เห็นถึงศักยภาพในการนำไปใช้งานจริงทั้งในหมู่นักพัฒนาและสภาพแวดล้อมอุตสาหกรรม แนวทางนี้วางรากฐานที่นำกลับมาใช้ซ้ำได้สำหรับความร่วมมือ AI ที่มีความรับผิดชอบและยึดมนุษย์เป็นศูนย์กลาง อีกทั้งช่วยสนับสนุนระบบ GenAI ที่ตรวจสอบได้และดูแลรักษาได้ง่าย

โดยสรุป งานวิจัยนี้เน้นย้ำถึงความสำคัญของวิศวกรรมบริบทในการออกแบบระบบ GenAI และชี้ให้เห็นว่านามธรรมที่อิงระบบไฟล์สามารถวางรากฐานสำหรับการจัดการบริบทที่คงอยู่และโปร่งใสได้อย่างไร

บทคัดย่อ (Abstract)

Generative AI (GenAI) ได้ปรับโฉมการออกแบบระบบซอฟต์แวร์ด้วยการนำ foundation model มาใช้เป็นระบบย่อยที่ผ่านการพรีเทรนล่วงหน้า ซึ่งนิยามสถาปัตยกรรมและการดำเนินงานขึ้นใหม่ ความท้าทายใหม่จึงไม่ใช่การปรับจูนโมเดลอีกต่อไป แต่เป็นการทำ context engineering ว่าระบบจะจับ โครงสร้าง และกำกับดูแลองค์ความรู้ภายนอก ความทรงจำ เครื่องมือ และข้อมูลจากมนุษย์อย่างไร เพื่อให้เกิดการให้เหตุผลที่เชื่อถือได้ แนวปฏิบัติที่มีอยู่ เช่น prompt engineering, retrieval-augmented generation (RAG) และการผสานเครื่องมือ ยังมีลักษณะแตกกระจายและสร้าง artifact แบบชั่วคราวที่จำกัดการติดตามย้อนกลับและความรับผิดชอบ งานวิจัยนี้เสนอ file-system abstraction สำหรับ context engineering โดยได้แรงบันดาลใจจากแนวคิด Unix ที่ว่า 'ทุกสิ่งคือไฟล์' abstraction นี้มอบโครงสร้างพื้นฐานที่คงอยู่ถาวรและมีการกำกับดูแลสำหรับจัดการ context artifact ที่หลากหลาย ผ่านการ mount แบบสม่ำเสมอ เมทาดาทา และการควบคุมการเข้าถึง สถาปัตยกรรมนี้ถูกนำไปใช้งานภายในเฟรมเวิร์กโอเพนซอร์ส AIGNE และทำให้เกิด pipeline สำหรับ context engineering ที่ตรวจสอบได้ ซึ่งประกอบด้วย Context Constructor, Loader และ Evaluator ที่ทำหน้าที่ประกอบ ส่งมอบ และตรวจสอบ context ภายใต้ข้อจำกัดของโทเค็น เมื่อ GenAI กลายเป็นผู้ร่วมมือเชิงรุกในการสนับสนุนการตัดสินใจ มนุษย์จึงมีบทบาทสำคัญในฐานะผู้คัดสรร ผู้ตรวจสอบ และผู้ร่วมให้เหตุผล สถาปัตยกรรมที่เสนอนี้สร้างรากฐานที่นำกลับมาใช้ซ้ำได้สำหรับการทำงานร่วมกันระหว่างมนุษย์กับ AI ที่มีความรับผิดชอบและมีมนุษย์เป็นศูนย์กลาง โดยสาธิตผ่านตัวอย่างสองกรณี ได้แก่ เอเจนต์ที่มีหน่วยความจำ และ GitHub assistant ที่อิง MCP การนำไปใช้ภายในเฟรมเวิร์ก AIGNE แสดงให้เห็นว่าสถาปัตยกรรมนี้สามารถทำให้ใช้งานได้จริงในสภาพแวดล้อมของนักพัฒนาและอุตสาหกรรม พร้อมรองรับระบบ GenAI ที่ตรวจสอบได้ บำรุงรักษาได้ และพร้อมใช้งานในภาคอุตสาหกรรม
> Generative AI (GenAI) has reshaped software system design by introducing foundation models as pre-trained subsystems that redefine architectures and operations. The emerging challenge is no longer model fine-tuning but context engineering-how systems capture, structure, and govern external knowledge, memory, tools, and human input to enable trustworthy reasoning. Existing practices such as prompt engineering, retrieval-augmented generation (RAG), and tool integration remain fragmented, producing transient artefacts that limit traceability and accountability. This paper proposes a file-system abstraction for context engineering, inspired by the Unix notion that 'everything is a file'. The abstraction offers a persistent, governed infrastructure for managing heterogeneous context artefacts through uniform mounting, metadata, and access control. Implemented within the open-source AIGNE framework, the architecture realises a verifiable context-engineering pipeline, comprising the Context Constructor, Loader, and Evaluator, that assembles, delivers, and validates context under token constraints. As GenAI becomes an active collaborator in decision support, humans play a central role as curators, verifiers, and co-reasoners. The proposed architecture establishes a reusable foundation for accountable and human-centred AI co-work, demonstrated through two exemplars: an agent with memory and an MCP-based GitHub assistant. The implementation within the AIGNE framework demonstrates how the architecture can be operationalised in developer and industrial settings, supporting verifiable, maintainable, and industry-ready GenAI systems.

ลิงก์งานวิจัย

https://arxiv.org/abs/2512.05470


สู่ศาสตร์แห่งการสเกลระบบเอเจนต์ / Towards a Science of Scaling Agent Systems

แนะนำงานวิจัย

ระบบที่อิงเอเจนต์และภาษาโมเดลกำลังมีบทบาทสำคัญมากขึ้นเรื่อย ๆ ในแอปพลิเคชันปัญญาประดิษฐ์จริง แต่หลักการที่กำหนดประสิทธิภาพของระบบเหล่านี้ยังไม่ได้รับการสำรวจอย่างเพียงพอ งานวิจัยนี้มุ่งแก้ช่องว่างดังกล่าวด้วยการสกัดหลักการการสเกลเชิงปริมาณของระบบเอเจนต์ เพื่อช่วยให้ผู้ปฏิบัติงานสามารถตัดสินใจออกแบบบนพื้นฐานของหลักการ แทนที่จะพึ่งพาวิธีการเชิงประสบการณ์เพียงอย่างเดียว การศึกษานี้ดำเนินการบนเบนช์มาร์กที่หลากหลาย 4 ชุด ได้แก่ Finance-Agent, BrowseComp-Plus, PlanCraft และ Workbench โดยประเมินแบบควบคุมทั้งหมด 180 คอนฟิกูเรชัน ด้วยการนำสถาปัตยกรรมต้นแบบ 5 แบบ (เดี่ยว, อิสระ, รวมศูนย์, กระจาย, ไฮบริด) ไปใช้กับตระกูลภาษาโมเดล 3 ตระกูล

หัวใจสำคัญของงานนี้คือการใช้เมตริกการประสานเชิงประจักษ์เพื่อสร้างโมเดลพยากรณ์ โมเดลนี้คำนึงถึงปัจจัยหลากหลาย เช่น ประสิทธิภาพ ภาระส่วนเกิน การขยายความผิดพลาด และความซ้ำซ้อน และทำค่า cross-validated R² ได้ 0.513 งานวิจัยนี้ระบุผลสำคัญได้ 3 ประการ ประการแรกคือ trade-off ระหว่างเครื่องมือกับการประสาน ซึ่งหมายความว่างานที่พึ่งพาเครื่องมือภายใต้งบประมาณการคำนวณคงที่ จะได้รับผลกระทบอย่างไม่สมส่วนจากภาระส่วนเกินของ multi-agent ประการที่สองคือปรากฏการณ์ความอิ่มตัวของความสามารถ ซึ่งแสดงให้เห็นว่าเมื่อประสิทธิภาพของเอเจนต์เดี่ยวสูงเกินประมาณ 45% การประสานจะลดลงหรือให้ผลตอบแทนติดลบ ประการที่สามคือการขยายความผิดพลาดที่ขึ้นกับโทโพโลยี โดยเอเจนต์อิสระขยายความผิดพลาดได้ถึง 17.2 เท่า ขณะที่การประสานแบบรวมศูนย์จำกัดไว้ที่ 4.4 เท่า

การประสานแบบรวมศูนย์ช่วยเพิ่มประสิทธิภาพได้ 80.9% ในงานที่ขนานได้ เช่น การให้เหตุผลด้านการเงิน ขณะที่การประสานแบบกระจายทำผลงานได้ค่อนข้างดีกว่าในงานท่องเว็บแบบไดนามิก อย่างไรก็ตาม ในงานให้เหตุผลแบบลำดับ ทุกแบบแปรของ multi-agent กลับทำให้ประสิทธิภาพลดลง 39-70% ข้อค้นพบเหล่านี้มีส่วนสำคัญต่อการพยากรณ์ประสิทธิภาพของระบบเอเจนต์และการเสนอแนะกลยุทธ์การประสานที่เหมาะสมที่สุด โดยให้หลักการเชิงพยากรณ์ที่อิงกับลักษณะของงานแบบ agentic งานวิจัยนี้วางรากฐานให้ผู้ปฏิบัติงานสามารถออกแบบและเพิ่มประสิทธิภาพระบบได้อย่างมีประสิทธิผลมากขึ้น ด้วยการสกัดหลักการการสเกลของระบบเอเจนต์ออกมาในเชิงปริมาณ

บทคัดย่อ(Abstract)

เอเจนต์ ซึ่งเป็นระบบที่อิงกับ language model (LM) และสามารถให้เหตุผล วางแผน และลงมือทำได้ กำลังกลายเป็นกระบวนทัศน์หลักของแอปพลิเคชัน AI ในโลกจริง แม้จะมีการนำไปใช้อย่างแพร่หลาย แต่หลักการที่กำหนดประสิทธิภาพของระบบเหล่านี้ยังไม่ได้รับการสำรวจอย่างเพียงพอ ทำให้ผู้ปฏิบัติงานต้องพึ่งพา heuristic มากกว่าการตัดสินใจออกแบบอย่างมีหลักการ เราแก้ปัญหาช่องว่างนี้ด้วยการสกัดหลักการสเกลเชิงปริมาณสำหรับระบบเอเจนต์ เราประเมินสิ่งนี้บนเบนช์มาร์กที่หลากหลาย 4 ชุด ได้แก่ Finance-Agent, BrowseComp-Plus, PlanCraft และ Workbench โดยใช้อาร์กิเทคเจอร์มาตรฐาน 5 แบบ (Single, Independent, Centralized, Decentralized, Hybrid) ที่ติดตั้งใช้งานบนตระกูล LLM 3 ตระกูล เราดำเนินการประเมินแบบควบคุมครอบคลุม 180 คอนฟิกูเรชันด้วยเครื่องมือและงบประมาณโทเค็นที่เป็นมาตรฐาน เราสร้างโมเดลเชิงพยากรณ์โดยใช้เมตริกเชิงประจักษ์ด้านการประสานงาน รวมถึงประสิทธิภาพ โอเวอร์เฮด การขยายความผิดพลาด และความซ้ำซ้อน ซึ่งให้ค่า $R^2=0.513$ จากการทำ cross-validation เราระบุผลหลักได้ 3 ประการ: (1) trade-off ระหว่างเครื่องมือกับการประสานงาน: ภายใต้งบประมาณการคำนวณคงที่ งานที่ใช้เครื่องมือมากจะได้รับผลกระทบจากโอเวอร์เฮดของ multi-agent อย่างไม่เป็นสัดส่วน (2) การอิ่มตัวของความสามารถ: การประสานงานให้ผลตอบแทนลดลงหรือให้ผลลบ (beta=-0.408, p<0.001) เมื่อ baseline ของ single-agent สูงเกินประมาณ 45% (3) การขยายความผิดพลาดที่ขึ้นกับโทโพโลยี: เอเจนต์แบบอิสระขยายความผิดพลาด 17.2 เท่าผ่านการแพร่กระจายที่ไม่ถูกควบคุม ขณะที่การประสานงานแบบรวมศูนย์จำกัดสิ่งนี้ไว้ที่ 4.4 เท่า การประสานงานแบบรวมศูนย์ช่วยเพิ่มประสิทธิภาพได้ 80.9% ในงานที่ทำแบบขนานได้ เช่น การให้เหตุผลทางการเงิน ขณะที่การประสานงานแบบกระจายศูนย์ทำได้ดีกว่าในงานนำทางเว็บแบบไดนามิก (+9.2% เทียบกับ +0.2%) อย่างไรก็ตาม สำหรับงานให้เหตุผลแบบลำดับ ตัวแปร multi-agent ทั้งหมดกลับทำให้ประสิทธิภาพลดลง 39-70% เฟรมเวิร์กนี้สามารถทำนายกลยุทธ์การประสานงานที่เหมาะสมที่สุดสำหรับ 87% ของคอนฟิกูเรชันที่กันไว้ทดสอบ โดยมอบหลักการเชิงพยากรณ์ของ agentic scaling ที่อิงจากคุณสมบัติของงานที่วัดได้
> Agents, language model (LM)-based systems that are capable of reasoning, planning, and acting are becoming the dominant paradigm for real-world AI applications. Despite this widespread adoption, the principles that determine their performance remain underexplored, leaving practitioners to rely on heuristics rather than principled design choices. We address this gap by deriving quantitative scaling principles for agent systems. We evaluate this across four diverse benchmarks: Finance-Agent, BrowseComp-Plus, PlanCraft, and Workbench. Using five canonical architectures (Single, Independent, Centralized, Decentralized, Hybrid) instantiated across three LLM families, we perform a controlled evaluation spanning 180 configurations with standardized tools and token budgets. We derive a predictive model using empirical coordination metrics, including efficiency, overhead, error amplification, and redundancy, that achieves cross-validated $R^2=0.513$. We identify three dominant effects: (1) a tool-coordination trade-off: under fixed computational budgets, tool-heavy tasks suffer disproportionately from multi-agent overhead. (2) a capability saturation: coordination yields diminishing or negative returns (beta=-0.408, p<0.001) once single-agent baselines exceed ~45%. (3) topology-dependent error amplification: independent agents amplify errors 17.2x through unchecked propagation, while centralized coordination contains this to 4.4x. Centralized coordination improves performance by 80.9% on parallelizable tasks like financial reasoning, while decentralized coordination excels on dynamic web navigation (+9.2% vs. +0.2%). Yet for sequential reasoning tasks, all multi-agent variants degraded performance by 39-70%. The framework predicts the optimal coordination strategy for 87% of held-out configurations, providing a predictive principle of agentic scaling based on measurable task properties.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2512.08296


LMCache: เลเยอร์ KV cache ที่มีประสิทธิภาพสำหรับการอนุมาน LLM ระดับองค์กร / LMCache: An Efficient KV Cache Layer for Enterprise-Scale LLM Inference

แนะนำงานวิจัย

มีการเสนอ LMCache เป็นแนวทางใหม่เพื่อเพิ่มประสิทธิภาพของการอนุมาน large language model (LLM) โดยตามปกติแล้ว KV cache จะถูกเก็บไว้ในหน่วยความจำ GPU เพื่อเร่งขั้นตอนการ decoding ของ LLM แต่ล่าสุดปริมาณ KV cache ที่ผู้ใช้จัดเก็บเริ่มเกินขีดความสามารถของหน่วยความจำ GPU แล้ว ในบริบทนี้ LMCache ได้กลายเป็นโซลูชันโอเพนซอร์สตัวแรกที่ย้าย KV cache ออกไปไว้นอก GPU และทำให้สามารถนำกลับมาใช้ซ้ำได้ระหว่างคำขอที่ต่างกันและเอนจินอนุมานที่ต่างกัน

ความสามารถหลักของ LMCache คือการรองรับ cache offloading และการกระจาย prefill-decode (PD) สิ่งนี้ช่วยให้สามารถนำ prefix กลับมาใช้ซ้ำข้ามคำขอได้ และทำให้การส่งผ่าน cache ระหว่าง GPU ต่าง ๆ เป็นไปได้ง่ายขึ้น LMCache เพิ่มประสิทธิภาพสูงสุดผ่าน 3 ส่วนสำคัญ ประการแรก มีการปรับแต่งการเคลื่อนย้ายข้อมูล KV cache ผ่านงานย้ายข้อมูลแบบแบตช์ รวมถึงการทำ pipelining ของการคำนวณและอินพุต/เอาต์พุต (I/O) ประการที่สอง มีการนำ modular KV cache connector มาใช้ เพื่อให้รองรับพัฒนาการของเอนจินอนุมานที่หลากหลายได้อย่างยืดหยุ่น ประการที่สาม มีการจัดเตรียม first-class control API สำหรับการประสาน cache ระหว่างชั้น GPU, CPU, storage และ network เพื่อมอบความยืดหยุ่นให้แก่ผู้ใช้

เมื่อทำงานร่วมกับ vLLM นั้น LMCache แสดงให้เห็นว่าช่วยเพิ่ม throughput ได้สูงสุดถึง 15 เท่าในงานหลากหลาย เช่น การถามตอบหลายรอบและการวิเคราะห์เอกสาร จากกรณีการใช้งานจริงยังยืนยันได้ว่าการดึง KV cache จาก remote storage มีประสิทธิภาพในการลด prefill latency และยังให้ข้อค้นพบสำคัญด้วยว่าเทคนิค context truncation ที่ใช้กันอย่างแพร่หลายในอุตสาหกรรมอาจทำให้อัตรา prefix cache hit ลดลงเหลือเพียงครึ่งหนึ่ง

โดยสรุป LMCache เป็นโซลูชันเชิงนวัตกรรมที่ช่วยเพิ่มประสิทธิภาพของการอนุมาน LLM ได้อย่างมาก และคาดว่าจะมีส่วนช่วยต่อหลายอุตสาหกรรมผ่านการนำไปใช้ในวงกว้างในสภาพแวดล้อมระดับองค์กร สิ่งนี้กำลังเปลี่ยนเอนจิน LLM ให้กลายเป็นระบบนิเวศของการประมวลผลแบบกระจายและการจัดเก็บข้อมูล และยังชี้ให้เห็นถึงความเป็นไปได้ที่ข้อมูล AI-native จะกลายเป็นรากฐานของการอนุมาน LLM ในอนาคต

บทคัดย่อ (Abstract)

โดยปกติแล้ว KV cache จะถูกเก็บไว้ในหน่วยความจำ GPU เพื่อเร่งขั้นตอนการถอดรหัสของการทำ inference ใน large language model (LLM) อย่างไรก็ตาม ความจำเป็นในการย้าย KV cache ออกนอกอุปกรณ์ GPU เพิ่มมากขึ้นเรื่อย ๆ เพื่อให้สามารถนำแคชกลับมาใช้ซ้ำข้ามคำสั่งค้นหาที่ต่างกันและข้าม inference engine ได้ สถิติการใช้งานจริงของเรายืนยันแนวโน้มนี้: เมื่อเวลาผ่านไป ปริมาณ KV cache ทั้งหมดที่ผู้ใช้จัดเก็บเพิ่มขึ้นอย่างรวดเร็ว จนเกินความจุของหน่วยความจำ GPU ไปมาก แม้จะมีความต้องการนี้ แต่ก็ยังขาดโซลูชันที่มีประสิทธิภาพสำหรับการ offload และถ่ายโอน KV cache เราขอเสนอ LMCACHE ซึ่งเป็นโซลูชัน KV caching แบบโอเพนซอร์สตัวแรกและจนถึงขณะนี้มีประสิทธิภาพสูงที่สุด โดยดึงและจัดเก็บ KV cache ที่สร้างจาก LLM engine สมัยใหม่ (vLLM และ SGLang) ออกมานอกหน่วยความจำ GPU และแบ่งปันข้าม engine และข้ามคำสั่งค้นหาได้ LMCACHE รองรับทั้ง cache offloading (การนำ prefix กลับมาใช้ซ้ำข้ามคำสั่งค้นหา) และการแยกส่วน prefill-decode (PD) (การถ่ายโอนแคชข้าม engine/GPU) ประสิทธิภาพสูงและการยอมรับอย่างกว้างขวางของ LMCACHE มาจากองค์ประกอบสำคัญดังนี้: (1) การเคลื่อนย้ายข้อมูล KV cache ที่ปรับแต่งมาอย่างดี โดยอาศัยการย้ายข้อมูลแบบแบตช์ การทำ pipelining ของ compute และ I/O; (2) คอมโพเนนต์ตัวเชื่อมต่อ KV cache แบบโมดูลาร์ ที่แยก LMCACHE ออกจากการพัฒนาอย่างรวดเร็วของ inference engine; (3) first-class control API สำหรับการจัดการแคชอย่างยืดหยุ่นระหว่างชั้น GPU, CPU, storage และ network การประเมินของเราแสดงให้เห็นว่าเมื่อใช้ LMCACHE ร่วมกับ vLLM จะเพิ่ม throughput ได้สูงสุดถึง 15 เท่าในงานอย่างการตอบคำถามหลายรอบและการวิเคราะห์เอกสาร การนำ LMCACHE ไปใช้ในระดับใหญ่ในองค์กรยังให้ข้อมูลเชิงลึกที่มีคุณค่าแก่เรา เช่น การดึง KV cache จาก remote storage ให้ประโยชน์ต่อ prefill delay อย่างแน่นอน และ context truncation ซึ่งเป็นเทคนิคที่ใช้กันอย่างแพร่หลายในอุตสาหกรรม สามารถลดอัตรา prefix cache hit ลงได้มากถึงครึ่งหนึ่ง ซอร์สโค้ดของ LMCACHE ดูได้ที่ลิงก์ต่อไปนี้: https://github.com/LMCache/LMCache.
> โดยปกติแล้ว KV cache จะถูกเก็บไว้ในหน่วยความจำ GPU เพื่อเร่งขั้นตอนการถอดรหัสของการทำ inference ใน large language model (LLM) อย่างไรก็ตาม ความจำเป็นในการย้าย KV cache ออกนอกอุปกรณ์ GPU เพิ่มมากขึ้นเรื่อย ๆ เพื่อให้สามารถนำแคชกลับมาใช้ซ้ำข้ามคำสั่งค้นหาที่ต่างกันและข้าม inference engine ได้ สถิติการใช้งานจริงของเรายืนยันแนวโน้มนี้: เมื่อเวลาผ่านไป ปริมาณ KV cache ทั้งหมดที่ผู้ใช้จัดเก็บเพิ่มขึ้นอย่างรวดเร็ว จนเกินความจุของหน่วยความจำ GPU ไปมาก แม้จะมีความต้องการนี้ แต่ก็ยังขาดโซลูชันที่มีประสิทธิภาพสำหรับการ offload และถ่ายโอน KV cache เราขอเสนอ LMCACHE ซึ่งเป็นโซลูชัน KV caching แบบโอเพนซอร์สตัวแรกและจนถึงขณะนี้มีประสิทธิภาพสูงที่สุด โดยดึงและจัดเก็บ KV cache ที่สร้างจาก LLM engine สมัยใหม่ (vLLM และ SGLang) ออกมานอกหน่วยความจำ GPU และแบ่งปันข้าม engine และข้ามคำสั่งค้นหาได้ LMCACHE รองรับทั้ง cache offloading (การนำ prefix กลับมาใช้ซ้ำข้ามคำสั่งค้นหา) และ prefill-decode (PD) disaggregation (การถ่ายโอนแคชข้าม engine/GPU) ประสิทธิภาพสูงและการยอมรับอย่างกว้างขวางของ LMCACHE มาจากองค์ประกอบสำคัญดังนี้: (1) การเคลื่อนย้ายข้อมูล KV cache ที่ปรับแต่งมาอย่างดี โดยอาศัยการย้ายข้อมูลแบบแบตช์ การทำ pipelining ของ compute และ I/O; (2) คอมโพเนนต์ตัวเชื่อมต่อ KV cache แบบโมดูลาร์ ที่แยก LMCACHE ออกจากการพัฒนาอย่างรวดเร็วของ inference engine; (3) first-class control API สำหรับการจัดการแคชอย่างยืดหยุ่นระหว่างชั้น GPU, CPU, storage และ network การประเมินของเราแสดงให้เห็นว่าเมื่อใช้ LMCACHE ร่วมกับ vLLM จะเพิ่ม throughput ได้สูงสุดถึง 15 เท่าในงานอย่างการตอบคำถามหลายรอบและการวิเคราะห์เอกสาร การนำ LMCACHE ไปใช้ในระดับใหญ่ในองค์กรทำให้เราได้ข้อมูลเชิงลึกที่มีคุณค่า เช่น การดึง KV cache จาก remote storage มีประโยชน์ต่อ prefill delay ตามคาด และ context truncation ซึ่งเป็นเทคนิคที่ใช้กันอย่างแพร่หลายในอุตสาหกรรม สามารถลดอัตรา prefix cache hit ลงได้มากถึงครึ่งหนึ่ง ซอร์สโค้ดของ LMCACHE อยู่ที่: https://github.com/LMCache/LMCache.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2510.09665

อ่านเพิ่มเติม

https://github.com/LMCache/LMCache

https://discuss.pytorch.kr/t/lmcache-llm/7179


ReFusion: โมเดลภาษาขนาดใหญ่แบบดิฟฟิวชันที่มีการถอดรหัสอัตถวิภาวนิยมแบบขนาน / ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding

แนะนำงานวิจัย

ReFusion เป็น masked diffusion model แนวใหม่ที่ใช้การถอดรหัสอัตถวิภาวนิยมแบบขนาน โดยออกแบบมาเพื่อก้าวข้ามข้อจำกัดของทั้ง autoregressive model (ARM) แบบเดิมและ masked diffusion model (MDM) ARMs แบบดั้งเดิมมีความเร็วในการทำ inference ช้าเนื่องจากการถอดรหัสแบบลำดับ ขณะที่ MDMs แม้จะตั้งอยู่บนสมมติฐานของ conditional independence แต่กลับมีประสิทธิภาพลดลงจากคอขวดด้านสถาปัตยกรรมและปัญหาการสร้างผลลัพธ์ที่ไม่สอดคล้องกัน ReFusion แก้ปัญหาเหล่านี้ด้วยการยกระดับการถอดรหัสแบบขนานไปสู่ระดับสล็อต ซึ่งทำผ่านสล็อตที่เป็นลำดับย่อยต่อเนื่องความยาวคงที่

หัวใจสำคัญของ ReFusion คือกระบวนการถอดรหัสแบบ "plan-and-infill" ในกระบวนการนี้ ขั้นแรกคือการระบุสล็อตที่มีการพึ่งพากันเพียงเล็กน้อย และในขั้นที่สองจะถอดรหัสสล็อตเหล่านี้แบบขนาน การออกแบบบนพื้นฐานสล็อตนี้ทำให้สามารถนำ Key-Value (KV) cache กลับมาใช้ซ้ำได้ จึงไม่จำเป็นต้องคำนวณสถานะ KV ของบริบททั้งหมดใหม่ทุกครั้ง ส่งผลให้ความซับซ้อนในการฝึกลดลงจากพื้นที่การจัด组合ของโทเค็นเหลือเพียงพื้นที่การเรียงสับเปลี่ยนระดับสล็อต ทำให้ประสิทธิภาพดีขึ้นอย่างมาก

ผลการทดลองแสดงให้เห็นว่า ReFusion ให้ประสิทธิภาพดีขึ้น 34% เมื่อเทียบกับ MDMs รุ่นก่อนหน้า และเพิ่มความเร็วได้เฉลี่ย 18 เท่า อีกทั้งยังลดช่องว่างด้านประสิทธิภาพเมื่อเทียบกับ ARMs ที่ทรงพลัง และทำความเร็วได้เพิ่มขึ้นเฉลี่ย 2.33 เท่า ผลลัพธ์เหล่านี้ชี้ว่า ReFusion สามารถก้าวข้ามข้อจำกัดของโมเดลเดิม และเปิดให้เห็นความเป็นไปได้ใหม่ ๆ ของ diffusion model

ReFusion มีส่วนช่วยเชิงนวัตกรรมทั้งด้านประสิทธิภาพและความเร็วผ่านการนำ KV cache กลับมาใช้ซ้ำและการลดความซับซ้อนของการฝึก พร้อมทั้งมอบข้อมูลเชิงลึกสำคัญสำหรับทิศทางการวิจัยในอนาคต คาดว่าโมเดลนี้จะมีส่วนช่วยต่อพัฒนาการของ large language model ด้วยการผสานข้อดีของ diffusion model และ autoregressive model เข้าด้วยกัน

บทคัดย่อ(Abstract)

โมเดลอัตถดถอยเชิงเวลา (ARMs) ถูกจำกัดด้วยการอนุมานแบบลำดับที่ช้า ขณะที่ masked diffusion models (MDMs) เสนอทางเลือกแบบขนาน แต่ก็มีข้อเสียสำคัญ ได้แก่ โอเวอร์เฮดในการคำนวณที่สูงจากการไม่ใช้ Key-Value (KV) caching และการสร้างผลลัพธ์ที่ไม่สอดคล้องกันอันเกิดจากการเรียนรู้ความพึ่งพาในพื้นที่ของการจัดชุดโทเค็นที่จัดการไม่ได้ เพื่อแก้ข้อจำกัดเหล่านี้ เราขอแนะนำ ReFusion ซึ่งเป็น masked diffusion model แบบใหม่ที่บรรลุทั้งประสิทธิภาพและความเร็วที่เหนือกว่าด้วยการยกระดับการถอดรหัสแบบขนานจากระดับโทเค็นไปสู่ระดับสล็อตที่สูงกว่า โดยแต่ละสล็อตเป็นลำดับย่อยต่อเนื่องที่มีความยาวคงที่ สิ่งนี้ทำได้ผ่านกระบวนการถอดรหัสแบบวนซ้ำ “plan-and-infill”: ขั้นวางแผนที่อาศัย diffusion จะระบุชุดของสล็อตที่พึ่งพากันอย่างหลวม ๆ ก่อน จากนั้นขั้น infilling แบบอัตถดถอยเชิงเวลาจะถอดรหัสสล็อตที่เลือกเหล่านี้แบบขนาน การออกแบบแบบอิงสล็อตช่วยเปิดให้สามารถนำ KV cache กลับมาใช้ซ้ำได้ทั้งหมดภายใต้กรอบเชิงเหตุเดียวกัน พร้อมทั้งลดความซับซ้อนของการเรียนรู้จากพื้นที่การจัดชุดโทเค็นลงสู่พื้นที่การเรียงสับเปลี่ยนระดับสล็อตที่จัดการได้ ผลการทดลองอย่างกว้างขวางบนเบนช์มาร์กที่หลากหลาย 7 ชุดแสดงให้เห็นว่า ReFusion ไม่เพียงเหนือกว่า MDMs ก่อนหน้าอย่างชัดเจนด้วยประสิทธิภาพที่ดีขึ้น 34% และความเร็วเฉลี่ยมากกว่า 18 เท่า แต่ยังลดช่องว่างด้านประสิทธิภาพเมื่อเทียบกับ ARMs ที่แข็งแกร่งได้ ขณะยังคงมีความเร็วเฉลี่ยสูงกว่า 2.33 เท่า
> Autoregressive models (ARMs) are hindered by slow sequential inference. While masked diffusion models (MDMs) offer a parallel alternative, they suffer from critical drawbacks: high computational overhead from precluding Key-Value (KV) caching, and incoherent generation arising from learning dependencies over an intractable space of token combinations. To address these limitations, we introduce ReFusion, a novel masked diffusion model that achieves superior performance and efficiency by elevating parallel decoding from the token level to a higher slot level, where each slot is a fixed-length, contiguous sub-sequence. This is achieved through an iterative ``plan-and-infill'' decoding process: a diffusion-based planning step first identifies a set of weakly dependent slots, and an autoregressive infilling step then decodes these selected slots in parallel. The slot-based design simultaneously unlocks full KV cache reuse with a unified causal framework and reduces the learning complexity from the token combination space to a manageable slot-level permutation space. Extensive experiments on seven diverse benchmarks show that ReFusion not only overwhelmingly surpasses prior MDMs with 34% performance gains and an over 18$\times$ speedup on average, but also bridges the performance gap to strong ARMs while maintaining a 2.33$\times$ average speedup.

ลิงก์งานวิจัย

https://arxiv.org/abs/2512.13586

อ่านเพิ่มเติม

https://github.com/ML-GSAI/ReFusion

https://huggingface.co/GSAI-ML/ReFusion


แนวทางการพรีเทรนที่ขยายขนาดได้สำหรับการสร้าง visual tokenizer / Towards Scalable Pre-training of Visual Tokenizers for Generation

แนะนำงานวิจัย

คุณภาพของ latent space ใน visual tokenizer ส่งผลอย่างมีนัยสำคัญต่อประสิทธิภาพของโมเดลสร้างสมัยใหม่ อย่างไรก็ตาม วิธีการเรียนรู้แบบอิงการสร้างกลับคืนเดิมที่มีอยู่สร้าง latent space ที่เอนเอียงไปทางข้อมูลระดับต่ำ ซึ่งก่อให้เกิดปัญหาว่าความแม่นยำระดับพิกเซลที่ดีกว่าไม่ได้รับประกันการสร้างที่มีคุณภาพสูงกว่าเสมอไป ปรากฏการณ์นี้ถูกนิยามว่าเป็น “ปัญหาการสเกลของการพรีเทรน” และชี้ให้เห็นถึงความจำเป็นที่ latent space สำหรับโมเดลสร้างที่มีประสิทธิภาพต้องแทนความหมายระดับสูงอย่างกระชับ

ในการศึกษานี้ ผู้วิจัยเสนอกรอบการพรีเทรน visual tokenizer แบบบูรณาการใหม่ชื่อ VTP (Visual Tokenizer Pre-training) โดย VTP ใช้แนวทางใหม่ในการปรับให้เหมาะร่วมกันระหว่าง image-text contrast, self-supervised learning และ reconstruction loss ซึ่งช่วยยกระดับประสิทธิภาพในการสร้าง จากการศึกษาขนาดใหญ่ พบข้อค้นพบสำคัญสองประการ ประการแรก ยืนยันได้ว่าความเข้าใจเชิงความหมายคือแรงขับเคลื่อนหลักของการสร้าง และประการที่สอง VTP แสดงคุณสมบัติการสเกลที่ยอดเยี่ยม โดยประสิทธิภาพการสร้างดีขึ้นอย่างมีประสิทธิผลตามทรัพยากรการคำนวณ พารามิเตอร์ของโมเดล และขนาดข้อมูล

VTP ทำได้ถึง zero-shot accuracy 78.2% และ rFID 0.36 บน ImageNet พร้อมอัตราการลู่เข้าที่เร็วกว่า 4.1 เท่าเมื่อเทียบกับวิธีการ distillation ขั้นสูงก่อนหน้า นอกจากนี้ VTP ยังปรับปรุง FID สำหรับงานสร้างปลายทางได้ 65.8% เพียงแค่ลงทุน FLOPS ในการพรีเทรนมากขึ้น โดยไม่ต้องแก้ไขสเปกการฝึก DiT มาตรฐานเลย ผลลัพธ์เหล่านี้แสดงให้เห็นว่า VTP ให้ประสิทธิภาพเหนือกว่าวิธีออโตเอนโค้ดเดอร์แบบดั้งเดิม และมีศักยภาพที่จะเป็นโมเดลที่ขยายขนาดได้

โดยสรุป VTP มีส่วนช่วยแก้ปัญหาการสเกลของการพรีเทรน visual tokenizer และสร้างความสัมพันธ์ที่แข็งแกร่งระหว่างความเข้าใจของ latent space กับความสามารถในการสร้าง งานวิจัยนี้นำเสนอทิศทางใหม่สำหรับการยกระดับประสิทธิภาพของโมเดลสร้าง และอาจถูกใช้เป็นพื้นฐานสำคัญสำหรับการวิจัยในอนาคต

บทคัดย่อ (Abstract)

คุณภาพของ latent space ใน visual tokenizer (เช่น VAE) มีความสำคัญอย่างยิ่งต่อโมเดลเชิงกำเนิดสมัยใหม่ อย่างไรก็ตาม กระบวนทัศน์การฝึกแบบอิงการสร้างกลับมาตรฐานจะสร้าง latent space ที่เอนเอียงไปทางข้อมูลระดับต่ำ ซึ่งนำไปสู่ข้อบกพร่องพื้นฐาน: ความแม่นยำระดับพิกเซลที่ดีกว่าไม่ได้ทำให้การสร้างมีคุณภาพสูงขึ้น ซึ่งหมายความว่าการทุ่มทรัพยากรคอมพิวต์จำนวนมากไปกับการ pre-train visual tokenizer ไม่ได้แปลว่าจะช่วยยกระดับประสิทธิภาพการสร้างได้มากนัก เราเรียกสิ่งนี้ว่า "ปัญหาการสเกลของการ pre-train" และเสนอว่าหากต้องการให้มีประสิทธิภาพต่อการสร้าง latent space ต้องสามารถแทนความหมายระดับสูงได้อย่างกระชับ เรานำเสนอ VTP ซึ่งเป็นเฟรมเวิร์กการ pre-train visual tokenizer แบบรวมศูนย์ ที่บุกเบิกการปรับให้เหมาะสมร่วมกันของ image-text contrastive, self-supervised และ reconstruction losses การศึกษาขนาดใหญ่ของเราเผยให้เห็นข้อค้นพบหลักสองประการ: (1) ความสามารถด้านความเข้าใจคือแรงขับเคลื่อนสำคัญของการสร้าง และ (2) ประสิทธิภาพการสร้างมีคุณสมบัติการสเกลที่ดีกว่ามาก โดยสามารถสเกลตามคอมพิวต์ พารามิเตอร์ และข้อมูลที่จัดสรรให้กับการ pre-train ของ visual tokenizer ได้อย่างมีประสิทธิภาพ หลังการ pre-train ขนาดใหญ่ tokenizer ของเราให้โปรไฟล์ที่แข่งขันได้ (zero-shot accuracy 78.2 และ rFID 0.36 บน ImageNet) และคอนเวอร์จเร็วกว่า 4.1 เท่าในการสร้างเมื่อเทียบกับวิธี distillation ขั้นสูง ที่สำคัญกว่านั้นคือมันสเกลได้อย่างมีประสิทธิภาพ: โดยไม่ต้องแก้ไขสเปกการฝึก DiT มาตรฐาน เพียงแค่ลงทุน FLOPS เพิ่มขึ้นในการ pre-train VTP ก็สามารถทำให้ FID ของงานสร้างปลายน้ำดีขึ้น 65.8% ขณะที่ออโตเอนโค้ดเดอร์แบบดั้งเดิมหยุดพัฒนาเร็วมากตั้งแต่ที่ 1/10 FLOPS โมเดลที่ pre-train แล้วของเราสามารถใช้งานได้ที่ https://github.com/MiniMax-AI/VTP
> The quality of the latent space in visual tokenizers (e.g., VAEs) is crucial for modern generative models. However, the standard reconstruction-based training paradigm produces a latent space that is biased towards low-level information, leading to a foundation flaw: better pixel-level accuracy does not lead to higher-quality generation. This implies that pouring extensive compute into visual tokenizer pre-training translates poorly to improved performance in generation. We identify this as the pre-training scaling problem and suggest a necessary shift: to be effective for generation, a latent space must concisely represent high-level semantics. We present VTP, a unified visual tokenizer pre-training framework, pioneering the joint optimization of image-text contrastive, self-supervised, and reconstruction losses. Our large-scale study reveals two principal findings: (1) understanding is a key driver of generation, and (2) much better scaling properties, where generative performance scales effectively with compute, parameters, and data allocated to the pretraining of the visual tokenizer. After large-scale pre-training, our tokenizer delivers a competitive profile (78.2 zero-shot accuracy and 0.36 rFID on ImageNet) and 4.1 times faster convergence on generation compared to advanced distillation methods. More importantly, it scales effectively: without modifying standard DiT training specs, solely investing more FLOPS in pretraining VTP achieves 65.8% FID improvement in downstream generation, while conventional autoencoder stagnates very early at 1/10 FLOPS. Our pre-trained models are available at https://github.com/MiniMax-AI/VTP.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2512.13687

อ่านเพิ่มเติม

https://github.com/MiniMax-AI/VTP


CLaRa: การเชื่อมการค้นคืนและการสร้างด้วยการให้เหตุผลใน latent space แบบต่อเนื่อง / CLaRa: Bridging Retrieval and Generation with Continuous Latent Reasoning

แนะนำงานวิจัย

CLaRa (Continuous Latent Reasoning) เป็นเฟรมเวิร์กนวัตกรรมที่พัฒนาขึ้นเพื่อก้าวข้ามข้อจำกัดของระบบ Retrieval-augmented generation (RAG) แนวทาง RAG แบบเดิมมีปัญหาในการจัดการบริบทยาว และยังมีข้อจำกัดด้านประสิทธิภาพเนื่องจากการปรับให้เหมาะสมของส่วนค้นคืนและส่วนสร้างถูกแยกออกจากกัน เพื่อแก้ปัญหาเหล่านี้ CLaRa จึงเสนอวิธีวิทยาใหม่ที่รวมการค้นคืนและการสร้างเข้าด้วยกัน ผ่านการบีบอัดแบบอิง embedding และการปรับให้เหมาะสมร่วมกันในพื้นที่ต่อเนื่องที่ใช้ร่วมกัน

หนึ่งในองค์ประกอบหลักของ CLaRa คือ SCP (การสังเคราะห์ข้อมูลแบบรักษาคีย์) ซึ่งใช้คำถาม-คำตอบ (QA) และการถอดความ (supervision) เพื่อสร้างเวกเตอร์บีบอัดที่มีความหมายเชิงความหมายสูงและสามารถค้นคืนได้ กระบวนการนี้ช่วยเพิ่มความแม่นยำของการค้นคืน โดยยังคงรักษาความหลากหลายและคุณภาพของข้อมูลไว้ จากนั้น CLaRa จะฝึก reranker และ generator แบบ end-to-end ด้วย language modeling loss เดียว ทำให้การไหลของกราเดียนต์ระหว่างสองโมดูลนี้ถูกปรับให้เหมาะสม แนวทางการปรับให้เหมาะสมแบบบูรณาการนี้มีบทบาทสำคัญในการทำให้ความเกี่ยวข้องของการค้นคืนสอดคล้องกับคุณภาพของคำตอบที่สร้างขึ้น

จากผลการทดลอง CLaRa แสดงสมรรถนะด้านการบีบอัดและการจัดอันดับใหม่ระดับล้ำสมัยที่เหนือกว่าวิธีแบบอิงข้อความเดิมบนเบนช์มาร์กคำถาม-คำตอบ (QA) หลายชุด โดยเฉพาะอย่างยิ่ง CLaRa ให้ผลลัพธ์ที่ได้เปรียบในการจัดการบริบทยาวอย่างมีประสิทธิภาพ ซึ่งพิสูจน์ได้ว่าแนวทางการปรับให้เหมาะสมแบบบูรณาการของ CLaRa มีประสิทธิผลจริง ความสำเร็จนี้บ่งชี้ว่า CLaRa มีศักยภาพในการยกระดับประสิทธิภาพของระบบ RAG ได้อย่างมาก

แนวทางของ CLaRa แตกต่างจากงานวิจัย RAG เดิม และในฐานะวิธีแรกที่ปรับให้เหมาะสมทั้งการค้นคืนและการสร้างได้โดยตรง ก็แสดงให้เห็นถึงความเป็นไปได้ในการนำไปประยุกต์ใช้ในหลากหลายสาขา งานวิจัยนี้นำเสนอความเป็นไปได้ใหม่ของระบบ RAG และคาดว่าจะถูกใช้เป็นข้อมูลพื้นฐานสำคัญสำหรับการวิจัยในอนาคต

บทคัดย่อ (Abstract)

การสร้างแบบเสริมด้วยการค้นคืน (RAG) ช่วยเสริมความรู้ภายนอกให้กับโมเดลภาษาขนาดใหญ่ (LLM) แต่ยังคงประสบปัญหาจากบริบทยาวและการปรับให้เหมาะสมของขั้นค้นคืน-สร้างที่แยกจากกัน งานวิจัยนี้นำเสนอ CLaRa (Continuous Latent Reasoning) ซึ่งเป็นเฟรมเวิร์กแบบบูรณาการที่ทำการบีบอัดบนฐานของ embedding และการปรับให้เหมาะสมร่วมกันในปริภูมิต่อเนื่องที่ใช้ร่วมกัน เพื่อให้ได้เวกเตอร์บีบอัดที่มีความหมายเชิงความหมายสูงและค้นคืนได้ ผู้วิจัยได้แนะนำ SCP ซึ่งเป็นเฟรมเวิร์กการสังเคราะห์ข้อมูลแบบคงคีย์ โดยใช้การกำกับด้วย QA และการถอดความ จากนั้น CLaRa จะฝึก reranker และ generator แบบ end-to-end ผ่าน language modeling loss เดียว โดยให้กราเดียนต์ไหลผ่านทั้งสองโมดูลด้วยตัวประมาณค่า top-k ที่หาอนุพันธ์ได้ ในเชิงทฤษฎี การปรับให้เหมาะสมแบบบูรณาการนี้ทำให้ความเกี่ยวข้องของการค้นคืนสอดคล้องกับคุณภาพของคำตอบ ผลการทดลองบนหลาย QA benchmark แสดงให้เห็นว่า CLaRa ทำประสิทธิภาพด้านการบีบอัดและ reranking ได้ล้ำสมัย และมักเหนือกว่า baseline ที่ฟাইনจูนบนข้อความ
> Retrieval-augmented generation (RAG) enhances large language models (LLMs) with external knowledge but still suffers from long contexts and disjoint retrieval-generation optimization. In this work, we propose CLaRa (Continuous Latent Reasoning), a unified framework that performs embedding-based compression and joint optimization in a shared continuous space. To obtain semantically rich and retrievable compressed vectors, we introduce SCP, a key-preserving data synthesis framework using QA and paraphrase supervision. CLaRa then trains the reranker and generator end-to-end via a single language modeling loss, with gradients flowing through both modules using a differentiable top-k estimator. Theoretically, this unified optimization aligns retrieval relevance with answer quality. Experiments across multiple QA benchmarks show that CLaRa achieves state-of-the-art compression and reranking performance, often surpassing text-based fine-tuned baselines.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2511.18659

อ่านเพิ่มเติม

https://github.com/apple/ml-clara


⚠️โฆษณา⚠️: บทความนี้ที่ 🔥ชุมชนผู้ใช้ PyTorch เกาหลี🇰🇷 รวบรวมไว้มีประโยชน์หรือไม่? หาก สมัครสมาชิก เราจะส่งบทความสำคัญทางอีเมล💌ให้คุณ! (ค่าเริ่มต้นคือ Weekly แต่ เปลี่ยนเป็น Daily ได้)

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น