[2025/09/29 ~ 10/05] รวมงานวิจัย AI/ML ที่น่าจับตาในสัปดาห์นี้

PyTorchKR🔥🇰🇷 🤔💭

1️⃣ การยกระดับความถูกต้องและความน่าเชื่อถือของข้อมูล: มีการเสนอแนวทางหลากหลายในหลายงานวิจัยเพื่อเพิ่มความแม่นยำและความน่าเชื่อถือของข้อมูล ตัวอย่างเช่น ใน "Incentive-Aligned Multi-Source LLM Summaries" มีการรับประกันความจริงของข้อมูลผ่านเฟรมเวิร์ก Truthful Text Summarization (TTS) และใน "AgentMaster" มีการใช้ระบบมัลติเอเจนต์เพื่อสนับสนุนการค้นคืนและวิเคราะห์ข้อมูลที่เชื่อถือได้

2️⃣ ความก้าวหน้าของระบบมัลติเอเจนต์: งานวิจัยหลายชิ้นมีการใช้ระบบมัลติเอเจนต์ (MAS, Multi-Agent System) เพิ่มขึ้น ซึ่งช่วยอย่างมากในการแก้ปัญหางานที่ซับซ้อน ในงานวิจัย "TUMIX" และ "AgentMaster" ได้มีการนำเสนอวิธีเพิ่มประสิทธิภาพผ่านความร่วมมือและปฏิสัมพันธ์ระหว่างเอเจนต์โดยใช้เครื่องมือที่หลากหลาย

3️⃣ การฉีดความรู้และการเรียนรู้อย่างต่อเนื่อง: ในงานวิจัย "How to inject knowledge efficiently?" และ "Continual Learning for VLMs" มีการศึกษาวิธีฉีดความรู้เฉพาะโดเมนอย่างมีประสิทธิภาพ และวิธีเรียนรู้อย่างต่อเนื่องจากข้อมูลที่ผิดปกติ งานวิจัยเหล่านี้มุ่งเน้นที่การยกระดับประสิทธิภาพของโมเดลและการป้องกันไม่ให้สูญเสียความรู้เดิม


ARE: การขยายสภาพแวดล้อมและการประเมินของเอเจนต์ / ARE: Scaling Up Agent Environments and Evaluations

แนะนำงานวิจัย

Meta Superintelligence Lab ได้เผยแพร่ Meta Agents Research Environments (ARE) ซึ่งเป็นแพลตฟอร์มวิจัยเชิงนวัตกรรมที่ช่วยเพิ่มความสามารถในการขยายสภาพแวดล้อมของเอเจนต์ รองรับการผสานรวมแอปพลิเคชันสังเคราะห์หรือแอปพลิเคชันจริง และสามารถรันการประสานงานของเอเจนต์ได้ ARE มอบ abstraction ที่เรียบง่ายสำหรับการสร้างสภาพแวดล้อมที่ซับซ้อนและหลากหลาย โดยเปิดให้แต่ละสภาพแวดล้อมมีทั้งกฎ เครื่องมือ เนื้อหา และตัวตรวจสอบของตนเอง ช่วยลดช่องว่างระหว่างการพัฒนาโมเดลกับการนำไปใช้งานจริง

หนึ่งในนวัตกรรมสำคัญของ ARE คือการเปิดตัวเบนช์มาร์กชื่อ Gaia2 Gaia2 ถูกออกแบบมาเพื่อวัดความสามารถทั่วไปของเอเจนต์ และครอบคลุมข้อกำหนดที่ซับซ้อนกว่าการค้นหาและการรันงานแบบง่าย ๆ โดยกำหนดให้เอเจนต์ต้องรับมือกับความกำกวมและสัญญาณรบกวน ปรับตัวเข้ากับสภาพแวดล้อมแบบไดนามิก ร่วมมือกับเอเจนต์อื่น และทำงานภายใต้ข้อจำกัดด้านเวลา โดยเฉพาะอย่างยิ่ง Gaia2 ทำงานแบบ asynchronous ซึ่งเผยให้เห็น failure mode รูปแบบใหม่ที่ไม่สามารถพบได้ในสภาพแวดล้อมแบบคงที่ ทำให้ประเมินประสิทธิภาพของเอเจนต์ได้ละเอียดมากขึ้น

ผลการทดลองแสดงให้เห็นว่าไม่มีระบบใดครองความเหนือกว่าได้ตลอดทั้งสเปกตรัมของสติปัญญา และความสามารถด้านการให้เหตุผลที่แข็งแกร่งกว่ามักต้องแลกมาด้วยประสิทธิภาพที่ลดลง ปรากฏการณ์ที่เส้นโค้งการสเกลงบประมาณเริ่มชะงัก ชี้ให้เห็นถึงความจำเป็นของสถาปัตยกรรมใหม่และกลยุทธ์การคำนวณแบบปรับตัวได้ การค้นพบเหล่านี้ชี้ทิศทางให้กับงานวิจัย AI และย้ำความสำคัญของ ARE และ Gaia2

abstraction ของ ARE ยังช่วยให้สามารถขยาย Gaia2 ไปยังสภาพแวดล้อมอื่นได้อย่างต่อเนื่อง ทำให้ชุมชนนักวิจัยสามารถสร้างเบนช์มาร์กใหม่ที่ปรับให้เข้ากับโดเมนของตนเองได้อย่างรวดเร็ว ความก้าวหน้าของ AI จะยิ่งพึ่งพาการนิยามงานที่มีความหมายและการประเมินที่แข็งแรงมากขึ้น ซึ่งจะเป็นสิ่งที่สามารถทำได้ผ่านความสามารถของ ARE ในบริบทนี้ ARE มอบเครื่องมือที่จำเป็นสำหรับการพัฒนาและประเมินเอเจนต์ และจะมีบทบาทสำคัญในแนวหน้าของงานวิจัย AI

บทคัดย่องานวิจัย (Abstract)

เราขอแนะนำ Meta Agents Research Environments (ARE) ซึ่งเป็นแพลตฟอร์มวิจัยสำหรับการสร้างสภาพแวดล้อมแบบขยายขนาดได้ การผสานรวมแอปพลิเคชันสังเคราะห์หรือแอปพลิเคชันจริง และการรันการประสานงานเชิงเอเจนต์ ARE มอบ abstraction ที่เรียบง่ายสำหรับการสร้างสภาพแวดล้อมที่ซับซ้อนและหลากหลาย ซึ่งแต่ละแห่งมีทั้งกฎ เครื่องมือ เนื้อหา และตัวตรวจสอบของตนเอง ช่วยเชื่อมช่องว่างระหว่างการพัฒนาโมเดลกับการนำไปใช้งานในโลกจริง นอกจากนี้ เรายังเสนอ Gaia2 ซึ่งเป็นเบนช์มาร์กที่สร้างขึ้นบน ARE และออกแบบมาเพื่อวัดความสามารถทั่วไปของเอเจนต์ Gaia2 ไม่ได้จำกัดเพียงการค้นหาและการรันงาน แต่ยังกำหนดให้เอเจนต์ต้องรับมือกับความกำกวมและสัญญาณรบกวน ปรับตัวเข้ากับสภาพแวดล้อมแบบไดนามิก ร่วมมือกับเอเจนต์อื่น และทำงานภายใต้ข้อจำกัดด้านเวลา ต่างจากเบนช์มาร์กก่อนหน้า Gaia2 ทำงานแบบ asynchronous จึงเผยให้เห็น failure mode ใหม่ที่มองไม่เห็นในสภาพแวดล้อมแบบคงที่ ผลการทดลองของเราแสดงให้เห็นว่าไม่มีระบบใดครองความเหนือกว่าได้ตลอดทั้งสเปกตรัมของสติปัญญา: การให้เหตุผลที่แข็งแกร่งกว่ามักต้องแลกมาด้วยประสิทธิภาพที่ลดลง และเส้นโค้งการสเกลตามงบประมาณเริ่มชะงัก ซึ่งตอกย้ำถึงความจำเป็นของสถาปัตยกรรมใหม่และกลยุทธ์การคำนวณแบบปรับตัวได้ บางทีสิ่งที่สำคัญยิ่งกว่านั้นคือ abstraction ของ ARE ช่วยให้สามารถขยาย Gaia2 ไปยังสภาพแวดล้อมอื่นได้อย่างต่อเนื่อง เปิดทางให้ชุมชนสร้างเบนช์มาร์กใหม่ที่ปรับให้เข้ากับโดเมนของตนได้อย่างรวดเร็ว ในช่วงครึ่งหลังของ AI ความก้าวหน้าจะยิ่งขึ้นอยู่กับการนิยามงานที่มีความหมายและการประเมินที่แข็งแรง เพื่อผลักดันความสามารถระดับแนวหน้าให้ก้าวต่อไป

We introduce Meta Agents Research Environments (ARE), a research platform for scalable creation of environments, integration of synthetic or real applications, and execution of agentic orchestrations. ARE provides simple abstractions to build complex and diverse environments, each with their own rules, tools, content, and verifiers, helping to bridge the gap between model development and real-world deployment. We also propose Gaia2, a benchmark built in ARE and designed to measure general agent capabilities. Beyond search and execution, Gaia2 requires agents to handle ambiguities and noise, adapt to dynamic environments, collaborate with other agents, and operate under temporal constraints. Unlike prior benchmarks, Gaia2 runs asynchronously, surfacing new failure modes that are invisible in static settings. Our experiments show that no system dominates across the intelligence spectrum: stronger reasoning often comes at the cost of efficiency, and budget scaling curves plateau, highlighting the need for new architectures and adaptive compute strategies. Perhaps more importantly, ARE abstractions enable continuous extension of Gaia2 to other environments, empowering the community to rapidly create new benchmarks tailored to their domains. In AI's second half, progress increasingly depends on defining meaningful tasks and robust evaluations to drive frontier capabilities forward.

ลิงก์งานวิจัย

https://arxiv.org/abs/2509.17158


สรุปหลายแหล่งด้วย LLM ที่จัดแนวแรงจูงใจ / Incentive-Aligned Multi-Source LLM Summaries

แนะนำงานวิจัย

โมเดลภาษาขนาดใหญ่ (LLM) ถูกใช้อย่างแพร่หลายในระบบค้นหาและตอบคำถามสมัยใหม่เพื่อรวมข้อความจากหลายแหล่งให้เป็นคำตอบเดียว อย่างไรก็ตาม ระบบแบบเดิมยังมีข้อจำกัดในการรับประกันความถูกต้องของแหล่งข้อมูล และมีปัญหาเรื่องความเปราะบางต่อเนื้อหาที่เป็นปฏิปักษ์ เพื่อแก้ปัญหานี้ กรอบงาน Truthful Text Summarization (TTS) ที่ถูกเสนอขึ้นมานำเสนอแนวทางใหม่ที่สามารถเพิ่มความทนทานเชิงข้อเท็จจริงได้โดยไม่ต้องอาศัย label จริง TTS จะแยกสรุปฉบับร่างออกเป็นข้ออ้างเชิงอะตอม ประเมินข้ออ้างของแต่ละแหล่งข้อมูล และให้คะแนนแหล่งข้อมูลผ่านกลไกการคาดการณ์แบบเพื่อนร่วมงานหลายงานที่ปรับให้เหมาะสม ซึ่งให้รางวัลกับความสอดคล้องของข้อมูล กระบวนการนี้จะทำการสรุปใหม่หลังจากกรองแหล่งข้อมูลที่ไม่น่าเชื่อถือออก ส่งผลให้แรงจูงใจของแหล่งข้อมูลสอดคล้องกับความซื่อสัตย์ของข้อมูล และทำให้การรายงานอย่างเป็นความจริงกลายเป็นกลยุทธ์ที่เพิ่มประโยชน์สูงสุด

ระเบียบวิธีของ TTS นำเสนอแนวทางใหม่ในการรับประกันความจริงของข้อมูล และเน้นความแตกต่างจากงานวิจัยเดิมด้านการสรุปข้อมูลและ LLM ผลการทดลองแสดงให้เห็นว่า TTS สามารถปรับปรุงทั้งความถูกต้องเชิงข้อเท็จจริงและความทนทานได้ ขณะเดียวกันก็ยังคงความลื่นไหลของภาษาไว้ ซึ่งช่วยยับยั้งการบิดเบือนผ่านการตรวจสอบและการจัดแนวข้อมูล งานวิจัยนี้ชี้ให้เห็นถึงศักยภาพในการยกระดับความน่าเชื่อถือของระบบสรุปข้อมูลอย่างมาก และวางรากฐานสำคัญสำหรับการสำรวจการประยุกต์ใช้ในหลากหลายสาขาในอนาคต TTS แสดงให้เห็นถึงความเป็นไปได้ในการยกระดับความน่าเชื่อถือของระบบสรุปข้อมูลอย่างมีนัยสำคัญ ด้วยการเพิ่มความจริงของข้อมูลไปพร้อมกับการจัดแนวแรงจูงใจของแหล่งข้อมูล

บทคัดย่อ(Abstract)

โมเดลภาษาขนาดใหญ่ (LLM) ถูกนำมาใช้มากขึ้นเรื่อย ๆ ในระบบค้นหาและตอบคำถามสมัยใหม่เพื่อสังเคราะห์ข้อความหลายชุดที่บางครั้งขัดแย้งกันให้เป็นคำตอบเดียว แต่ pipeline ในปัจจุบันยังมีแรงจูงใจที่อ่อนแอให้แหล่งข้อมูลมีความถูกต้อง และยังเปราะบางต่อเนื้อหาที่เป็นปฏิปักษ์ เราขอแนะนำ Truthful Text Summarization (TTS) ซึ่งเป็นกรอบงานการจัดแนวแรงจูงใจที่ช่วยเพิ่มความทนทานเชิงข้อเท็จจริงได้โดยไม่ต้องใช้ label จริง TTS (i) แยกการสังเคราะห์ฉบับร่างออกเป็นข้ออ้างเชิงอะตอม (ii) ดึงจุดยืนของแต่ละแหล่งข้อมูลต่อข้ออ้างแต่ละข้อ (iii) ให้คะแนนแหล่งข้อมูลด้วยกลไกการคาดการณ์แบบเพื่อนร่วมงานหลายงานที่ปรับใช้และให้รางวัลกับความเห็นพ้องที่มีประโยชน์ และ (iv) กรองแหล่งข้อมูลที่ไม่น่าเชื่อถือออกก่อนทำการสรุปใหม่ เราได้วางหลักประกันเชิงรูปแบบที่ทำให้แรงจูงใจของแหล่งข้อมูลสอดคล้องกับความซื่อสัตย์ที่ให้ข้อมูลเชิงประโยชน์ ทำให้การรายงานตามความจริงเป็นกลยุทธ์ที่เพิ่มอรรถประโยชน์สูงสุด ผลการทดลองแสดงให้เห็นว่า TTS ปรับปรุงความถูกต้องและความทนทานเชิงข้อเท็จจริงได้โดยยังคงความลื่นไหลไว้ พร้อมทั้งจัดแนวการเปิดเผยข้อมูลให้สอดคล้องกับการยืนยันสนับสนุนที่มีประโยชน์ และลดแรงจูงใจในการบิดเบือน

Large language models (LLMs) are increasingly used in modern search and answer systems to synthesize multiple, sometimes conflicting, texts into a single response, yet current pipelines offer weak incentives for sources to be accurate and are vulnerable to adversarial content. We introduce Truthful Text Summarization (TTS), an incentive-aligned framework that improves factual robustness without ground-truth labels. TTS (i) decomposes a draft synthesis into atomic claims, (ii) elicits each source's stance on every claim, (iii) scores sources with an adapted multi-task peer-prediction mechanism that rewards informative agreement, and (iv) filters unreliable sources before re-summarizing. We establish formal guarantees that align a source's incentives with informative honesty, making truthful reporting the utility-maximizing strategy. Experiments show that TTS improves factual accuracy and robustness while preserving fluency, aligning exposure with informative corroboration and disincentivizing manipulation.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2509.25184


TUMIX: การขยายการทดสอบขณะรันแบบหลายเอเจนต์ด้วยส่วนผสมการใช้เครื่องมือ / TUMIX: Multi-Agent Test-Time Scaling with Tool-Use Mixture

แนะนำงานวิจัย

Tool-Use Mixture (TUMIX) เป็นกรอบงานแบบ ensemble ที่รันหลายเอเจนต์แบบขนาน โดยให้แต่ละเอเจนต์เลือกใช้กลยุทธ์การใช้เครื่องมือและเส้นทางคำตอบที่แตกต่างกัน วิธีการนี้มุ่งเน้นการมอบแนวทางแก้ปัญหาที่มีประสิทธิภาพสำหรับคำถามหลากหลายประเภท ผ่านการผสานการให้เหตุผลบนข้อความ การเขียนโค้ด และการค้นหาเข้าด้วยกัน เอเจนต์ของ TUMIX จะแชร์และปรับแต่งคำตอบซ้ำ ๆ โดยอิงจากคำถามและคำตอบก่อนหน้า ซึ่งช่วยให้เกิดการบูรณาการที่ลึกขึ้นและเปิดทางให้สำรวจเส้นทางการให้เหตุผลที่หลากหลายมากขึ้น

TUMIX ทำความแม่นยำได้ดีขึ้นเฉลี่ย 3.55% เมื่อเทียบกับวิธีการด้านการเสริมด้วยเครื่องมือและการสเกลในช่วงทดสอบแบบเดิม และแสดงผลงานที่โดดเด่นบน benchmark ด้านการให้เหตุผลหลัก ๆ กับโมเดล Gemini-2.5-Pro และ Gemini-2.5-Flash ผลลัพธ์เหล่านี้แสดงให้เห็นว่าความหลากหลายและคุณภาพของเอเจนต์เป็นปัจจัยสำคัญ และยังเสนอวิธีใช้ LLM (โมเดลภาษาขนาดใหญ่) เพื่อปรับเอเจนต์ให้เหมาะสมโดยอัตโนมัติ ส่งผลให้ TUMIX เพิ่มความแม่นยำได้อีกเฉลี่ย 1.2%

TUMIX นำเสนอแนวทางใหม่ที่สามารถหยุดการปรับแต่งคำตอบได้เมื่อถึงระดับความเชื่อมั่นที่เพียงพอ ทำให้ลดต้นทุนการให้เหตุผลลงเหลือ 49% โดยยังคงรักษาประสิทธิภาพไว้ได้ แม้ว่าการสเกลเพิ่มเติมจะทำให้ได้ประสิทธิภาพที่สูงขึ้น แต่ต้นทุนก็จะเพิ่มขึ้นตามไปด้วย ซึ่งเป็นปัจจัยสำคัญที่ควรนำไปพิจารณาในการวิจัยต่อไป

งานวิจัยนี้นำเสนอวิธีในการเพิ่มศักยภาพการใช้เครื่องมือและความสามารถในการให้เหตุผลของ LLM ให้สูงสุด และมีส่วนช่วยในการมอบแนวทางแก้ปัญหาที่มีประสิทธิภาพสำหรับคำถามหลากหลายประเภท TUMIX แสดงให้เห็นถึงศักยภาพในการนำไปทำให้ครอบคลุมกับแอปพลิเคชันจริงได้มากขึ้น ผ่านแนวทางที่แตกต่างจากวิธีการเดิม

บทคัดย่อ(Abstract)

การผสานเครื่องมือหลากหลายอย่าง Code Interpreter และ Search ได้ยกระดับความสามารถในการให้เหตุผลของ Large Language Model (LLM) ในโมเดลอย่าง ChatGPT Agent และ Gemini-Pro อย่างมาก แต่ยังขาดแนวทางเชิงปฏิบัติสำหรับการใช้เครื่องมืออย่างเหมาะสม ความท้าทายหลักคือการผสานการให้เหตุผลด้วยข้อความ การเขียนโค้ด และการค้นหาเข้าด้วยกันอย่างมีประสิทธิภาพสำหรับคำถามที่หลากหลาย งานวิจัยนี้เสนอ Tool-Use Mixture (TUMIX) ซึ่งเป็นเฟรมเวิร์กแบบ ensemble ที่รันเอเจนต์หลายตัวแบบขนาน โดยแต่ละตัวใช้กลยุทธ์การใช้เครื่องมือและเส้นทางคำตอบที่แตกต่างกัน เอเจนต์ใน TUMIX จะแชร์และปรับแต่งคำตอบซ้ำ ๆ โดยอิงจากคำถามและคำตอบก่อนหน้า ผลการทดลองพบว่า TUMIX ทำผลงานได้ดีกว่าวิธีเสริมเครื่องมือและวิธีขยายการประมวลผลช่วงทดสอบที่ล้ำสมัยอย่างมีนัยสำคัญ โดยให้ความแม่นยำเพิ่มขึ้นเฉลี่ยสูงสุด 3.55% เมื่อเทียบกับ baseline ที่ดีที่สุดบน Gemini-2.5-Pro และ Gemini-2.5-Flash ในชุดทดสอบด้านการให้เหตุผลหลัก ๆ ขณะยังคงมีต้นทุนการอนุมานใกล้เคียงเดิม เราพบว่าความหลากหลายและคุณภาพของเอเจนต์มีความสำคัญ และสามารถปรับปรุงได้ด้วยการใช้ LLM เพื่อเพิ่มประสิทธิภาพการออกแบบเอเจนต์แบบอัตโนมัติ นอกจากนี้ TUMIX ยังสามารถหยุดการปรับแต่งได้เมื่อถึงระดับความเชื่อมั่นที่เพียงพอ ทำให้คงประสิทธิภาพไว้ได้โดยใช้ต้นทุนการอนุมานเพียง 49% การขยายเพิ่มเติมสามารถเพิ่มประสิทธิภาพได้สูงขึ้น แต่ก็ต้องแลกกับต้นทุนที่เพิ่มขึ้น
> แม้ว่าการผสานเครื่องมืออย่าง Code Interpreter และ Search จะช่วยยกระดับความสามารถในการให้เหตุผลของ Large Language Model (LLM) ในโมเดลอย่าง ChatGPT Agent และ Gemini-Pro ได้อย่างมาก แต่ก็ยังขาดแนวทางเชิงปฏิบัติสำหรับการใช้เครื่องมืออย่างเหมาะสม ความท้าทายหลักคือการผสานการให้เหตุผลด้วยข้อความ การเขียนโค้ด และการค้นหาเข้าด้วยกันอย่างมีประสิทธิภาพสำหรับคำถามที่หลากหลาย ในงานวิจัยนี้ เราเสนอ Tool-Use Mixture (TUMIX) ซึ่งเป็นเฟรมเวิร์กแบบ ensemble ที่รันเอเจนต์หลายตัวแบบขนาน โดยแต่ละตัวใช้กลยุทธ์การใช้เครื่องมือและเส้นทางคำตอบที่แตกต่างกัน เอเจนต์ใน TUMIX จะแชร์และปรับแต่งคำตอบแบบวนซ้ำโดยอิงจากคำถามและคำตอบก่อนหน้า ในการทดลอง TUMIX ทำผลงานได้ดีกว่าวิธีเสริมเครื่องมือและวิธีขยายการประมวลผลช่วงทดสอบที่ล้ำสมัยอย่างมีนัยสำคัญ โดยให้ความแม่นยำเพิ่มขึ้นเฉลี่ยสูงสุด 3.55% เมื่อเทียบกับ baseline ที่ดีที่สุดบน Gemini-2.5-Pro และ Gemini-2.5-Flash ในชุดทดสอบด้านการให้เหตุผลหลัก ๆ พร้อมต้นทุนการอนุมานที่แทบไม่ต่างกัน เราพบว่าความหลากหลายและคุณภาพของเอเจนต์เป็นปัจจัยสำคัญ และสามารถปรับปรุงได้ด้วยการใช้ LLM เพื่อเพิ่มประสิทธิภาพการออกแบบเอเจนต์แบบอัตโนมัติ นอกจากนี้ TUMIX ยังสามารถหยุดการปรับแต่งได้เมื่อมีความเชื่อมั่นเพียงพอ ทำให้คงประสิทธิภาพไว้ได้ด้วยต้นทุนการอนุมานเพียง 49% การขยายเพิ่มเติมสามารถให้ประสิทธิภาพที่สูงขึ้นได้ แม้จะมีต้นทุนที่มากขึ้นก็ตาม

ลิงก์งานวิจัย

https://arxiv.org/abs/2510.01279


ด้วยภาษาของพวกเขาเอง: ร่องรอยการให้เหตุผลที่ปรับให้เหมาะกับโมเดลขนาดเล็กทำให้มันเป็นนักให้เหตุผลที่ดีขึ้น / In Their Own Words: Reasoning Traces Tailored for Small Models Make Them Better Reasoners

แนะนำงานวิจัย

การถ่ายทอดความสามารถในการให้เหตุผลจากโมเดลภาษาขนาดใหญ่ไปยังโมเดลขนาดเล็กมักเผชิญปัญหาที่สวนทางกับความคาดหมาย คือทำให้ประสิทธิภาพลดลง ปรากฏการณ์นี้มีสาเหตุมาจากความไม่สอดคล้องกันของการกระจายข้อมูล (Distributional Misalignment) ที่เกิดขึ้นในกระบวนการ Supervised Fine-Tuning (SFT) เนื่องจากร่องรอยการให้เหตุผลของโมเดลขนาดใหญ่มีโทเค็นความน่าจะเป็นต่ำซึ่งไม่สอดคล้องกับการกระจายความน่าจะเป็นของโมเดลขนาดเล็ก ส่งผลให้โมเดลขนาดเล็กไม่สามารถเรียนรู้รูปแบบการให้เหตุผลขั้นสูงของโมเดลขนาดใหญ่ได้อย่างมีประสิทธิภาพ และกลับต้องเผชิญกับอุปสรรคในการเรียนรู้แทน

เพื่อแก้ปัญหานี้ มีการเสนอวิธี Reverse Speculative Decoding (RSD) ซึ่งทำงานโดยให้โมเดลครูเสนอ candidate token และให้โมเดลนักเรียนตัดสินใจว่าจะยอมรับหรือไม่ตามการกระจายความน่าจะเป็นของตนเอง ในกระบวนการนี้ โทเค็นความน่าจะเป็นต่ำจะถูกกรองออก เพื่อคงขั้นตอนการให้เหตุผลที่มีประโยชน์ไว้ภายในขอบเขตที่โมเดลขนาดเล็กสามารถจัดการได้ RSD ถูกนำไปใช้กับโมเดล Qwen3-0.6B และพบว่า ในขณะที่ข้อมูลร่องรอยการให้เหตุผลที่สร้างด้วยวิธีการกลั่นแบบตรงเดิมทำให้ประสิทธิภาพเฉลี่ยลดลง 20.5% การฝึกด้วยร่องรอยการให้เหตุผลที่สร้างด้วย RSD กลับให้การปรับปรุงประสิทธิภาพอย่างมีนัยสำคัญที่ 4.9%

ประสิทธิผลของ RSD ปรากฏอย่างสม่ำเสมอใน benchmark ด้านการให้เหตุผลที่หลากหลาย และชี้ให้เห็นว่าโทเค็นความน่าจะเป็นต่ำคือคอขวดหลักของการถ่ายทอดความสามารถในการให้เหตุผลอย่างมีประสิทธิภาพ นอกจากนี้ RSD ยังบ่งชี้ว่าจำเป็นต้องปรับให้เหมาะกับแต่ละโมเดล และต้องมีการจัดแนวการกระจายข้อมูลให้สอดคล้องกับการแทนค่าเชิงภายในเฉพาะตัวของโมเดลนักเรียนแต่ละตัว ผลการวิจัยเหล่านี้จึงถูกประเมินว่าเป็นวิธีการสำคัญที่สามารถช่วยยกระดับประสิทธิภาพของโมเดลขนาดเล็ก และชี้ให้เห็นถึงความเป็นไปได้ในการประยุกต์ใช้ต่อในงานวิจัยอนาคต

กล่าวโดยสรุป RSD เป็นแนวทางใหม่ที่สามารถถ่ายทอดความสามารถในการให้เหตุผลของโมเดลขนาดใหญ่ไปยังโมเดลขนาดเล็กได้อย่างมีประสิทธิภาพ และช่วยยกระดับความสามารถในการให้เหตุผลของโมเดลขนาดเล็กผ่านการกรองโทเค็นความน่าจะเป็นต่ำ งานวิจัยนี้นำเสนอทิศทางใหม่สำหรับการปรับปรุงประสิทธิภาพของโมเดลขนาดเล็ก และจะเป็นข้อมูลพื้นฐานสำคัญที่ขยายโอกาสการประยุกต์ใช้ในอนาคตของวงการ AI และแมชชีนเลิร์นนิง

บทคัดย่อ (Abstract)

การถ่ายทอดความสามารถด้านการให้เหตุผลจากโมเดลภาษาขนาดใหญ่ไปยังโมเดลขนาดเล็กผ่านการปรับจูนแบบมีผู้กำกับมักล้มเหลวอย่างสวนทางกับสัญชาตญาณ และประสิทธิภาพกลับลดลงแม้จะเข้าถึงตัวอย่างสาธิตจากโมเดลครูคุณภาพสูงได้ก็ตาม เราพบว่าความล้มเหลวนี้เกิดจากความไม่สอดคล้องกันของการกระจาย: ร่องรอยการให้เหตุผลจากโมเดลขนาดใหญ่มีโทเคนที่มีความน่าจะเป็นต่ำภายใต้การกระจายของนักเรียน ซึ่งเกินขีดความสามารถของการแทนค่าภายในของสถาปัตยกรรมขนาดเล็ก และสร้างกำแพงต่อการเรียนรู้แทนที่จะเป็นแนวทางที่มีประโยชน์ เราเสนอ Reverse Speculative Decoding (RSD) ซึ่งเป็นกลไกสำหรับสร้างร่องรอยการให้เหตุผลที่เป็นมิตรกับนักเรียน โดยให้โมเดลครูเสนอ candidate token และให้โมเดลนักเรียนเป็นผู้ตัดสินใจว่าจะยอมรับหรือไม่ตามการกระจายความน่าจะเป็นของตนเอง เพื่อกรองโทเคนที่มีความน่าจะเป็นต่ำออกไป เมื่อนำไปใช้กับ Qwen3-0.6B การกลั่นตรงจากข้อมูลร่องรอยการให้เหตุผล s1K-1.1 ทำให้ประสิทธิภาพเฉลี่ยบน reasoning benchmark หลักลดลง 20.5% ขณะที่โมเดลเดียวกันซึ่งฝึกด้วยร่องรอยการให้เหตุผลที่สร้างด้วย RSD กลับได้การปรับปรุงที่มีนัยสำคัญ 4.9% การวิเคราะห์ของเราเผยให้เห็นว่าโทเคนที่มีความน่าจะเป็นต่ำคือคอขวดสำคัญในการถ่ายทอดความสามารถด้านการให้เหตุผล อย่างไรก็ตาม การทดลองข้ามโมเดลแสดงให้เห็นว่าร่องรอยจาก RSD มีความจำเพาะต่อโมเดล ไม่ได้ใช้ได้สากล ซึ่งบ่งชี้ว่าการจัดแนวการกระจายต้องปรับให้เหมาะกับการแทนค่าภายในเฉพาะตัวของสถาปัตยกรรมนักเรียนแต่ละแบบ
> การถ่ายทอดความสามารถด้านการให้เหตุผลจากโมเดลภาษาขนาดใหญ่ไปยังโมเดลขนาดเล็กผ่าน supervised fine-tuning มักล้มเหลวอย่างสวนทางกับสัญชาตญาณ โดยประสิทธิภาพลดลงแม้จะมีตัวอย่างสาธิตจากโมเดลครูคุณภาพสูง เราระบุว่าความล้มเหลวนี้มีสาเหตุมาจาก distributional misalignment: ร่องรอยการให้เหตุผลจากโมเดลขนาดใหญ่มีโทเคนที่มีความน่าจะเป็นต่ำภายใต้การกระจายของนักเรียน ซึ่งเกินขีดความสามารถของการแทนค่าภายในของสถาปัตยกรรมขนาดเล็ก และสร้างอุปสรรคต่อการเรียนรู้แทนที่จะเป็นแนวทางที่มีประโยชน์ เราเสนอ Reverse Speculative Decoding (RSD) ซึ่งเป็นกลไกสำหรับสร้างร่องรอยการให้เหตุผลที่เป็นมิตรกับนักเรียน โดยโมเดลครูจะเสนอ candidate token แต่โมเดลนักเรียนจะเป็นผู้ตัดสินใจรับตามการกระจายความน่าจะเป็นของตัวเอง จึงช่วยกรองโทเคนที่มีความน่าจะเป็นต่ำออกไป เมื่อนำไปใช้กับ Qwen3-0.6B การกลั่นตรงจากข้อมูลร่องรอยการให้เหตุผล s1K-1.1 ทำให้ประสิทธิภาพเฉลี่ยใน benchmarking การให้เหตุผลหลักลดลง 20.5% ขณะที่โมเดลเดียวกันที่ฝึกด้วยร่องรอยการให้เหตุผลที่สร้างโดย RSD สามารถปรับปรุงได้อย่างมีนัยสำคัญ 4.9% การวิเคราะห์ของเราเผยให้เห็นว่าโทเคนที่มีความน่าจะเป็นต่ำเป็นคอขวดสำคัญในการถ่ายทอดความสามารถด้านการให้เหตุผล อย่างไรก็ตาม การทดลองข้ามโมเดลแสดงให้เห็นว่าร่องรอย RSD มีความจำเพาะต่อโมเดล ไม่ได้ใช้ได้อย่างเป็นสากล ซึ่งบ่งชี้ว่าการจัดแนวการกระจายต้องปรับให้เหมาะกับการแทนค่าภายในเฉพาะของสถาปัตยกรรมนักเรียนแต่ละแบบ

ลิงก์บทความวิจัย

https://arxiv.org/abs/2509.22230


AgentMaster: เฟรมเวิร์กการสนทนาแบบหลายเอเจนต์ที่ใช้โปรโตคอล A2A และ MCP สำหรับการสืบค้นและวิเคราะห์ข้อมูลแบบมัลติโหมด / AgentMaster: A Multi-Agent Conversational Framework Using A2A and MCP Protocols for Multimodal Information Retrieval and Analysis

แนะนำบทความวิจัย

ความก้าวหน้าของ Multi-Agent Systems (MAS) ในสาขาปัญญาประดิษฐ์ (AI) กำลังมีบทบาทสำคัญในการให้เอเจนต์อัจฉริยะหลายตัวทำงานร่วมกันเพื่อแก้ปัญหาที่ซับซ้อน อย่างไรก็ตาม MAS ในปัจจุบันยังเผชิญความท้าทายหลายประการ ทั้งในด้านการสื่อสารระหว่างเอเจนต์อย่างราบรื่น การประสานงาน และการโต้ตอบกับเครื่องมือและทรัพยากรที่หลากหลาย เพื่อแก้ปัญหาเหล่านี้ งานวิจัยนี้จึงเสนอเฟรมเวิร์ก MAS แบบโมดูลาร์ใหม่ชื่อ AgentMaster โดยผสานรวมโปรโตคอลการสื่อสาร Agent-to-Agent (A2A) และ Model Context Protocol (MCP) เพื่อให้เกิดการประสานงานแบบไดนามิกและการสื่อสารที่ยืดหยุ่น

AgentMaster มอบอินเทอร์เฟซการสนทนาแบบบูรณาการที่ออกแบบมาเพื่อให้ผู้ใช้โต้ตอบกับระบบด้วยภาษาธรรมชาติได้โดยไม่ต้องมีความเชี่ยวชาญทางเทคนิค รองรับการตอบสนองต่อคำถามแบบมัลติโหมดที่หลากหลาย เช่น การสืบค้นข้อมูล การตอบคำถาม และการวิเคราะห์ภาพ คุณูปการหลักของงานวิจัยนี้คือการใช้ A2A และ MCP เพื่อให้เกิดการประสานงานที่มีประสิทธิภาพระหว่างเอเจนต์ และการสื่อสารอย่างราบรื่นระหว่างเอเจนต์สืบค้นเฉพาะทาง นอกจากนี้ AgentMaster ยังแยกคำขอของผู้ใช้ออกเป็นเวิร์กโฟลว์เฉพาะทาง ซึ่งช่วยรองรับการแยกย่อยคำขออัตโนมัติ การมอบหมายงาน และการกำหนดเส้นทางแบบไดนามิก

ผลการทดลองแสดงให้เห็นว่า AgentMaster ทำผลงานได้สูง โดยได้ 96.3% บน BERTScore F1 และ 87.1% บน LLM-as-a-Judge G-Eval ผลลัพธ์เหล่านี้ยืนยันถึงการประสานงานอัตโนมัติที่แข็งแกร่งระหว่างเอเจนต์และการตอบสนองที่เกี่ยวข้องเฉพาะโดเมน อีกทั้งยังช่วยขยายศักยภาพของ MAS งานวิจัยนี้แสดงให้เห็นถึงความใหม่ของเฟรมเวิร์ก MAS ที่ผสาน A2A และ MCP และคาดว่าจะมีส่วนสำคัญต่อความก้าวหน้าของ AI เชิงสนทนาที่ทำงานร่วมกันได้และขยายขนาดได้

บทคัดย่อ(Abstract)

การเติบโตของระบบหลายเอเจนต์ (MAS) ซึ่งผสานรวมกับโมเดลภาษาขนาดใหญ่ (LLM) ได้ช่วยให้การแก้ปัญหางานที่ซับซ้อนเป็นไปได้ง่ายขึ้นอย่างมาก อย่างไรก็ตาม ระบบในปัจจุบันยังคงเผชิญกับความท้าทายในด้านการสื่อสารระหว่างเอเจนต์ การประสานงาน และการทำงานร่วมกับเครื่องมือและทรัพยากรที่มีความหลากหลาย ล่าสุดมีการเปิดตัว Model Context Protocol (MCP) ของ Anthropic และโปรโตคอลการสื่อสาร Agent-to-Agent (A2A) ของ Google และเท่าที่เราทราบ ยังมีการประยุกต์ใช้เพียงไม่กี่กรณีที่ใช้ทั้งสองโปรโตคอลภายในเฟรมเวิร์ก MAS เดียวกัน เรานำเสนอการศึกษานำร่องของ AgentMaster ซึ่งเป็นเฟรมเวิร์ก MAS แบบแยกส่วนหลายโปรโตคอลรูปแบบใหม่ พร้อม A2A และ MCP ที่พัฒนาขึ้นเอง ทำให้สามารถประสานงานแบบไดนามิก สื่อสารได้อย่างยืดหยุ่น และพัฒนาได้รวดเร็วพร้อมการวนซ้ำที่เร็วขึ้น ผ่านอินเทอร์เฟซการสนทนาแบบรวม ระบบรองรับการโต้ตอบด้วยภาษาธรรมชาติโดยไม่ต้องมีความเชี่ยวชาญทางเทคนิคมาก่อน และตอบสนองต่อคำถามแบบหลายโมดัลสำหรับงานต่าง ๆ รวมถึงการค้นคืนข้อมูล การตอบคำถาม และการวิเคราะห์ภาพ การทดลองได้รับการตรวจสอบทั้งด้วยการประเมินโดยมนุษย์และตัวชี้วัดเชิงปริมาณ เช่น BERTScore F1 (96.3%) และ LLM-as-a-Judge G-Eval (87.1%) ผลลัพธ์เหล่านี้แสดงให้เห็นถึงการประสานงานระหว่างเอเจนต์แบบอัตโนมัติที่แข็งแกร่ง การแยกย่อยคำถาม การจัดสรรงาน การกำหนดเส้นทางแบบไดนามิก และการตอบกลับที่เกี่ยวข้องกับโดเมน โดยสรุป เฟรมเวิร์กที่เราเสนอมีส่วนช่วยขยายศักยภาพของ AI เชิงสนทนาแบบเฉพาะโดเมน ที่ทำงานร่วมกันได้ และขยายขนาดได้ ซึ่งขับเคลื่อนโดย MAS
> The rise of Multi-Agent Systems (MAS) in Artificial Intelligence (AI), especially integrated with Large Language Models (LLMs), has greatly facilitated the resolution of complex tasks. However, current systems are still facing challenges of inter-agent communication, coordination, and interaction with heterogeneous tools and resources. Most recently, the Model Context Protocol (MCP) by Anthropic and Agent-to-Agent (A2A) communication protocol by Google have been introduced, and to the best of our knowledge, very few applications exist where both protocols are employed within a single MAS framework. We present a pilot study of AgentMaster, a novel modular multi-protocol MAS framework with self-implemented A2A and MCP, enabling dynamic coordination, flexible communication, and rapid development with faster iteration. Through a unified conversational interface, the system supports natural language interaction without prior technical expertise and responds to multimodal queries for tasks including information retrieval, question answering, and image analysis. The experiments are validated through both human evaluation and quantitative metrics, including BERTScore F1 (96.3%) and LLM-as-a-Judge G-Eval (87.1%). These results demonstrate robust automated inter-agent coordination, query decomposition, task allocation, dynamic routing, and domain-specific relevant responses. Overall, our proposed framework contributes to the potential capabilities of domain-specific, cooperative, and scalable conversational AI powered by MAS.

ลิงก์งานวิจัย

https://arxiv.org/abs/2507.21105


วิธีอัดฉีดความรู้อย่างมีประสิทธิภาพ: กฎการสเกลของการอัดฉีดความรู้สำหรับการพรีเทรนโมเดลภาษาขนาดใหญ่ / How to inject knowledge efficiently? Knowledge Infusion Scaling Law for Pre-training Large Language Models

แนะนำงานวิจัย

โมเดลภาษาขนาดใหญ่ (LLMs) แม้จะแสดงประสิทธิภาพได้โดดเด่นในงานหลากหลายรูปแบบ แต่หากขาดการปรับให้เหมาะกับโดเมนเฉพาะ ก็อาจทำผลงานได้ไม่ดีบนเบนช์มาร์กความรู้เฉพาะทางและเกิดอาการหลอน (hallucination) ได้ งานวิจัยนี้เสนอวิธีการอัดฉีดความรู้เฉพาะโดเมนอย่างมีกลยุทธ์ในกระบวนการพรีเทรน (pre-training) โดยให้ความสำคัญกับปรากฏการณ์ memory collapse ที่เกิดขึ้นระหว่างกระบวนการดังกล่าว memory collapse เกิดจากการอัดฉีดความรู้มากเกินไป และส่งผลให้ความสามารถของโมเดลในการคงรักษาความรู้ลดลงอย่างรวดเร็ว ทีมวิจัยได้ข้อสังเกตสำคัญสองประการ ได้แก่ หนึ่ง แต่ละโมเดลมีจุดวิกฤตที่ความสามารถในการคงรักษาความรู้จะลดลงอย่างรวดเร็ว และสอง จุดล่มสลายนี้มีการสเกลอย่างสอดคล้องกับขนาดของโมเดล

จากข้อค้นพบนี้ งานวิจัยได้เสนอกฎการสเกลของการอัดฉีดความรู้ (knowledge infusion scaling law) กฎนี้ช่วยคาดการณ์ปริมาณความรู้เฉพาะโดเมนที่เหมาะสมที่สุดสำหรับการอัดฉีดเข้าไปใน LLM ขนาดใหญ่ และได้ยืนยันทั้งประสิทธิผลและความเป็นสากลของแนวทางนี้ผ่านการทดลองกับขนาดโมเดลและงบประมาณโทเคนที่หลากหลาย โดยเฉพาะอย่างยิ่ง งานวิจัยแสดงให้เห็นว่าปรากฏการณ์ memory collapse เกิดจากการอัดฉีดความรู้มากเกินไป ซึ่งบ่งชี้ว่าการอัดฉีดความรู้ในระดับโทเคนแบบเบาบางก็เพียงพอแล้วแม้กับชุดข้อมูลขนาดใหญ่

งานวิจัยยังประเมินประสิทธิภาพการคงรักษาความทรงจำภายใต้ขนาดชุดข้อมูลการฝึกและความถี่ในการอัดฉีดที่แตกต่างกัน และพบว่าโมเดลขนาดใหญ่สามารถเข้าสู่ภาวะอิ่มตัวได้ด้วยความรู้เพียงเล็กน้อย ผลลัพธ์เหล่านี้ให้มุมมองเชิงลึกที่สำคัญต่อการปรับแต่งและเพิ่มประสิทธิภาพ LLM สำหรับโดเมนเฉพาะ และคาดว่าจะมีส่วนช่วยต่อการออกแบบกลยุทธ์การอัดฉีดความรู้ในงานวิจัยต่อไป งานวิจัยนี้มุ่งเน้นการประเมินผลของการอัดฉีดความรู้ในโมเดลภาษาขนาดใหญ่ พร้อมเสนอวิธีการสำหรับประเมินความสามารถในการคงรักษาความรู้และการคาดการณ์จุดล่มสลาย รวมถึงการวิเคราะห์ผลกระทบของเทมเพลตที่หลากหลาย

บทคัดย่อ (Abstract)

โมเดลภาษาขนาดใหญ่ (LLM) ได้รับความสนใจอย่างมากจากความสามารถทั่วไปที่น่าประทับใจในงานปลายน้ำที่หลากหลาย อย่างไรก็ตาม หากไม่มีการปรับให้เหมาะกับโดเมนเฉพาะ โมเดลเหล่านี้มักทำผลงานได้ไม่ดีบนเบนช์มาร์กความรู้เฉพาะทาง และอาจสร้างอาการหลอนของโมเดลได้ด้วย งานวิจัยล่าสุดแสดงให้เห็นว่า การอัดฉีดความรู้เฉพาะโดเมนอย่างมีกลยุทธ์ระหว่างการพรีเทรนสามารถยกระดับประสิทธิภาพของงานปลายน้ำได้อย่างมาก ความท้าทายสำคัญอยู่ที่การสร้างสมดุลของการอัดฉีดนี้: หากใส่ข้อมูลเฉพาะโดเมนน้อยเกินไป ก็จะเกิดความเชี่ยวชาญไม่เพียงพอ แต่หากใส่มากเกินไป ก็จะทำให้เกิด catastrophic forgetting ของความรู้ที่เคยเรียนรู้มาก่อน ในงานนี้ เรามุ่งเน้นไปที่ปรากฏการณ์ memory collapse ที่เกิดจากการอัดฉีดมากเกินไป จากการทดลองอย่างเป็นระบบ เราพบข้อสังเกตสำคัญสองประการ ได้แก่ 1) จุดล่มสลายวิกฤต: แต่ละโมเดลมีค่าเกณฑ์ที่เมื่อเกินไปแล้ว ความสามารถในการคงรักษาความรู้จะลดลงอย่างรวดเร็ว 2) ความสัมพันธ์กับสเกล: จุดล่มสลายเหล่านี้แปรผันอย่างสม่ำเสมอตามขนาดของโมเดล จากข้อมูลเชิงลึกเหล่านี้ เราเสนอ scaling law ของการอัดฉีดความรู้ ซึ่งใช้ทำนายปริมาณความรู้เฉพาะโดเมนที่เหมาะสมที่สุดสำหรับใส่เข้าไปใน LLM ขนาดใหญ่ โดยวิเคราะห์จากโมเดลขนาดเล็กกว่า การทดลองอย่างกว้างขวางกับโมเดลหลายขนาดและงบประมาณโทเค็นที่เกี่ยวข้องยืนยันทั้งประสิทธิผลและความสามารถในการทั่วไปของ scaling law ที่เราเสนอ
> Large language models (LLMs) have attracted significant attention due to their impressive general capabilities across diverse downstream tasks. However, without domain-specific optimization, they often underperform on specialized knowledge benchmarks and even produce hallucination. Recent studies show that strategically infusing domain knowledge during pretraining can substantially improve downstream performance. A critical challenge lies in balancing this infusion trade-off: injecting too little domain-specific data yields insufficient specialization, whereas excessive infusion triggers catastrophic forgetting of previously acquired knowledge. In this work, we focus on the phenomenon of memory collapse induced by over-infusion. Through systematic experiments, we make two key observations, i.e. 1) Critical collapse point: each model exhibits a threshold beyond which its knowledge retention capabilities sharply degrade. 2) Scale correlation: these collapse points scale consistently with the model's size. Building on these insights, we propose a knowledge infusion scaling law that predicts the optimal amount of domain knowledge to inject into large LLMs by analyzing their smaller counterparts. Extensive experiments across different model sizes and pertaining token budgets validate both the effectiveness and generalizability of our scaling law.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2509.19371


Bifrost-1: การเชื่อมต่อระหว่างมัลติโหมด LLM และ diffusion model ด้วย CLIP latents ระดับแพตช์ / Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP Latents

แนะนำงานวิจัย

Bifrost-1 เสนอเฟรมเวิร์กใหม่ที่เชื่อมต่อ multimodal large language model (MLLM) ที่ผ่านการพรีเทรนแล้วกับ diffusion model ผ่าน image embedding ของ CLIP (Contrastive Language-Image Pretraining) ในระดับแพตช์ แนวทางก่อนหน้านี้มีปัญหาทั้งด้านต้นทุนการฝึกที่สูงและประสิทธิภาพ เนื่องจาก LLM ไม่เคยเห็นการแทนภาพประเภทนี้ระหว่างการพรีเทรน Bifrost-1 แก้ปัญหานี้ด้วยการใช้ image embedding ระดับแพตช์ที่จัดแนวอย่างเป็นธรรมชาติกับ CLIP vision encoder ของ MLLM แล้วผสานเข้ากับ diffusion model ในกระบวนการนี้ มีการปรับแต่งแบบ lightweight ของ ControlNet เพื่อคงความสามารถการให้เหตุผลแบบมัลติโหมดดั้งเดิมของ MLLM เอาไว้ พร้อมทั้งเพิ่มแขนงการสร้างภาพเพื่อทำนาย image embedding ระดับแพตช์

นวัตกรรมสำคัญของ Bifrost-1 คือการใช้ patch-level CLIP latents เพื่อให้สามารถเชื่อมต่อระหว่าง MLLM กับ diffusion model ได้อย่างมีประสิทธิภาพ ส่งผลให้สามารถสร้างภาพแบบควบคุมได้ที่มีความเที่ยงตรงสูง พร้อมทั้งเพิ่มประสิทธิภาพด้านการฝึกอย่างมาก ผลการทดลองแสดงให้เห็นว่า Bifrost-1 ให้ประสิทธิภาพเทียบเท่าหรือดีกว่าวิธีการก่อนหน้าในด้านความเที่ยงตรงของภาพและความเข้าใจแบบมัลติโหมด พร้อมทั้งลดต้นทุนการคำนวณระหว่างการฝึกได้อย่างมีนัยสำคัญ

นอกจากนี้ การศึกษา ablation อย่างครอบคลุมยังพิสูจน์ให้เห็นว่าทางเลือกในการออกแบบของ Bifrost-1 มีประสิทธิผล งานวิจัยเหล่านี้ตอกย้ำความสำคัญของการประมวลผลข้อมูลแบบมัลติโหมด และจะช่วยผลักดันการสร้างระบบ AI ที่ก้าวหน้ายิ่งขึ้นผ่านการบูรณาการระหว่าง LLM และ diffusion model Bifrost-1 นำเสนอเกณฑ์มาตรฐานใหม่สำหรับการสร้างและความเข้าใจแบบมัลติโหมด และคาดว่าจะเป็นหมุดหมายสำคัญสำหรับงานวิจัยในอนาคต

บทคัดย่อ (Abstract)

มีความสนใจเพิ่มขึ้นในการผสานความสามารถด้านการสังเคราะห์ภาพที่มีความสมจริงสูงเข้ากับโมเดลภาษาขนาดใหญ่ (LLM) โดยต้องไม่กระทบต่อความสามารถด้านการให้เหตุผลที่แข็งแกร่ง แนวทางเดิมมักฝึก LLM โดยตรง หรือพยายามเชื่อม LLM เข้ากับ diffusion model แต่ประสบปัญหาด้านต้นทุนการฝึกที่สูง เนื่องจาก backbone LLM ไม่เคยเห็นตัวแทนภาพมาก่อนในช่วง pretraining เราขอเสนอ Bifrost-1 ซึ่งเป็นเฟรมเวิร์กแบบรวมศูนย์ที่เชื่อม pretrained multimodal LLMs (MLLMs) เข้ากับ diffusion models โดยใช้ CLIP image embeddings ระดับแพตช์เป็นตัวแปรแฝง ซึ่งสอดคล้องโดยธรรมชาติกับ CLIP visual encoder ของ MLLM อยู่แล้ว image embeddings ระดับแพตช์เหล่านี้ถูกผสานเข้าไปใน diffusion model ผ่านการดัดแปลง ControlNet แบบ lightweight เพื่อคงความสามารถในการให้เหตุผลแบบหลายโมดัลเดิมของ MLLM เราจึงติดตั้งแขนง visual generation branch ให้กับ MLLM ซึ่งเริ่มต้นจากพารามิเตอร์ MLLM ดั้งเดิมสำหรับการทำนาย patch-level image embeddings ด้วยการผสาน pretrained MLLMs และ diffusion models เข้าด้วยกันอย่างไร้รอยต่อผ่าน patch-level CLIP latents เฟรมเวิร์กของเราจึงทำให้สามารถสร้างภาพแบบควบคุมได้ที่มีความสมจริงสูง พร้อมเพิ่มประสิทธิภาพในการฝึกอย่างมีนัยสำคัญ ผลการทดลองแสดงให้เห็นว่า Bifrost-1 ทำผลงานได้เทียบเท่าหรือดีกว่าวิธีการก่อนหน้าในด้านความสมจริงของภาพและความเข้าใจแบบหลายโมดัล โดยใช้ทรัพยากรคอมพิวต์ระหว่างการฝึกน้อยลงอย่างมาก นอกจากนี้ เรายังนำเสนอ ablation studies ที่ครอบคลุมเพื่อแสดงให้เห็นประสิทธิผลของตัวเลือกการออกแบบของเรา
> There is growing interest in integrating high-fidelity visual synthesis capabilities into large language models (LLMs) without compromising their strong reasoning capabilities. Existing methods that directly train LLMs or bridge LLMs and diffusion models usually suffer from costly training since the backbone LLMs have not seen image representations during pretraining. We present Bifrost-1, a unified framework that bridges pretrained multimodal LLMs (MLLMs) and diffusion models using patch-level CLIP image embeddings as latent variables, which are natively aligned with the MLLM's CLIP visual encoder. These patch-level image embeddings are integrated into the diffusion model with a lightweight adaptation of its ControlNet. To retain the original multimodal reasoning capabilities of MLLMs, we equip the MLLM with a visual generation branch initialized from the original MLLM parameters when predicting the patch-level image embeddings. By seamlessly integrating pretrained MLLMs and diffusion models with patch-level CLIP latents, our framework enables high-fidelity controllable image generation with significant training efficiency. Our experiments demonstrate that Bifrost-1 achieves comparable or better performance than previous methods in terms of visual fidelity and multimodal understanding, with substantially lower compute during training. We also provide comprehensive ablation studies showing the effectiveness of our design choices.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2508.05954

อ่านเพิ่มเติม

https://bifrost-1.github.io


การเรียนรู้ต่อเนื่องสำหรับ VLM: เซอร์เวย์และอนุกรมวิธานที่ก้าวข้ามปัญหาการลืม / Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting

แนะนำบทความวิจัย

Vision-Language Models (VLM) แสดงประสิทธิภาพที่ยอดเยี่ยมในงานมัลติโมดัลที่หลากหลายผ่านการ pretraining ขนาดใหญ่ แต่ยังมีความท้าทายหลายประการในการเรียนรู้อย่างต่อเนื่องจากข้อมูลที่ไม่ได้เป็นไปตามการกระจายเดิม ปัญหานี้ยิ่งเด่นชัดขึ้นเป็นพิเศษ เพราะทั้งการจัดแนวข้ามโมดัลและความสามารถในการทำให้ทั่วไปต่างเปราะบางต่อ catastrophic forgetting การเรียนรู้ต่อเนื่องของ VLM (VLM-CL) มีปัญหาเฉพาะตัวที่แตกต่างจากการเรียนรู้ต่อเนื่องแบบ single-modal ดั้งเดิม และงานวิจัยนี้ได้ระบุรูปแบบความล้มเหลวหลักของ VLM-CL ไว้ 3 ประการ พร้อมเสนออนุกรมวิธานที่อิงตามความท้าทายเพื่อใช้รับมือกับปัญหาเหล่านี้

อนุกรมวิธานที่เสนอประกอบด้วย (1) กลยุทธ์ multimodal replay (2) cross-modal regularization และ (3) parameter-efficient adaptation กลยุทธ์ multimodal replay ช่วยบรรเทา cross-modal feature drift ด้วยการเล่นซ้ำข้อมูลจากงานที่ผ่านมา ส่วน cross-modal regularization มุ่งเน้นการรักษาการจัดแนวระหว่างโมดัลระหว่างการอัปเดต ขณะที่ parameter-efficient adaptation เป็นวิธีการที่ตรึงโมเดล pretrained หลักไว้ และอัปเดตเฉพาะพารามิเตอร์ใหม่จำนวนเล็กน้อยเพื่อแก้ปัญหาการรบกวนกันของ shared modules

งานวิจัยนี้นำเสนอรีวิวที่ครอบคลุมสำหรับ VLM-CL พร้อมวิเคราะห์ evaluation protocols, datasets และ metrics ในปัจจุบัน เพื่อเน้นย้ำถึงความจำเป็นของ benchmark ที่ดีกว่า ซึ่งสามารถจับทั้งการลืมเฉพาะของ VLM และ compositional generalization ได้ นอกจากนี้ ยังเสนอทิศทางการวิจัยในอนาคต รวมถึง continual pretraining และ compositional zero-shot learning เพื่อให้เป็นแหล่งอ้างอิงที่มีประโยชน์สำหรับนักวิจัยในการพัฒนาระบบ vision-language แบบ lifelong learning แนวทางที่เป็นระบบและเชิงวินิจฉัยนี้จะช่วยผลักดันนวัตกรรมในสาขาการเรียนรู้ต่อเนื่องของ VLM และวางรากฐานสำหรับการสร้างระบบ AI แบบหลายโมดัลที่เรียนรู้ได้ตลอดชีวิตอย่างแท้จริง

บทคัดย่อ(Abstract)

โมเดลวิชัน-ภาษา (VLM) ได้สร้างผลงานที่น่าประทับใจในงานมัลติโมดัลที่หลากหลายด้วยการใช้ประโยชน์จากการพรีเทรนขนาดใหญ่ อย่างไรก็ตาม การทำให้โมเดลเหล่านี้สามารถเรียนรู้อย่างต่อเนื่องจากข้อมูลที่ไม่คงที่ยังคงเป็นความท้าทายสำคัญ เนื่องจากความสามารถด้านการจัดแนวข้ามโมดัลและการทำให้ทั่วไปของโมเดลมีความเปราะบางต่อ catastrophic forgetting เป็นพิเศษ ต่างจาก continual learning (CL) แบบโมดัลเดียวในแบบดั้งเดิม VLM ต้องเผชิญกับความท้าทายเฉพาะตัว เช่น cross-modal feature drift, parameter interference ที่เกิดจากสถาปัตยกรรมแบบใช้ร่วมกัน และการเสื่อมลงของความสามารถแบบ zero-shot งานสำรวจนี้เป็นรีวิวแบบเจาะจงและเป็นระบบฉบับแรกของ continual learning สำหรับ VLM (VLM-CL) โดยเริ่มจากการระบุโหมดความล้มเหลวหลัก 3 ประการที่ทำให้ประสิทธิภาพใน VLM-CL ลดลง จากนั้นจึงเสนออนุกรมวิธานที่ขับเคลื่อนด้วยความท้าทายเพื่อเชื่อมโยงแนวทางแก้ไขกับปัญหาเป้าหมาย ได้แก่ (1) \textit{กลยุทธ์การรีเพลย์แบบหลายโมดัล} จัดการกับ cross-modal drift ผ่านกลไกหน่วยความจำแบบชัดแจ้งหรือโดยนัย (2) \textit{การทำ regularization ข้ามโมดัล} ช่วยรักษาการจัดแนวของโมดัลระหว่างการอัปเดต และ (3) \textit{การปรับตัวอย่างมีประสิทธิภาพด้านพารามิเตอร์} ลดปัญหา parameter interference ด้วยการอัปเดตแบบโมดูลาร์หรือ low-rank นอกจากนี้ ผู้เขียนยังวิเคราะห์โปรโตคอลการประเมินผล ชุดข้อมูล และเมตริกที่ใช้อยู่ในปัจจุบัน พร้อมเน้นย้ำถึงความจำเป็นของเบนช์มาร์กที่ดีกว่าเดิมซึ่งสามารถจับทั้งการลืมแบบเฉพาะของ VLM และ compositional generalization ได้ สุดท้าย บทความได้สรุปปัญหาที่เปิดอยู่และทิศทางในอนาคต รวมถึง continual pre-training และ compositional zero-shot learning งานสำรวจนี้มีเป้าหมายเพื่อเป็นแหล่งอ้างอิงที่ครอบคลุมและช่วยวินิจฉัยสำหรับนักวิจัยที่พัฒนาระบบวิชัน-ภาษาตลอดช่วงอายุการใช้งาน ทรัพยากรทั้งหมดดูได้ที่ลิงก์ต่อไปนี้: https://github.com/YuyangSunshine/….
> Vision-language models (VLMs) have achieved impressive performance across diverse multimodal tasks by leveraging large-scale pre-training. However, enabling them to learn continually from non-stationary data remains a major challenge, as their cross-modal alignment and generalization capabilities are particularly vulnerable to catastrophic forgetting. Unlike traditional unimodal continual learning (CL), VLMs face unique challenges such as cross-modal feature drift, parameter interference due to shared architectures, and zero-shot capability erosion. This survey offers the first focused and systematic review of continual learning for VLMs (VLM-CL). We begin by identifying the three core failure modes that degrade performance in VLM-CL. Based on these, we propose a challenge-driven taxonomy that maps solutions to their target problems: (1) \textit{Multi-Modal Replay Strategies} address cross-modal drift through explicit or implicit memory mechanisms; (2) \textit{Cross-Modal Regularization} preserves modality alignment during updates; and (3) \textit{Parameter-Efficient Adaptation} mitigates parameter interference with modular or low-rank updates. We further analyze current evaluation protocols, datasets, and metrics, highlighting the need for better benchmarks that capture VLM-specific forgetting and compositional generalization. Finally, we outline open problems and future directions, including continual pre-training and compositional zero-shot learning. This survey aims to serve as a comprehensive and diagnostic reference for researchers developing lifelong vision-language systems. All resources are available at: https://github.com/YuyangSunshine/….

ลิงก์งานวิจัย

https://arxiv.org/abs/2508.04227

อ่านเพิ่มเติม

https://github.com/YuyangSunshine/…


สหพันธรัฐของเอเจนต์: โครงสร้างการสื่อสารที่รับรู้ความหมายสำหรับ Agentic AI ขนาดใหญ่ / Federation of Agents: A Semantics-Aware Communication Fabric for Large-Scale Agentic AI

แนะนำงานวิจัย

Federation of Agents (FoA) เป็นเฟรมเวิร์ก orchestration แบบกระจายศูนย์ที่พลิกการประสานงานแบบหลายเอเจนต์จากรูปแบบคงที่ให้กลายเป็นความร่วมมือแบบไดนามิกที่ยึดความสามารถเป็นศูนย์กลาง ระบบนี้นำเสนอ Versioned Capability Vectors (VCVs) ซึ่งเป็นเวกเตอร์ความสามารถแบบมีการจัดการเวอร์ชันที่แปลงความสามารถของเอเจนต์ให้อยู่ในรูปโปรไฟล์ที่เครื่องอ่านได้ ทำให้เอเจนต์สามารถประกาศความสามารถ ต้นทุน และข้อจำกัดของตนเองได้อย่างมีประสิทธิภาพ สถาปัตยกรรมของ FoA ประกอบด้วยนวัตกรรมหลัก 3 ประการ ประการแรก ใช้ semantic routing เพื่อจับคู่งานกับเอเจนต์ โดยอาศัยดัชนี HNSW แบบแบ่งชาร์ด และทำ cost-biased optimization ภายใต้ข้อจำกัดด้านการปฏิบัติการ ประการที่สอง ใช้เทคนิค dynamic task decomposition เพื่อให้เอเจนต์ที่เข้ากันได้ร่วมกันแยกงานที่ซับซ้อนออกเป็นงานย่อยในรูป DAG (Directed Acyclic Graph) และดำเนินงานร่วมกันผ่านการรวมผลแบบอิงฉันทามติ ประการที่สาม ใช้ smart clustering เพื่อจัดกลุ่มเอเจนต์ที่ทำงานย่อยคล้ายกันเข้าสู่ช่องทางความร่วมมือ และปรับแต่งงานให้ละเอียดขึ้นผ่านการ refinement แบบ k-round

FoA รองรับการส่งข้อความที่ขยายสเกลได้บนพื้นฐานของ publish-subscribe semantics ของ MQTT และบรรลุความซับซ้อนระดับ sub-linear ผ่านการจับคู่ความสามารถแบบลำดับชั้นและการดูแลรักษาดัชนีอย่างมีประสิทธิภาพ ผลการประเมินบน HealthBench แสดงให้เห็นว่า FoA ให้ประสิทธิภาพเหนือกว่า baseline แบบโมเดลเดี่ยวถึง 13 เท่า โดยเฉพาะอย่างยิ่งความร่วมมือที่เสริมด้วยการทำคลัสเตอร์พิสูจน์ให้เห็นว่ามีประสิทธิผลในงานให้เหตุผลที่ซับซ้อนซึ่งต้องใช้หลายมุมมอง ระบบนี้สามารถขยายในแนวนอนได้พร้อมรักษาประสิทธิภาพอย่างสม่ำเสมอ แสดงให้เห็นว่า semantic orchestration ผ่านความร่วมมือที่มีโครงสร้างสามารถดึงใช้ collective intelligence ของสหพันธรัฐเอเจนต์ AI ที่มีความหลากหลายได้อย่างมีประสิทธิภาพ งานวิจัยนี้คาดว่าจะมีส่วนช่วยต่อความก้าวหน้าของวงการ AI ด้วยการเสนอวิธีการที่เพิ่มประสิทธิภาพของระบบหลายเอเจนต์ให้สูงสุด และทำให้สามารถจัดการงานที่ซับซ้อนได้อย่างมีประสิทธิผลมากขึ้น

บทคัดย่อ(Abstract)

ต่อไปนี้คือบทคัดย่อของงานวิจัยในสาขา AI/ML เราขอนำเสนอ Federation of Agents (FoA) ซึ่งเป็นเฟรมเวิร์ก orchestration แบบกระจายศูนย์ที่เปลี่ยนการประสานงานหลายเอเจนต์แบบคงที่ให้เป็นความร่วมมือแบบไดนามิกที่ขับเคลื่อนด้วยความสามารถ FoA แนะนำ Versioned Capability Vectors (VCVs) ซึ่งเป็นโปรไฟล์ที่เครื่องอ่านได้ ทำให้สามารถค้นหาความสามารถของเอเจนต์ผ่าน semantic embeddings ได้ ช่วยให้เอเจนต์ประกาศความสามารถ ต้นทุน และข้อจำกัดของตนเองได้ สถาปัตยกรรมของเราผสานนวัตกรรมหลัก 3 ประการ: (1) semantic routing ที่จับคู่งานกับเอเจนต์ผ่านดัชนี HNSW แบบ sharded พร้อมบังคับใช้ข้อจำกัดในการดำเนินงานผ่าน cost-biased optimization (2) dynamic task decomposition ที่เอเจนต์ซึ่งเข้ากันได้ร่วมกันแยกงานซับซ้อนออกเป็น DAG ของงานย่อยผ่านการผสานแบบอิงฉันทามติ และ (3) smart clustering ที่จัดกลุ่มเอเจนต์ซึ่งทำงานย่อยคล้ายกันไว้ในช่องทางความร่วมมือเพื่อทำการปรับแต่งแบบ k-round ก่อนการสังเคราะห์ บนพื้นฐานของความหมายเชิง publish-subscribe ของ MQTT นั้น FoA บรรลุความซับซ้อนระดับ sub-linear ผ่านการจับคู่ความสามารถแบบลำดับชั้นและการดูแลรักษาดัชนีอย่างมีประสิทธิภาพ ผลการประเมินบน HealthBench แสดงให้เห็นการปรับปรุงดีขึ้น 13 เท่าเมื่อเทียบกับ baseline แบบโมเดลเดี่ยว และพิสูจน์ว่าความร่วมมือที่เสริมด้วยการทำคลัสเตอร์มีประสิทธิภาพอย่างยิ่งสำหรับงานให้เหตุผลที่ซับซ้อนซึ่งต้องอาศัยหลายมุมมอง ระบบนี้สามารถขยายในแนวนอนได้พร้อมรักษาประสิทธิภาพที่สม่ำเสมอ และแสดงให้เห็นว่า semantic orchestration ร่วมกับความร่วมมือแบบมีโครงสร้างสามารถปลดล็อกปัญญารวมหมู่ของสหพันธ์เอเจนต์ AI ที่หลากหลายได้
> We present Federation of Agents (FoA), a distributed orchestration framework that transforms static multi-agent coordination into dynamic, capability-driven collaboration. FoA introduces Versioned Capability Vectors (VCVs): machine-readable profiles that make agent capabilities searchable through semantic embeddings, enabling agents to advertise their capabilities, cost, and limitations. Our aarchitecturecombines three key innovations: (1) semantic routing that matches tasks to agents over sharded HNSW indices while enforcing operational constraints through cost-biased optimization, (2) dynamic task decomposition where compatible agents collaboratively break down complex tasks into DAGs of subtasks through consensus-based merging, and (3) smart clustering that groups agents working on similar subtasks into collaborative channels for k-round refinement before synthesis. Built on top of MQTT,s publish-subscribe semantics for scalable message passing, FoA achieves sub-linear complexity through hierarchical capability matching and efficient index maintenance. Evaluation on HealthBench shows 13x improvements over single-model baselines, with clustering-enhanced laboration particularly effective for complex reasoning tasks requiring multiple perspectives. The system scales horizontally while maintaining consistent performance, demonstrating that semantic orchestration with structured collaboration can unlock the collective intelligence of heterogeneous federations of AI agents.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2509.20175


การสำรวจกลไก attention ที่มีประสิทธิภาพสำหรับโมเดลภาษาขนาดใหญ่ / Efficient Attention Mechanisms for Large Language Models: A Survey

แนะนำงานวิจัย

สถาปัตยกรรมที่อิงทรานส์ฟอร์เมอร์เป็นแกนหลักของโมเดลภาษาขนาดใหญ่ แต่ความซับซ้อนเชิงกำลังสองด้านเวลาและหน่วยความจำของ self-attention เป็นข้อจำกัดสำคัญต่อการประมวลผลบริบทยาว เพื่อแก้ปัญหานี้ งานวิจัยช่วงหลังได้เสนอเทคนิค attention ที่มีประสิทธิภาพหลักอยู่ 2 แนวทาง ได้แก่ linear attention ที่ใช้ kernel approximation, โครงสร้างแบบ recurrent และพลวัตของ fast weight และ sparse attention ที่อาศัยรูปแบบคงที่ การ routing เป็นบล็อก และการทำ clustering บทความสำรวจฉบับนี้จัดระเบียบวิธีการเหล่านี้อย่างเป็นระบบโดยบูรณาการทั้งนวัตกรรมเชิงอัลกอริทึมและมุมมองด้านฮาร์ดแวร์ พร้อมวิเคราะห์รูปแบบการออกแบบที่หลากหลายของโมเดลภาษาที่ผ่านการพรีเทรนขนาดใหญ่ซึ่งนำ efficient attention ไปใช้ ด้วยเหตุนี้ บทความจึงเป็นข้อมูลพื้นฐานที่เชื่อมโยงทั้งทฤษฎีและกลยุทธ์เชิงปฏิบัติสำหรับการออกแบบโมเดลภาษาที่ขยายขนาดได้และมีประสิทธิภาพ

บทคัดย่อ (Abstract)

สถาปัตยกรรมที่อิงกับ Transformer ได้กลายเป็นแบ็กโบนกระแสหลักของโมเดลภาษาขนาดใหญ่ไปแล้ว อย่างไรก็ตาม ความซับซ้อนด้านเวลาและหน่วยความจำระดับกำลังสองของ self-attention ยังคงเป็นอุปสรรคพื้นฐานต่อการทำโมเดลบริบทยาวอย่างมีประสิทธิภาพ เพื่อแก้ข้อจำกัดนี้ งานวิจัยระยะหลังได้เสนอ attention mechanism ที่มีประสิทธิภาพอยู่ 2 หมวดหลัก วิธีแบบ linear attention ใช้การประมาณค่าเคอร์เนล, การจัดรูปแบบแบบเวียนกลับ, หรือ fastweight dynamics เพื่อให้ได้ความซับซ้อนเชิงเส้น จึงทำให้การอนุมานขยายสเกลได้พร้อมลดภาระการคำนวณลง ในทางตรงกันข้าม เทคนิค sparse attention จะจำกัดการคำนวณ attention ไว้เฉพาะกับชุดย่อยของโทเคนที่เลือกไว้ โดยอิงจากแพตเทิร์นคงที่, การกำหนดเส้นทางแบบเป็นบล็อก, หรือกลยุทธ์การทำคลัสเตอร์ ช่วยเพิ่มประสิทธิภาพโดยยังคงครอบคลุมบริบทไว้ได้ บทความสำรวจนี้นำเสนอภาพรวมของความก้าวหน้าเหล่านี้อย่างเป็นระบบและครอบคลุม โดยผสานทั้งนวัตกรรมเชิงอัลกอริทึมและข้อพิจารณาระดับฮาร์ดแวร์ นอกจากนี้ ยังวิเคราะห์การผสาน efficient attention เข้ากับโมเดลภาษาที่ผ่านการพรีเทรนขนาดใหญ่ ทั้งสถาปัตยกรรมที่สร้างขึ้นบน efficient attention ทั้งหมด และดีไซน์แบบไฮบริดที่ผสานองค์ประกอบ local และ global เข้าด้วยกัน ด้วยการเชื่อมโยงรากฐานเชิงทฤษฎีกับกลยุทธ์การนำไปใช้งานจริง งานนี้มีเป้าหมายเพื่อเป็นแหล่งอ้างอิงพื้นฐานสำหรับการพัฒนาการออกแบบโมเดลภาษาที่ขยายสเกลได้และมีประสิทธิภาพ
> Transformer-based architectures have become the prevailing backbone of large language models. However, the quadratic time and memory complexity of self-attention remains a fundamental obstacle to efficient long-context modeling. To address this limitation, recent research has introduced two principal categories of efficient attention mechanisms. Linear attention methods achieve linear complexity through kernel approximations, recurrent formulations, or fastweight dynamics, thereby enabling scalable inference with reduced computational overhead. Sparse attention techniques, in contrast, limit attention computation to selected subsets of tokens based on fixed patterns, block-wise routing, or clustering strategies, enhancing efficiency while preserving contextual coverage. This survey provides a systematic and comprehensive overview of these developments, integrating both algorithmic innovations and hardware-level considerations. In addition, we analyze the incorporation of efficient attention into largescale pre-trained language models, including both architectures built entirely on efficient attention and hybrid designs that combine local and global components. By aligning theoretical foundations with practical deployment strategies, this work aims to serve as a foundational reference for advancing the design of scalable and efficient language models.

ลิงก์บทความ

https://arxiv.org/abs/2507.19595


⚠️โฆษณา⚠️: บทความนี้ที่ 🔥ชุมชนผู้ใช้ PyTorch เกาหลี🇰🇷 สรุปไว้มีประโยชน์สำหรับคุณไหม? หาก สมัครสมาชิก เราจะส่งบทความสำคัญทางอีเมล💌ให้คุณ! (ค่าเริ่มต้นคือ Weekly แต่เปลี่ยนเป็น Daily ได้.)

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น