ML ที่น่าติดตามประจำสัปดาห์นี้

(discuss.pytorch.kr)

11 คะแนน โดย ninebow 2025-09-10 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

[2025/09/01 ~ 07] รวมงานวิจัย AI/ML ที่น่าติดตามประจำสัปดาห์นี้

PyTorchKR🔥🇰🇷 🤔💭

1️⃣ ข้อจำกัดและการควบคุมของโมเดลภาษาขนาดใหญ่: มีงานวิจัยหลายฉบับที่อภิปรายถึงข้อจำกัดของโมเดลภาษาขนาดใหญ่ (LLM) และวิธีควบคุมข้อจำกัดเหล่านั้น โดยเฉพาะใน "On the Fundamental Impossibility of Hallucination Control in Large Language Models" ที่นำเสนอความเป็นไปไม่ได้ในเชิงทฤษฎีที่ว่า LLM ไม่สามารถบรรลุทั้งการแสดงความรู้ที่เป็นจริงและการคงรักษาข้อมูลไปพร้อมกันได้ พร้อมเน้นย้ำความเป็นอันหนึ่งอันเดียวกันทางคณิตศาสตร์ระหว่างอาการหลอนกับความคิดสร้างสรรค์ สิ่งนี้มอบพื้นฐานสำหรับการจัดการพฤติกรรมลักษณะดังกล่าวในระบบ AI

2️⃣ เทคนิคการเรียนรู้และการเพิ่มประสิทธิภาพอย่างมีประสิทธิผล: งานวิจัยอย่าง "Fantastic Pretraining Optimizers and Where to Find Them" และ "Communication Efficient LLM Pre-training with SparseLoCo" สำรวจเทคนิคการเพิ่มประสิทธิภาพแบบใหม่เพื่อยกระดับประสิทธิภาพในกระบวนการฝึก LLM โดยเฉพาะ SparseLoCo ที่ใช้การทำให้เบาบางและการควอนไทซ์เพื่อเพิ่มประสิทธิภาพการสื่อสาร และแสดงผลลัพธ์ที่ดีขึ้นทั้งในด้านประสิทธิภาพและต้นทุนการสื่อสาร

3️⃣ การทำงานร่วมกันของระบบหลายเอเจนต์และการปรับปรุงหน่วยความจำ: ใน "Anemoi: A Semi-Centralized Multi-agent Systems Based on Agent-to-Agent Communication MCP server from Coral Protocol" และ "Memp: Exploring Agent Procedural Memory" ได้มีการเสนอแนวทางเพื่อปรับปรุงรูปแบบการทำงานร่วมกันของระบบหลายเอเจนต์และหน่วยความจำเชิงกระบวนการของเอเจนต์ Anemoi ช่วยยกระดับประสิทธิภาพผ่านความร่วมมือโดยตรงระหว่างเอเจนต์ ส่วน Memp ทำให้เอเจนต์มีหน่วยความจำเชิงกระบวนการที่เรียนรู้ได้ จึงรองรับการอัปเดตและการปรับปรุงอย่างต่อเนื่อง

งานวิจัยว่าด้วยความเป็นไปไม่ได้โดยพื้นฐานของการควบคุมอาการหลอนในโมเดลภาษาขนาดใหญ่ / On the Fundamental Impossibility of Hallucination Control in Large Language Models

แนะนำงานวิจัย

ปัญหาอาการหลอนของโมเดลภาษาขนาดใหญ่ (LLM) เป็นประเด็นที่ส่งผลอย่างมีนัยสำคัญต่อความน่าเชื่อถือและความแม่นยำของระบบปัญญาประดิษฐ์ และงานวิจัยนี้มุ่งอธิบายความเป็นไปไม่ได้โดยพื้นฐานของปัญหาดังกล่าวด้วยวิธีทางคณิตศาสตร์ ผู้เขียนอธิบายชุดของข้อมูลบิตด้วยแนวคิดแบบการประมูล และวิเคราะห์กระบวนการที่องค์ประกอบหลายส่วนใช้ความรู้เฉพาะส่วนของตนเพื่อสร้างคำตอบ งานวิจัยนี้มอบรากฐานทางคณิตศาสตร์ของอาการหลอนและความคิดสร้างสรรค์ผ่านสามสาขาคณิตศาสตร์อิสระ ได้แก่ ทฤษฎีการออกแบบกลไก ทฤษฎีกฎการให้คะแนนที่เหมาะสม และการวิเคราะห์สถาปัตยกรรมทรานส์ฟอร์เมอร์โดยตรง โดยเฉพาะอย่างยิ่ง ผู้เขียนเสนอวิธีการหาปริมาณของความมั่นใจเกินจริงหรือการสร้างคำตอบเชิงสัญชาตญาณ ซึ่งปรากฏเป็นลักษณะร่วมของทั้งอาการหลอนและความคิดสร้างสรรค์

นอกจากนี้ งานวิจัยยังนำเสนอแนวคิดเรื่องการวัดข้อมูลเชิงความหมายและตัวดำเนินการเกิดใหม่ เพื่อใช้จำลองการอนุมานที่มีข้อจำกัด และเน้นว่าการอนุมานที่มีข้อจำกัดจะสร้างข้อมูลที่เข้าถึงได้ ขณะที่การอนุมานเชิงอุดมคติแบบไร้ขีดจำกัดจะคงรักษาเนื้อหาเชิงความหมายไว้อย่างเคร่งครัด จากการวิเคราะห์นี้ ผู้เขียนพิสูจน์ว่าอาการหลอนและจินตนาการเป็นปรากฏการณ์ที่เหมือนกันทางคณิตศาสตร์ อันเกิดจากการเบี่ยงเบนในด้านความจริง การคงรักษาข้อมูลเชิงความหมาย การเปิดเผยความรู้ที่เกี่ยวข้อง และความเหมาะที่สุดภายใต้ข้อจำกัดของความรู้ งานวิจัยนี้มอบรากฐานเชิงทฤษฎีที่อาจส่งผลสำคัญต่อการออกแบบและการประเมินระบบ AI พร้อมทั้งให้มุมมองต่อทิศทางการวิจัยในอนาคต ผลงานเหล่านี้คาดว่าจะตั้งคำถามใหม่ที่จุดตัดระหว่างทฤษฎีสารสนเทศกับ AI และช่วยทำให้ความเข้าใจต่อธรรมชาติของข้อมูลลึกซึ้งยิ่งขึ้น

บทคัดย่อ (Abstract)

บทความนี้ตั้งทฤษฎีบทความเป็นไปไม่ได้พื้นฐานขึ้นมา: LLM ที่สามารถทำการรวมความรู้แบบไม่เป็นเรื่องเล็กน้อย (non-trivial) ได้ ไม่สามารถบรรลุการแทนความรู้ที่เป็นความจริง การคงรักษาข้อมูลเชิงความหมาย การเปิดเผยความรู้ที่เกี่ยวข้องอย่างครบถ้วน และความเหมาะที่สุดภายใต้ข้อจำกัดของความรู้ได้พร้อมกัน ความเป็นไปไม่ได้นี้ไม่ได้เกิดจากข้อจำกัดทางวิศวกรรม แต่เกิดจากโครงสร้างทางคณิตศาสตร์ของการรวมข้อมูลเอง เราพิสูจน์ผลลัพธ์นี้โดยอธิบายกระบวนการอนุมานว่าเป็นการประมูลของแนวคิด ซึ่งองค์ประกอบที่กระจายตัวกันจะแข่งขันกันโดยใช้ความรู้บางส่วนของตนเพื่อกำหนดคำตอบ ข้อพิสูจน์ครอบคลุมสามสาขาคณิตศาสตร์ที่เป็นอิสระต่อกัน: ทฤษฎีการออกแบบกลไก (Green-Laffont), ทฤษฎีกฎการให้คะแนนที่เหมาะสม (Savage) และการวิเคราะห์สถาปัตยกรรมของทรานส์ฟอร์เมอร์โดยตรง (ความนูนแบบ Log-Sum-Exp) โดยเฉพาะอย่างยิ่ง เราแสดงวิธีวัดเชิงปริมาณการสร้างคำตอบที่มั่นใจเกินไป (overconfidence) หรือเป็นไปตามสัญชาตญาณ ซึ่งเป็นลักษณะเฉพาะของทั้งอาการหลอน (hallucination) และความคิดสร้างสรรค์ (creativity) หรือจินตนาการ เพื่อสนับสนุนการวิเคราะห์นี้ เราได้นำเสนอแนวคิดเสริมกันของตัววัดข้อมูลเชิงความหมายและตัวดำเนินการการเกิดขึ้น เพื่อใช้สร้างแบบจำลองการใช้เหตุผลแบบมีขอบเขตในบริบททั่วไป เราพิสูจน์ว่าแม้การใช้เหตุผลแบบมีขอบเขตจะสร้างข้อมูลที่เข้าถึงได้และมอบข้อค้นพบกับแรงบันดาลใจที่มีคุณค่า แต่การใช้เหตุผลแบบอุดมคติที่ไม่มีข้อจำกัดจะคงรักษาเนื้อหาเชิงความหมายไว้อย่างเคร่งครัด ด้วยการแสดงให้เห็นว่าอาการหลอนและจินตนาการเป็นปรากฏการณ์เดียวกันในเชิงคณิตศาสตร์ โดยตั้งอยู่บนการเบี่ยงเบนจากความเป็นจริง การคงรักษาข้อมูลเชิงความหมาย การเปิดเผยความรู้ที่เกี่ยวข้อง และความเหมาะที่สุดภายใต้ข้อจำกัดของความรู้ เราจึงเสนอรากฐานเชิงหลักการสำหรับการจัดการพฤติกรรมเหล่านี้ในระบบ AI ขั้นสูง สุดท้าย เรานำเสนอแนวคิดเชิงคาดการณ์บางประการเพื่อจุดประกายการประเมินและการปรับปรุงทฤษฎีที่เสนอไว้
> This paper establishes a fundamental impossibility theorem: no LLM capable of performing non-trivial knowledge aggregation can simultaneously achieve truthful knowledge representation, semantic information conservation, complete revelation of relevant knowledge, and knowledge-constrained optimality. The impossibility is not an engineering limitation but arises from the mathematical structure of information aggregation itself. We establish this result by describing the inference process as an auction of ideas, where distributed components compete exploiting their partial knowledge to shape responses. The proof spans three independent mathematical domains: mechanism design theory (Green-Laffont), the theory of proper scoring rules (Savage), and direct architectural analysis of transformers (Log-Sum-Exp convexity). In particular, we show how to quantify the creation of overconfident or intuitive responses-the signature of both hallucination and creativity, or imagination. To support this analysis, we introduce the complementary concepts of the semantic information measure and the emergence operator to model bounded reasoning in a general setting. We prove that while bounded reasoning generates accessible information, providing valuable insights and inspirations, the idealized unconstrained reasoning strictly preserves semantic content. By demonstrating that hallucination and imagination are mathematically identical phenomena-grounded in departures from truthfulness, semantic information conservation, revelation of relevant knowledge, and knowledge-constrained optimality-we offer a principled foundation for managing these behaviors in advanced AI systems. Finally, we present some speculative ideas to inspire evaluation and refinements of the proposed theory.

ลิงก์บทความ

https://arxiv.org/abs/2506.06382

ออปติไมเซอร์พรีเทรนสุดมหัศจรรย์และวิธีค้นหาพวกมัน / Fantastic Pretraining Optimizers and Where to Find Them

แนะนำงานวิจัย

ออปติไมเซอร์สำหรับพรีเทรนมีบทบาทสำคัญในการฝึกโมเดลภาษาขนาดใหญ่ โดยเฉพาะ AdamW ที่เป็นมาตรฐานมาอย่างยาวนาน อย่างไรก็ตาม งานวิจัยช่วงหลังอ้างว่าออปติไมเซอร์ทางเลือกบางตัวช่วยเพิ่มความเร็วได้ 1.4 ถึง 2 เท่า แต่การศึกษานี้ชี้ให้เห็นว่าคำกล่าวอ้างดังกล่าวอาจเกินจริง ในงานนี้ ผู้วิจัยระบุปัญหาหลักที่รองรับคำกล่าวอ้างเหล่านี้อยู่สองประการ ประการแรก การปรับจูนไฮเปอร์พารามิเตอร์อาจทำอย่างไม่สมดุล และประการที่สอง การตั้งค่าการประเมินอาจจำกัดเกินไปหรือทำให้เกิดความเข้าใจผิด เพื่อแก้ปัญหานี้ ผู้เขียนได้เปรียบเทียบดีปเลิร์นนิงออปติไมเซอร์ 10 แบบอย่างเป็นระบบในหลายสเกลของโมเดลและหลายสัดส่วนข้อมูลต่อโมเดล

ระเบียบวิธีหลักของงานวิจัยนี้อธิบายกรอบการปรับจูนไฮเปอร์พารามิเตอร์ออกเป็นสามขั้น ตอนแรกคือการปรับจูนไฮเปอร์พารามิเตอร์ของออปติไมเซอร์แต่ละตัวอย่างละเอียดเพื่อดึงประสิทธิภาพที่ดีที่สุดออกมา ขั้นตอนที่สองคือการเลือกปรับเฉพาะส่วนของไฮเปอร์พารามิเตอร์ที่จำเป็นเพื่อให้ใช้หน่วยความจำน้อยลง สุดท้าย ในขั้นตอนที่สาม จะใช้กฎการสเกลเพื่อคาดการณ์ค่าที่เหมาะที่สุดของไฮเปอร์พารามิเตอร์ตามขนาดโมเดลและงบประมาณข้อมูล วิธีการนี้ช่วยให้การเปรียบเทียบระหว่างออปติไมเซอร์มีความยุติธรรมและทำซ้ำได้ โดยผลการวิจัยเน้นว่าออปติไมเซอร์แบบอิงเมทริกซ์ให้ประสิทธิภาพดีกว่าออปติไมเซอร์แบบอิงสเกลาร์อย่างสม่ำเสมอ

งานวิจัยนี้เน้นย้ำความสำคัญของการปรับจูนไฮเปอร์พารามิเตอร์ และความจำเป็นของการประเมินในหลายสเกลของโมเดลและหลายสัดส่วนข้อมูลต่อโมเดล พร้อมทั้งแสดงให้เห็นว่าค่าไฮเปอร์พารามิเตอร์ที่เหมาะที่สุดสำหรับออปติไมเซอร์หนึ่ง อาจไม่เหมาะสมที่สุดสำหรับออปติไมเซอร์อีกตัวหนึ่ง ข้อค้นพบเหล่านี้จะมีส่วนสำคัญต่อการกำหนดมาตรฐานสำหรับการออกแบบและประเมินออปติไมเซอร์ในอนาคต

บทคัดย่อ (Abstract)

AdamW เป็นออปติไมเซอร์ที่ครองความนิยมมาอย่างยาวนานในการพรีเทรน language model แม้จะมีคำกล่าวอ้างจำนวนมากว่าออปติไมเซอร์ทางเลือกสามารถเพิ่มความเร็วได้ 1.4 ถึง 2 เท่า เราเสนอว่ามีข้อบกพร่องเชิงวิธีวิทยา 2 ประการที่บดบังการเปรียบเทียบอย่างเป็นธรรมและขัดขวางการนำไปใช้จริง ได้แก่ (i) การจูนไฮเปอร์พารามิเตอร์ที่ไม่เท่าเทียมกัน และ (ii) การตั้งค่าการประเมินที่จำกัดหรือชวนให้เข้าใจผิด เพื่อแก้ปัญหาทั้งสองข้อนี้ เราได้ทำการศึกษาเชิงระบบกับออปติไมเซอร์สำหรับดีปเลิร์นนิง 10 แบบ ครอบคลุม 4 ระดับขนาดโมเดล (พารามิเตอร์ 0.1B-1.2B) และอัตราส่วนข้อมูลต่อโมเดล (1-8 เท่าของค่าที่เหมาะสมตาม Chinchilla) เราพบว่าการเปรียบเทียบที่เป็นธรรมและให้ข้อมูลที่มีประโยชน์จำเป็นต้องมีการจูนไฮเปอร์พารามิเตอร์อย่างเข้มงวด และการประเมินในหลายระดับขนาดโมเดลและอัตราส่วนข้อมูลต่อโมเดล โดยต้องทำเมื่อสิ้นสุดการฝึก ประการแรก ไฮเปอร์พารามิเตอร์ที่เหมาะสมที่สุดสำหรับออปติไมเซอร์หนึ่งอาจไม่เหมาะกับอีกออปติไมเซอร์หนึ่ง ดังนั้นการย้ายไฮเปอร์พารามิเตอร์แบบตรงๆ จึงไม่เป็นธรรม ประการที่สอง การเพิ่มความเร็วจริงของออปติไมเซอร์ที่ถูกเสนอจำนวนมากเมื่อเทียบกับ baseline ที่จูนมาอย่างดีนั้นต่ำกว่าที่อ้างไว้ และลดลงตามขนาดโมเดล จนเหลือเพียง 1.1 เท่าสำหรับโมเดลขนาด 1.2B พารามิเตอร์ ประการที่สาม การเปรียบเทียบ checkpoint ระหว่างทางก่อนถึงงบประมาณการฝึกที่ตั้งเป้าไว้ อาจทำให้เข้าใจผิดได้ เพราะอันดับระหว่างออปติไมเซอร์สองตัวสามารถสลับกันระหว่างการฝึกได้จากการลด learning rate จากการตรวจสอบอย่างละเอียดของเรา เราพบว่าออปติไมเซอร์ที่เร็วที่สุดทั้งหมด เช่น Muon และ Soap ใช้เมทริกซ์เป็น preconditioner โดยคูณกราเดียนต์ด้วยเมทริกซ์แทนที่จะเป็นสเกลาร์รายองค์ประกอบ อย่างไรก็ตาม ความเร็วที่เพิ่มขึ้นของออปติไมเซอร์แบบเมทริกซ์จะแปรผกผันกับขนาดโมเดล โดยลดลงจาก 1.4 เท่าเมื่อเทียบกับ AdamW ในโมเดลขนาด 0.1B พารามิเตอร์ เหลือเพียง 1.1 เท่าในโมเดลขนาด 1.2B พารามิเตอร์
> AdamW has long been the dominant optimizer in language model pretraining, despite numerous claims that alternative optimizers offer 1.4 to 2x speedup. We posit that two methodological shortcomings have obscured fair comparisons and hindered practical adoption: (i) unequal hyperparameter tuning and (ii) limited or misleading evaluation setups. To address these two issues, we conduct a systematic study of ten deep learning optimizers across four model scales (0.1B-1.2B parameters) and data-to-model ratios (1-8x the Chinchilla optimum). We find that fair and informative comparisons require rigorous hyperparameter tuning and evaluations across a range of model scales and data-to-model ratios, performed at the end of training. First, optimal hyperparameters for one optimizer may be suboptimal for another, making blind hyperparameter transfer unfair. Second, the actual speedup of many proposed optimizers over well-tuned baselines is lower than claimed and decreases with model size to only 1.1x for 1.2B parameter models. Thirdly, comparing intermediate checkpoints before reaching the target training budgets can be misleading, as rankings between two optimizers can flip during training due to learning rate decay. Through our thorough investigation, we find that all the fastest optimizers such as Muon and Soap, use matrices as preconditioners -- multiplying gradients with matrices rather than entry-wise scalars. However, the speedup of matrix-based optimizers is inversely proportional to model scale, decreasing from 1.4x over AdamW for 0.1B parameter models to merely 1.1x for 1.2B parameter models.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2509.02046

อ่านเพิ่มเติม

https://wandb.ai/marin-community/optimizer-scaling

Anemoi: เซิร์ฟเวอร์ MCP สำหรับระบบมัลติเอเจนต์แบบกึ่งรวมศูนย์ที่อิงการสื่อสารระหว่างเอเจนต์ / Anemoi: A Semi-Centralized Multi-agent Systems Based on Agent-to-Agent Communication MCP server from Coral Protocol

แนะนำงานวิจัย

Anemoi คือระบบมัลติเอเจนต์แบบกึ่งรวมศูนย์ (Multi-Agent System, MAS) ที่อิงบนโมเดลการสื่อสาร A2A (Agent-to-Agent) ของ Coral Protocol ซึ่งช่วยให้การประสานงานงานมีประสิทธิภาพผ่านความร่วมมือโดยตรงระหว่างเอเจนต์ เดิมที MAS แบบรวมศูนย์ใช้เอเจนต์วางแผนคอยประสานเอเจนต์ปฏิบัติงานหลายตัวในลักษณะทางเดียว ส่งผลให้เกิดปัญหาการพึ่งพาความสามารถของตัววางแผนมากเกินไป รวมถึงการสูญหายและความซ้ำซ้อนของข้อมูลอันเกิดจากการสื่อสารระหว่างเอเจนต์ที่จำกัด Anemoi ถูกออกแบบมาเพื่อแก้ปัญหาเหล่านี้ โดยมอบโครงสร้างที่ทำให้เอเจนต์ทุกตัวสามารถติดตามความคืบหน้าแบบเรียลไทม์ ระบุคอขวด และเสนอแนวทางปรับปรุงได้

หัวใจสำคัญของ Anemoi คือการใช้เซิร์ฟเวอร์ MCP (Multi-Agent Communication Protocol) สำหรับการสื่อสารแบบ A2A ของ Coral Protocol เพื่อรองรับการไหลของข้อมูลระหว่างเอเจนต์อย่างราบรื่น ระบบนี้ผสานเอเจนต์ผู้วางแผนกับเอเจนต์ปฏิบัติงานหลายตัวที่เชี่ยวชาญเฉพาะด้าน โดยให้ตัววางแผนจัดทำแผนเริ่มต้น และเปิดให้ฝั่งผู้ปฏิบัติงานประสานกันได้โดยตรง ส่งผลให้การพึ่งพาตัววางแผนแบบรวมศูนย์ลดลง สามารถอัปเดตแผนได้อย่างปรับตัวตามสถานการณ์ และลดการส่งต่อคอนเท็กซ์ซ้ำซ้อนเพื่อให้การดำเนินงานมีประสิทธิภาพด้านต้นทุน

Anemoi ได้รับการประเมินบนเบนช์มาร์ก GAIA และทำความแม่นยำได้ 52.73% โดยใช้ LLM ขนาดเล็ก (GPT-4.1-mini) เป็นตัววางแผน ซึ่งสูงกว่า OWL ที่เป็น baseline โอเพนซอร์สที่แข็งแกร่งที่สุดภายใต้การตั้งค่าเดียวกันที่ 43.63% อยู่ 9.09% ผลลัพธ์นี้แสดงให้เห็นว่าโมเดลการสื่อสาร A2A แบบกึ่งรวมศูนย์ของ Anemoi สามารถมีส่วนช่วยยกระดับประสิทธิภาพของระบบมัลติเอเจนต์ได้

งานวิจัยนี้เปิดความเป็นไปได้ใหม่ให้กับระบบมัลติเอเจนต์ผ่านความร่วมมือโดยตรงระหว่างเอเจนต์และการปรับปรุงการไหลของข้อมูล และคาดว่าจะมีส่วนสำคัญต่อการพัฒนาระบบ AI แบบทั่วไปในอนาคต ทั้งนี้ implementation ของ Anemoi ได้เปิดเผยบน GitHub แล้ว ทำให้นักวิจัยมีโอกาสนำระบบนี้ไปใช้พัฒนาแอปพลิเคชันที่หลากหลายได้

บทคัดย่อ (Abstract)

ความก้าวหน้าล่าสุดของระบบหลายเอเจนต์แบบทั่วไป (MAS) โดยมากดำเนินตามแนวทาง context engineering ควบคู่กับพาราไดม์แบบรวมศูนย์ ซึ่งเอเจนต์ผู้วางแผนจะประสานงานเอเจนต์ผู้ปฏิบัติงานหลายตัวผ่านการส่งต่อพรอมป์ตทางเดียว แม้จะมีประสิทธิภาพเมื่อใช้โมเดลผู้วางแผนที่แข็งแกร่ง แต่การออกแบบนี้มีข้อจำกัดสำคัญสองประการ: (1) พึ่งพาความสามารถของผู้วางแผนอย่างมาก ทำให้ประสิทธิภาพลดลงเมื่อใช้ LLM ขนาดเล็กเป็นตัวขับเคลื่อนผู้วางแผน; และ (2) การสื่อสารระหว่างเอเจนต์มีจำกัด ทำให้การทำงานร่วมกันต้องอาศัยการต่อพรอมป์ตและการใส่บริบทที่มีต้นทุนสูง ซึ่งก่อให้เกิดความซ้ำซ้อนและการสูญเสียข้อมูล เพื่อแก้ปัญหาเหล่านี้ เราขอเสนอ Anemoi ซึ่งเป็น MAS แบบกึ่งรวมศูนย์ที่สร้างบน MCP server สำหรับการสื่อสารแบบ Agent-to-Agent (A2A) จาก Coral Protocol แตกต่างจากการออกแบบแบบดั้งเดิม Anemoi ช่วยให้เกิดการทำงานร่วมกันระหว่างเอเจนต์อย่างเป็นโครงสร้างและโดยตรง ทำให้เอเจนต์ทุกตัวสามารถติดตามความคืบหน้า ประเมินผลลัพธ์ ระบุคอขวด และเสนอการปรับปรุงได้แบบเรียลไทม์ พาราไดม์นี้ช่วยลดการพึ่งพาผู้วางแผนเพียงตัวเดียว รองรับการอัปเดตแผนแบบปรับตัวได้ และลดการส่งผ่านบริบทที่ซ้ำซ้อน ส่งผลให้การดำเนินการขยายขนาดได้ดีขึ้นและคุ้มค่าต้นทุนมากขึ้น จากการประเมินบน benchmark GAIA พบว่า Anemoi ทำความแม่นยำได้ 52.73% โดยใช้ LLM ขนาดเล็ก (GPT-4.1-mini) เป็นผู้วางแผน และเหนือกว่า OWL (43.63%) ซึ่งเป็น baseline โอเพนซอร์สที่แข็งแกร่งที่สุดอยู่ +9.09% ภายใต้การตั้งค่า LLM เดียวกัน โดย implementation ของเราเปิดให้ใช้งานสาธารณะที่ https://github.com/Coral-Protocol/Anemoi
> Recent advances in generalist multi-agent systems (MAS) have largely followed a context-engineering plus centralized paradigm, where a planner agent coordinates multiple worker agents through unidirectional prompt passing. While effective under strong planner models, this design suffers from two critical limitations: (1) strong dependency on the planner's capability, which leads to degraded performance when a smaller LLM powers the planner; and (2) limited inter-agent communication, where collaboration relies on costly prompt concatenation and context injection, introducing redundancy and information loss. To address these challenges, we propose Anemoi, a semi-centralized MAS built on the Agent-to-Agent (A2A) communication MCP server from Coral Protocol. Unlike traditional designs, Anemoi enables structured and direct inter-agent collaboration, allowing all agents to monitor progress, assess results, identify bottlenecks, and propose refinements in real time. This paradigm reduces reliance on a single planner, supports adaptive plan updates, and minimizes redundant context passing, resulting in more scalable and cost-efficient execution. Evaluated on the GAIA benchmark, Anemoi achieved 52.73% accuracy with a small LLM (GPT-4.1-mini) as the planner, surpassing the strongest open-source baseline OWL (43.63%) by +9.09% under identical LLM settings. Our implementation is publicly available at https://github.com/Coral-Protocol/Anemoi.

ลิงก์งานวิจัย

https://arxiv.org/abs/2508.17068

อ่านเพิ่มเติม

https://github.com/Coral-Protocol/Anemoi

SparseLoCo สำหรับการพรีเทรน LLM ที่มีประสิทธิภาพด้านการสื่อสาร / Communication Efficient LLM Pre-training with SparseLoCo

แนะนำงานวิจัย

การเพิ่มประสิทธิภาพด้านการสื่อสารในกระบวนการพรีเทรนของโมเดลภาษาขนาดใหญ่ (LLM) เป็นหัวข้อวิจัยที่สำคัญอย่างยิ่ง ช่วงหลังมานี้อัลกอริทึมการเรียนรู้แบบกระจายได้รับความสนใจอย่างมาก เพราะมีประโยชน์ในการฝึก LLM ในสภาพแวดล้อมที่แบนด์วิดท์จำกัด ไม่ว่าจะเป็นระหว่างดาต้าเซ็นเตอร์หรือผ่านอินเทอร์เน็ต อย่างไรก็ตาม วิธีการเดิมยังคงต้องส่ง gradient ทั้งหมดของโมเดลอยู่ ซึ่งทำให้เกิดคอขวดด้านการสื่อสารและอาจส่งผลให้ประสิทธิภาพลดลง เพื่อแก้ปัญหานี้ SparseLoCo จึงถูกเสนอขึ้นในฐานะอัลกอริทึมการเรียนรู้ที่มีประสิทธิภาพด้านการสื่อสาร โดยนำเสนอวิธีที่ใช้ Top-k sparsification และการ quantization แบบ 2 บิต เพื่อให้ได้อัตราการบีบอัดที่สูงมากพร้อมกับปรับปรุงประสิทธิภาพไปด้วย

นวัตกรรมหลักของ SparseLoCo คือการประมาณ external momentum โดยผสาน error feedback เข้ากับการทำ sparsification แบบเข้มข้น วิธีนี้ช่วยลดต้นทุนการสื่อสารพร้อมกับยกระดับประสิทธิภาพของโมเดล ผลการวิจัยแสดงให้เห็นเชิงประจักษ์ว่า SparseLoCo มอบข้อได้เปรียบอย่างมีนัยสำคัญทั้งด้านประสิทธิภาพและต้นทุนการสื่อสารในสภาพแวดล้อมที่มีข้อจำกัดด้านการสื่อสารหลากหลายรูปแบบ โดยเฉพาะอย่างยิ่ง ด้วย sparsity 1-3% และการ quantization แบบ 2 บิต ทำให้ลดต้นทุนการสื่อสารลงอย่างมากเมื่อเทียบกับวิธี DDP (Distributed Data Parallel) แบบเดิม ขณะเดียวกันก็รักษาหรือปรับปรุงประสิทธิภาพได้

งานวิจัยนี้นำเสนอแนวทางใหม่ในการเพิ่มประสิทธิภาพด้านการสื่อสารสำหรับการพรีเทรน LLM และยังชี้ให้เห็นถึงศักยภาพในการพัฒนาต่อของ SparseLoCo ผ่านการทดลองและการปรับแต่งเพิ่มเติมในอนาคต คาดว่า SparseLoCo จะมีส่วนสำคัญในการเพิ่มประสิทธิภาพของการฝึกโมเดลขนาดใหญ่ และจะช่วยชี้ทิศทางใหม่ให้กับการวิจัยและพัฒนา LLM

บทคัดย่อ (Abstract)

อัลกอริทึมการฝึกแบบกระจายที่มีประสิทธิภาพด้านการสื่อสารได้รับความสนใจอย่างมากในช่วงหลัง เนื่องจากมีประโยชน์ต่อการฝึก Large Language Models (LLMs) ในสภาพแวดล้อมที่มีข้อจำกัดด้านแบนด์วิดท์ เช่น ระหว่างศูนย์ข้อมูลและผ่านอินเทอร์เน็ต แม้ว่าวิธีเหล่านี้จะลดความถี่ในการสื่อสารลง แต่โดยทั่วไปก็ยังจำเป็นต้องสื่อสารสำเนาเต็มของกราเดียนต์ของโมเดลอยู่ดี ทำให้เกิดคอขวดด้านการสื่อสารแม้กระทั่งบนลิงก์ข้ามศูนย์ข้อมูล นอกจากนี้ เมื่อเทียบกับเบสไลน์ AdamW DDP แบบพื้นฐานแล้ว ประสิทธิภาพอาจลดลงเล็กน้อย แม้มักมีการใช้ quantization และ error feedback เพื่อลดขนาดของ pseudo-gradient แต่ในบริบทของการ pre-training LLM แนวทางที่มีอยู่ยังไม่สามารถใช้ประโยชน์จาก sparsification เพิ่มเติมได้ และทำได้เพียง quantization ในระดับจำกัด งานวิจัยนี้นำเสนอ SparseLoCo ซึ่งเป็นอัลกอริทึมการฝึกที่มีประสิทธิภาพด้านการสื่อสารสำหรับ LLMs โดยใช้ Top-k sparsification และ quantization ได้อย่างมีประสิทธิภาพ จนบรรลุอัตราการบีบอัดระดับสูงมากที่ความเบาบาง 1-3% และการ quantization 2 บิต พร้อมทั้งให้ประสิทธิภาพดีกว่า DiLoCo แบบ full-precision ข้อสังเกตสำคัญของเราคือ outer momentum สามารถประมาณแบบภายในเครื่องได้ด้วย error feedback ที่ผสานกับความเบาบางเชิงรุก และการรวมผลแบบ sparse นั้นสามารถช่วยเพิ่มประสิทธิภาพของโมเดลได้จริง เราแสดงเชิงประจักษ์ในสภาพแวดล้อมการฝึก LLM ที่มีข้อจำกัดด้านการสื่อสารหลายรูปแบบว่า SparseLoCo มอบข้อได้เปรียบอย่างมีนัยสำคัญทั้งด้านประสิทธิภาพและต้นทุนการสื่อสาร
> อัลกอริทึมการฝึกแบบกระจายที่มีประสิทธิภาพด้านการสื่อสารได้รับความสนใจอย่างมากในช่วงหลัง เนื่องจากมีประโยชน์ต่อการฝึก Large Language Models (LLMs) ในสภาพแวดล้อมที่มีข้อจำกัดด้านแบนด์วิดท์ เช่น ระหว่างศูนย์ข้อมูลและผ่านอินเทอร์เน็ต แม้ว่าจะลดความถี่ในการสื่อสารลง แต่วิธีเหล่านี้โดยทั่วไปยังคงต้องสื่อสารสำเนาเต็มของกราเดียนต์ของโมเดลอยู่ ซึ่งส่งผลให้เกิดคอขวดด้านการสื่อสารแม้แต่กับลิงก์ข้ามศูนย์ข้อมูล นอกจากนี้ ยังอาจทำให้ประสิทธิภาพลดลงเล็กน้อยเมื่อเทียบกับเบสไลน์ AdamW DDP แบบตรงไปตรงมา แม้มักมีการใช้ quantization และ error feedback เพื่อลดขนาดของ pseudo-gradient แต่ในบริบทของการ pre-training LLM แนวทางที่มีอยู่ยังไม่สามารถใช้ sparsification เพิ่มเติมได้ และทำ quantization ได้อย่างจำกัด ในงานนี้ เรานำเสนอ SparseLoCo อัลกอริทึมการฝึกสำหรับ LLMs ที่มีประสิทธิภาพด้านการสื่อสาร ซึ่งใช้ประโยชน์จาก Top-k sparsification และ quantization ได้อย่างมีประสิทธิภาพ เพื่อให้ได้อัตราการบีบอัดสูงสุดที่ความเบาบาง 1-3% และการ quantization 2 บิต พร้อมทั้งให้ประสิทธิภาพดีกว่า DiLoCo แบบ full-precision ข้อสังเกตสำคัญของเราคือ outer momentum สามารถประมาณแบบภายในเครื่องได้ด้วย error feedback ที่รวมกับความเบาบางเชิงรุก และการรวมผลแบบ sparse นั้นสามารถช่วยปรับปรุงประสิทธิภาพของโมเดลได้จริง เราแสดงเชิงประจักษ์ในสภาพแวดล้อมการฝึก LLM ที่มีข้อจำกัดด้านการสื่อสารหลายแบบว่า SparseLoCo มอบประโยชน์อย่างมีนัยสำคัญทั้งด้านประสิทธิภาพและต้นทุนการสื่อสาร

ลิงก์งานวิจัย

https://arxiv.org/abs/2508.15706

การทำ Adaptive LLM Routing ภายใต้ข้อจำกัดด้านงบประมาณ / Adaptive LLM Routing under Budget Constraints

แนะนำงานวิจัย

ความก้าวหน้าของ Large Language Models (LLM) ได้สร้างการเปลี่ยนแปลงครั้งใหญ่ให้กับวงการประมวลผลภาษาธรรมชาติ แต่ต้นทุนที่สูงของโมเดลเหล่านี้และการตอบสนองที่เหมาะสมต่อคำถามหลากหลายประเภทก็ยังคงเป็นความท้าทายอยู่ งานวิจัยนี้ปรับนิยามปัญหา LLM routing ใหม่ให้เป็นปัญหา contextual bandit และเสนออัลกอริทึมใหม่ชื่อ Preference-prior Informed LinUCB for Adaptive Routing (PILOT) สำหรับเลือก LLM ที่เหมาะสมที่สุดภายใต้ข้อจำกัดด้านงบประมาณ แนวทาง supervised learning แบบเดิมมีข้อจำกัดตรงที่ต้องใช้ชุดข้อมูลติดป้ายกำกับขนาดใหญ่ และงานนี้ได้พัฒนาวิธีการที่ปรับการเลือก LLM แบบไดนามิกผ่าน feedback จากผู้ใช้เพื่อก้าวข้ามข้อจำกัดดังกล่าว

PILOT ประกอบด้วยสองขั้นตอนหลัก ขั้นตอนแรกใช้ข้อมูลความชอบของมนุษย์แบบออฟไลน์เพื่อสร้าง shared embedding space ที่สะท้อนความสอดคล้องระหว่างคำถามกับ LLM ในกระบวนการนี้จะเรียนรู้ความสัมพันธ์ระหว่างคำถามและ LLM อย่างมีประสิทธิภาพด้วยการทำให้ triplet loss ต่ำที่สุด ขั้นตอนที่สองจะผสาน feedback จาก bandit แบบออนไลน์ เพื่อเลือก LLM ที่เหมาะสมสำหรับแต่ละคำถามและสังเกตรางวัลที่ได้รับ เพื่อนำมาปรับปรุงประสิทธิภาพอย่างต่อเนื่อง แนวทางนี้ช่วยให้จัดสรรทรัพยากรได้อย่างยืดหยุ่นโดยคำนึงถึงงบประมาณ และมีความสามารถในการปรับตัวตามความต้องการของผู้ใช้ที่หลากหลาย

ผลงานสำคัญของงานวิจัยนี้คือการทำให้ปัญหา LLM routing ภายใต้ข้อจำกัดด้านงบประมาณมีรูปแบบที่ชัดเจน และการเสนออัลกอริทึม PILOT เพื่อแก้ปัญหานี้ ผลการทดลองแสดงให้เห็นว่า PILOT ให้ประสิทธิภาพเหนือกว่า bandit baseline แบบเดิมบนชุดข้อมูลหลากหลายชุด และประสบความสำเร็จในการเพิ่มประสิทธิภาพด้านต้นทุนให้สูงสุด ผลลัพธ์เหล่านี้มีส่วนสำคัญต่อการนำ LLM ไปใช้งานจริงและการประยุกต์ใช้ในทางปฏิบัติ โดยทิศทางงานวิจัยในอนาคตเสนอให้เพิ่มความสามารถในการปรับตัวต่อความต้องการของผู้ใช้ที่หลากหลาย และขยายการประยุกต์ใช้ไปยังชุดข้อมูลที่มากขึ้น

บทคัดย่อ(Abstract)

โมเดลภาษาขนาดใหญ่ (LLM) ได้ปฏิวัติการประมวลผลภาษาธรรมชาติ แต่ความสามารถและต้นทุนที่แตกต่างกันของมันก่อให้เกิดความท้าทายในงานประยุกต์ใช้งานจริง LLM routing เข้ามาแก้ปัญหานี้ด้วยการเลือก LLM ที่เหมาะสมที่สุดแบบไดนามิกสำหรับแต่ละคิวรี/งาน แนวทางก่อนหน้านี้มองปัญหานี้เป็นปัญหาการเรียนรู้แบบมีผู้สอน โดยตั้งสมมติฐานว่ามีความรู้ครบถ้วนเกี่ยวกับคู่คิวรี-LLM ที่เหมาะสมที่สุด อย่างไรก็ตาม ในสถานการณ์จริงกลับไม่มีการแมปที่ครอบคลุมเช่นนั้น และยังต้องเผชิญกับคิวรีของผู้ใช้ที่เปลี่ยนแปลงตลอดเวลา ดังนั้นเราจึงเสนอให้ศึกษาการทำ LLM routing ในฐานะปัญหา contextual bandit ซึ่งต่างจาก supervised routing ตรงที่สามารถตัดสินใจเชิงปรับตัวได้โดยใช้ bandit feedback โดยไม่จำเป็นต้องทำ inference อย่างครอบคลุมกับ LLM ทุกตัวสำหรับทุกคิวรี เพื่อแก้ปัญหานี้ เราได้พัฒนา shared embedding space สำหรับคิวรีและ LLM โดยจัดแนว embedding ของคิวรีและ LLM ให้สะท้อนความสอดคล้องกัน พื้นที่นี้เรียนรู้เริ่มต้นจากข้อมูลความชอบของมนุษย์แบบออฟไลน์ และได้รับการปรับปรุงต่อผ่าน bandit feedback แบบออนไลน์ เราทำให้แนวคิดนี้เป็นรูปธรรมผ่าน Preference-prior Informed Linucb fOr adaptive rouTing (PILOT) ซึ่งเป็นส่วนขยายใหม่ของ LinUCB สำหรับรองรับงบประมาณของผู้ใช้ที่หลากหลายในการทำ model routing เราได้แนะนำนโยบายต้นทุนแบบออนไลน์ที่ถูกจำลองเป็นปัญหา multi-choice knapsack เพื่อรับประกันการ routing ที่ใช้ทรัพยากรอย่างมีประสิทธิภาพ
> Large Language Models (LLMs) have revolutionized natural language processing, but their varying capabilities and costs pose challenges in practical applications. LLM routing addresses this by dynamically selecting the most suitable LLM for each query/task. Previous approaches treat this as a supervised learning problem, assuming complete knowledge of optimal query-LLM pairings. However, real-world scenarios lack such comprehensive mappings and face evolving user queries. We thus propose to study LLM routing as a contextual bandit problem, enabling adaptive decision-making using bandit feedback without requiring exhaustive inference across all LLMs for all queries (in contrast to supervised routing). To address this problem, we develop a shared embedding space for queries and LLMs, where query and LLM embeddings are aligned to reflect their affinity. This space is initially learned from offline human preference data and refined through online bandit feedback. We instantiate this idea through Preference-prior Informed Linucb fOr adaptive rouTing (PILOT), a novel extension of LinUCB. To handle diverse user budgets for model routing, we introduce an online cost policy modeled as a multi-choice knapsack problem, ensuring resource-efficient routing.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2508.21141

การสร้างชุดภาพอย่างมีประสิทธิภาพด้วยการนำการคำนวณกลับมาใช้ซ้ำใน text-to-image diffusion / Reusing Computation in Text-to-Image Diffusion for Efficient Generation of Image Sets

แนะนำงานวิจัย

โมเดล diffusion แบบ text-to-image มีประสิทธิภาพสูงมากในการสร้างภาพคุณภาพสูง แต่ต้นทุนการคำนวณที่สูงในกระบวนการนี้ได้กลายเป็นความท้าทายสำคัญ งานวิจัยก่อนหน้านี้มุ่งเน้นไปที่การปรับปรุงประสิทธิภาพในการสร้างภาพเดี่ยวเป็นหลัก แต่งานวิจัยนี้เสนอแนวทางใหม่ในการลดความซ้ำซ้อนระหว่างพรอมป์ต์ที่มีความสัมพันธ์กัน วิธีที่เสนอใช้ประโยชน์จากลักษณะหยาบไปละเอียดของ diffusion model เพื่อจับโครงสร้างร่วมกันระหว่างพรอมป์ต์ที่คล้ายกันในขั้นตอน denoising ระยะแรก

งานวิจัยนี้ใช้แนวทางที่ไม่ต้องฝึกโมเดล โดยจัดกลุ่มพรอมป์ต์ตามความคล้ายคลึงเชิงความหมาย และใช้กลยุทธ์แชร์การคำนวณในขั้นตอน diffusion ระยะแรก ผลการทดลองแสดงให้เห็นว่า สำหรับโมเดลที่มีการ condition ด้วย image embedding วิธีนี้สามารถลดต้นทุนการคำนวณได้อย่างน้อย 50% พร้อมทั้งรักษาหรือปรับปรุงคุณภาพของภาพ นอกจากนี้ ยังเพิ่มประสิทธิภาพได้มากขึ้นด้วยการใช้ text-to-image prior ของ UnClip เพื่อปรับการจัดสรร diffusion step ให้เหมาะสมที่สุด

วิธีที่เสนอนี้สามารถผสานเข้ากับ text-to-image generation pipeline ที่มีอยู่เดิมได้อย่างราบรื่น และขยายรองรับชุดพรอมป์ต์ขนาดใหญ่ได้ จึงอาจช่วยลดภาระทั้งด้านสิ่งแวดล้อมและด้านการเงิน งานวิจัยนี้มอบข้อมูลเชิงลึกสำคัญเกี่ยวกับพลวัตการสร้างของ diffusion model และคาดว่าจะเป็นข้อมูลพื้นฐานสำคัญสำหรับการสำรวจกลยุทธ์การเพิ่มประสิทธิภาพอย่างยั่งยืนในอนาคต

บทคัดย่อ(Abstract)

โมเดล diffusion แบบ text-to-image ทำให้สามารถสร้างภาพคุณภาพสูงได้ แต่ต้องใช้ต้นทุนการคำนวณสูง แม้งานก่อนหน้านี้จะมุ่งเพิ่มประสิทธิภาพต่อการอนุมานแต่ละครั้ง แต่เราได้สำรวจแนวทางอีกด้านหนึ่ง คือการลดความซ้ำซ้อนระหว่างพรอมป์ต์ที่มีความสัมพันธ์กัน วิธีของเราใช้ประโยชน์จากลักษณะหยาบ-ละเอียดของ diffusion model ซึ่งขั้นตอน denoising ระยะแรกจะจับโครงสร้างร่วมกันของพรอมป์ต์ที่คล้ายกัน เราเสนอวิธีที่ไม่ต้องฝึกซึ่งจัดกลุ่มพรอมป์ต์ตามความคล้ายคลึงเชิงความหมาย และแชร์การคำนวณในขั้นตอน diffusion ระยะแรก ผลการทดลองแสดงให้เห็นว่า สำหรับโมเดลที่ฝึกโดยมีเงื่อนไขจาก image embedding แนวทางของเราช่วยลดต้นทุนการคำนวณได้อย่างมากพร้อมกับปรับปรุงคุณภาพของภาพ ด้วยการใช้ text-to-image prior ของ UnClip เราปรับปรุงการจัดสรร diffusion step เพื่อเพิ่มประสิทธิภาพให้สูงขึ้น วิธีของเราผสานเข้ากับ pipeline ที่มีอยู่ได้อย่างราบรื่น ปรับขยายตามชุดพรอมป์ต์ได้ และลดภาระด้านสิ่งแวดล้อมและด้านการเงินของการสร้าง text-to-image ขนาดใหญ่ Project page: https://ddecatur.github.io/hierarchical-diffusion/
> Text-to-image diffusion models enable high-quality image generation but are computationally expensive. While prior work optimizes per-inference efficiency, we explore an orthogonal approach: reducing redundancy across correlated prompts. Our method leverages the coarse-to-fine nature of diffusion models, where early denoising steps capture shared structures among similar prompts. We propose a training-free approach that clusters prompts based on semantic similarity and shares computation in early diffusion steps. Experiments show that for models trained conditioned on image embeddings, our approach significantly reduces compute cost while improving image quality. By leveraging UnClip's text-to-image prior, we enhance diffusion step allocation for greater efficiency. Our method seamlessly integrates with existing pipelines, scales with prompt sets, and reduces the environmental and financial burden of large-scale text-to-image generation. Project page: https://ddecatur.github.io/hierarchical-diffusion/

ลิงก์บทความวิจัย

https://arxiv.org/abs/2508.21032

อ่านเพิ่มเติม

https://ddecatur.github.io/hierarchical-diffusion/

Attention คือ cubic spline แบบทำให้เรียบ / Attention is a smoothed cubic spline

แนะนำงานวิจัย

แม้โมดูล attention จะมีความสำคัญอย่างยิ่งในสถาปัตยกรรม Transformer แต่ก็ยังมีหลายส่วนที่ยังไม่เป็นที่เข้าใจ งานวิจัยนี้นำเสนอมุมมองใหม่โดยตีความโมดูล attention เหล่านี้ว่าเป็น cubic spline แบบทำให้เรียบ จึงเปิดทางให้เกิดอินไซต์ใหม่จากมุมมองของทฤษฎีการประมาณแบบคลาสสิก ผู้เขียนแสดงให้เห็นว่าเมื่อใช้ฟังก์ชันกระตุ้น ReLU แล้ว attention, masked attention และ encoder-decoder attention ล้วนสามารถแทนได้ด้วย cubic spline แนวทางนี้มีนัยสำคัญ เพราะองค์ประกอบทั้งหมดของ Transformer ประกอบขึ้นจากการผสมกันของโมดูล attention หลายรูปแบบและ feed-forward neural network

งานวิจัยเน้นย้ำว่า โดยอาศัย Pierce-Birkhoff conjecture สปลายน์ทุกชนิดสามารถแทนได้ด้วย encoder ที่ใช้ ReLU สิ่งนี้ช่วยทำให้ธรรมชาติทางคณิตศาสตร์ของโมดูล attention ชัดเจนขึ้น และทำให้ความเข้าใจเชิงโครงสร้างของ Transformer ลึกซึ้งยิ่งขึ้นผ่านกรอบของ cubic spline นอกจากนี้ยังชี้ว่า หากแทน ReLU ด้วยฟังก์ชันกระตุ้นแบบเรียบอย่าง SoftMax เพื่อให้ได้เวอร์ชัน $C^\infty$ แบบเรียบ ก็จะสามารถกู้คืนโมเดล Transformer แบบดั้งเดิมได้

งานวิจัยนี้ช่วยต่อยอดความเข้าใจต่อโมเดล machine learning เดิมผ่านการตีความเชิงคณิตศาสตร์ของกลไก attention และอธิบายแก่นแท้ของสถาปัตยกรรม Transformer ด้วย spline ซึ่งเป็นวัตถุทางคณิตศาสตร์ที่เป็นที่รู้จักอย่างดี ผลการทดลองแสดงให้เห็นว่าโมเดล cubic spline ที่เสนอมีประสิทธิภาพดีกว่าโมเดลเดิม และพิสูจน์ว่าการตีความเชิงคณิตศาสตร์ของโมดูล attention ส่งผลเชิงบวกต่อประสิทธิภาพจริง การค้นพบนี้จึงคาดว่าจะมีส่วนช่วยต่อการพัฒนากลไก attention ในอนาคต งานนี้ทำให้เราได้มองโมดูล attention ของ Transformer จากมุมมองใหม่ และจะเป็นข้อมูลพื้นฐานสำคัญสำหรับนักวิจัยในสาขาที่เกี่ยวข้อง

บทคัดย่อ(Abstract)

เราเน้นย้ำอินไซต์หนึ่งที่อาจสำคัญแต่ยังไม่เคยถูกสังเกตมาก่อน: โมดูล attention ใน transformer คือ cubic spline แบบทำให้เรียบ เมื่อมองในลักษณะนี้ องค์ประกอบที่ลึกลับแต่สำคัญของ transformer จะกลายเป็นพัฒนาการตามธรรมชาติของแนวคิดเก่าแก่ที่หยั่งรากลึกอยู่ในทฤษฎีการประมาณแบบคลาสสิก กล่าวให้ชัดเจนยิ่งขึ้น เราแสดงให้เห็นว่าเมื่อใช้ ReLU-activation แล้ว attention, masked attention และ encoder-decoder attention ล้วนเป็น cubic spline เนื่องจากทุกองค์ประกอบใน transformer ถูกสร้างขึ้นจากการประกอบกันของโมดูล attention หลายรูปแบบ (= cubic spline) และ feed forward neural networks (= linear spline) องค์ประกอบทั้งหมดของมัน ไม่ว่าจะเป็น encoder, decoder และ encoder-decoder blocks; multilayered encoders and decoders; ตลอดจนตัว transformer เอง ล้วนเป็น spline ลำดับสามหรือสูงกว่า หากเราสมมติ Pierce-Birkhoff conjecture บทกลับก็เป็นจริงด้วย กล่าวคือ spline ทุกชนิดคือ encoder ที่ถูกกระตุ้นด้วย ReLU เนื่องจาก spline โดยทั่วไปเป็นเพียง $C^2$ วิธีหนึ่งในการได้เวอร์ชัน $C^\infty$ แบบทำให้เรียบคือแทน ReLU ด้วย smooth activation และหากเลือก activation นี้เป็น SoftMax เราจะกู้คืน transformer ดั้งเดิมตามข้อเสนอของ Vaswani และคณะ อินไซต์นี้ช่วยฉายภาพธรรมชาติของ transformer ให้ชัดขึ้น โดยอธิบายมันทั้งหมดผ่าน spline ซึ่งเป็นหนึ่งในวัตถุที่เป็นที่รู้จักดีที่สุดและได้รับความเข้าใจอย่างถ่องแท้ในคณิตศาสตร์ประยุกต์
> We highlight a perhaps important but hitherto unobserved insight: The attention module in a transformer is a smoothed cubic spline. Viewed in this manner, this mysterious but critical component of a transformer becomes a natural development of an old notion deeply entrenched in classical approximation theory. More precisely, we show that with ReLU-activation, attention, masked attention, encoder-decoder attention are all cubic splines. As every component in a transformer is constructed out of compositions of various attention modules (= cubic splines) and feed forward neural networks (= linear splines), all its components -- encoder, decoder, and encoder-decoder blocks; multilayered encoders and decoders; the transformer itself -- are cubic or higher-order splines. If we assume the Pierce-Birkhoff conjecture, then the converse also holds, i.e., every spline is a ReLU-activated encoder. Since a spline is generally just $C^2$, one way to obtain a smoothed $C^\infty$-version is by replacing ReLU with a smooth activation; and if this activation is chosen to be SoftMax, we recover the original transformer as proposed by Vaswani et al. This insight sheds light on the nature of the transformer by casting it entirely in terms of splines, one of the best known and thoroughly understood objects in applied mathematics.

ลิงก์งานวิจัย

https://arxiv.org/abs/2408.09624

$Mem^p$: สำรวจ procedural memory ของเอเจนต์ / $Mem^p$: Exploring Agent Procedural Memory

แนะนำงานวิจัย

เอเจนต์ที่อิงกับ large language model (LLM) แสดงประสิทธิภาพได้ยอดเยี่ยมในงานหลากหลายประเภท แต่ procedural memory แบบเดิมมีข้อเปราะบาง เพราะมักถูกออกแบบด้วยมือหรือพึ่งพาพารามิเตอร์แบบคงที่ งานวิจัยนี้เสนอ $Mem^p$ ซึ่งเป็นวิธีการใหม่สำหรับมอบ procedural memory ตลอดอายุการใช้งานที่เรียนรู้ได้และอัปเดตได้ให้กับเอเจนต์ โดย $Mem^p$ จะกลั่นเส้นทางการทำงานในอดีตของเอเจนต์ออกมาเป็นทั้งคำแนะนำแบบละเอียดทีละขั้น และสคริปต์ระดับสูง เพื่อสำรวจกลยุทธ์การสร้าง(Build) การค้นคืน(Retrieval) และการอัปเดต(Update) procedural memory

หัวใจของ $Mem^p$ คือการอัปเดต แก้ไข และทิ้ง procedural memory อย่างต่อเนื่องผ่านระบอบแบบไดนามิก ส่งผลให้เอเจนต์สามารถพัฒนาคลังความทรงจำตามประสบการณ์ใหม่ได้ และจากการประเมินเชิงประจักษ์พบว่าอัตราความสำเร็จและประสิทธิภาพของเอเจนต์ค่อย ๆ ดีขึ้นทั้งใน TravelPlanner และ ALFWorld โดยเฉพาะ procedural memory ที่สร้างจากโมเดลที่แข็งแกร่งกว่าจะยังคงคุณค่าไว้ได้ และเมื่อถ่ายโอนไปยังโมเดลที่อ่อนกว่าก็ยังช่วยยกระดับประสิทธิภาพได้อย่างมาก

กระบวนการค้นคืน procedural memory เป็นสิ่งจำเป็นที่ทำให้เอเจนต์สามารถค้นหาประสบการณ์ที่คล้ายกันมากที่สุดสำหรับงานใหม่ได้อย่างมีประสิทธิภาพ กระบวนการนี้ทำงานโดยใช้โมเดล vector embedding เพื่อวัดความคล้ายคลึง และค้นคืนความทรงจำที่เหมาะสมที่สุด นอกจากนี้ กลไกการอัปเดต procedural memory ยังถูกออกแบบให้สามารถเพิ่ม ลบ และแก้ไขได้แบบไดนามิก เมื่อจำนวนงานที่เอเจนต์ปฏิบัติเพิ่มขึ้น แนวทางที่ครอบคลุมนี้ช่วยเพิ่มความสามารถในการเรียนรู้ของเอเจนต์ให้สูงสุด และช่วยยกระดับความสามารถในการทำงานในสภาพแวดล้อมที่หลากหลาย

$Mem^p$ ปรับปรุง procedural memory ของเอเจนต์อย่างต่อเนื่อง จึงมอบนัยสำคัญต่อการพัฒนาระบบเอเจนต์ในอนาคต และเน้นย้ำความสำคัญของ procedural memory ที่เรียนรู้ได้ ผลลัพธ์จากงานวิจัยนี้คาดว่าจะเป็นคุณูปการเชิงนวัตกรรมในการเพิ่มประสิทธิภาพของเอเจนต์ให้สูงสุด

บทคัดย่อ(Abstract)

เอเจนต์ที่อิงกับโมเดลภาษาขนาดใหญ่ (LLM) แสดงประสิทธิภาพได้ยอดเยี่ยมในงานที่หลากหลาย แต่ยังประสบปัญหาจากความเปราะบางของความจำเชิงกระบวนการที่ถูกออกแบบด้วยมือหรือผูกติดอยู่กับพารามิเตอร์แบบคงที่ งานวิจัยนี้ศึกษากลยุทธ์ในการมอบความจำเชิงกระบวนการที่เรียนรู้ได้ อัปเดตได้ และใช้งานได้ตลอดอายุให้กับเอเจนต์ เราเสนอ $Mem^p$ ซึ่งกลั่นเส้นทางการทำงานของเอเจนต์ในอดีตออกมาเป็นทั้งคำสั่งแบบละเอียดทีละขั้นตอนและนามธรรมระดับสูงในลักษณะคล้ายสคริปต์ พร้อมสำรวจผลกระทบของกลยุทธ์ต่าง ๆ สำหรับการสร้าง (Build) การค้นคืน (Retrieval) และการอัปเดต (Update) ความจำเชิงกระบวนการ เมื่อทำงานร่วมกับระบบแบบพลวัตที่คอยอัปเดต แก้ไข และเลิกใช้เนื้อหาอย่างต่อเนื่อง คลังนี้จะวิวัฒน์ไปพร้อมกับประสบการณ์ใหม่ ๆ ผลการประเมินเชิงประจักษ์บน TravelPlanner และ ALFWorld แสดงให้เห็นว่าเมื่อคลังความจำได้รับการปรับแต่ง เอเจนต์จะมีอัตราความสำเร็จที่สูงขึ้นอย่างต่อเนื่องและมีประสิทธิภาพมากขึ้นในงานที่คล้ายกัน นอกจากนี้ ความจำเชิงกระบวนการที่สร้างจากโมเดลที่แข็งแกร่งกว่ายังคงรักษาคุณค่าไว้ได้ และการย้ายความจำเชิงกระบวนการนั้นไปยังโมเดลที่อ่อนกว่าจะช่วยเพิ่มประสิทธิภาพได้อย่างมาก
> เอเจนต์ที่อิงกับ Large Language Models (LLMs) ทำผลงานได้ยอดเยี่ยมในงานที่หลากหลาย แต่กลับประสบกับความเปราะบางของความจำเชิงกระบวนการที่ถูกออกแบบด้วยมือหรือพัวพันอยู่กับพารามิเตอร์แบบคงที่ ในงานนี้ เราศึกษากลยุทธ์เพื่อมอบความจำเชิงกระบวนการที่เรียนรู้ได้ อัปเดตได้ และใช้งานได้ตลอดอายุให้กับเอเจนต์ เราเสนอ $Mem^p$ ที่กลั่นเส้นทางการทำงานของเอเจนต์ในอดีตออกมาเป็นทั้งคำสั่งแบบละเอียดทีละขั้นตอนและนามธรรมระดับสูงในลักษณะคล้ายสคริปต์ และสำรวจผลกระทบของกลยุทธ์ต่าง ๆ สำหรับการสร้าง (Build) การค้นคืน (Retrieval) และการอัปเดต (Update) ความจำเชิงกระบวนการ เมื่อนำมาทำงานร่วมกับระเบียบแบบแผนเชิงพลวัตที่คอยอัปเดต แก้ไข และเลิกใช้เนื้อหาอย่างต่อเนื่อง คลังนี้จะวิวัฒน์สอดประสานไปพร้อมกับประสบการณ์ใหม่ ๆ การประเมินเชิงประจักษ์บน TravelPlanner และ ALFWorld แสดงให้เห็นว่าเมื่อคลังความจำได้รับการขัดเกลา เอเจนต์จะมีอัตราความสำเร็จที่สูงขึ้นอย่างต่อเนื่องและมีประสิทธิภาพมากขึ้นในงานที่คล้ายคลึงกัน ยิ่งไปกว่านั้น ความจำเชิงกระบวนการที่สร้างจากโมเดลที่แข็งแกร่งกว่ายังคงรักษาคุณค่าไว้ได้: การย้ายความจำเชิงกระบวนการไปยังโมเดลที่อ่อนกว่าจะให้ผลด้านประสิทธิภาพที่ดีขึ้นอย่างมาก

ลิงก์งานวิจัย

https://arxiv.org/abs/2508.06433

ช่วงเวลาแบบ AlphaGo สำหรับการค้นพบสถาปัตยกรรมโมเดล / AlphaGo Moment for Model Architecture Discovery

แนะนำงานวิจัย

ASI-Arch คือระบบปัญญายิ่งยวดเทียม (ASI4AI) ที่ค้นพบสถาปัตยกรรมที่สร้างสรรค์ได้อย่างอัตโนมัติเต็มรูปแบบในสาขาการค้นหาโครงสร้างโครงข่ายประสาทเทียม ก้าวข้ามการค้นหาโครงสร้างโครงข่ายประสาทเทียม (NAS) แบบเดิมที่จำกัดอยู่ในพื้นที่ค้นหาที่มนุษย์นิยามไว้ โดยเปลี่ยนกระบวนทัศน์จากการเพิ่มประสิทธิภาพแบบอัตโนมัติไปสู่การสร้างนวัตกรรมแบบอัตโนมัติ ทำให้สามารถตั้งสมมติฐานแนวคิดโครงสร้างใหม่ นำไปใช้งาน ฝึก และตรวจสอบได้อย่างอิสระ จากการทดลอง 1,773 ครั้งตลอด 20,000 GPU ชั่วโมง ระบบได้ค้นพบสถาปัตยกรรม linear attention ระดับล้ำสมัย 106 แบบ ซึ่งนำเสนอหลักการออกแบบใหม่ที่เหนือกว่าพื้นฐานที่มนุษย์ออกแบบไว้ นอกจากนี้ ยังนำเสนอกฎการสเกลเชิงประจักษ์สำหรับการค้นพบทางวิทยาศาสตร์เองด้วย โดยพิสูจน์ว่าความก้าวหน้าด้านการวิจัยสามารถเปลี่ยนจากสิ่งที่ถูกจำกัดด้วยขีดความสามารถทางการรับรู้ของมนุษย์ ไปสู่กระบวนการที่ขยายได้ด้วยทรัพยากรการคำนวณ

บทคัดย่อ (Abstract)

แม้ระบบ AI จะแสดงให้เห็นถึงความสามารถที่พัฒนาขึ้นแบบทวีคูณ แต่ความเร็วของการวิจัย AI เองยังคงถูกจำกัดแบบเชิงเส้นด้วยขีดความสามารถด้านการรับรู้ของมนุษย์ จนก่อให้เกิดคอขวดด้านการพัฒนาที่รุนแรงขึ้นเรื่อย ๆ งานวิจัยนี้นำเสนอ ASI-Arch ซึ่งเป็นการสาธิตครั้งแรกของ Artificial Superintelligence for AI research (ASI4AI) ในโดเมนสำคัญของการค้นพบสถาปัตยกรรมโครงข่ายประสาทเทียม โดยเป็นระบบอัตโนมัติเต็มรูปแบบที่ทำลายข้อจำกัดพื้นฐานนี้ด้วยการทำให้ AI สามารถสร้างนวัตกรรมด้านสถาปัตยกรรมได้ด้วยตนเอง ก้าวข้าม Neural Architecture Search (NAS) แบบดั้งเดิมที่ถูกจำกัดโดยพื้นฐานให้สำรวจได้เพียงพื้นที่ที่มนุษย์กำหนดไว้ เราเสนอการเปลี่ยนผ่านเชิงกระบวนทัศน์จากการเพิ่มประสิทธิภาพอัตโนมัติไปสู่การสร้างนวัตกรรมอัตโนมัติ ASI-Arch สามารถทำวิจัยวิทยาศาสตร์แบบ end-to-end ในโดเมนการค้นพบสถาปัตยกรรมได้ โดยตั้งสมมติฐานแนวคิดสถาปัตยกรรมใหม่ ๆ อย่างอัตโนมัติ นำไปเขียนเป็นโค้ดที่รันได้ ฝึกโมเดล และตรวจสอบประสิทธิภาพเชิงประจักษ์ผ่านการทดลองอย่างเข้มงวดและประสบการณ์ที่ผ่านมา ASI-Arch ทำการทดลองอัตโนมัติ 1,773 ครั้งตลอด 20,000 GPU ชั่วโมง และลงเอยด้วยการค้นพบสถาปัตยกรรม linear attention ที่ล้ำสมัยระดับ SOTA และมีนวัตกรรมจำนวน 106 แบบ เช่นเดียวกับ Move 37 ของ AlphaGo ที่เผยให้เห็นมุมมองเชิงกลยุทธ์ที่ไม่คาดคิดและมนุษย์มองไม่เห็น สถาปัตยกรรมที่ AI นี้ค้นพบได้แสดงให้เห็นหลักการออกแบบแบบเกิดใหม่ที่เหนือกว่า baseline ที่มนุษย์ออกแบบอย่างเป็นระบบ และเปิดเส้นทางที่ไม่เคยเป็นที่รู้จักมาก่อนสำหรับนวัตกรรมด้านสถาปัตยกรรม ที่สำคัญ เราได้สร้างกฎการสเกลเชิงประจักษ์ฉบับแรกสำหรับการค้นพบทางวิทยาศาสตร์เอง โดยแสดงให้เห็นว่าความก้าวหน้าด้านสถาปัตยกรรมสามารถขยายสเกลด้วยการคำนวณได้ เปลี่ยนความก้าวหน้าของการวิจัยจากกระบวนการที่จำกัดด้วยมนุษย์ไปสู่กระบวนการที่ขยายสเกลได้ด้วยการคำนวณ งานวิจัยนี้นำเสนอการวิเคราะห์อย่างครอบคลุมของรูปแบบการออกแบบแบบเกิดใหม่และความสามารถด้านการวิจัยอัตโนมัติที่ทำให้เกิดความก้าวหน้าเหล่านี้ พร้อมวางพิมพ์เขียวสำหรับระบบ AI ที่เร่งการพัฒนาตัวเองได้
> While AI systems demonstrate exponentially improving capabilities, the pace of AI research itself remains linearly bounded by human cognitive capacity, creating an increasingly severe development bottleneck. We present ASI-Arch, the first demonstration of Artificial Superintelligence for AI research (ASI4AI) in the critical domain of neural architecture discovery--a fully autonomous system that shatters this fundamental constraint by enabling AI to conduct its own architectural innovation. Moving beyond traditional Neural Architecture Search (NAS), which is fundamentally limited to exploring human-defined spaces, we introduce a paradigm shift from automated optimization to automated innovation. ASI-Arch can conduct end-to-end scientific research in the domain of architecture discovery, autonomously hypothesizing novel architectural concepts, implementing them as executable code, training and empirically validating their performance through rigorous experimentation and past experience. ASI-Arch conducted 1,773 autonomous experiments over 20,000 GPU hours, culminating in the discovery of 106 innovative, state-of-the-art (SOTA) linear attention architectures. Like AlphaGo's Move 37 that revealed unexpected strategic insights invisible to human players, our AI-discovered architectures demonstrate emergent design principles that systematically surpass human-designed baselines and illuminate previously unknown pathways for architectural innovation. Crucially, we establish the first empirical scaling law for scientific discovery itself--demonstrating that architectural breakthroughs can be scaled computationally, transforming research progress from a human-limited to a computation-scalable process. We provide comprehensive analysis of the emergent design patterns and autonomous research capabilities that enabled these breakthroughs, establishing a blueprint for self-accelerating AI systems.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2507.18074

การดึงศักยภาพของโมเดลภาษาออกมาด้วยการเรียนรู้แบบไม่มีผู้สอน / Unsupervised Elicitation of Language Models

แนะนำงานวิจัย

เมื่อปรับแต่งภาษาขนาดใหญ่ที่ผ่านการพรีเทรนแล้วให้เหมาะกับงานเฉพาะ วิธีการเดิมต้องอาศัยการกำกับดูแลจากมนุษย์ แต่ในโมเดลที่มีความสามารถเหนือมนุษย์ การกำกับดูแลจากมนุษย์ที่มีคุณภาพสูงอาจเป็นเรื่องยากหรือแทบเป็นไปไม่ได้ เพื่อแก้ปัญหานี้ จึงมีการเสนอ Internal Coherence Maximization (ICM) ซึ่งเป็นอัลกอริทึมการเรียนรู้แบบไม่มีผู้สอนที่ใช้ป้ายกำกับซึ่งโมเดลสร้างขึ้นเองเพื่อนำมาปรับจูนละเอียดโดยไม่ต้องมีการกำกับดูแลจากภายนอก ICM แสดงประสิทธิภาพที่เทียบเท่าหรือดีกว่าการเรียนรู้ที่อาศัยการกำกับดูแลจากมนุษย์ในหลายเบนช์มาร์ก และโดยเฉพาะในงานที่โมเดลมีความสามารถเหนือมนุษย์ ก็ให้ผลลัพธ์ดีกว่าการเรียนรู้จากป้ายกำกับของมนุษย์ นอกจากนี้ยังใช้วิธีนี้ในการฝึก reward model และระบบผู้ช่วยของโมเดลภาษาระดับล้ำสมัย และพิสูจน์ให้เห็นถึงประสิทธิภาพที่ดีขึ้นเมื่อเทียบกับโมเดลที่อาศัยการกำกับดูแลจากมนุษย์

บทคัดย่อ(Abstract)

เพื่อปรับแต่งโมเดลภาษาที่ผ่านการพรีเทรนให้เหมาะกับงานปลายทาง กระบวนทัศน์ post-training ในปัจจุบันพึ่งพามนุษย์ในการระบุพฤติกรรมที่ต้องการอย่างชัดเจน อย่างไรก็ตาม สำหรับโมเดลที่มีความสามารถเหนือมนุษย์ (superhuman) การได้มาซึ่งการกำกับดูแลโดยมนุษย์ที่มีคุณภาพสูงนั้นเป็นเรื่องยากหรืออาจเป็นไปไม่ได้ เพื่อแก้ปัญหานี้ เราขอเสนออัลกอริทึมการเรียนรู้แบบไม่มีผู้สอนรูปแบบใหม่ชื่อ Internal Coherence Maximization (ICM) ซึ่งใช้ในการปรับจูนโมเดลภาษาที่ผ่านการพรีเทรนด้วยป้ายกำกับที่โมเดลสร้างขึ้นเอง \emph{without external supervision} ในงาน GSM8k-verification, TruthfulQA และงาน reward modeling ของ Alpaca วิธีนี้ให้ประสิทธิภาพเทียบเท่ากับการฝึกด้วย golden supervision และทำได้ดีกว่าการฝึกด้วยการกำกับดูแลโดยมนุษย์แบบ crowdsourced ในงานที่ความสามารถของ LLM เหนือมนุษย์อย่างชัดเจน วิธีนี้สามารถดึงความสามารถดังกล่าวออกมาได้ดีกว่าการฝึกด้วยป้ายกำกับจากมนุษย์อย่างมีนัยสำคัญ สุดท้าย เรายังแสดงให้เห็นว่าวิธีนี้สามารถปรับปรุงการฝึก LLM ระดับแนวหน้าได้ โดยเราใช้วิธีนี้เพื่อฝึก reward model แบบไม่มีผู้สอน และใช้ reinforcement learning เพื่อฝึกผู้ช่วยที่สร้างบน Claude 3.5 Haiku ทั้ง reward model และผู้ช่วยต่างก็ทำผลงานได้ดีกว่ารุ่นที่อาศัยการกำกับดูแลโดยมนุษย์
> เพื่อชี้นำโมเดลภาษาที่ผ่านการพรีเทรนสำหรับงานปลายทาง กระบวนทัศน์ post-training ในปัจจุบันอาศัยมนุษย์ในการระบุพฤติกรรมที่ต้องการ อย่างไรก็ตาม สำหรับโมเดลที่มีความสามารถเหนือมนุษย์ การได้รับการกำกับดูแลโดยมนุษย์ที่มีคุณภาพสูงเป็นเรื่องยากหรือเป็นไปไม่ได้ เพื่อรับมือกับความท้าทายนี้ เราเสนออัลกอริทึมแบบไม่มีผู้สอนใหม่ชื่อ Internal Coherence Maximization (ICM) เพื่อปรับจูนโมเดลภาษาที่ผ่านการพรีเทรนด้วยป้ายกำกับที่โมเดลสร้างขึ้นเอง \emph{without external supervision} บนงาน GSM8k-verification, TruthfulQA และงาน reward modeling ของ Alpaca วิธีของเราให้ผลเทียบเท่ากับการฝึกด้วย golden supervision และเหนือกว่าการฝึกด้วยการกำกับดูแลโดยมนุษย์แบบ crowdsourced บนงานที่ความสามารถของ LMs เหนือมนุษย์อย่างมาก วิธีของเราสามารถดึงความสามารถเหล่านั้นออกมาได้ดีกว่าการฝึกด้วยป้ายกำกับจากมนุษย์อย่างมีนัยสำคัญ สุดท้าย เราแสดงให้เห็นว่าวิธีของเราสามารถยกระดับการฝึก frontier LMs ได้ โดยเราใช้วิธีของเราเพื่อฝึก reward model แบบไม่มีผู้สอน และใช้ reinforcement learning เพื่อฝึกผู้ช่วยที่อิงกับ Claude 3.5 Haiku ทั้ง reward model และผู้ช่วยต่างก็มีประสิทธิภาพเหนือกว่ารุ่นคู่เทียบที่กำกับดูแลโดยมนุษย์

ลิงก์งานวิจัย

https://arxiv.org/abs/2506.10139

บทความนี้เรียบเรียงขึ้นจากเนื้อหาที่สรุปโดยโมเดล GPT ดังนั้นอาจมีบางส่วนที่สรุปคลาดเคลื่อนจากเนื้อหาหรือเจตนาของต้นฉบับได้ หากเป็นประเด็นที่คุณสนใจ แนะนำให้อ่านต้นฉบับควบคู่กันไปด้วย! หากระหว่างอ่านพบข้อความที่แปลกหรือผิดพลาด รบกวนแจ้งในคอมเมนต์ด้วยนะครับ/นะคะ 🤗
⚠️โฆษณา⚠️ บทความสรุปนี้จาก 🔥ชุมชนผู้ใช้ PyTorch เกาหลี🇰🇷 มีประโยชน์สำหรับคุณหรือไม่? หาก สมัครสมาชิก เราจะส่งบทความสำคัญทางอีเมล💌ให้คุณ! (ค่าเริ่มต้นคือ Weekly แต่ เปลี่ยนเป็น Daily ได้)

[2025/09/01 ~ 07] รวมงานวิจัย AI/ML ที่น่าติดตามประจำสัปดาห์นี้