ML ที่น่าจับตาในสัปดาห์นี้

(discuss.pytorch.kr)

10 คะแนน โดย ninebow 2025-09-28 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

PyTorchKR🔥🇰🇷 🤔💭

1️⃣ การผสานและการปรับให้เหมาะสมของโมเดลมัลติโหมด: งานวิจัยล่าสุดได้นำเสนอแนวทางหลากหลายเพื่อยกระดับประสิทธิภาพของ Unified Multimodal Models (UMM) ตัวอย่างเช่น “Reconstruction Alignment” แนะนำวิธีปรับจัดแนวความสามารถด้านความเข้าใจและการสร้างของโมเดลใหม่ผ่านการผสานภาพและข้อความ ส่วน “AToken” พัฒนา tokenizer แบบรวมสำหรับภาพ วิดีโอ และทรัพยากร 3D เพื่อรองรับอินพุตเชิงภาพที่หลากหลาย งานวิจัยเหล่านี้กำลังวางรากฐานให้กับความก้าวหน้าของระบบ AI แบบมัลติโหมด

2️⃣ การออกแบบระบบข้อมูลที่มีเอเจนต์เป็นศูนย์กลาง: งานวิจัย “Supporting Our AI Overlords” และ “Scaling Agents via Continual Pre-training” ชี้ว่าเอเจนต์ที่ขับเคลื่อนด้วย large language model (LLM) จะมีบทบาทสำคัญในระบบข้อมูล โดยเน้นว่าเอเจนต์ควรเรียนรู้ผ่านปฏิสัมพันธ์ในสภาพแวดล้อมที่หลากหลาย เพื่อพัฒนาความสามารถที่จำเป็นต่อการจัดการและวิเคราะห์ข้อมูล แนวคิดนี้เปิดโอกาสการวิจัยใหม่เกี่ยวกับการออกแบบสถาปัตยกรรมระบบข้อมูลแบบ agent-first

3️⃣ การเรียนรู้แบบอัตโนมัติและโมเดลที่วิวัฒน์ได้เอง: งานวิจัย “R-Zero” เน้นย้ำความจำเป็นของโมเดลที่สามารถสร้างข้อมูลและเรียนรู้ได้ด้วยตนเอง ขณะที่วิธีการเดิมพึ่งพางานและฉลากข้อมูลที่มนุษย์คัดกรองมาแล้ว R-Zero สร้างหลักสูตรการเรียนรู้ที่วิวัฒน์ได้เองผ่านโมเดลสองตัวที่เสนอและแก้โจทย์ด้วยตนเอง แนวทางนี้คาดว่าจะมีบทบาทสำคัญต่อการพัฒนาระบบ AI ให้ก้าวไปสู่ความสามารถที่เหนือกว่าสติปัญญามนุษย์

Reconstruction Alignment ช่วยปรับปรุง Unified Multimodal Models / Reconstruction Alignment Improves Unified Multimodal Models

แนะนำงานวิจัย

Unified Multimodal Models (UMMs) เป็นแนวทางที่ล้ำสมัยซึ่งรวมความสามารถด้านความเข้าใจและการสร้างเชิงภาพไว้ในสถาปัตยกรรมเดียว ทำให้สามารถรองรับงานได้หลากหลาย อย่างไรก็ตาม วิธีการฝึกแบบเดิมอาศัยคู่ข้อมูลภาพ-ข้อความ ซึ่งมักทำให้คำบรรยายตกหล่นรายละเอียดเชิงภาพที่ละเอียด ส่งผลให้ประสิทธิภาพลดลง วิธีที่ถูกเสนอขึ้นเพื่อแก้ข้อจำกัดนี้คือ Reconstruction Alignment (RecA) โดย RecA เป็นเทคนิค post-training ที่ใช้ทรัพยากรอย่างมีประสิทธิภาพ และใช้ embedding ของตัวเข้ารหัสความเข้าใจเชิงภาพเป็น “text prompts” แบบหนาแน่น เพื่อมอบสัญญาณกำกับที่เข้มข้นโดยไม่ต้องพึ่งคำบรรยาย

หัวใจสำคัญของ RecA คือกระบวนการปรับให้ UMM สร้างภาพอินพุตกลับขึ้นมาใหม่โดยมีเงื่อนไขจาก embedding ความเข้าใจเชิงภาพของตนเอง ในกระบวนการนี้จะใช้ self-supervised reconstruction loss เพื่อจัดแนวความสามารถด้านความเข้าใจและการสร้างของโมเดลให้สอดคล้องกันมากขึ้น ทำให้สามารถใช้ข้อมูลเชิงภาพได้อย่างมีประสิทธิภาพยิ่งขึ้น RecA สามารถนำไปใช้ได้กับสถาปัตยกรรมหลากหลายประเภท เช่น autoregressive, masked autoregressive และ diffusion-based UMMs และแสดงผลลัพธ์ที่ช่วยเพิ่มความเที่ยงตรงของการสร้างและการแก้ไขอย่างสม่ำเสมอ

ผลการทดลองแสดงให้เห็นว่า หลังจากใช้ RecA แล้ว ประสิทธิภาพการสร้างภาพบน GenEval เพิ่มจาก 0.73 เป็น 0.90 และบน DPGBench เพิ่มจาก 80.93 เป็น 88.15 นอกจากนี้ ในเบนช์มาร์กด้านการแก้ไขภาพก็ทำคะแนนเพิ่มขึ้นเช่นกัน โดย ImgEdit เพิ่มจาก 3.38 เป็น 3.75 และ GEdit เพิ่มจาก 6.94 เป็น 7.25 ผลลัพธ์เหล่านี้แสดงให้เห็นว่า RecA ให้ประสิทธิภาพเหนือกว่าโมเดลโอเพนซอร์สขนาดใหญ่ที่มีอยู่เดิม และมีศักยภาพในการประยุกต์ใช้ได้อย่างกว้างขวางกับสถาปัตยกรรม UMM ที่หลากหลาย

RecA เป็นวิธีที่ช่วยจัดแนวความสามารถด้านความเข้าใจและการสร้างของ UMM ได้อย่างมีประสิทธิภาพ และมีศักยภาพที่จะกลายเป็นกลยุทธ์ post-training ที่ใช้ทรัพยากรอย่างคุ้มค่า ในการวิจัยต่อไป การขยายขอบเขตการใช้งานของ RecA และการประเมินประสิทธิภาพกับงานมัลติโหมดประเภทอื่นจะเป็นสิ่งสำคัญ งานวิจัยลักษณะนี้คาดว่าจะช่วยผลักดันความก้าวหน้าของโมเดลมัลติโหมดต่อไป

บทคัดย่อ(Abstract)

Unified Multimodal Models (UMM) รวมความสามารถด้านความเข้าใจและการสร้างเชิงภาพไว้ภายในสถาปัตยกรรมเดียว อย่างไรก็ตาม แนวทางการฝึกแบบดั้งเดิมมักอาศัยคู่ข้อมูลภาพ-ข้อความ (หรือซีเควนซ์) ซึ่งคำบรรยายมักมีความหนาแน่นต่ำและพลาดรายละเอียดเชิงภาพแบบละเอียด แม้จะใช้คำหลายร้อยคำเพื่ออธิบายภาพง่าย ๆ ก็ตาม เรานำเสนอ Reconstruction Alignment (RecA) ซึ่งเป็นวิธี post-training ที่ใช้ทรัพยากรอย่างมีประสิทธิภาพ โดยใช้ embedding ของตัวเข้ารหัสความเข้าใจเชิงภาพเป็น “text prompts” แบบหนาแน่น เพื่อให้การกำกับดูแลที่เข้มข้นโดยไม่ต้องมีคำบรรยาย โดยเฉพาะอย่างยิ่ง RecA จะกำหนดเงื่อนไขให้ UMM อ้างอิง embedding ความเข้าใจเชิงภาพของตัวเอง และปรับให้สร้างภาพอินพุตกลับขึ้นมาใหม่ด้วย self-supervised reconstruction loss จึงช่วยจัดแนวความเข้าใจและการสร้างใหม่ แม้จะมีแนวคิดที่เรียบง่าย แต่ RecA สามารถประยุกต์ใช้ได้กว้างขวางกับ UMM ทั้งแบบ autoregressive, masked autoregressive และ diffusion-based และช่วยเพิ่มความเที่ยงตรงของการสร้างและการแก้ไขได้อย่างสม่ำเสมอ ด้วยเวลาเพียง 27 GPU-hours การทำ post-training ด้วย RecA ช่วยยกระดับประสิทธิภาพการสร้างภาพบน GenEval อย่างมาก (0.73$\rightarrow$0.90) และบน DPGBench (80.93$\rightarrow$88.15) พร้อมทั้งปรับปรุงผลลัพธ์บนเบนช์มาร์กการแก้ไขภาพด้วย (ImgEdit 3.38$\rightarrow$3.75, GEdit 6.94$\rightarrow$7.25) ที่สำคัญ RecA ยังทำผลงานเหนือกว่าโมเดลโอเพนซอร์สที่มีขนาดใหญ่กว่ามาก และสามารถประยุกต์ใช้ได้อย่างกว้างขวางกับสถาปัตยกรรม UMM ที่หลากหลาย ทำให้มันเป็นกลยุทธ์การจัดแนวสำหรับ post-training ของ UMM ที่มีทั้งประสิทธิภาพและความเป็นสากล

Unified multimodal models (UMMs) unify visual understanding and generation within a single architecture. However, conventional training relies on image-text pairs (or sequences) whose captions are typically sparse and miss fine-grained visual details--even when they use hundreds of words to describe a simple image. We introduce Reconstruction Alignment (RecA), a resource-efficient post-training method that leverages visual understanding encoder embeddings as dense "text prompts," providing rich supervision without captions. Concretely, RecA conditions a UMM on its own visual understanding embeddings and optimizes it to reconstruct the input image with a self-supervised reconstruction loss, thereby realigning understanding and generation. Despite its simplicity, RecA is broadly applicable: across autoregressive, masked-autoregressive, and diffusion-based UMMs, it consistently improves generation and editing fidelity. With only 27 GPU-hours, post-training with RecA substantially improves image generation performance on GenEval (0.73$\rightarrow$0.90) and DPGBench (80.93$\rightarrow$88.15), while also boosting editing benchmarks (ImgEdit 3.38$\rightarrow$3.75, GEdit 6.94$\rightarrow$7.25). Notably, RecA surpasses much larger open-source models and applies broadly across diverse UMM architectures, establishing it as an efficient and general post-training alignment strategy for UMMs

ลิงก์งานวิจัย

https://arxiv.org/abs/2509.07295

สนับสนุน AI Overlords ของเรา: ออกแบบระบบข้อมูลใหม่ให้เป็น Agent-First / Supporting Our AI Overlords: Redesigning Data Systems to be Agent-First

แนะนำงานวิจัย

วิธีที่เอเจนต์ของ Large Language Model (LLM) ใช้จัดการและวิเคราะห์ข้อมูล คาดว่าจะนำมาซึ่งการเปลี่ยนแปลงครั้งสำคัญต่ออนาคตของระบบข้อมูล เอเจนต์เหล่านี้ทำงานผ่านกระบวนการ agentic speculation ที่สำรวจและเสนอแนวทางแก้ไขด้วยความเร็วสูงตามคำขอของผู้ใช้ อย่างไรก็ตาม การเกิดขึ้นของ agentic speculation ในปริมาณมากและความไม่มีประสิทธิภาพของมัน อาจกลายเป็นความท้าทายสำหรับระบบข้อมูลในปัจจุบัน ดังนั้น ระบบข้อมูลจึงต้องพัฒนาเพื่อรองรับเวิร์กโหลดแบบเอเจนต์เหล่านี้ได้อย่างเป็นธรรมชาติมากขึ้น

งานวิจัยนี้นำเสนอแนวทางวิจัยสำหรับสถาปัตยกรรมระบบข้อมูลแบบ agent-first รูปแบบใหม่ โดยอาศัยคุณลักษณะของ agentic speculation ได้แก่ ขนาด ความหลากหลาย ความซ้ำซ้อน และความสามารถในการชี้นำ แนวทางนี้เปิดให้สำรวจวิธีการใหม่ ๆ เช่น query interface แบบใหม่ เทคนิคการประมวลผลคิวรีแบบใหม่ และ agentic memory store โดยเฉพาะอย่างยิ่ง หากเอเจนต์กลายเป็นกลไกหลักในการโต้ตอบกับข้อมูล ก็อาจเปิดโอกาสให้ระบบข้อมูลเพิ่มผลิตภาพได้อย่างมาก

ผ่านกรณีศึกษา ผู้วิจัยได้วิเคราะห์ลักษณะของเวิร์กโหลดแบบเอเจนต์และระบุโอกาสในการปรับให้เหมาะสม งานศึกษาแรกใช้ชุดข้อมูล BIRD เพื่อสำรวจว่า LLM สามารถเพิ่มความแม่นยำได้อย่างไรด้วยการเพิ่มจำนวนคำขอ ส่วนงานศึกษาที่สองดำเนินงานที่ซับซ้อนในการรวมข้อมูลจากฐานข้อมูลสองแห่งเข้าด้วยกัน ผลลัพธ์เหล่านี้แสดงให้เห็นว่า agentic speculation มีศักยภาพในการเพิ่มประสิทธิภาพของระบบข้อมูล

สุดท้าย ผู้วิจัยได้เสนอทั้ง agentic memory store และกรอบงานธุรกรรมแบบใหม่ เพื่อหาวิธีแก้ปัญหาความซ้ำซ้อนและความหลากหลายที่เกิดขึ้นในขั้นตอนการสำรวจของ agentic speculation แนวทางนี้เน้นย้ำถึงความจำเป็นในการออกแบบระบบข้อมูลใหม่ให้ยึดเอเจนต์เป็นศูนย์กลาง และนำเสนอวิสัยทัศน์ใหม่สำหรับการวิจัยในอนาคต

บทคัดย่อ(Abstract)

เอเจนต์ของ Large Language Model (LLM) ซึ่งทำหน้าที่จัดการและวิเคราะห์ข้อมูลแทนผู้ใช้ มีแนวโน้มจะกลายเป็นเวิร์กโหลดหลักของระบบข้อมูลในอนาคต เมื่อทำงานกับข้อมูล เอเจนต์จะใช้กระบวนการ throughput สูงในการสำรวจและกำหนดแนวทางแก้ปัญหาสำหรับงานที่ได้รับ ซึ่งเราเรียกว่า agentic speculation ปริมาณมหาศาลและความไม่มีประสิทธิภาพของ agentic speculation อาจก่อให้เกิดความท้าทายต่อระบบข้อมูลในปัจจุบัน เราเห็นว่าระบบข้อมูลจำเป็นต้องปรับตัวเพื่อรองรับเวิร์กโหลดแบบเอเจนต์ได้อย่างเป็นธรรมชาติมากขึ้น เราใช้ประโยชน์จากคุณลักษณะของ agentic speculation ที่เราระบุไว้ ได้แก่ ขนาด ความหลากหลาย ความซ้ำซ้อน และความสามารถในการชี้นำ เพื่อสรุปโอกาสวิจัยใหม่จำนวนหนึ่งสำหรับสถาปัตยกรรมระบบข้อมูลแบบ agent-first รูปแบบใหม่ ตั้งแต่ query interface แบบใหม่ เทคนิคการประมวลผลคิวรีแบบใหม่ ไปจนถึง agentic memory store รูปแบบใหม่

> Large Language Model (LLM) agents, acting on their users' behalf to manipulate and analyze data, are likely to become the dominant workload for data systems in the future. When working with data, agents employ a high-throughput process of exploration and solution formulation for the given task, one we call agentic speculation. The sheer volume and inefficiencies of agentic speculation can pose challenges for present-day data systems. We argue that data systems need to adapt to more natively support agentic workloads. We take advantage of the characteristics of agentic speculation that we identify, i.e., scale, heterogeneity, redundancy, and steerability - to outline a number of new research opportunities for a new agent-first data systems architecture, ranging from new query interfaces, to new query processing techniques, to new agentic memory stores.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2509.00997

AToken: โทเคนไนเซอร์แบบรวมศูนย์สำหรับวิชัน / AToken: A Unified Tokenizer for Vision

แนะนำงานวิจัย

AToken คือวิชันโทเคนไนเซอร์แบบรวมศูนย์ตัวแรกที่สามารถทำได้พร้อมกันทั้งการสร้างข้อมูลกลับคืนที่มีความเที่ยงตรงสูงและการทำความเข้าใจเชิงความหมาย ครอบคลุมทั้งภาพ วิดีโอ และแอสเซ็ต 3D ขณะที่โทเคนไนเซอร์เดิมมักถูกออกแบบมาเฉพาะสำหรับการสร้างกลับคืนหรือการทำความเข้าใจในโมดาลิตีเดียว AToken เข้ารหัสอินพุตภาพที่หลากหลายเหล่านี้เข้าสู่ shared 4D latent space เพื่อรวมทั้งสองงานและหลายโมดาลิตีไว้ในเฟรมเวิร์กเดียว ระบบนี้นำเสนอสถาปัตยกรรมทรานส์ฟอร์เมอร์ล้วนที่มี 4D rotary positional embedding เพื่อรองรับอินพุตภาพที่มีความละเอียดและความยาวตามเวลาที่กำหนดได้อย่างอิสระ เพื่อให้การฝึกมีเสถียรภาพ AToken เสนอวัตถุประสงค์การเรียนรู้แบบไม่ใช้ adversarial ที่ผสาน perceptual loss กับ Gram-metric loss เข้าด้วยกัน จนได้คุณภาพการสร้างกลับคืนระดับ state-of-the-art ผ่านหลักสูตรการเรียนรู้แบบค่อยเป็นค่อยไป AToken ขยายจากภาพเดี่ยวไปสู่วิดีโอและ 3D อย่างต่อเนื่อง และรองรับทั้ง latent token แบบต่อเนื่องและแบบไม่ต่อเนื่อง AToken ทำได้ 0.21 rFID และความแม่นยำ ImageNet 82.2% สำหรับภาพ, 3.01 rFVD และประสิทธิภาพการค้นคืน MSRVTT 32.6% สำหรับวิดีโอ, และ 28.19 PSNR กับความแม่นยำการจำแนก 90.9% สำหรับ 3D ในการประยุกต์ใช้งานปลายทาง AToken รองรับทั้งงานสร้างภาพ เช่น image generation, text-to-video generation และ image-to-3D synthesis ตลอดจนงานทำความเข้าใจ เช่น multimodal Large Language Model (LLM) พร้อมแสดงประสิทธิภาพที่แข่งขันได้ในทุก benchmark ผลลัพธ์เหล่านี้ชี้ให้เห็นถึงศักยภาพของระบบ AI แบบมัลติโมดัลยุคถัดไปที่อาศัย unified visual tokenization

บทคัดย่อ(Abstract)

เราขอแนะนำ AToken ซึ่งเป็นวิชันโทเคนไนเซอร์แบบรวมศูนย์ตัวแรกที่สามารถทำได้ทั้งการสร้างกลับคืนที่มีความเที่ยงตรงสูงและการทำความเข้าใจเชิงความหมาย ครอบคลุมภาพ วิดีโอ และแอสเซ็ต 3D ต่างจากโทเคนไนเซอร์เดิมที่มักเฉพาะทางด้านการสร้างกลับคืนหรือการทำความเข้าใจสำหรับโมดาลิตีเดียว AToken เข้ารหัสอินพุตภาพที่หลากหลายเหล่านี้เข้าสู่ shared 4D latent space เพื่อรวมทั้งสองงานและหลายโมดาลิตีไว้ในเฟรมเวิร์กเดียว โดยเฉพาะอย่างยิ่ง เราได้นำเสนอสถาปัตยกรรมทรานส์ฟอร์เมอร์ล้วนที่มี 4D rotary positional embedding เพื่อจัดการอินพุตภาพที่มีความละเอียดและระยะเวลาตามอำเภอใจ เพื่อให้การฝึกมีเสถียรภาพ เราได้นำเสนอวัตถุประสงค์การเรียนรู้แบบไม่ใช้ adversarial ที่รวม perceptual loss และ Gramian matrix loss เข้าด้วยกัน ทำให้ได้คุณภาพการสร้างกลับคืนระดับ state-of-the-art ด้วยการใช้หลักสูตรการเรียนรู้แบบค่อยเป็นค่อยไป AToken ขยายจากภาพเดี่ยวไปสู่วิดีโอและ 3D อย่างต่อเนื่อง และรองรับทั้ง latent token แบบต่อเนื่องและแบบไม่ต่อเนื่อง AToken ทำได้ 0.21 rFID และความแม่นยำ ImageNet 82.2% สำหรับภาพ, 3.01 rFVD และอัตราการค้นคืน MSRVTT 32.6% สำหรับวิดีโอ, และ 28.19 PSNR กับความแม่นยำการจำแนก 90.9% สำหรับ 3D ในงานประยุกต์ปลายทาง AToken รองรับได้ทั้งงานสร้างภาพ (เช่น image generation ด้วยโทเคนแบบต่อเนื่องและไม่ต่อเนื่อง, text-to-video generation, image-to-3D synthesis) และงานทำความเข้าใจ (เช่น multimodal Large Language Model) พร้อมบรรลุประสิทธิภาพที่แข่งขันได้ในทุก benchmark ผลลัพธ์เหล่านี้มอบมุมมองต่อระบบ AI แบบมัลติโมดัลยุคถัดไปที่สร้างขึ้นบนพื้นฐานของ unified visual tokenization.

เราขอนำเสนอ AToken ซึ่งเป็น visual tokenizer แบบรวมศูนย์ตัวแรกที่ทำได้ทั้งการสร้างกลับอย่างมีความเที่ยงตรงสูงและความเข้าใจเชิงความหมาย ครอบคลุมทั้งภาพ วิดีโอ และแอสเซ็ต 3D ต่างจาก tokenizer ที่มีอยู่ซึ่งมักเชี่ยวชาญเฉพาะด้านการสร้างกลับหรือความเข้าใจสำหรับโมดาลิตีเดียว AToken เข้ารหัสอินพุตภาพที่หลากหลายเหล่านี้เข้าสู่ latent space แบบ 4D ร่วมกัน เพื่อรวมทั้งงานและโมดาลิตีไว้ในเฟรมเวิร์กเดียว โดยเฉพาะอย่างยิ่ง เราได้นำเสนอสถาปัตยกรรม transformer ล้วนพร้อม 4D rotary position embeddings เพื่อประมวลผลอินพุตภาพที่มีความละเอียดและความยาวเชิงเวลาตามต้องการ เพื่อให้การฝึกมีเสถียรภาพ เราได้นำเสนอ objective การฝึกที่ไม่ใช้ adversarial ซึ่งผสาน perceptual loss และ Gram matrix loss ทำให้ได้คุณภาพการสร้างกลับระดับล้ำสมัย ด้วยการใช้ progressive training curriculum ทำให้ AToken ค่อย ๆ ขยายจากภาพเดี่ยว วิดีโอ และ 3D และรองรับทั้ง latent token แบบต่อเนื่องและไม่ต่อเนื่อง AToken ทำได้ 0.21 rFID พร้อมความแม่นยำ ImageNet 82.2% สำหรับภาพ, 3.01 rFVD พร้อม MSRVTT retrieval 32.6% สำหรับวิดีโอ และ 28.19 PSNR พร้อมความแม่นยำการจัดประเภท 90.9% สำหรับ 3D ในการใช้งานปลายทาง AToken รองรับทั้งงานสร้างภาพเชิงภาพ (เช่น การสร้างภาพด้วยโทเค็นแบบต่อเนื่องและไม่ต่อเนื่อง, การสร้างวิดีโอจากข้อความ, การสังเคราะห์ 3D จากภาพ) และงานด้านความเข้าใจ (เช่น multimodal LLMs) โดยให้ประสิทธิภาพที่แข่งขันได้ในทุก benchmark ผลลัพธ์เหล่านี้ชี้ให้เห็นแนวทางของระบบ AI แบบหลายโมดาลิตีรุ่นถัดไปที่สร้างบนพื้นฐานของ unified visual tokenization

ลิงก์บทความวิจัย

https://arxiv.org/abs/2509.14476

ยกระดับความฉลาดของเอเจนต์ทั่วไปด้วยการขยายสภาพแวดล้อม / Towards General Agentic Intelligence via Environment Scaling

แนะนำงานวิจัย

ความฉลาดเชิงเอเจนต์ระดับสูงได้กลายเป็นองค์ประกอบสำคัญสำหรับการนำ large language model (LLM) ไปใช้งานจริงอย่างมีประสิทธิภาพ API ในโลกจริงที่หลากหลายต้องการความฉลาดในการเรียกใช้ฟังก์ชันที่แม่นยำและแข็งแกร่ง ซึ่งหมายความว่าเอเจนต์ต้องพัฒนาความสามารถเหล่านี้ผ่านการโต้ตอบในสภาพแวดล้อมที่หลากหลาย งานวิจัยนี้เสนอวิธีการขยายสภาพแวดล้อมในฐานะก้าวหนึ่งเพื่อยกระดับความฉลาดของเอเจนต์ทั่วไป โดยมุ่งแก้ความท้าทายสำคัญสองประการ ได้แก่ ประการแรก วิธีขยายสภาพแวดล้อมอย่างมีหลักการ และประการที่สอง วิธีเรียนรู้ความสามารถของเอเจนต์อย่างมีประสิทธิผลผ่านการโต้ตอบกับสภาพแวดล้อมเหล่านี้

เพื่อแก้ปัญหาเหล่านี้ ทีมวิจัยได้ออกแบบเฟรมเวิร์กที่ขยายได้สำหรับการสร้างสภาพแวดล้อมที่หลากหลายแบบอัตโนมัติ เฟรมเวิร์กนี้มุ่งเน้นการขยายสภาพแวดล้อมที่จำลองขึ้นอย่างสมบูรณ์อย่างเป็นระบบ เพื่อเพิ่มพื้นที่ของสถานการณ์การเรียกใช้ฟังก์ชัน นอกจากนี้ยังมีการนำเสนอกลยุทธ์การ fine-tuning เอเจนต์แบบสองขั้นตอน โดยในขั้นแรกจะมอบความสามารถเชิงเอเจนต์พื้นฐานให้แก่เอเจนต์ และในขั้นที่สองจะปรับให้เชี่ยวชาญตามบริบทเฉพาะโดเมน

ระเบียบวิธีการสร้างและขยายสภาพแวดล้อมที่เสนอในงานนี้ประกอบด้วยไปป์ไลน์อย่างเป็นระบบที่รวบรวม API มากกว่า 30,000 รายการ และอนุมานการแบ่งโดเมนกับการกระจายผ่านการทำโมเดลกราฟการพึ่งพาเครื่องมือ ส่งผลให้เอเจนต์สามารถกำหนดสถานะเริ่มต้นของสภาพแวดล้อม และสุ่มลำดับเครื่องมือที่สอดคล้องกันทางตรรกะจากกราฟเครื่องมือเฉพาะโดเมนเพื่อสร้างลำดับที่ใช้ได้ กระบวนการนี้รับประกันทั้งความสอดคล้องของสถานะในระดับฐานข้อมูลและความตรงกันอย่างแม่นยำของลำดับเครื่องมือ ซึ่งช่วยยกระดับความสามารถในการเรียกใช้ฟังก์ชันของเอเจนต์ได้อย่างมาก

ผลลัพธ์คือ โมเดล AgentScaler ที่พัฒนาในงานวิจัยนี้ช่วยปรับปรุงความสามารถในการเรียกใช้ฟังก์ชันของเอเจนต์อย่างก้าวกระโดด และคาดว่าจะมีส่วนสำคัญต่อการพัฒนาความฉลาดเชิงเอเจนต์ในอนาคต แนวทางนี้ช่วยให้เอเจนต์สามารถทำงานได้อย่างมีประสิทธิภาพในสภาพแวดล้อมที่หลากหลาย และมีส่วนขยายความเป็นไปได้ของการประยุกต์ใช้ความฉลาดเชิงเอเจนต์ในทางปฏิบัติให้กว้างขึ้นอีกขั้น

บทคัดย่อ(Abstract)

ความฉลาดเชิงเอเจนต์ระดับสูงเป็นเงื่อนไขเบื้องต้นสำหรับการนำ large language model ไปใช้งานในแอปพลิเคชันจริง API ในโลกจริงที่หลากหลายต้องการความฉลาดในการเรียกใช้ฟังก์ชันที่แม่นยำและแข็งแกร่ง ซึ่งหมายความว่าเอเจนต์ต้องพัฒนาความสามารถเหล่านี้ผ่านการโต้ตอบในสภาพแวดล้อมที่หลากหลาย ขอบเขตของความสามารถในการเรียกใช้ฟังก์ชันมีความเชื่อมโยงอย่างใกล้ชิดกับความหลากหลายของสภาพแวดล้อมที่ใช้ฝึกเอเจนต์ ในงานวิจัยนี้ เราขยายสภาพแวดล้อมในฐานะก้าวหนึ่งเพื่อยกระดับความฉลาดของเอเจนต์ทั่วไป สิ่งนี้ก่อให้เกิดความท้าทายสำคัญสองประการ: (i) วิธีขยายสภาพแวดล้อมอย่างมีหลักการ (ii) วิธีฝึกความสามารถของเอเจนต์อย่างมีประสิทธิผลจากประสบการณ์ที่ได้ผ่านการโต้ตอบกับสภาพแวดล้อมเหล่านี้ เพื่อแก้ปัญหานี้ เราได้ออกแบบเฟรมเวิร์กที่ขยายได้สำหรับการสร้างสภาพแวดล้อมที่หลากหลายแบบอัตโนมัติ เพื่อขยายพื้นที่ของสถานการณ์การเรียกใช้ฟังก์ชันอย่างเป็นระบบ นอกจากนี้ เรายังใช้กลยุทธ์การ fine-tuning เอเจนต์แบบสองขั้นตอน โดยเริ่มจากมอบความสามารถเชิงเอเจนต์พื้นฐานให้เอเจนต์ ก่อนปรับให้เชี่ยวชาญตามบริบทเฉพาะโดเมน ผ่านการทดลองอย่างกว้างขวางบน benchmark สำหรับเอเจนต์ ได้แก่ tau-bench, tau2-Bench และ ACEBench เราแสดงให้เห็นว่า AgentScaler ซึ่งเป็นโมเดลที่ผ่านการฝึกของเรา สามารถยกระดับความสามารถในการเรียกใช้ฟังก์ชันของโมเดลได้อย่างมีนัยสำคัญ

Advanced agentic intelligence เป็นเงื่อนไขสำคัญสำหรับการนำ Large Language Models ไปใช้งานจริงในโลกความเป็นจริงได้อย่างมีประสิทธิภาพ API ในโลกจริงที่หลากหลายต้องการความสามารถด้าน function-calling ที่แม่นยำและทนทาน ซึ่งทำให้เอเจนต์จำเป็นต้องพัฒนาความสามารถเหล่านี้ผ่านการโต้ตอบในสภาพแวดล้อมที่หลากหลาย ขอบเขตของความสามารถด้าน function-calling มีความเชื่อมโยงอย่างใกล้ชิดกับความหลากหลายของสภาพแวดล้อมที่ใช้ฝึกเอเจนต์ ในงานนี้ เราขยายสเกลของสภาพแวดล้อมเพื่อเป็นก้าวหนึ่งสู่การพัฒนาความฉลาดเชิงเอเจนต์แบบทั่วไป ซึ่งก่อให้เกิดความท้าทายหลักสองประการ: (i) จะขยายสเกลสภาพแวดล้อมอย่างมีหลักการได้อย่างไร และ (ii) จะฝึกความสามารถเชิงเอเจนต์จากประสบการณ์ที่ได้จากการโต้ตอบกับสภาพแวดล้อมเหล่านี้อย่างมีประสิทธิภาพได้อย่างไร เพื่อรับมือกับประเด็นเหล่านี้ เราออกแบบเฟรมเวิร์กที่ขยายสเกลได้ ซึ่งสร้างสภาพแวดล้อมที่หลากหลายโดยอัตโนมัติและจำลองขึ้นทั้งหมด เพื่อขยายขอบเขตของสถานการณ์ function-calling อย่างเป็นระบบ นอกจากนี้ เรายังปรับใช้กลยุทธ์การ fine-tuning เอเจนต์แบบสองระยะ: เริ่มจากมอบความสามารถพื้นฐานเชิงเอเจนต์ให้กับเอเจนต์ก่อน จากนั้นจึงทำให้เชี่ยวชาญสำหรับบริบทเฉพาะโดเมน การทดลองอย่างครอบคลุมบนเบนช์มาร์กด้านเอเจนต์ tau-bench, tau2-Bench และ ACEBench แสดงให้เห็นว่าโมเดลที่เราฝึกขึ้นมาอย่าง AgentScaler ช่วยยกระดับความสามารถด้าน function-calling ของโมเดลได้อย่างมีนัยสำคัญ

ลิงก์บทความวิจัย

https://arxiv.org/abs/2509.13311

อ่านเพิ่มเติม

https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/

การเรียนรู้ในบริบทคือการเรียนรู้จริงหรือไม่? / Is In-Context Learning Learning?

แนะนำบทความวิจัย

In-Context Learning (ICL) แสดงให้เห็นถึงความสามารถของโมเดลแบบออโตรีเกรสซีฟในการแก้งานที่หลากหลายผ่านการทำนายโทเค็นถัดไปโดยไม่ต้องฝึกเพิ่มเติม แนวทางนี้นำไปสู่ข้ออ้างว่าโมเดลสามารถแก้งานที่ไม่เคยเห็นมาก่อนได้ด้วยตัวอย่างเพียงไม่กี่ชุด แต่ก็ยังมีข้อถกเถียงว่า ICL นั้นทำการเรียนรู้จริงหรือไม่ งานวิจัยนี้เสนอว่า ICL จัดเป็นการเรียนรู้ในเชิงคณิตศาสตร์ แต่ก็เน้นย้ำว่าจำเป็นต้องมีการวิเคราะห์เชิงประจักษ์เพื่อทำความเข้าใจคุณลักษณะของมันอย่างครบถ้วน

งานวิจัยนี้ประเมินประสิทธิภาพของ ICL ผ่านการวิเคราะห์ขนาดใหญ่ โดยพิจารณาปัจจัยอย่างการจดจำ การพรีเทรน การเปลี่ยนแปลงของการกระจาย ความไวต่อสไตล์และถ้อยคำของพรอมป์ต์ ผลการวิจัยพบว่า ICL ทำหน้าที่เป็นกรอบการเรียนรู้ที่มีประสิทธิภาพ แต่มีข้อจำกัดด้านความสามารถในการทำให้ทั่วไปกับงานที่ไม่เคยเห็นมาก่อน โดยเฉพาะเมื่อจำนวนตัวอย่างเพิ่มขึ้น ความแม่นยำจะไวต่อการกระจายของตัวอย่าง โมเดล และสไตล์ของพรอมป์ต์น้อยลง และหันไปอนุมานรูปแบบจากความสม่ำเสมอของพรอมป์ต์แทน ซึ่งก่อให้เกิดความไวต่อการกระจาย โดยเฉพาะในพรอมป์ต์บางสไตล์อย่าง Chain-of-Thought

ความแตกต่างของความแม่นยำในงานที่มีความคล้ายคลึงกันในเชิงรูปแบบ บ่งชี้ว่าการเข้ารหัสเฉพาะหน้าของโมเดลแบบออโตรีเกรสซีฟไม่ใช่กลไกการเรียนรู้ที่แข็งแกร่ง และสะท้อนถึงความสามารถในการทำให้ทั่วไปแบบครอบจักรวาลที่มีจำกัด งานวิจัยนี้แสดงให้เห็นว่า ICL ทำงานได้ในฐานะกลไกการเรียนรู้ แต่ก็เผยให้เห็นข้อจำกัดและพฤติกรรมของมันอย่างชัดเจน พร้อมทั้งชี้ว่าประสิทธิภาพของ LLM (โมเดลภาษาขนาดใหญ่) อาจแตกต่างกันไปตามการกระจายของข้อมูล ผลลัพธ์เหล่านี้มีส่วนสำคัญต่อการสำรวจศักยภาพของ ICL และคาดว่าจะช่วยให้การวิจัยในอนาคตเข้าใจคุณลักษณะและข้อจำกัดของ ICL ได้ลึกซึ้งยิ่งขึ้น

บทคัดย่อ(Abstract)

การเรียนรู้ในบริบท (In-Context Learning, ICL) ช่วยให้โมเดลแบบออโตรีเกรสซีฟบางประเภทสามารถแก้งานได้ผ่านการทำนายโทเค็นถัดไป โดยไม่ต้องฝึกเพิ่มเติม สิ่งนี้นำไปสู่ข้ออ้างว่าโมเดลเหล่านี้สามารถแก้งาน (เรียนรู้) ที่ไม่เคยเห็นมาก่อนได้ด้วยตัวอย่าง (shots) เพียงไม่กี่ชุดในพรอมป์ต์ อย่างไรก็ตาม การอนุมานไม่ได้หมายความว่าเป็นการเรียนรู้เสมอไป เพราะ ICL ไม่ได้เข้ารหัสสิ่งที่สังเกตได้อย่างชัดเจน แต่โมเดลจะอาศัยความรู้เดิมและตัวอย่างที่ให้มา หากมี เราโต้แย้งว่า ในเชิงคณิตศาสตร์แล้ว ICL ถือเป็นการเรียนรู้ แต่การอธิบายลักษณะของมันอย่างครบถ้วนจำเป็นต้องอาศัยงานเชิงประจักษ์ หลังจากนั้น เราได้ทำการวิเคราะห์ ICL ในวงกว้าง โดยตัดออกหรือคำนึงถึงผลของการจดจำ การพรีเทรน การเปลี่ยนแปลงของการกระจาย ตลอดจนสไตล์และถ้อยคำของพรอมป์ต์ เราพบว่า ICL เป็นกรอบการเรียนรู้ที่มีประสิทธิภาพ แต่มีข้อจำกัดในความสามารถในการเรียนรู้และทำให้ทั่วไปกับงานที่ไม่เคยเห็นมาก่อน เราสังเกตว่าเมื่อจำนวนตัวอย่างเพิ่มมากขึ้น ความแม่นยำจะไม่ไวต่อการกระจายของตัวอย่าง โมเดล สไตล์ของพรอมป์ต์ และลักษณะทางภาษาของอินพุต แต่จะอนุมานรูปแบบจากความสม่ำเสมอในพรอมป์ต์แทน ซึ่งนำไปสู่ความไวต่อการกระจาย โดยเฉพาะในสไตล์การพรอมป์ต์อย่าง chain-of-thought เมื่อพิจารณาความแม่นยำที่แตกต่างกันในงานที่คล้ายกันในเชิงรูปแบบ เราจึงสรุปได้ว่าการเข้ารหัสเฉพาะหน้าของการออโตรีเกรสชันไม่ใช่กลไกที่แข็งแกร่ง และบ่งชี้ถึงความสามารถในการทำให้ทั่วไปแบบอเนกประสงค์ที่มีจำกัด

In-context learning (ICL) allows some autoregressive models to solve tasks via next-token prediction and without needing further training. This has led to claims about these model's ability to solve (learn) unseen tasks with only a few shots (exemplars) in the prompt. However, deduction does not always imply learning, as ICL does not explicitly encode a given observation. Instead, the models rely on their prior knowledge and the exemplars given, if any. We argue that, mathematically, ICL does constitute learning, but its full characterisation requires empirical work. We then carry out a large-scale analysis of ICL ablating out or accounting for memorisation, pretraining, distributional shifts, and prompting style and phrasing. We find that ICL is an effective learning paradigm, but limited in its ability to learn and generalise to unseen tasks. We note that, in the limit where exemplars become more numerous, accuracy is insensitive to exemplar distribution, model, prompt style, and the input's linguistic features. Instead, it deduces patterns from regularities in the prompt, which leads to distributional sensitivity, especially in prompting styles such as chain-of-thought. Given the varied accuracies on formally similar tasks, we conclude that autoregression's ad-hoc encoding is not a robust mechanism, and suggests limited all-purpose generalisability.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2509.10414

DeepDive: ยกระดับเอเจนต์ค้นหาเชิงลึกด้วยกราฟความรู้และ RL แบบหลายเทิร์น / DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL

แนะนำงานวิจัย

DeepDive นำเสนอแนวทางใหม่ที่ใช้กราฟความรู้ (Knowledge Graph, KG) และการเรียนรู้แบบเสริมกำลังหลายเทิร์น (Multi-Turn Reinforcement Learning, RL) เพื่อพัฒนาโมเดลภาษาขนาดใหญ่ (LLM) ให้เป็นเอเจนต์ค้นหาเชิงลึก โดย LLM แบบเดิมมีข้อจำกัดด้านความสามารถในการให้เหตุผลระยะยาวเมื่อทำงานร่วมกับเครื่องมือท่องเว็บ และยังขาดข้อมูลกำกับดูแลที่ยากพอสำหรับการแก้ปัญหาคำถามซับซ้อน จึงทำให้ประสิทธิภาพยังไม่ดีนัก DeepDive จึงนำเสนอเทคนิคหลัก 2 ประการเพื่อแก้ปัญหานี้

ประการแรก คือการพัฒนาวิธีสังเคราะห์คำถามที่ซับซ้อนและค้นหาได้ยากโดยอัตโนมัติด้วย KG โดย KG จะนำเสนอเอนทิตีและความสัมพันธ์ระหว่างกันในรูปแบบโครงสร้าง ทำให้เอเจนต์มีสภาพแวดล้อมที่เอื้อต่อการให้เหตุผลระยะยาว ในกระบวนการนี้มีการเพิ่มความซับซ้อนและความกำกวมของคำถามผ่าน random walk และใช้ LLM สร้างคู่คำถาม-คำตอบที่ท้าทาย การสังเคราะห์ข้อมูลแบบอัตโนมัตินี้ช่วยจัดหาข้อมูลคุณภาพสูงที่จำเป็นต่อการฝึกเอเจนต์ค้นหาเชิงลึก

ประการที่สอง DeepDive ใช้ RL แบบหลายเทิร์นแบบ end-to-end เพื่อยกระดับความสามารถในการให้เหตุผลระยะยาวของ LLM วิธีนี้ประกอบด้วยโครงสร้างรางวัลที่เข้มงวด ซึ่งช่วยให้เอเจนต์เรียนรู้เป็นลำดับขั้นว่าควรค้นหาอย่างไร ควรค้นหาอะไร และควรหยุดค้นหาเมื่อใด RL แบบหลายเทิร์นสนับสนุนให้เอเจนต์ไปถึงคำตอบสุดท้ายผ่านการให้เหตุผลซ้ำและการเรียกใช้เครื่องมือ ซึ่งมีส่วนสำคัญต่อการปรับปรุงความสามารถด้านการค้นหาเชิงลึกอย่างมาก

ผลการทดลองของ DeepDive แสดงให้เห็นว่าสามารถทำสถิติการแข่งขันแบบโอเพนซอร์สใหม่บน BrowseComp และมีผลลัพธ์เหนือกว่าโมเดลที่มีอยู่หลายตัว งานวิจัยนี้มีส่วนสำคัญต่อการปรับปรุงประสิทธิภาพของเอเจนต์ค้นหาเชิงลึก อีกทั้งยังเพิ่มความสามารถในการทำซ้ำงานวิจัยด้วยการเปิดเผยชุดข้อมูลและโค้ด พร้อมเป็นพื้นฐานสำหรับงานวิจัยต่อไป DeepDive นำเสนอแนวทางใหม่ในการแก้ปัญหาการค้นคืนข้อมูลที่ซับซ้อน และช่วยขยายศักยภาพการใช้งานของ LLM ให้กว้างยิ่งขึ้น

บทคัดย่อ (Abstract)

การเสริมเครื่องมือท่องเว็บให้กับโมเดลภาษาขนาดใหญ่ (LLM) ช่วยเพิ่มศักยภาพในการทำหน้าที่เป็นเอเจนต์ค้นหาเชิงลึกสำหรับแก้ปัญหางานจริงที่ซับซ้อนได้อย่างมาก อย่างไรก็ตาม LLM แบบเปิดยังคงทำงานได้ไม่ดีในสภาพแวดล้อมเช่นนี้ เนื่องจากมีข้อจำกัดด้านความสามารถในการให้เหตุผลระยะยาวเมื่อใช้ร่วมกับเครื่องมือท่องเว็บ และขาดข้อมูลกำกับดูแลที่ยากเพียงพอ เพื่อรับมือกับความท้าทายเหล่านี้ เราจึงนำเสนอ DeepDive เพื่อยกระดับเอเจนต์ค้นหาเชิงลึก ประการแรก เราเสนอวิธีสังเคราะห์คำถามที่ซับซ้อน ยาก และค้นหาได้ยากจากกราฟความรู้แบบเปิดโดยอัตโนมัติ ประการที่สอง เราประยุกต์ใช้การเรียนรู้แบบเสริมกำลัง (RL) หลายเทิร์นแบบ end-to-end เพื่อเสริมความสามารถในการให้เหตุผลระยะยาวของ LLM ผ่านการค้นหาเชิงลึก ผลการทดลองแสดงให้เห็นว่า DeepDive-32B ทำสถิติการแข่งขันแบบโอเพนซอร์สใหม่บน BrowseComp โดยมีผลงานเหนือกว่า WebSailor, DeepSeek-R1-Browse และ Search-o1 เราแสดงให้เห็นว่าการฝึก RL แบบหลายเทิร์นช่วยยกระดับความสามารถด้านการค้นหาเชิงลึก และมีส่วนสำคัญต่อการปรับปรุงประสิทธิภาพในหลายเบนช์มาร์ก นอกจากนี้ เรายังพบว่า DeepDive รองรับการขยายการเรียกใช้เครื่องมือในช่วงทดสอบและการสุ่มตัวอย่างแบบขนาน ชุดข้อมูล โมเดล และโค้ดทั้งหมดเปิดให้ใช้งานสาธารณะที่ https://github.com/THUDM/DeepDive

> การเสริมเครื่องมือท่องเว็บให้กับโมเดลภาษาขนาดใหญ่ (LLM) ช่วยเพิ่มศักยภาพในการทำหน้าที่เป็นเอเจนต์ค้นหาเชิงลึกสำหรับแก้ปัญหางานจริงที่ซับซ้อนได้อย่างมาก อย่างไรก็ตาม LLM แบบเปิดยังคงทำงานได้ไม่ดีในสภาพแวดล้อมเช่นนี้ เนื่องจากมีข้อจำกัดด้านความสามารถในการให้เหตุผลระยะยาวเมื่อใช้ร่วมกับเครื่องมือท่องเว็บ และขาดข้อมูลกำกับดูแลที่ยากเพียงพอ เพื่อรับมือกับความท้าทายเหล่านี้ เราจึงนำเสนอ DeepDive เพื่อยกระดับเอเจนต์ค้นหาเชิงลึก ประการแรก เราเสนอวิธีสังเคราะห์คำถามที่ซับซ้อน ยาก และค้นหาได้ยากจากกราฟความรู้แบบเปิดโดยอัตโนมัติ ประการที่สอง เราประยุกต์ใช้การเรียนรู้แบบเสริมกำลัง (RL) หลายเทิร์นแบบ end-to-end เพื่อเสริมความสามารถในการให้เหตุผลระยะยาวของ LLM ผ่านการค้นหาเชิงลึก ผลการทดลองแสดงให้เห็นว่า DeepDive-32B ทำสถิติการแข่งขันแบบโอเพนซอร์สใหม่บน BrowseComp โดยมีผลงานเหนือกว่า WebSailor, DeepSeek-R1-Browse และ Search-o1 เราแสดงให้เห็นว่าการฝึก RL แบบหลายเทิร์นช่วยยกระดับความสามารถด้านการค้นหาเชิงลึก และมีส่วนสำคัญต่อการปรับปรุงประสิทธิภาพในหลายเบนช์มาร์ก นอกจากนี้ เรายังพบว่า DeepDive รองรับการขยายการเรียกใช้เครื่องมือในช่วงทดสอบและการสุ่มตัวอย่างแบบขนาน ชุดข้อมูล โมเดล และโค้ดทั้งหมดเปิดให้ใช้งานสาธารณะที่ https://github.com/THUDM/DeepDive

ลิงก์งานวิจัย

https://arxiv.org/abs/2509.10446

อ่านเพิ่มเติม

https://github.com/THUDM/DeepDive

การสำรวจ Video Temporal Grounding ด้วยโมเดลภาษาขนาดใหญ่แบบมัลติโมดัล / A Survey on Video Temporal Grounding with Multimodal Large Language Model

แนะนำงานวิจัย

สาขา Video Temporal Grounding (VTG) มีบทบาทสำคัญในการระบุและทำความเข้าใจเหตุการณ์เชิงเวลาเฉพาะภายในวิดีโอ และในช่วงหลังประสิทธิภาพก็พัฒนาขึ้นอย่างมากจากความก้าวหน้าของโมเดลภาษาขนาดใหญ่แบบมัลติโมดัล (Multimodal Large Language Models, MLLMs) ด้วยความสามารถโดดเด่นด้านความเข้าใจและการให้เหตุผลข้ามโมดัล MLLMs จึงแสดงผลลัพธ์ที่ก้าวข้ามแนวทาง fine-tuning แบบดั้งเดิมในงาน VTG งานวิจัยนี้นำเสนอการทบทวน VTG-MLLMs อย่างครอบคลุม โดยวิเคราะห์แนวโน้มงานวิจัยปัจจุบันในสาขานี้อย่างเป็นระบบ และอธิบายผ่าน 3 มิติ ได้แก่ บทบาทเชิงหน้าที่ของ MLLMs, กระบวนทัศน์การเรียนรู้ และเทคนิคการประมวลผลคุณลักษณะของวิดีโอ

MLLMs มีบทบาทหลัก 2 แบบใน VTG ได้แก่ ประการแรก ทำหน้าที่เป็นตัวส่งเสริมที่ช่วยสนับสนุนปฏิสัมพันธ์ระหว่างวิดีโอกับภาษา และประการที่สอง ทำหน้าที่เป็นตัวดำเนินการซึ่งเป็นโมเดลที่ใช้ทำงาน VTG จริง ผ่านบทบาทเหล่านี้ โมเดลหลากหลายแบบจึงสามารถดึงประสิทธิภาพสูงสุดในงาน VTG ได้ กระบวนทัศน์การเรียนรู้แบ่งออกเป็น pre-training, fine-tuning และ no-training ซึ่งแต่ละแบบส่งผลสำคัญต่อประสิทธิภาพและความสามารถในการทั่วไปของโมเดล โดยเฉพาะกระบวนทัศน์ no-training ที่ชี้ให้เห็นถึงความเป็นไปได้ในการทำผลงานได้อย่างมีประสิทธิภาพแม้มีข้อมูลน้อย

เทคนิคการประมวลผลคุณลักษณะของวิดีโอก็ส่งผลอย่างมีนัยสำคัญต่อประสิทธิภาพของ VTG-MLLMs เช่นกัน วิธีการจัดการคุณลักษณะเชิงภาพและเชิงเวลาที่มีประสิทธิภาพเป็นสิ่งจำเป็นต่อการกำหนดตัวแทนเชิงพื้นที่และเชิงเวลาของวิดีโอ นอกจากนี้ ชุดข้อมูลเบนช์มาร์กและโปรโตคอลการประเมินยังมีบทบาทสำคัญในการวัดประสิทธิภาพของ VTG-MLLMs และตรวจสอบความสามารถในการทั่วไปของโมเดล

ท้ายที่สุด งานวิจัยนี้ได้ระบุข้อจำกัดในปัจจุบันของ VTG-MLLMs และเสนอทิศทางการวิจัยในอนาคต การขาดความหลากหลายของชุดข้อมูล ความซับซ้อนของโมเดล และความยากของการประมวลผลแบบเรียลไทม์ ยังคงเป็นโจทย์สำคัญที่ต้องแก้ไข งานวิจัยเพื่อก้าวข้ามข้อจำกัดเหล่านี้จำเป็นต้องมุ่งเน้นไปที่การพัฒนาชุดข้อมูลใหม่และการปรับแต่งโมเดลให้เหมาะสม บทความนี้มอบการทบทวน VTG-MLLMs อย่างครอบคลุม และให้ข้อมูลที่เป็นประโยชน์แก่ผู้วิจัยในสาขานี้

บทคัดย่อ (Abstract)

ความก้าวหน้าล่าสุดของ video temporal grounding (VTG) ได้ยกระดับความเข้าใจวิดีโอแบบละเอียดอย่างมีนัยสำคัญ โดยมี multimodal large language models (MLLMs) เป็นแรงขับเคลื่อนหลัก แนวทาง VTG ที่อิงกับ MLLMs (VTG-MLLMs) กำลังก้าวข้ามวิธีการ fine-tuning แบบดั้งเดิมทีละน้อย ด้วยความสามารถด้านความเข้าใจและการให้เหตุผลแบบมัลติโหมดที่โดดเด่น พวกมันไม่เพียงทำผลงานได้อย่างแข่งขันได้เท่านั้น แต่ยังยอดเยี่ยมในด้านการทำให้ทั่วไปในสภาพแวดล้อมแบบ zero-shot, multi-task และ multi-domain อีกด้วย แม้จะมีงานสำรวจเกี่ยวกับความเข้าใจวิดีโอ-ภาษาทั่วไปอยู่มาก แต่รีวิวเชิงครอบคลุมที่เจาะจง VTG-MLLMs โดยเฉพาะยังคงมีไม่มาก เพื่ออุดช่องว่างนี้ งานสำรวจชิ้นนี้ได้ทบทวนงานวิจัยปัจจุบันเกี่ยวกับ VTG-MLLMs อย่างเป็นระบบผ่านการจัดหมวดหมู่สามมิติ ได้แก่ 1) บทบาทเชิงหน้าที่ของ MLLMs ซึ่งเน้นย้ำความสำคัญด้านสถาปัตยกรรม 2) กระบวนทัศน์การฝึก ซึ่งวิเคราะห์กลยุทธ์สำหรับการให้เหตุผลเชิงเวลาและการปรับตัวตามงาน และ 3) เทคนิคการประมวลผลคุณลักษณะวิดีโอ ซึ่งกำหนดประสิทธิภาพของการแทนค่าเชิงกาล-อวกาศ นอกจากนี้ยังมีการอภิปรายชุดข้อมูล benchmark, โปรโตคอลการประเมิน และสรุปผลการค้นพบเชิงประจักษ์ สุดท้าย ผู้เขียนระบุข้อจำกัดที่มีอยู่และเสนอทิศทางการวิจัยที่มีแนวโน้มดี สำหรับทรัพยากรเพิ่มเติมและรายละเอียดต่าง ๆ แนะนำให้ผู้อ่านเข้าไปที่ https://github.com/ki-lw/Awesome-MLLMs-for-Video-Temporal-Grounding

> ความก้าวหน้าล่าสุดของ video temporal grounding (VTG) ได้ยกระดับความเข้าใจวิดีโอแบบละเอียดอย่างมีนัยสำคัญ โดยมี multimodal large language models (MLLMs) เป็นแรงขับเคลื่อนหลัก แนวทาง VTG ที่อิงกับ MLLMs (VTG-MLLMs) กำลังก้าวข้ามวิธีการ fine-tuning แบบดั้งเดิมทีละน้อย ด้วยความสามารถด้านความเข้าใจและการให้เหตุผลแบบมัลติโหมดที่เหนือกว่า พวกมันไม่เพียงทำผลงานได้อย่างแข่งขันได้เท่านั้น แต่ยังโดดเด่นด้านการทำให้ทั่วไปในสภาพแวดล้อมแบบ zero-shot, multi-task และ multi-domain อีกด้วย แม้จะมีงานสำรวจเกี่ยวกับความเข้าใจวิดีโอ-ภาษาทั่วไปอย่างกว้างขวาง แต่รีวิวเชิงครอบคลุมที่กล่าวถึง VTG-MLLMs โดยเฉพาะยังคงมีอยู่น้อย เพื่ออุดช่องว่างนี้ งานสำรวจชิ้นนี้ได้ตรวจสอบงานวิจัยปัจจุบันเกี่ยวกับ VTG-MLLMs อย่างเป็นระบบผ่านอนุกรมวิธานสามมิติ: 1) บทบาทเชิงหน้าที่ของ MLLMs ซึ่งเน้นความสำคัญด้านสถาปัตยกรรม 2) กระบวนทัศน์การฝึก ซึ่งวิเคราะห์กลยุทธ์สำหรับการให้เหตุผลเชิงเวลาและการปรับตัวตามงาน และ 3) เทคนิคการประมวลผลคุณลักษณะวิดีโอ ซึ่งกำหนดประสิทธิภาพของการแทนค่าเชิงกาล-อวกาศ นอกจากนี้ เรายังอภิปรายชุดข้อมูล benchmark, โปรโตคอลการประเมิน และสรุปผลการค้นพบเชิงประจักษ์ สุดท้าย เราระบุข้อจำกัดที่มีอยู่และเสนอทิศทางการวิจัยที่มีแนวโน้มดี สำหรับทรัพยากรและรายละเอียดเพิ่มเติม ขอเชิญผู้อ่านเยี่ยมชมรีโพซิทอรีของเราที่ https://github.com/ki-lw/Awesome-MLLMs-for-Video-Temporal-Grounding

ลิงก์งานวิจัย

https://arxiv.org/abs/2508.10922

อ่านเพิ่มเติม

https://github.com/ki-lw/Awesome-MLLMs-for-Video-Temporal-Grounding

การขยายขนาดเอเจนต์ผ่าน continual pre-training / Scaling Agents via Continual Pre-training

แนะนำงานวิจัย

large language models (LLM) ได้พัฒนาไปเป็นระบบเอเจนต์ที่สามารถใช้เครื่องมือได้อย่างอัตโนมัติและทำการให้เหตุผลหลายขั้นตอนเพื่อแก้ปัญหาที่ซับซ้อน อย่างไรก็ตาม แนวทาง post-training ที่อิงจาก foundation model แบบใช้งานทั่วไปกลับแสดงประสิทธิภาพที่ต่ำอย่างต่อเนื่องในงานของเอเจนต์ สาเหตุรากฐานของปัญหานี้คือการขาดแคลน agent foundation model ที่แข็งแกร่ง ทำให้ในกระบวนการ post-training ต้องเกิดความตึงเครียดในการปรับเหมาะค่า เนื่องจากต้องเรียนรู้พฤติกรรมของเอเจนต์ที่หลากหลายพร้อมกับจัดให้สอดคล้องกับการสาธิตของผู้เชี่ยวชาญ เพื่อแก้ปัญหานี้ เราเป็นกลุ่มแรกที่เสนอการผสาน agentic continual pre-training (Agentic CPT) เข้ากับ pipeline การฝึก deep research agent จากแนวทางนี้ เราได้พัฒนาโมเดล deep research agent ที่ชื่อว่า AgentFounder โดย AgentFounder-30B ได้รับการประเมินบน benchmark 10 ชุด และทำผลงานระดับ state-of-the-art โดยเฉพาะแสดงความสามารถด้านการใช้เครื่องมือที่แข็งแกร่งด้วยผลลัพธ์ Pass@1 ที่ 39.9% บน BrowseComp-en, 43.3% บน BrowseComp-zh และ 31.5% บน HLE

บทคัดย่อ(Abstract)

large language models (LLM) ได้พัฒนาไปเป็นระบบเอเจนต์ที่สามารถใช้เครื่องมือได้อย่างอัตโนมัติและทำการให้เหตุผลหลายขั้นตอนเพื่อแก้ปัญหาที่ซับซ้อน อย่างไรก็ตาม แนวทาง post-training ที่อิงจาก foundation model แบบใช้งานทั่วไปกลับแสดงประสิทธิภาพที่ต่ำอย่างต่อเนื่องในงานของเอเจนต์ โดยเฉพาะในอิมพลีเมนเตชันโอเพนซอร์ส เราได้ระบุสาเหตุรากฐานของเรื่องนี้ไว้ว่า การขาดแคลน agent foundation model ที่แข็งแกร่ง ทำให้เกิดความตึงเครียดพื้นฐานในการปรับเหมาะค่าในกระบวนการ post-training เนื่องจากโมเดลต้องเรียนรู้พฤติกรรมของเอเจนต์ที่หลากหลายไปพร้อมกัน และในขณะเดียวกันก็ต้องปรับให้สอดคล้องกับการสาธิตของผู้เชี่ยวชาญ เพื่อแก้ปัญหานี้ เราเป็นกลุ่มแรกที่เสนอการผสาน agentic continual pre-training (Agentic CPT) เข้ากับ pipeline การฝึก deep research agent เพื่อสร้าง agent foundation model ที่แข็งแกร่ง จากแนวทางนี้ เราได้พัฒนาโมเดล deep research agent ที่ชื่อว่า AgentFounder เราได้ประเมิน AgentFounder-30B บน benchmark 10 ชุด และพบว่าสามารถทำผลงานระดับ state-of-the-art ได้พร้อมกับคงความสามารถด้านการใช้เครื่องมือที่แข็งแกร่งไว้ โดยเฉพาะทำคะแนน Pass@1 ได้ 39.9% บน BrowseComp-en, 43.3% บน BrowseComp-zh และ 31.5% บน HLE

> โมเดลภาษาขนาดใหญ่ (LLMs) ได้พัฒนาไปเป็นระบบเชิงเอเจนต์ที่สามารถใช้เครื่องมือได้อย่างอิสระและให้เหตุผลหลายขั้นตอนเพื่อแก้ปัญหาที่ซับซ้อน อย่างไรก็ตาม แนวทาง post-training ที่ต่อยอดจาก foundation model สำหรับงานทั่วไปยังคงทำผลงานได้ต่ำกว่าที่ควรในงานเชิงเอเจนต์ โดยเฉพาะในการนำไปใช้แบบโอเพนซอร์ส เราระบุสาเหตุหลักได้ว่า การขาด foundation model เชิงเอเจนต์ที่แข็งแกร่งทำให้โมเดลในช่วง post-training ต้องเรียนรู้พฤติกรรมเชิงเอเจนต์ที่หลากหลายไปพร้อมกับจัดแนวให้สอดคล้องกับตัวอย่างจากผู้เชี่ยวชาญ จนก่อให้เกิดความตึงเครียดเชิงการเพิ่มประสิทธิภาพอย่างเป็นพื้นฐาน ด้วยเหตุนี้ เราจึงเป็นกลุ่มแรกที่เสนอการนำ Agentic Continual Pre-training (Agentic CPT) เข้ามาใช้ใน pipeline การฝึก deep research agents เพื่อสร้าง agentic foundational models ที่ทรงพลัง จากแนวทางนี้ เราได้พัฒนาโมเดล deep research agent ชื่อ AgentFounder เราประเมิน AgentFounder-30B ของเราบนเบนช์มาร์ก 10 รายการ และทำผลงานระดับ state-of-the-art ได้พร้อมกับยังคงรักษาความสามารถในการใช้เครื่องมือไว้อย่างแข็งแกร่ง โดยทำได้ 39.9% บน BrowseComp-en, 43.3% บน BrowseComp-zh และ 31.5% Pass@1 บน HLE

ลิงก์บทความวิจัย

https://arxiv.org/abs/2509.13310

อ่านเพิ่มเติม

https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/

กฎการสเกลสำหรับโมเดลภาษาที่มี Differential Privacy / Scaling Laws for Differentially Private Language Models

แนะนำงานวิจัย

งานวิจัยเกี่ยวกับกฎการสเกลของการฝึกโมเดลภาษาขนาดใหญ่ (Large Language Model, LLM) ที่ใช้ Differential Privacy (DP) ถือเป็นความก้าวหน้าสำคัญในวงการปัญญาประดิษฐ์ (AI) สมัยใหม่ เป้าหมายหลักของงานนี้คือการสร้างกฎการสเกลที่จำลองความซับซ้อนของการฝึก DP LLM ได้อย่างแม่นยำ เพื่ออธิบาย trade-off ระหว่างการประมวลผล ความเป็นส่วนตัว และประโยชน์ใช้สอยให้ชัดเจน พร้อมนำเสนอการตั้งค่าการฝึกที่เหมาะสมที่สุด แม้กฎการสเกลในการฝึก LLM แบบเดิมจะมีบทบาทสำคัญในการคาดการณ์การเพิ่มขึ้นของประสิทธิภาพและให้แนวทางในการเลือกไฮเปอร์พารามิเตอร์ แต่พลวัตของการฝึกแบบ DP นั้นแตกต่างออกไปพอสมควร ทำให้กฎการสเกลของมันยังไม่เป็นที่เข้าใจอย่างเพียงพอ

ในการศึกษานี้ ผู้วิจัยได้สร้างกฎการสเกลสำหรับการฝึก DP LLM ผ่านกระบวนการฟิตฟังก์ชันประมาณค่า loss (L(M,T,\bar{\sigma})) โดยที่ (M) คือจำนวนพารามิเตอร์ของโมเดล, (T) คือจำนวนรอบการฝึก, และ (\bar{\sigma}) คืออัตราส่วน noise batch ซึ่งฟังก์ชันนี้ถูกฟิตด้วยการทำ linear interpolation ฟังก์ชันดังกล่าวซึ่งนำไปใช้งานผ่าน scipy.interpolate.RegularGridInterpolator ของ Python ถูกนิยามขึ้นโดยคำนึงถึงพารามิเตอร์ที่เปลี่ยนแปลงอย่างเป็นธรรมชาติใน log space แนวทางนี้ช่วยให้เข้าใจพลวัตที่ซับซ้อนของการฝึก DP LLM ได้ดีขึ้น และให้ผลลัพธ์ที่นิยามได้ชัดเจนภายในขอบเขตของการตั้งค่าการทดลอง

นอกจากนี้ งานวิจัยนี้ยังนำเสนอวิธีทำให้ข้อมูลที่จุดประเมินตรงกันอย่างแม่นยำและประมาณค่าระหว่างจุดต่าง ๆ ผ่านสมการของฟังก์ชันที่ฟิตแล้วและรายละเอียดการนำไปใช้จริง ด้วยเหตุนี้จึงเป็นข้อมูลพื้นฐานสำคัญสำหรับการทำความเข้าใจกฎการสเกลของการฝึก DP LLM และในงานวิจัยถัดไปยังจำเป็นต้องต่อยอดด้วยการทดลองกับสถาปัตยกรรม DP LLM ที่หลากหลายโดยอาศัยกฎการสเกลที่เสนอ รวมถึงพัฒนาโมเดลเชิงทฤษฎีให้ก้าวหน้ายิ่งขึ้น

โดยสรุป งานวิจัยนี้ได้สร้างกฎการสเกลสำหรับการฝึกโมเดลภาษาขนาดใหญ่ที่ใช้ Differential Privacy ซึ่งจะช่วยให้เข้าใจความซับซ้อนของการฝึก DP LLM และเป็นแนวทางสำคัญต่อการฝึกและการเพิ่มประสิทธิภาพของ LLM ในอนาคต คาดว่าการค้นพบเหล่านี้จะช่วยผลักดันให้ DP LLM มีความเป็นประโยชน์ใช้งานจริงมากยิ่งขึ้น

บทคัดย่อ (Abstract)

กฎการสเกลได้กลายมาเป็นองค์ประกอบสำคัญของการฝึกโมเดลภาษาขนาดใหญ่ (LLM) เพราะสามารถคาดการณ์การเพิ่มขึ้นของประสิทธิภาพจากการขยายขนาด และให้แนวทางในการเลือกไฮเปอร์พารามิเตอร์สำคัญที่หากไม่มีก็อาจต้องเสียค่าใช้จ่ายสูง LLM ยังอาศัยชุดข้อมูลฝึกขนาดใหญ่และมีคุณภาพสูง เช่น ชุดข้อมูลที่ได้มาจากข้อมูลผู้ใช้ซึ่งบางครั้งมีความอ่อนไหว การฝึกโมเดลบนข้อมูลผู้ใช้ที่อ่อนไหวเช่นนี้จำเป็นต้องมีการคุ้มครองความเป็นส่วนตัวอย่างรอบคอบ เช่น Differential Privacy (DP) อย่างไรก็ตาม พลวัตของการฝึกแบบ DP แตกต่างออกไปอย่างมีนัยสำคัญ และด้วยเหตุนี้กฎการสเกลของมันจึงยังไม่เป็นที่เข้าใจอย่างสมบูรณ์ ในงานนี้ เราได้สร้างกฎการสเกลที่จำลองความซับซ้อนของการฝึก DP LLM ได้อย่างแม่นยำ โดยให้ภาพรวมที่ครบถ้วนของ trade-off ระหว่าง compute-privacy-utility และการตั้งค่าการฝึกที่เหมาะสมที่สุดในหลายสถานการณ์

> Scaling laws have emerged as important components of large language model (LLM) training as they can predict performance gains through scale, and provide guidance on important hyper-parameter choices that would otherwise be expensive. LLMs also rely on large, high-quality training datasets, like those sourced from (sometimes sensitive) user data. Training models on this sensitive user data requires careful privacy protections like differential privacy (DP). However, the dynamics of DP training are significantly different, and consequently their scaling laws are not yet fully understood. In this work, we establish scaling laws that accurately model the intricacies of DP LLM training, providing a complete picture of the compute-privacy-utility tradeoffs and the optimal training configurations in many settings.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2501.18914

อ่านเพิ่มเติม

https://services.google.com/fh/files/blogs/vaultgemma_tech_report.pdf

https://huggingface.co/google/vaultgemma-1b

https://research.google/blog/…

https://discuss.pytorch.kr/t/vaultgemma-llm-feat-differential-privacy/…

R-Zero: LLM ด้านการให้เหตุผลที่วิวัฒน์ตัวเองได้จากข้อมูลศูนย์ / R-Zero: Self-Evolving Reasoning LLM from Zero Data

แนะนำงานวิจัย

โมเดลภาษาขนาดใหญ่ (LLM) ที่วิวัฒน์ตัวเองได้ มอบเส้นทางที่ขยายต่อได้สู่ superintelligence ด้วยการสร้างประสบการณ์และเรียนรู้ได้ด้วยตนเอง อย่างไรก็ตาม วิธีการฝึกแบบเดิมยังพึ่งพาการคัดสรรงานและเลเบลโดยมนุษย์ในวงกว้าง ซึ่งจำกัดการพัฒนาของระบบ AI เพื่อแก้ปัญหานี้ จึงมีการเสนอ R-Zero ซึ่งเป็นเฟรมเวิร์กอัตโนมัติเต็มรูปแบบ โดยเริ่มจาก LLM พื้นฐานและกำหนดค่าเริ่มต้นให้กับโมเดลอิสระสองตัวคือ Challenger และ Solver โมเดลเหล่านี้ถูกปรับให้เหมาะสมผ่านการโต้ตอบกัน และ R-Zero จะสร้างหลักสูตรการพัฒนาตนเองแบบมุ่งเป้าหมายโดยไม่ต้องอาศัยงานและเลเบลที่มีอยู่เดิม ส่งผลให้ความสามารถด้านการให้เหตุผลของ LLM หลากหลายรุ่นดีขึ้นอย่างมาก

บทคัดย่อ(Abstract)

โมเดลภาษาขนาดใหญ่ (LLM) ที่วิวัฒน์ตัวเองได้ มอบเส้นทางที่ขยายต่อได้สู่ superintelligence ด้วยการสร้าง ปรับแต่ง และเรียนรู้จากประสบการณ์ของตนเองได้อย่างอัตโนมัติ อย่างไรก็ตาม วิธีการเดิมในการฝึกโมเดลลักษณะนี้ยังคงพึ่งพาการคัดสรรงานและเลเบลโดยมนุษย์จำนวนมหาศาลอย่างมาก โดยทั่วไปผ่านการทำ fine-tuning หรือ reinforcement learning ซึ่งก่อให้เกิดคอขวดเชิงพื้นฐานต่อการผลักดันระบบ AI ไปสู่ความสามารถที่เหนือกว่าสติปัญญามนุษย์ เพื่อก้าวข้ามข้อจำกัดนี้ เราขอแนะนำ R-Zero เฟรมเวิร์กอัตโนมัติเต็มรูปแบบที่สร้างข้อมูลฝึกของตัวเองขึ้นมาตั้งแต่ต้น เริ่มจาก base LLM เพียงตัวเดียว R-Zero จะกำหนดค่าเริ่มต้นให้กับโมเดลอิสระสองตัวที่มีบทบาทต่างกัน ได้แก่ Challenger และ Solver โมเดลทั้งสองถูกปรับให้เหมาะสมแยกจากกันและวิวัฒน์ร่วมกันผ่านการปฏิสัมพันธ์: Challenger จะได้รับรางวัลเมื่อเสนอภารกิจที่อยู่ใกล้ขอบเขตความสามารถของ Solver และ Solver จะได้รับรางวัลเมื่อสามารถแก้ภารกิจที่ Challenger เสนอซึ่งมีความท้าทายเพิ่มขึ้นเรื่อย ๆ กระบวนการนี้สร้างหลักสูตรแบบมุ่งเป้าหมายที่พัฒนาตัวเองได้โดยไม่ต้องมีงานและเลเบลที่มีอยู่ล่วงหน้า ในเชิงประจักษ์ R-Zero ช่วยยกระดับความสามารถด้านการให้เหตุผลได้อย่างมีนัยสำคัญใน backbone LLM หลายแบบ เช่น เพิ่มคะแนนให้ Qwen3-4B-Base ได้ +6.49 บนเบนช์มาร์กการให้เหตุผลทางคณิตศาสตร์ และ +7.54 บนเบนช์มาร์กการให้เหตุผลโดเมนทั่วไป

> Self-evolving Large Language Models (LLMs) offer a scalable path toward super-intelligence by autonomously generating, refining, and learning from their own experiences. However, existing methods for training such models still rely heavily on vast human-curated tasks and labels, typically via fine-tuning or reinforcement learning, which poses a fundamental bottleneck to advancing AI systems toward capabilities beyond human intelligence. To overcome this limitation, we introduce R-Zero, a fully autonomous framework that generates its own training data from scratch. Starting from a single base LLM, R-Zero initializes two independent models with distinct roles, a Challenger and a Solver. These models are optimized separately and co-evolve through interaction: the Challenger is rewarded for proposing tasks near the edge of the Solver capability, and the Solver is rewarded for solving increasingly challenging tasks posed by the Challenger. This process yields a targeted, self-improving curriculum without any pre-existing tasks and labels. Empirically, R-Zero substantially improves reasoning capability across different backbone LLMs, e.g., boosting the Qwen3-4B-Base by +6.49 on math-reasoning benchmarks and +7.54 on general-domain reasoning benchmarks.

ลิงก์งานวิจัย

https://arxiv.org/abs/2508.05004

บทความนี้ที่ 🔥ชุมชนผู้ใช้ PyTorch เกาหลี🇰🇷 รวบรวมไว้มีประโยชน์ไหม? หาก สมัครสมาชิก เราจะส่งบทความสำคัญให้ทางอีเมล💌! (ค่าเริ่มต้นคือ Weekly แต่ เปลี่ยนเป็น Daily ได้)

🎁 หากกดถูกใจ❤️ด้านล่าง↘️ จะเป็นกำลังใจให้กับการเผยแพร่ข่าว~ 🤗

บทความนี้เรียบเรียงจากเนื้อหาที่สรุปด้วยโมเดล GPT จึงอาจมีบางส่วนที่สรุปแตกต่างไปจากเนื้อหาหรือเจตนาของต้นฉบับ หากเป็นประเด็นที่คุณสนใจ โปรดอ่านต้นฉบับประกอบด้วย! หากระหว่างอ่านพบข้อความที่แปลกหรือไม่ถูกต้อง รบกวนแจ้งในคอมเมนต์ด้วย 🤗

⚠️โฆษณา⚠️: บทความนี้ที่ 🔥ชุมชนผู้ใช้ PyTorch เกาหลี🇰🇷 รวบรวมไว้มีประโยชน์ไหม? หาก สมัครสมาชิก เราจะส่งบทความสำคัญให้ทางอีเมล💌! (ค่าเริ่มต้นคือ Weekly แต่ เปลี่ยนเป็น Daily ได้)

[2025/09/15 ~ 21] รวมงานวิจัย AI/ML ที่น่าจับตาในสัปดาห์นี้

PyTorchKR🔥🇰🇷 🤔💭

Reconstruction Alignment ช่วยปรับปรุง Unified Multimodal Models / Reconstruction Alignment Improves Unified Multimodal Models

แนะนำงานวิจัย

บทคัดย่อ(Abstract)

ลิงก์งานวิจัย

สนับสนุน AI Overlords ของเรา: ออกแบบระบบข้อมูลใหม่ให้เป็น Agent-First / Supporting Our AI Overlords: Redesigning Data Systems to be Agent-First

แนะนำงานวิจัย

บทคัดย่อ(Abstract)

ลิงก์บทความวิจัย

AToken: โทเคนไนเซอร์แบบรวมศูนย์สำหรับวิชัน / AToken: A Unified Tokenizer for Vision

แนะนำงานวิจัย

บทคัดย่อ(Abstract)

ลิงก์บทความวิจัย

ยกระดับความฉลาดของเอเจนต์ทั่วไปด้วยการขยายสภาพแวดล้อม / Towards General Agentic Intelligence via Environment Scaling

แนะนำงานวิจัย

บทคัดย่อ(Abstract)

ลิงก์บทความวิจัย

อ่านเพิ่มเติม

การเรียนรู้ในบริบทคือการเรียนรู้จริงหรือไม่? / Is In-Context Learning Learning?

แนะนำบทความวิจัย

บทคัดย่อ(Abstract)

ลิงก์บทความวิจัย

DeepDive: ยกระดับเอเจนต์ค้นหาเชิงลึกด้วยกราฟความรู้และ RL แบบหลายเทิร์น / DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL

แนะนำงานวิจัย

บทคัดย่อ (Abstract)

ลิงก์งานวิจัย

อ่านเพิ่มเติม

การสำรวจ Video Temporal Grounding ด้วยโมเดลภาษาขนาดใหญ่แบบมัลติโมดัล / A Survey on Video Temporal Grounding with Multimodal Large Language Model

แนะนำงานวิจัย

บทคัดย่อ (Abstract)

ลิงก์งานวิจัย

อ่านเพิ่มเติม

การขยายขนาดเอเจนต์ผ่าน continual pre-training / Scaling Agents via Continual Pre-training

แนะนำงานวิจัย

บทคัดย่อ(Abstract)

ลิงก์บทความวิจัย

อ่านเพิ่มเติม

กฎการสเกลสำหรับโมเดลภาษาที่มี Differential Privacy / Scaling Laws for Differentially Private Language Models

แนะนำงานวิจัย

บทคัดย่อ (Abstract)

ลิงก์บทความวิจัย

อ่านเพิ่มเติม

R-Zero: LLM ด้านการให้เหตุผลที่วิวัฒน์ตัวเองได้จากข้อมูลศูนย์ / R-Zero: Self-Evolving Reasoning LLM from Zero Data

แนะนำงานวิจัย

บทคัดย่อ(Abstract)

ลิงก์งานวิจัย

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น