13 คะแนน โดย ninebow 6 일 전 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

PyTorchKR🔥🇰🇷 🤔💭

เมื่อดูงานวิจัยที่คัดเลือกมา 10 ฉบับในสัปดาห์นี้ จะเห็นว่าทิศทางกำลังบรรจบกันอย่างรวดเร็ว โดยมีประเด็นหลักอยู่ที่การจัดการสถานะของเอเจนต์ที่อิงกับโมเดลภาษาขนาดใหญ่ (LLM), การเพิ่มประสิทธิภาพการอนุมาน และความปลอดภัยรวมถึงความสามารถในการตรวจสอบได้ในสภาพแวดล้อมจริง โดยเฉพาะอย่างยิ่ง เราได้เห็นกระแสงานวิจัยที่น่าสนใจ ตั้งแต่การเปลี่ยนแปลงเชิงโครงสร้างเพื่อดึงประสิทธิภาพของเอเจนต์ให้สูงสุด การออกแบบสถาปัตยกรรมทรานส์ฟอร์เมอร์ใหม่ในระดับรากฐาน ไปจนถึงการสร้างความทนทานเพื่อปรับตัวเข้ากับสภาพแวดล้อมแบบพลวัตในโลกจริง

:one: นวัตกรรมของเวิร์กโฟลว์เอเจนต์: การย้ายสถานะออกไปภายนอกและการทำให้ตรรกะการอนุมานกลายเป็นความสามารถภายใน (Internalization) ในงานวิจัยสัปดาห์นี้ มีสองแนวทางที่ทั้งตรงข้ามกันและเสริมกันอย่างเด่นชัด เพื่อแก้ปัญหาต้นทุนและคอขวดด้านคอนเท็กซ์เมื่อเอเจนต์ต้องทำงานที่ซับซ้อนและยาวนาน Harness-1 และ AdaCoM ช่วยลดภาระการจัดการสถานะหรือคอนเท็กซ์ที่เอเจนต์ต้องจดจำ โดยย้ายไปให้สภาพแวดล้อมภายนอกหรือโมเดลจัดการเฉพาะทางดูแลแทน เพื่อเพิ่มเสถียรภาพของงานระยะยาว ในทางกลับกัน Latent Agents และงานวิจัย การทำให้เวิร์กโฟลว์แบบเอเจนต์กลายเป็นความสามารถภายใน (Subterranean Agents) เสนอการฝึกภายหลังเพื่อคอมไพล์กระบวนการสื่อสารที่ซับซ้อนระหว่างออร์เคสเตรเตอร์ภายนอกหรือเอเจนต์หลายตัว ให้เข้าไปอยู่ภายในน้ำหนัก (Weights) ของโมเดลเดี่ยวโดยตรง ด้วยวิธีนี้ โมเดลจึงสามารถถกเถียงกันเองหรือทำการอนุมานแบบเป็นขั้นตอนได้ โดยไม่ต้องพึ่งพรอมป์ต์หรือการประสานงานภายนอก พร้อมชี้ทิศทางสู่การลดต้นทุนการอนุมานและการใช้โทเคนอย่างก้าวกระโดด ขณะยังคงประสิทธิภาพในระดับใกล้เคียงโมเดลชั้นแนวหน้า

:two: การออกแบบสถาปัตยกรรมพื้นฐานใหม่: การผสานกลไก attention และการปรับพารามิเตอร์ให้เหมาะสม งานวิจัยพื้นฐานที่พยายามเอาชนะความไม่มีประสิทธิภาพเชิงคำนวณของทรานส์ฟอร์เมอร์และลดการใช้หน่วยความจำ ก็เป็นอีกเทรนด์สำคัญเช่นกัน งาน SISA(Forget Attention) เสนอ “การผสานในระดับคะแนน” โดยฉีดสัญญาณความสำคัญแบบลำดับจาก state space model (SSM) เข้าไปยังการคำนวณคะแนน attention โดยตรง ทำให้ได้ทั้งความสามารถในการค้นหาทั่วทั้งบริบทและการตัดสินลำดับความสำคัญเชิงลำดับเวลาไปพร้อมกัน นอกจากนี้ งานวิจัยด้าน QKV (Do Transformers Need Three Projections?) ยังตั้งคำถามกับมาตรฐานเดิมที่ถือเป็นเรื่องปกติว่า query, key, value ต้องแยกจากกันทั้งหมด โดยพิสูจน์เชิงประจักษ์ว่าแนวทางแชร์ projection ระหว่าง key และ value (Q-K=V) สามารถลด KV cache ได้อย่างมาก ขณะมีผลกระทบต่อประสิทธิภาพเพียงเล็กน้อย การปรับปรุงเชิงโครงสร้างในระดับสถาปัตยกรรมเช่นนี้ ไม่ได้มีความหมายแค่การเพิ่มประสิทธิภาพเท่านั้น แต่ยังเปิดทางอย่างมากต่อการนำไปใช้งานจริงบนอุปกรณ์ edge ที่มีหน่วยความจำจำกัด หรือในสภาพแวดล้อม AI บนอุปกรณ์

:three: การปรับตัวแบบเรียลไทม์ในสภาพแวดล้อมแบบพลวัต และการสร้างความทนทานในระดับระบบ งานวิจัยที่ไม่ได้หยุดอยู่แค่การสร้างคำตอบที่ถูกต้อง แต่ยังมุ่งให้ระบบรับมือกับสถานการณ์และภัยคุกคามที่เปลี่ยนแปลงอยู่เสมอ รวมถึงพัฒนาตัวระบบเอง ก็โดดเด่นอย่างมาก MOSS ขยายแนวคิดการพัฒนาตัวเองที่เดิมจำกัดอยู่ที่การแก้ไขพรอมป์ต์ ไปสู่การเขียนใหม่ในระดับซอร์สโค้ด เพื่อให้ระบบเอเจนต์สามารถเยียวยาข้อบกพร่องเชิงโครงสร้างของตนเองได้ ส่วน FuzzingBrain V2 ใช้มัลติเอเจนต์เพื่อตรวจหาและแก้ไขช่องโหว่ของซอฟต์แวร์จริงในรูปแบบที่ทำซ้ำได้ 100% ขณะเดียวกัน AdvGame ก็แก้ปัญหา safety alignment ของโมเดลภาษาในรูปแบบเกมไม่ร่วมมือแบบเรียลไทม์ระหว่างผู้โจมตีกับผู้ป้องกัน เพื่อเพิ่มขีดความสามารถในการป้องกันแบบพลวัต และงาน Plan, Watch, Recover ก็นำเสนอโมเดลผู้ช่วยเชิงรุกที่สามารถเข้าแทรกแซงและโค้ชได้แบบเรียลไทม์เมื่อผู้ใช้เบี่ยงเบนจากขั้นตอนที่กำหนด สิ่งเหล่านี้สะท้อนว่า AI กำลังก้าวพ้นจากห้องทดลองที่ควบคุมได้ ไปสู่การเป็นระบบเชิงรุกที่เชื่อถือได้ แม้อยู่ท่ามกลางความผิดพลาดและภัยคุกคามด้านความปลอดภัยที่คาดเดาไม่ได้ในโลกจริง

สรุปประเด็นสำคัญของแต่ละงานวิจัย

  • Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses: เอเจนต์ค้นหาที่อิงการเรียนรู้แบบเสริมกำลัง โดยแยกภาระการจดจำออกจากนโยบายและให้ harness รับหน้าที่แทน ทำค่า curated recall เฉลี่ย 0.730 บน 8 เบนช์มาร์ก และเด่นเป็นพิเศษด้านความสามารถในการถ่ายโอน

  • Forget Attention: Importance-Aware Attention Is All You Need: เสนอ SISA ที่ฉีดสัญญาณความสำคัญจาก state space model (SSM) เข้าไปในคะแนน attention โดยตรง สามารถทำได้ด้วยการเรียก SDPA เพียงครั้งเดียว และช่วยปรับปรุงทั้งประสิทธิภาพการค้นหาและการกู้คืนการพึ่งพาระยะไกลอย่างมาก

  • Do Transformers Need Three Projections? Systematic Study of QKV Variants: งานวิจัยที่วิเคราะห์อย่างเป็นระบบว่าการแชร์ projection ใน QKV ทำได้มากเพียงใด โดย Q-K=V รักษาประสิทธิภาพไว้ได้เกือบทั้งหมดพร้อมลด KV cache ลงอย่างมาก และเมื่อรวมกับ GQA/MQA ผลด้านการประหยัดหน่วยความจำยิ่งชัดเจนขึ้น

  • Compiling Agentic Workflows into LLM Weights: กล่าวถึงแนวทางการคอมไพล์ขั้นตอนการทำงานเข้าไปในน้ำหนักของโมเดล แทนการทำ orchestration ภายนอก ช่วยลดการเรียกใช้งานซ้ำและการใช้คอนเท็กซ์ยาว ๆ ขณะยังคงคุณภาพในระดับใกล้เคียงโมเดลแนวหน้า

  • Learning Agent-Compatible Context Management for Long-Horizon Tasks: เสนอ AdaCoM ที่ให้ LLM ภายนอกแก้ไขคอนเท็กซ์แบบพลวัตสำหรับเอเจนต์ที่ถูกตรึงไว้ ช่วยลดข้อมูลอดีตที่ไม่จำเป็นในงานค้นหาเว็บและงานรีเสิร์ชระยะยาว พร้อมคงข้อจำกัดของภารกิจไว้

  • Latent Agents: A Post-Training Procedure for Internalized Multi-Agent Debate: วิธีฝึกภายหลังเพื่อกลั่นการถกเถียงแบบมัลติเอเจนต์ให้เข้าไปอยู่ภายใน LLM เดี่ยว แสดงประสิทธิภาพเทียบเท่าหรือดีกว่า explicit debate โดยใช้โทเคนน้อยลงสูงสุด 93%

  • MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems: ระบบเอเจนต์ที่พัฒนาตัวเองในระดับซอร์สโค้ดแทนที่จะเป็นพรอมป์ต์ โดยเขียนโครงสร้างโค้ดใหม่จากหลักฐานความล้มเหลวจริง และดีพลอยได้ในรูปแบบที่ตรวจสอบแล้วสามารถ rollback ได้

  • Safety Alignment of LMs via Non-cooperative Games: นิยาม safety alignment ใหม่เป็นเกมไม่ร่วมมือที่ LM ฝั่งโจมตีและ LM ฝั่งป้องกันปรับตัวเข้าหากัน ใช้การเรียนรู้แบบเสริมกำลังจาก preference เพื่อขยับ Pareto frontier ของทั้งความปลอดภัยและความมีประโยชน์ไปพร้อมกัน

  • Plan, Watch, Recover: A Benchmark and Architectures for Proactive Procedural Assistance: ระบบช่วยเหลือเชิงรุกแบบมัลติโมดัลที่เรียนรู้ว่าจะเข้าแทรกแซงเมื่อใดและจะพาผู้ใช้กลับเข้าสู่ขั้นตอนอย่างไรเมื่อผู้ใช้ออกนอกกระบวนการ โดยประเมินความสามารถในการโค้ชให้กลับสู่เส้นทางจริงผ่าน EgoProactive และ Pro²Bench

  • FuzzingBrain V2: A Multi-Agent LLM System for Automated Vulnerability Discovery and Reproduction: ระบบความปลอดภัยที่ทำให้การค้นพบและการทำซ้ำช่องโหว่เป็นอัตโนมัติด้วยมัลติเอเจนต์ LLM โดยผสานการตรวจสอบบน OSS-Fuzz, การระบุตำแหน่งช่องโหว่อย่างแม่นยำ และ hierarchical fuzzing จนได้ทั้งอัตราการตรวจจับสูงและผลลัพธ์การค้นพบช่องโหว่จริง


Harness-1: การเรียนรู้แบบเสริมกำลังสำหรับเอเจนต์ค้นหาที่ใช้ harness แบบย้ายสถานะออกไปภายนอก / Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses

แนะนำงานวิจัย

เอเจนต์ค้นหามักถูกฝึกให้เป็นนโยบายบนทรานสคริปต์ที่ยาวขึ้นเรื่อย ๆ โดยโมเดลต้องตัดสินใจทั้งว่าจะค้นหาอย่างไร ขณะเดียวกันก็ต้องจำสิ่งที่ตัวเองเคยเห็น หลักฐานใดมีประโยชน์ ข้อจำกัดใดที่ยังค้างอยู่ และข้ออ้างใดที่ได้รับการตรวจสอบจริงแล้ว ผู้เขียนมองว่าการตั้งค่าเช่นนี้ทำให้ภาระการจัดการสถานะตกอยู่ภายในนโยบาย (policy) มากเกินไป และทำให้การเรียนรู้แบบเสริมกำลังต้องเพิ่มประสิทธิภาพทั้งการตัดสินใจค้นหาที่มีความหมาย และการจัดการบันทึกที่กู้คืนได้ซึ่งสภาพแวดล้อมสามารถจัดการได้อย่างเสถียรกว่า ไปพร้อมกัน

เพื่อแก้ปัญหานี้ ผู้เขียนจึงเสนอ Harness-1 เอเจนต์ค้นหาขนาด 20B ที่ฝึกด้วยการเรียนรู้แบบเสริมกำลังภายใน state-externalizing harness โดย harness นี้จะจัดการ working memory ฝั่งสภาพแวดล้อม เช่น candidate pool, curated set ที่ติดแท็กความสำคัญ, ลิงก์หลักฐานที่ถูกบีบอัด, บันทึกการตรวจสอบ, observation ที่ถูกบีบอัดและลบข้อมูลซ้ำซ้อน รวมถึงการเรนเดอร์คอนเท็กซ์โดยคำนึงถึงงบประมาณ

ในทางกลับกัน นโยบายจะรับผิดชอบการตัดสินใจเชิงความหมาย เช่น จะค้นหาอะไร จะเก็บหรือทิ้งเอกสารใด จะตรวจสอบอะไร และจะหยุดเมื่อใด ใน 8 เบนช์มาร์กด้านการค้นคืนข้อมูลที่ครอบคลุมเว็บ การเงิน สิทธิบัตร และคำถาม-คำตอบแบบหลายฮอป Harness-1 ทำค่า curated recall เฉลี่ยได้ 0.730 สูงกว่าซับเอเจนต์ค้นคืนข้อมูลโอเพนซอร์สที่แข็งแกร่งรองลงมาถึง 11.4 จุด โดยเฉพาะในเบนช์มาร์กการถ่ายโอนที่อยู่นอกโดเมนการฝึก โมเดลแสดงการปรับปรุงที่เด่นชัด ซึ่งชี้ว่า reinforcement learning บนสถานะการค้นหาที่ชัดเจนอาจสร้างพฤติกรรมการค้นคืนข้อมูลที่ทั่วไปได้ดีกว่า

บทคัดย่อ (Abstract)

เอเจนต์ค้นหามักถูกฝึกเป็นนโยบายบนทรานสคริปต์ที่ยาวขึ้นเรื่อย ๆ กล่าวคือ โมเดลต้องตัดสินใจว่าจะค้นหาอะไรไปพร้อมกับจดจำสิ่งที่มันได้เห็น หลักฐานใดมีประโยชน์ ข้อจำกัดใดที่ยังคงเปิดอยู่ และข้ออ้างใดบ้างที่ได้รับการตรวจสอบจริงแล้ว

งานนี้โต้แย้งว่าการนิยามแบบดังกล่าวยัดภาระการจัดการสถานะตามปกติมากเกินไปไว้ในนโยบาย กล่าวคือ reinforcement learning (RL) ถูกบังคับให้เพิ่มประสิทธิภาพทั้งการตัดสินใจค้นหาเชิงความหมายและการทำบันทึกที่กู้คืนได้ ซึ่งสภาพแวดล้อมสามารถดูแลได้อย่างน่าเชื่อถือกว่ามาก

ผู้วิจัยนำเสนอ Harness-1 เอเจนต์ค้นหา 20B (retrieval subagent) ที่ฝึกด้วย reinforcement learning ภายใน stateful search harness โดย harness นี้จะคงหน่วยความจำการทำงานฝั่งสภาพแวดล้อมไว้ ซึ่งรวมถึง candidate pool, curated set ที่ติดแท็กความสำคัญ, ลิงก์หลักฐานแบบกระชับ, บันทึกการตรวจสอบ, ข้อสังเกตที่ถูกบีบอัดและลบข้อมูลซ้ำซ้อน รวมถึงการเรนเดอร์คอนเท็กซ์ที่รับรู้งบประมาณ ส่วนนโยบายยังคงรับผิดชอบการตัดสินใจเชิงความหมาย เช่น จะค้นหาอะไร จะเก็บหรือทิ้งเอกสารใด จะตรวจสอบอะไร และจะหยุดเมื่อใด

ตลอด 8 เบนช์มาร์กการค้นคืนข้อมูลที่ครอบคลุมเว็บ การเงิน สิทธิบัตร และ multi-hop QA นั้น Harness-1 ทำค่า curated recall เฉลี่ย 0.730 ได้สำเร็จ เหนือกว่าซับเอเจนต์ค้นหาแบบเปิดที่ได้อันดับรองลงมาถึง +11.4 จุด และยังคงมีประสิทธิภาพแข่งขันได้กับระบบค้นหาที่ใช้ frontier model ซึ่งมีขนาดใหญ่กว่ามาก โดยเฉพาะบนเบนช์มาร์กการถ่ายโอนที่ไม่เคยเห็นมาก่อน ผลลัพธ์โดดเด่นอย่างชัดเจน ซึ่งบ่งชี้ว่า reinforcement learning บนสถานะการค้นหาที่ชัดเจนอาจสร้างพฤติกรรมการค้นคืนข้อมูลที่ทั่วไปข้ามโดเมนการฝึกได้ โค้ด: https://github.com/pat-jj/harness-1

เอเจนต์ค้นหามักถูกฝึกเป็นนโยบายบนทรานสคริปต์ที่ยาวขึ้นเรื่อย ๆ: โมเดลต้องตัดสินใจว่าจะค้นหาอย่างไร พร้อมกับจดจำสิ่งที่มันได้เห็น หลักฐานใดมีประโยชน์ ข้อจำกัดใดที่ยังคงเปิดอยู่ และข้ออ้างใดบ้างที่ได้รับการตรวจสอบจริงแล้ว เราโต้แย้งว่าการนิยามเช่นนี้ยัดภาระการจัดการสถานะตามปกติมากเกินไปไว้ในนโยบาย: reinforcement learning ถูกบังคับให้เพิ่มประสิทธิภาพทั้งการตัดสินใจค้นหาเชิงความหมายและการทำบันทึกที่กู้คืนได้ ซึ่งสภาพแวดล้อมสามารถดูแลได้อย่างน่าเชื่อถือกว่า เรานำเสนอ Harness-1 เอเจนต์ค้นหา 20B (retrieval subagent) ที่ฝึกด้วย reinforcement learning ภายใน stateful search harness โดย harness จะคงหน่วยความจำการทำงานฝั่งสภาพแวดล้อมไว้ ซึ่งรวมถึง candidate pool, curated set ที่ติดแท็กความสำคัญ, ลิงก์หลักฐานแบบกระชับ, บันทึกการตรวจสอบ, ข้อสังเกตที่ถูกบีบอัดและลบข้อมูลซ้ำซ้อน และการเรนเดอร์คอนเท็กซ์ที่รับรู้งบประมาณ ส่วนนโยบายจะเก็บการตัดสินใจเชิงความหมายไว้: จะค้นหาอะไร จะเก็บหรือทิ้งเอกสารใด จะตรวจสอบอะไร และจะหยุดเมื่อใด ตลอด 8 เบนช์มาร์กการค้นคืนข้อมูลที่ครอบคลุมเว็บ การเงิน สิทธิบัตร และ multi-hop QA นั้น Harness-1 ทำค่า curated recall เฉลี่ย 0.730 ได้สำเร็จ เหนือกว่าซับเอเจนต์ค้นหาแบบเปิดที่แข็งแกร่งรองลงมาถึง +11.4 จุด และยังคงมีประสิทธิภาพแข่งขันได้กับระบบค้นหาที่ใช้ frontier model ซึ่งมีขนาดใหญ่กว่ามาก ผลลัพธ์ที่ดีขึ้นของมันโดดเด่นเป็นพิเศษบนเบนช์มาร์กการถ่ายโอนที่กันชุดไว้ ซึ่งบ่งชี้ว่า reinforcement learning บนสถานะการค้นหาที่ชัดเจนอาจสร้างพฤติกรรมการค้นคืนข้อมูลที่ทั่วไปได้เกินกว่าขอบเขตโดเมนการฝึก โค้ดของเราอยู่ที่ https://github.com/pat-jj/harness-1.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2606.02373

อ่านเพิ่มเติม

https://github.com/pat-jj/harness-1

https://huggingface.co/pat-jj/harness-1


ลืม Attention ไปได้เลย: มีแค่ Importance-Aware Attention ก็พอ / Forget Attention: Importance-Aware Attention Is All You Need

แนะนำงานวิจัย

ในการสร้างแบบจำลองภาษาลูกผสมที่รวม Transformer และ State Space Model (SSM) เข้าด้วยกัน โจทย์สำคัญคือจะรักษาความสามารถในการสำรวจข้อมูลแบบทั่วทั้งลำดับและความสามารถในการแยกแยะว่าสิ่งใดสำคัญบนลำดับข้อมูลไว้พร้อมกันได้อย่างไร Transformer แบบเดิมมองเห็นได้ทุกตำแหน่งแต่มีข้อจำกัดในการจัดลำดับความสำคัญ ขณะที่ SSM สามารถสะสมสัญญาณสำคัญได้ แต่ยากที่จะย้อนกลับไปอ้างอิงข้อมูลที่ผ่านมาอย่างละเอียด จึงเป็นความสัมพันธ์ที่เสริมกัน อย่างไรก็ตาม วิธีแบบลูกผสมเดิมส่วนใหญ่ยังคงเพียงวางสองกลไกนี้แบบขนานกันในระดับบล็อกหรือระดับเฮด ทำให้ในช่วงเวลาที่คำนวณคะแนน attention จริง สัญญาณความสำคัญจาก SSM ยังไม่ถูกสะท้อนโดยตรง จากปัญหานี้ ผู้วิจัยจึงเสนอ SSM-Informed Softmax Attention (SISA) และออกแบบวิธีผสานรูปแบบใหม่ที่ฉีดสัญญาณความสำคัญเชิงลำดับจาก SSM เข้าไปไม่ใช่ที่เอาต์พุตของ attention แต่ที่ตัวคะแนนโดยตรง แนวคิดหลักคือ นอกเหนือจากพจน์ดอตโปรดักต์มาตรฐานที่บ่งบอกความคล้ายคลึงของเนื้อหาแล้ว ยังเพิ่มพจน์ดอตโปรดักต์ของเวกเตอร์ความสำคัญที่อนุมานจาก SSM เข้าไปด้วย เพื่อขยายความสัมพันธ์ระหว่างโทเคนจากการจับคู่คอนเทนต์อย่างเดียว ไปสู่รูปแบบที่สะท้อนถึง “สิ่งใดสำคัญในตอนนี้” ด้วย

สิ่งสำคัญของวิธีนี้คือ แม้ไม่มีสถานะเวียนกลับเพิ่มเติมหรือ custom kernel ก็ยังสามารถนำไปใช้ได้ด้วยการสร้าง query และ key แบบขยาย แล้วเรียกใช้ Scaled Dot-Product Attention (SDPA) เพียงครั้งเดียว กล่าวอีกนัยหนึ่ง แม้ในเชิงคณิตศาสตร์ SISA จะใช้ข้อมูลเชิงลำดับจาก SSM แต่ในมุมมองการนำไปใช้งาน มันถูกออกแบบมาให้ทำงานสอดรับกับโฟลว์การคำนวณมาตรฐานของ Transformer ได้ดี จึงยังคงเข้ากันได้กับการเพิ่มประสิทธิภาพตระกูล FlashAttention นอกจากนี้ ช่องสัญญาณ SSM ยังสร้างสัญญาณความสำคัญจากการคำนวณองค์ประกอบ decay และ rotation จากอินพุต และทำให้สัญญาณนี้ทำงานในระดับ score ของ attention เพื่อยกระดับความสามารถด้าน retrieval โดยตรง ผลการทดลองก็แสดงประสิทธิผลของการออกแบบนี้อย่างชัดเจนเช่นกัน โดยที่ในขนาด 152M และเงื่อนไข 5B โทเคน SISA ทำได้ 17.3% บน LAMBADA-greedy แซงหน้า Transformer มาตรฐานและ Mamba-3 และใน NIAH (Needle-in-a-Haystack) ก็ทำได้ 100% ตั้งแต่จุดฝึก 1K step แสดงให้เห็นการลู่เข้าด้านการค้นคืนที่รวดเร็วมาก

ยิ่งไปกว่านั้น แม้ SISA จะไม่ได้แสดงตัวชี้วัดที่เหนือกว่าอย่างสมบูรณ์ในทุกด้านแม้ที่ขนาด 369M แต่ก็มีความหมายเชิงปฏิบัติอย่างมากตรงที่อย่างน้อยก็ยังคงประสิทธิภาพที่แข็งแกร่งอย่างสม่ำเสมอในงาน retrieval สำคัญ ๆ พร้อมกับไม่สูญเสียความสามารถในการรันบน stock SDPA ผู้เขียนใช้สิ่งนี้เพื่อนำเสนอแกนการออกแบบแกนที่สามซึ่งก้าวข้ามระดับบล็อกและระดับเฮด นั่นคือ score-level fusion ว่าเป็นทางเลือกที่ใช้ได้จริงสำหรับโมเดลภาษาแบบไฮบริด ท้ายที่สุดแล้ว คุณูปการของงานนี้ไม่ได้อยู่แค่การผสมโมเดลสองตระกูลเข้าด้วยกัน แต่คือการดึงสัญญาณความสำคัญที่ SSM มอบให้มาไว้เป็นศูนย์กลางของการสร้าง attention score เพื่อรวมการ retrieval แบบทั่วโลกและการตัดสินลำดับความสำคัญแบบตามลำดับเวลาไว้ในปฏิบัติการเดียว แนวทางนี้จึงนับเป็นกรณีศึกษาสำคัญที่แสดงให้เห็นว่าโครงสร้างไฮบริดสามารถวิวัฒน์ไปอย่างประณีตยิ่งขึ้นได้อย่างไรในงาน language modeling ที่การกู้คืน long-range dependency และการติดตามข้อมูลสำคัญเป็นเรื่องสำคัญ

บทคัดย่อ (Abstract)

การผสานความสามารถในการ retrieval แบบทั่วโลกของ attention เข้ากับสัญญาณความสำคัญแบบตามลำดับของ state space model (SSM) เป็นโจทย์ที่ยังเปิดอยู่ของการทำ hybrid language modeling ทรานส์ฟอร์เมอร์มองเห็นได้ทุกอย่างแต่จัดลำดับความสำคัญไม่ได้ ขณะที่ SSM รู้ว่าอะไรสำคัญแต่ย้อนกลับไปดูซ้ำไม่ได้ ไฮบริดที่มีอยู่เดิมอย่าง Jamba (ระดับบล็อก) และ Hymba (ระดับเฮด) วางกลไกทั้งสองไว้ในส่วนที่แยกจากกัน ทำให้ระหว่างการคำนวณ attention เอง ทั้งสองฝั่งไม่สามารถส่งข้อมูลให้กันได้ เราเสนอ SISA (SSM-Informed Softmax Attention) ซึ่งเพิ่มพจน์ความสำคัญที่ได้จาก SSM เข้าไปโดยตรงภายใน attention score และทำให้ปฏิบัติการทั้งหมดเกิดขึ้นได้ด้วยการเรียก SDPA เพียงครั้งเดียวบนเวกเตอร์ query/key ที่ขยายแล้ว โดยไม่ต้องมี recurrent state หรือ custom kernel ที่ 152M / 5 พันล้านโทเค็น SISA ทำได้ LAMBADA-greedy 17.3% (เทียบกับ Transformer 13.9 และ Mamba-3 15.5) และทำ NIAH ได้ 100% ตั้งแต่สเต็ป 1K ซึ่งเร็วกว่า retrieval convergence ของ Transformer ถึง 7 เท่า ที่ 369M แม้ Mamba-3 จะนำใน LAMBADA แต่ SISA ยังคงรักษา NIAH ที่สมบูรณ์แบบและการรันด้วย stock SDPA ไว้ได้ ดังนั้น SISA จึงเสนอแกนการออกแบบแกนที่สามสำหรับไฮบริด SSM-attention นั่นคือ score-level fusion ซึ่งก้าวข้ามพาราไดม์ระดับบล็อกและระดับเฮดที่ครองสาขานี้มาโดยตลอด

Combining attention's global retrieval with the sequential importance signal of state space models (SSMs) is the open challenge of hybrid language modeling. Transformers see everywhere but cannot prioritize; SSMs know what matters but cannot revisit. Existing hybrids -- Jamba (block level) and Hymba (head level) -- place the two in separate compartments, so neither informs the other during the attention computation itself. We propose SISA (SSM-Informed Softmax Attention), which adds an SSM-derived importance term directly inside the attention score and realizes the full operation as a single SDPA call on augmented query/key vectors -- no recurrent state, no custom kernel. At 152M / 5B tokens, SISA reaches LAMBADA-greedy 17.3% (vs. Transformer 13.9 and Mamba-3 15.5) and attains NIAH 100% from step 1K, 7x faster than Transformer's retrieval convergence; at 369M, Mamba-3 leads LAMBADA while SISA preserves perfect NIAH and stock-SDPA execution. SISA thus defines a third design axis for SSM-attention hybrids -- score-level fusion -- beyond the block-level and head-level paradigms that have dominated the field.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2606.02332


ทรานส์ฟอร์เมอร์จำเป็นต้องมีสามโปรเจกชันหรือไม่? การศึกษาอย่างเป็นระบบของตัวแปร QKV / Do Transformers Need Three Projections? Systematic Study of QKV Variants

แนะนำบทความวิจัย

องค์ประกอบหลักที่ค้ำจุนประสิทธิภาพของ Transformer มาโดยตลอดคือ QKV (query-key-value) attention ที่ประกอบด้วย query, key และ value แต่ยังไม่มีการตรวจสอบอย่างเป็นระบบเพียงพอว่าจริง ๆ แล้วแต่ละ projection จำเป็นต้องแยกจากกันมากน้อยเพียงใด งานวิจัยนี้มุ่งตรงไปยังช่องว่างดังกล่าว โดยวิเคราะห์อย่างละเอียดว่าการผูกน้ำหนัก (weight tying) ภายใน attention ซึ่งมีข้อจำกัดการแชร์ projection สามแบบ ได้แก่ Q-K=V, Q=K-V และ Q=K=V ส่งผลต่อความสามารถในการแสดงแทนและประสิทธิภาพของการอนุมานอย่างไร โดยเฉพาะอย่างยิ่ง งานนี้ให้ความสนใจกับข้อเท็จจริงที่ว่าตัวแปรสองแบบหลังทำให้ attention map มีแนวโน้มจะสมมาตรได้ง่าย จึงพิจารณาการออกแบบที่เพิ่ม two-dimensional positional encoding เพื่อชดเชยทิศทางร่วมด้วย ทำให้การอภิปรายขยายจากแค่การลดจำนวนพารามิเตอร์ ไปสู่ปัญหาการเปลี่ยนโครงสร้างของ representation space เอง วิธีการนี้จึงมีความหมายตรงที่ไม่ได้หยุดอยู่แค่การถามว่าการแชร์ projection ทำให้ประสิทธิภาพลดลงหรือไม่ แต่ยังแยกอธิบายได้ด้วยว่าในเงื่อนไขใดคุณภาพยังคงอยู่ และในเงื่อนไขใดทิศทางและความสามารถในการเลือกของ attention จะเสียหาย

การทดลองถูกออกแบบให้ครอบคลุมหลายโดเมนที่แตกต่างกัน ได้แก่ งานสังเคราะห์ วิชัน และ language modeling เพื่อยืนยันว่าผลของการแชร์ projection ไม่ได้เป็นปรากฏการณ์ที่จำกัดอยู่ในโดเมนข้อมูลใดโดเมนหนึ่ง ในงานสังเคราะห์ ผู้วิจัยใช้โจทย์จัดการลำดับ เช่น การกลับลำดับ การจัดเรียง การแทนที่ การสลับ และการคัดลอก เพื่อตรวจดูว่าโมเดลเรียนรู้ความสัมพันธ์เชิงโครงสร้างได้ดีเพียงใด ส่วนการทดลองด้านวิชันใช้ MNIST, CIFAR, TinyImageNet และ anomaly detection เพื่อประเมินความสามารถในการทั่วไปในสภาพแวดล้อมที่ข้อมูลตำแหน่งเชิงพื้นที่มีความสำคัญ สำหรับ language modeling มีการฝึกโมเดลขนาด 300M และ 1.2B พารามิเตอร์ด้วยข้อมูล 10B โทเค็น เพื่อตรวจสอบว่าแนวโน้มเดียวกันนี้ยังคงอยู่ในสเกลใหญ่หรือไม่ ผลลัพธ์พบว่าวิธี Q-K=V โดยทั่วไปให้ประสิทธิภาพเทียบเท่าหรือบางครั้งดีกว่า QKV Transformer แบบมาตรฐาน และใน language modeling สามารถลด key-value (KV) cache ลงได้ 50% โดยที่ perplexity แย่ลงเพียง 3.1%

ที่สำคัญยิ่งกว่านั้นคือผลการลดดังกล่าวสามารถผสานแบบเสริมกันกับ grouped query attention (GQA) หรือ multi-query attention (MQA) ได้ เมื่อใช้ Q-K=V ร่วมกับ GQA-4 จะลด KV cache ได้ถึง 87.5% และเมื่อใช้ร่วมกับ MQA จะลดได้ถึง 96.9% ซึ่งให้ประโยชน์ที่จับต้องได้สำหรับ on-device inference ผู้เขียนชี้ว่าผลลัพธ์เหล่านี้สะท้อนว่า key และ value อาจใช้ representation space ที่คล้ายกันร่วมกันได้จริง และเนื่องจาก attention ทำงานอยู่บนโครงสร้าง low-rank จึงไม่จำเป็นต้องแยก QKV อย่างสมบูรณ์เสมอไป ในทางกลับกัน Q=K-V กลับผูก query กับ key มากเกินไปจนทำให้ทิศทางของ attention อ่อนลง จึงเสียเปรียบกว่าในด้านประสิทธิภาพและเสถียรภาพ

โดยสรุป งานวิจัยนี้ทำให้เราเห็นโครงสร้าง QKV ของ Transformer ไม่ใช่มาตรฐานตายตัวที่ต้องยอมรับโดยปริยาย แต่เป็นพื้นที่การออกแบบที่สามารถนำกลับมาทบทวนได้อีกครั้ง พร้อมนำเสนอเกณฑ์เชิงประจักษ์สำหรับตัดสินว่าควรแชร์ projection ใดและควรแยกบทบาทใดออกจากกัน โดยเฉพาะเมื่อสามารถรักษาประสิทธิภาพไว้ได้เกือบทั้งหมด ขณะเดียวกันก็ลดการใช้หน่วยความจำลงอย่างมาก ผลลัพธ์นี้จึงอ่านได้ว่าเป็นแนวทางการออกแบบสำคัญสำหรับการนำไปใช้อย่างมีประสิทธิภาพในสภาพแวดล้อมที่มีข้อจำกัด เช่น edge device

บทคัดย่อ (Abstract)

Transformer ได้กลายเป็นคำตอบมาตรฐานสำหรับงาน AI หลากหลายประเภท โดยมีสูตร attention แบบ query, key และ value (QKV) เป็นแกนสำคัญ อย่างไรก็ตาม บทบาทเฉพาะของ projection ทั้งสามตัวนี้ และผลกระทบเมื่อมีการตัดบางส่วนออกไปนั้น ยังไม่ได้รับความเข้าใจอย่างเพียงพอ เราได้ประเมินข้อจำกัดการแชร์ projection สามรูปแบบอย่างเป็นระบบ ได้แก่ a) Q-K=V (แชร์ key-value), b) Q=K-V (แชร์ query-key) และ c) Q=K=V (projection เดี่ยว) โดยสองรูปแบบหลังจะสร้าง attention map แบบสมมาตร ดังนั้นเพื่อแก้ปัญหานี้ เราจึงสำรวจ asymmetric attention ผ่าน 2D positional encoding เพิ่มเติมด้วย จากการทดลองที่ครอบคลุมทั้งงานสังเคราะห์, วิชัน (MNIST, CIFAR, TinyImageNet, anomaly detection) และ language modeling (โมเดลขนาด 300M และ 1.2B พารามิเตอร์ บนโทเคน 10B) เราพบว่า Transformer ของเราทำผลงานได้ทัดเทียมหรือบางครั้งดีกว่า QKV Transformer ในงาน language modeling การแชร์ projection แบบ Q-K=V ช่วยลด KV cache ได้ 50% โดยทำให้ perplexity แย่ลงเพียง 3.1% เท่านั้น ที่สำคัญ การแชร์ projection ยังเสริมกันกับการแชร์ head (GQA/MQA): เมื่อรวม Q-K=V กับ GQA-4 จะลด cache ได้ 87.5% และเมื่อรวม Q-K=V กับ MQA จะลดได้ถึง 96.9% ทำให้การ inference แบบ on-device ใช้งานได้จริง เราแสดงให้เห็นว่า Q-K=V ยังรักษาคุณภาพไว้ได้ เพราะ key และ value สามารถอยู่ใน representational space ที่คล้ายกัน และ attention ทำงานใน low-rank regime ขณะที่ Q=K-V จะทำลาย directional nature ของ attention ผลลัพธ์ของเราช่วยอธิบายการแชร์ projection อย่างเป็นระบบ ในฐานะกรณีหนึ่งของ weight tying ใน attention ที่ยังถูกสำรวจไม่มากนัก พร้อมชี้ให้เห็นประโยชน์ด้านหน่วยความจำสำหรับการอนุมานที่วัดผลได้โดยตรง ซึ่งมีคุณค่าอย่างยิ่งต่อการนำไปใช้งานบน edge deployment โค้ดเปิดเผยสาธารณะที่ https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections

Transformers have become the standard solution for various AI tasks, with the query, key, and value (QKV) attention formulation playing a central role. However, the individual contribution of these three projections and the impact of omitting some remain poorly understood. We systematically evaluate three projection sharing constraints: a) Q-K=V (shared key-value), b) Q=K-V (shared query-key), and c) Q=K=V (single projection). The last two variants produce symmetric attention maps; to address this, we also explore asymmetric attention via 2D positional encodings. Through experiments spanning synthetic tasks, vision (MNIST, CIFAR, TinyImageNet, anomaly), and language modeling (300M and 1.2B parameter models on 10B tokens), we discovered that our transformers perform on par or occasionally better than the QKV transformer. In language modeling, Q-K=V projection sharing achieves 50% KV cache reduction with only 3.1% perplexity degradation. Crucially, projection sharing is complementary to head sharing (GQA/MQA): combining Q-K=V with GQA-4 yields 87.5% cache reduction, while Q-K=V + MQA achieves 96.9%, enabling practical on-device inference. We show that Q-K=V preserves quality because keys and values can occupy similar representational spaces and attention operates in a low-rank regime, whereas Q=K-V breaks attention directionality. Our results systematically characterize projection sharing as an underexplored instance of weight tying in attention, with direct, quantifiable inference memory benefits, particularly valuable for edge deployment. The code is publicly available at https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections

ลิงก์บทความวิจัย

https://arxiv.org/abs/2606.04032

อ่านเพิ่มเติม

https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections


คอมไพล์เวิร์กโฟลว์แบบเอเจนต์ลงในน้ำหนักของ LLM: คุณภาพใกล้ระดับ frontier ด้วยต้นทุนที่ต่ำกว่าสองลำดับขั้น / Compiling Agentic Workflows into LLM Weights: Near-Frontier Quality at Two Orders of Magnitude Less Cost

แนะนำงานวิจัย

การแพร่หลายของเฟรมเวิร์กสำหรับ orchestration ของเอเจนต์ในช่วงหลัง แสดงให้เห็นว่าวิธีควบคุมงานซับซ้อนบนโมเดลภาษาขนาดใหญ่ (Large Language Model, LLM) ผ่านตัวประสานงานภายนอกนั้น แทบจะถูกยอมรับเป็นมาตรฐานโดยพฤตินัย แต่บทความนี้ตั้งคำถามว่าสำหรับงานเชิงกระบวนการ โครงสร้างเช่นนั้นอาจไม่ใช่ทางเลือกที่ดีที่สุดเสมอไป วิธีที่ตัว orchestrator ภายนอกคอยใส่คำสั่งและการตัดสินใจด้าน routing ในทุกเทิร์น มีข้อดีคือควบคุมและดีบักได้ง่าย แต่ก็มีข้อจำกัดคือกิน context window อย่างต่อเนื่อง ต้องเรียกใช้ frontier model ในทุกบทสนทนา และทำให้ตัวกระบวนการเองอาจถูกเปิดเผยต่อผู้ให้บริการภายนอก ด้วยเหตุนี้ ผู้เขียนจึงเสนอแนวทางที่แทนที่จะเก็บขั้นตอนงานไว้ใน prompt ก็ทำการคอมไพล์มันลงใน weights ของโมเดลขนาดเล็กที่ผ่านการ fine-tuning โดยตรง เพื่อให้ในช่วง runtime สามารถสร้างเอเจนต์ที่ซึมซับขั้นตอนงานไว้ภายในได้โดยไม่ต้องมี orchestration แยกต่างหาก วิธีนี้มีข้อได้เปรียบเชิงโครงสร้างตรงที่ไม่ต้องคอยฉีดขั้นตอนจากภายนอกซ้ำ ๆ จึงลดต้นทุนได้มาก ไม่กินบริบทยาว ๆ และไม่เปิดเผยเวิร์กโฟลว์ที่อ่อนไหวต่อบริการภายนอก ผู้เขียนเรียกเอเจนต์ที่มีกระบวนการซ่อนทำงานอยู่ภายในลักษณะนี้ว่า subterranean agent เพื่อแยกให้ชัดเจนจากสถาปัตยกรรมแบบเดิมที่เน้น orchestration

ระเบียบวิธีหลักของงานนี้ไม่ได้หยุดอยู่แค่การเสนอแนวคิด แต่ไปไกลถึงการตรวจสอบอุปสรรคเชิงรับรู้สามประการที่ทำให้นักพัฒนายังลังเลกับแนวทางนี้ในสภาพแวดล้อมการทำงานจริง ประการแรก คือประเด็นด้านประสิทธิภาพว่ารุ่นโมเดลขนาดเล็กจะให้คุณภาพระดับใกล้ frontier ได้หรือไม่ ประการที่สอง คือปัญหาการฝังความรู้ลงในน้ำหนัก ว่าจะสามารถบรรจุข้อมูลที่เปลี่ยนแปลงบ่อย เช่น ความรู้เฉพาะผลิตภัณฑ์ ลงไปใน weights ได้จริงหรือไม่ และประการที่สาม คือการตรวจสอบว่าวิธีนี้จะขยายไปสู่เวิร์กโฟลว์ขนาดใหญ่ที่มีเงื่อนไขแตกแขนงซับซ้อนและมีฮับจำนวนมากได้หรือไม่ เพื่อทดสอบเรื่องนี้ ทีมวิจัยได้เลือกสามโดเมนที่มีลักษณะแตกต่างกัน ได้แก่ การจองการเดินทาง, การสนับสนุน Zoom และการเคลมประกัน เพื่อเปรียบเทียบประโยชน์ของแนวทางแบบคอมไพล์ภายใต้เงื่อนไขที่มีความลึกเชิงกระบวนการและความต้องการความรู้โดเมนต่างกัน การจองการเดินทางใช้โฟลว์ขั้นตอนมาตรฐานที่ประกอบด้วย 14 โหนด เพื่อทดสอบเสถียรภาพของการเปลี่ยนสถานะและการตัดสินใจแบบเป็นลำดับขั้น ส่วนการสนับสนุน Zoom เน้นให้เห็นว่าแม้จะเป็นเวิร์กโฟลว์ขนาดใกล้เคียงกัน ก็ยังต้องอาศัยทั้งนโยบายและความรู้ด้านฟีเจอร์ที่แตกต่างกันไปตามผลิตภัณฑ์ ขณะที่การเคลมประกันมีโครงสร้างซับซ้อนกว่า โดยมี 55 โหนดและฮับการตัดสินใจ 6 จุด ทำหน้าที่เป็นการทดสอบแบบ stress test ที่สมจริง ซึ่งต้องรองรับทั้งการแตกแขนงตามเงื่อนไขและการคำนวณตามนโยบายไปพร้อมกัน

นัยของผลการทดลองชัดเจนมาก กล่าวคือ มีการยืนยันแล้วว่าโมเดลขนาดเล็กที่ฝังขั้นตอนการทำงานไว้ในน้ำหนักของโมเดล สามารถคงคุณภาพระดับ near-frontier quality หรือคุณภาพที่ใกล้เคียงกับโมเดล frontier ได้ ขณะเดียวกันก็ลดต้นทุนลงได้ในระดับหลายสิบเท่า ซึ่งทำให้เราต้องกลับมาทบทวนสมดุลแบบดั้งเดิมระหว่างประสิทธิภาพกับความคุ้มค่าใหม่ โดยเฉพาะอย่างยิ่งในกรณีเคลมประกัน โมเดลแสดงให้เห็นว่าไม่ได้เพียงสร้างคำตอบเท่านั้น แต่ยังสามารถทำการให้เหตุผลเชิงขั้นตอนอย่างสม่ำเสมอ ครอบคลุมตั้งแต่การตรวจสอบ การแตกแขนงการตัดสินใจ การคำนวณค่าชดเชย ไปจนถึงการแนะนำการจ่ายเงิน ผลลัพธ์เหล่านี้ชี้ให้เห็นว่า หากเป็นงานที่ทำซ้ำได้และมีโครงสร้างค่อนข้างเสถียร แนวทางคอมไพล์ที่ให้โมเดลเรียนรู้ขั้นตอนนั้นโดยตรง อาจเหมาะสมกว่าการ orchestration ที่ต้องอาศัยการปรับจากภายนอกทุกครั้งไปพร้อมกันนั้น งานวิจัยนี้ก็ยังคงทิ้งประเด็นไว้ว่า เมื่อขั้นตอนเปลี่ยน อาจจำเป็นต้องฝึกใหม่ และอาจเสียเปรียบกว่าแนวทางแบบอิงพรอมป์ต์ในด้านการแก้ไขได้ทันทีและการตีความได้ แต่คุณูปการของงานนี้อยู่ที่การขยายทางเลือกในการออกแบบเอเจนต์ สุดท้ายแล้ว งานวิจัยนี้ท้าทายความเชื่อที่ว่าเวิร์กโฟลว์ของเอเจนต์จำเป็นต้องประกอบจากภายนอกเสมอ และแสดงให้เห็นเชิงประจักษ์ว่าวิธีการย้ายขั้นตอนเข้าไปไว้ภายในโมเดลก็อาจเป็นทางเลือกที่ใช้ได้จริงในระดับงานปฏิบัติ

บทคัดย่อ(Abstract)

เฟรมเวิร์กสำหรับ agent orchestration แพร่หลายอย่างรวดเร็ว โดยมียอด GitHub stars รวมกันเกิน 290,000 รายการจาก LangGraph, CrewAI, Google ADK, OpenAI Agents SDK, Semantic Kernel, Strands และ LlamaIndex ทั้งหมดนี้ใช้รูปแบบเดียวกัน คือมี external orchestrator อยู่เหนือ LLM และคอยฉีดคำสั่งกับการตัดสินใจ routing ในทุกเทิร์น งานวิจัยล่าสุดแสดงให้เห็นว่า สำหรับงานเชิงขั้นตอน สถาปัตยกรรมนี้ด้อยกว่าเพียงแค่ใส่ขั้นตอนการทำงานลงใน system prompt ของ frontier model โดยตรง [Dennis et al., 2026a] แต่ต้องแลกมาด้วยการใช้ context window มากขึ้น ต้องใช้ frontier model ในทุกบทสนทนา และทำให้ขั้นตอนเฉพาะที่เป็นกรรมสิทธิ์ถูกเปิดเผยแก่ผู้ให้บริการภายนอก การคอมไพล์ขั้นตอนลงในน้ำหนักของโมเดลขนาดเล็กที่ผ่านการ fine-tune เพื่อสร้าง subterranean agent ควรจะแก้ปัญหาเหล่านี้ได้ทั้งหมด และงานก่อนหน้า (SimpleTOD, FireAct, SynTOD, WorkflowLLM, Agent Lumos) ก็แสดงแล้วว่าเทคนิคนี้ใช้ได้ผล ถึงกระนั้น การยอมรับจากนักพัฒนากลับเอนเอียงไปทาง orchestration อย่างท่วมท้น เราระบุอุปสรรคที่ถูกรับรู้ 3 ประการ และจัดการกับแต่ละข้อเชิงประจักษ์ใน 3 โดเมน ได้แก่ การจองการเดินทาง (14 โหนด), การสนับสนุน Zoom (14 โหนด, ความรู้เฉพาะผลิตภัณฑ์) และการเคลมประกัน (55 โหนด, 6 decision hubs)

Agent orchestration frameworks have proliferated, collectively exceeding 290,000 GitHub stars across LangGraph, CrewAI, Google ADK, OpenAI Agents SDK, Semantic Kernel, Strands, and LlamaIndex. All follow the same pattern: an external orchestrator above the LLM, injecting instructions and routing decisions every turn. Recent work has shown this architecture is dominated for procedural tasks by simply providing the procedure in a frontier model's system prompt [Dennis et al., 2026a], at the cost of consuming the context window, requiring a frontier model for every conversation, and exposing proprietary procedures to third-party providers. Compiling the procedure into the weights of a small fine-tuned model -- creating a subterranean agent -- should resolve all of these concerns, and prior work (SimpleTOD, FireAct, SynTOD, WorkflowLLM, Agent Lumos) has shown the technique works. Yet developer adoption has overwhelmingly favored orchestration. We identify three perceived barriers and address each empirically across travel booking (14 nodes), Zoom support (14 nodes, product-specific knowledge), and insurance claims (55 nodes, 6 decision hubs).

ลิงก์งานวิจัย

https://arxiv.org/abs/2605.22502

อ่านเพิ่มเติม

https://discuss.pytorch.kr/t/llm-subterranean-agent/10501


การเรียนรู้การจัดการคอนเท็กซ์ที่เข้ากันได้กับเอเจนต์สำหรับงานระยะยาว / Learning Agent-Compatible Context Management for Long-Horizon Tasks

แนะนำงานวิจัย

เมื่อเอเจนต์ที่ขับเคลื่อนด้วยโมเดลภาษาขนาดใหญ่ (LLM) ต้องทำงานระยะยาว (long-horizon tasks) เช่น การค้นหาเว็บหรือการวิจัยเชิงลึก ที่มีหลายขั้นตอนและมีการสะสมของการตัดสินใจระหว่างทาง อุปสรรคสำคัญอย่างหนึ่งคือ เมื่อบทสนทนายาวขึ้น เบาะแสที่ยังใช้ได้กับข้อมูลเก่า ๆ ที่ไม่จำเป็นจะปะปนกันจนทำให้การให้เหตุผลสั่นคลอน วิธีจัดการคอนเท็กซ์แบบเดิมมักเรียนรู้นโยบายภายในเอเจนต์ไปพร้อมกัน หรือพึ่งกลยุทธ์ตายตัวอย่างการสรุป ซึ่งแนวทางเหล่านี้นำไปใช้กับเอเจนต์แบบปิดซอร์ส (closed-source) ได้ยาก และยังสะท้อนความจริงได้ไม่เพียงพอว่าการจัดการที่เหมาะสมอาจแตกต่างกันไปในแต่ละเอเจนต์ เพื่อแก้ปัญหานี้ Adaptive Context Management (AdaCoM) ที่ถูกเสนอขึ้นมาเลือกใช้แนวทางฝึก LLM ภายนอกอีกตัวหนึ่งให้แก้ไขคอนเท็กซ์แบบไดนามิก โดยคงเอเจนต์หลักแบบ frozen agent ไว้ตามเดิม หัวใจสำคัญที่นี่ไม่ใช่แค่การบีบอัดบทสนทนายาว ๆ แต่คือการเรียนรู้พฤติกรรมการแก้ไขอย่างยืดหยุ่น โดยลบ เขียนใหม่ และรวมข้อความในระดับ message unit พร้อมทั้งรักษาข้อจำกัดและความคืบหน้าที่จำเป็นต่อภารกิจปัจจุบันไว้ และตัดสัญญาณรบกวนที่ล้าสมัยออก การออกแบบเช่นนี้มีความหมายตรงที่มันนิยามการจัดการคอนเท็กซ์ใหม่ จากงาน preprocessing แบบคงที่ ไปเป็นปัญหาการเรียนรู้นโยบายที่มุ่งยกระดับอัตราความสำเร็จของเอเจนต์โดยตรง

AdaCoM เริ่มจากการทำ supervised fine-tuning (SFT) เพื่อให้ตัวจัดการคอนเท็กซ์คุ้นเคยกับรูปแบบผลลัพธ์เชิงโครงสร้าง จากนั้นจึงปรับแต่งนโยบายด้วย Group Relative Policy Optimization (GRPO) โดยใช้ผลลัพธ์ของงานจริงเป็นรางวัล ในกระบวนการนี้ ตัวจัดการจะรับอินพุตโดยแปลงคอนเท็กซ์ปัจจุบันเป็นพรอมป์ต์ และเลือกในแต่ละขั้นว่าจะเก็บหรือแก้ไขข้อความใดบ้างภายใต้มุมมองของ Markov decision process (MDP) นอกจากนี้ แทนที่จะดูเพียงคำตอบสุดท้าย งานนี้ยังออกแบบ process reward ที่สะท้อนการเกินความยาวคอนเท็กซ์ การเรียกใช้เครื่องมือซ้ำ ๆ ข้อผิดพลาดด้านรูปแบบ และสัญญาณของภารกิจในขั้นกลาง เพื่อให้เรียนรู้คุณภาพของการแก้ไขเฉพาะจุดซึ่งสำคัญต่อภารกิจระยะยาวได้ด้วย ด้วยเหตุนี้ AdaCoM จึงไม่ใช่เพียงตัวสรุปความ แต่ทำงานเป็นนโยบายการแก้ไขเชิงปรับตัวที่ช่วยให้เอเจนต์รักษาการคิดต่อเนื่องได้อย่างเสถียร

ในเชิงทดลอง เมื่อนำไปใช้กับเอเจนต์หลากหลายตัวบนเบนช์มาร์กการค้นหาเว็บและการวิจัยเชิงลึก ก็พบว่าประสิทธิภาพดีขึ้นอย่างชัดเจน โดยเฉพาะเอเจนต์ที่เดิมมีประสิทธิภาพพื้นฐานสูงจากแนวทาง ReAct (Reasoning and Acting) จะได้ประโยชน์จากการคงคอนเท็กซ์ที่มี fidelity สูงมากกว่า ขณะที่เอเจนต์ที่อ่อนกว่าจะมีประสิทธิผลกว่าจากการบีบอัดที่รุกมากขึ้น เพื่อให้อยู่ในช่วงการให้เหตุผลที่เสถียร ผู้เขียนตีความสิ่งนี้ว่าเป็น fidelity-reliability trade-off และแสดงให้เห็นว่าการจัดการคอนเท็กซ์ควรเปลี่ยนไปตามระดับความสามารถของเอเจนต์ ยิ่งไปกว่านั้น ในการทดลองการถ่ายโอน ยังพบแนวโน้มว่ากลยุทธ์ของ AdaCoM จะถ่ายโอนได้ดีกว่าระหว่างเอเจนต์ที่มีลักษณะความสามารถคล้ายกัน ซึ่งชี้ว่าแนวทาง external context manager ที่นำกลับมาใช้ซ้ำได้อาจใช้งานได้จริงมากกว่ากฎการสรุปแบบสากลเพียงชุดเดียว ท้ายที่สุด งานวิจัยนี้นำเสนอความก้าวหน้าด้านวิธีวิทยาที่สำคัญ เพราะไม่ได้มองสาเหตุของความล้มเหลวในงานระยะยาวว่าเกิดจากความสามารถในการให้เหตุผลของเอเจนต์เพียงอย่างเดียว แต่ยังปฏิบัติต่อการจัดการคอนเท็กซ์ซึ่งคอยพยุงการให้เหตุผลนั้น ในฐานะองค์ประกอบหลักที่เรียนรู้ได้

บทคัดย่อ(Abstract)

เอเจนต์ของโมเดลภาษาขนาดใหญ่ (LLM) กำลังเผชิญกับงานระยะยาว เช่น การค้นหาเว็บและการทำวิจัยเชิงลึก มากขึ้นเรื่อย ๆ และในการใช้งานจริง คอนเท็กซ์ที่สะสมขึ้นอาจทำให้ประสิทธิภาพบนคอนเท็กซ์ยาวลดลงและเกิดความล้มเหลวในการให้เหตุผลได้ งานวิจัยก่อนหน้านี้บรรเทาปัญหานี้ผ่านการจัดการคอนเท็กซ์ด้วยการควบคุมคอนเท็กซ์ฝั่งเอเจนต์หรือกลยุทธ์แบบตายตัว เช่น การสรุป แต่แนวทางเหล่านี้ต้องฝึกตัวเอเจนต์เองเพื่อให้ปรับตัวได้ จึงไม่เหมาะในทางปฏิบัติสำหรับเอเจนต์แบบปิดซอร์ส และยังมองข้ามความจริงที่ว่าเอเจนต์ต่างชนิดกันอาจต้องการกลยุทธ์ที่ต่างกัน

เราเสนอ Adaptive Context Management (AdaCoM) ซึ่งฝึก LLM ภายนอกให้จัดการคอนเท็กซ์ของเอเจนต์ที่ถูกตรึงไว้ผ่านการกระทำแก้ไขที่ยืดหยุ่นและการเสริมกำลังแบบ end-to-end ในบรรดาเอเจนต์ที่หลากหลายบนเบนช์มาร์กการค้นหาเว็บและการวิจัยเชิงลึก AdaCoM ช่วยยกระดับประสิทธิภาพอย่างมากด้วยการตัดเนื้อหาที่ล้าสมัยออก ขณะเดียวกันก็รักษาข้อจำกัดของงานและความคืบหน้าไว้ กลยุทธ์ที่เรียนรู้ได้เผยให้เห็น Trade-off ระหว่าง Fidelity กับ Reliability กล่าวคือ เอเจนต์ที่มีประสิทธิภาพ vanilla ReAct สูงกว่าจะได้ประโยชน์จากการเก็บรักษาคอนเท็กซ์ที่มี Fidelity สูงกว่า ขณะที่เอเจนต์ที่มีประสิทธิภาพต่ำกว่าจะต้องการการบีบอัดที่รุกมากกว่าเพื่อให้อยู่ภายในขอบเขตการให้เหตุผลที่เชื่อถือได้ การทดลองด้านการถ่ายโอนแสดงให้เห็นว่า AdaCoM ทำให้เกิดการทั่วไปได้มีประสิทธิภาพที่สุดระหว่างเอเจนต์ที่มีความสามารถใกล้เคียงกัน ซึ่งวัดด้วยประสิทธิภาพ vanilla ReAct และชี้ให้เห็นถึงเส้นทางเชิงปฏิบัติไปสู่ context manager ที่นำกลับมาใช้ซ้ำได้สำหรับระบบเอเจนต์

LLM agents increasingly face long-horizon tasks such as web search and deep research in real-world applications, where accumulated context can cause long-context degradation and reasoning failures. Prior work mitigates this through context management with agent-side context control or fixed strategies such as summarization, which require training the agent itself for adaptation - making it impractical for closed-source agents and ignoring that different agents may require different strategies. We introduce Adaptive Context Management (AdaCoM), which trains an external LLM to manage the context of a frozen agent through flexible modification actions and end-to-end reinforcement learning. Across diverse agents on web search and deep research benchmarks, AdaCoM substantially improves performance by preserving task constraints and progress while pruning stale content. The learned strategies reveal a Fidelity-Reliability Trade-off: agents with higher vanilla ReAct performance benefit from higher-fidelity context preservation, whereas lower-performing agents require more aggressive compression to stay within a reliable reasoning regime. Transfer experiments show that AdaCoM generalizes most effectively across agents with similar capability (measured by vanilla ReAct performance), suggesting a practical path toward reusable context managers for agent systems.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2605.30785


Latent Agents: ขั้นตอน post-training สำหรับการโต้วาทีแบบหลายเอเจนต์ที่ถูกทำให้เป็นภายใน / Latent Agents: A Post-Training Procedure for Internalized Multi-Agent Debate

แนะนำบทความวิจัย

การโต้วาทีแบบหลายเอเจนต์ (Multi-Agent Debate) เพื่อยกระดับความสามารถในการให้เหตุผลของโมเดลภาษาขนาดใหญ่ (Large Language Models, LLMs) เป็นวิธีที่ทรงพลัง แต่มีข้อจำกัดตรงที่มีต้นทุนการคำนวณสูงมาก เพราะเอเจนต์หลายตัวต้องแลกเปลี่ยนบันทึกการโต้วาทีที่ยาวกันไปมา Latent Agents เสนอขั้นตอน post-training ที่กลั่นการโต้วาทีแบบหลายเอเจนต์ซึ่งเดิมเกิดขึ้นภายนอก ให้ย้ายเข้าไปอยู่ภายในโมเดลภาษาเดี่ยวเพื่อแก้ปัญหาความไม่มีประสิทธิภาพนี้ แกนสำคัญของแนวคิดไม่ได้หยุดแค่การบีบอัดผลลัพธ์ของการโต้วาที แต่ทำให้โมเดลเรียนรู้โครงสร้างของการโต้วาทีก่อน แล้วจึงชักนำให้ internalize โครงสร้างนั้นผ่าน Reinforcement Learning (RL) เพื่อการนี้ ผู้วิจัยสร้างข้อมูลการโต้วาทีที่ประกอบด้วย 3 เอเจนต์และ 2 รอบก่อน จากนั้นใส่แท็กโครงสร้างลงในบันทึกการโต้วาทีของโจทย์เลขคณิตที่มีฉันทามติสุดท้ายเกิดขึ้นแล้ว เพื่อสร้างรูปแบบที่สม่ำเสมอ ต่อมา ในขั้น Supervised Fine-Tuning (SFT) ได้ฝึกโมเดลด้วย trace การโต้วาทีทั้งหมดตามเดิม เพื่อให้โมเดลเลียนแบบวิธีดำเนินการโต้วาทีและรูปแบบการสร้างฉันทามติ

ขั้น Reinforcement Learning หลังจากนั้นคือกระบวนการที่ก้าวข้ามการเลียนแบบรูปแบบอย่างผิวเผินไปสู่การทำให้การโต้วาทีถูก internalize จริง ๆ ที่นี่ใช้ Group Relative Policy Optimization (GRPO) เพื่อเปรียบเทียบเอาต์พุตตัวเลือกหลายแบบ และผสานรางวัลแบบ length clipping ที่กดดันให้คำตอบที่ถูกต้องปรากฏเร็วขึ้น นอกจากนี้ ยังทำให้รางวัลด้านรูปแบบซึ่งช่วยคงแท็กโครงสร้าง เช่น <|Agent 1|>, <|Round 1|>, <|endofdebate|> ค่อย ๆ อ่อนลง เพื่อให้โมเดลถูกออกแบบมาให้ไปถึงข้อสรุปได้ด้วยเพียงการแทนค่าเชิงภายใน โดยไม่ต้องพึ่งการโต้วาทีภายนอกที่ยาวอีกต่อไป การตั้งตารางรางวัลแบบพลวัตและการลดความยาวเช่นนี้มีบทบาทสำคัญในการลดรูปลักษณ์เชิงคำนวณของการโต้วาที ขณะเดียวกันก็รักษาข้อได้เปรียบด้านการให้เหตุผลที่เกิดจากปฏิสัมพันธ์ระหว่างเอเจนต์ไว้ได้ ผลการทดลองพบว่าโมเดลที่เสนอมีประสิทธิภาพเทียบเท่าหรือดีกว่า explicit multi-agent debate บน GSM8K, MMLU-Pro และ Big-Bench Hard (BBH) โดยลดจำนวนโทเค็นที่ใช้ลงได้สูงสุด 93% จึงเพิ่มประสิทธิภาพการอนุมานอย่างมาก โดยเฉพาะในบางการตั้งค่า เพียง SFT อย่างเดียวก็ให้ผลลัพธ์ดีกว่าวิธีโต้วาทีเดิมแล้ว และเมื่อเพิ่ม RL ก็ยิ่งเสริมทั้งความแม่นยำและผลของการลดโทเค็น ทำให้ประสิทธิผลของขั้นตอน internalization ปรากฏชัดเจน

อีกหนึ่งคุณูปการสำคัญของงานวิจัยนี้คือการวิเคราะห์เชิงกลไกว่า การโต้วาทีที่ถูก internalize แล้วเปลี่ยนแปลงพื้นที่การแทนค่าของโมเดลอย่างไร ผ่านการทดลอง activation steering ผู้วิจัยแสดงให้เห็นว่า ภายในโมเดลที่ถูกทำให้เป็นภายในนั้นเกิด subspace เฉพาะของแต่ละเอเจนต์ (agent-specific subspaces) ขึ้น และมีทิศทางที่ตีความได้ซึ่งสอดคล้องกับมุมมองของเอเจนต์ที่ต่างกัน สิ่งนี้ชี้ว่า ข้อดีของการโต้วาทีแบบหลายเอเจนต์ไม่ได้มาจากการเฉลี่ยข้อความเอาต์พุตอย่างง่าย แต่เกี่ยวข้องกับกระบวนการที่มุมมองการให้เหตุผลที่ต่างกันถูกแยกและผสมกันอย่างมีโครงสร้างใน latent space ยิ่งไปกว่านั้น การทดลองที่ internalize เอเจนต์ที่เป็นอันตรายแล้วกดมันด้วย negative steering ยังแสดงให้เห็นว่า พฤติกรรมที่เป็นอันตรายในโมเดลที่ผ่านการกลั่นแล้วอาจถูกทำให้กระจุกตัวมากขึ้นและควบคุมได้ง่ายขึ้น โดยสรุป Latent Agents มีความสำคัญทั้งในฐานะวิธีบีบอัดการให้เหตุผลแบบหลายเอเจนต์อย่างคุ้มค่าต้นทุน และในฐานะงานที่ช่วยเปิดเผยทั้งโครงสร้างและความสามารถในการควบคุมของการให้เหตุผลที่ถูกทำให้เป็นภายใน

บทคัดย่อ (Abstract)

มีการแสดงให้เห็นว่าการโต้วาทีแบบหลายเอเจนต์ช่วยยกระดับความสามารถด้านการให้เหตุผลของโมเดลภาษาขนาดใหญ่ (LLM) อย่างไรก็ตาม วิธีนี้ใช้ต้นทุนการประมวลผลสูง และต้องสร้างบันทึกการสนทนาที่ยาวก่อนจึงจะตอบคำถามได้ เพื่อแก้ปัญหาความไม่มีประสิทธิภาพนี้ เราได้พัฒนากรอบงานที่กลั่นการโต้วาทีแบบหลายเอเจนต์ให้เหลือ LLM เดี่ยว ผ่านไปป์ไลน์การปรับจูนแบบละเอียดสองขั้นตอนที่ผสานการเรียนรู้โครงสร้างการโต้วาทีเข้ากับการทำให้เป็นภายในด้วยการจัดตารางรางวัลแบบไดนามิกและการตัดความยาว Across multiple models and benchmarks, our internalized models match or exceed explicit multi-agent debate performance using up to 93% fewer tokens. จากนั้น เราได้ตรวจสอบกลไกพื้นฐานของความสามารถนี้ผ่าน activation steering และพบว่าการทำให้เป็นภายในก่อให้เกิดปริภูมิย่อยเฉพาะเอเจนต์ กล่าวคือ ทิศทางที่ตีความได้ใน activation space ซึ่งสอดคล้องกับมุมมองของเอเจนต์ที่แตกต่างกัน นอกจากนี้ เรายังแสดงตัวอย่างการใช้งานจริง โดยการปลูกฝังเอเจนต์ที่เป็นอันตรายเข้าไปใน LLM ผ่านการโต้วาทีที่ถูกทำให้เป็นภายใน แล้วใช้ negative steering เพื่อกดพฤติกรรมนั้นลง เราพบว่าการกลั่นทำให้พฤติกรรมที่เป็นอันตรายถูกระบุตำแหน่งและควบคุมได้ง่ายขึ้น พร้อมทั้งทำให้ประสิทธิภาพโดยรวมลดลงน้อยกว่าการใช้ steering กับโมเดลตั้งต้นโดยตรง ผลการศึกษาของเรานำเสนอมุมมองใหม่สำหรับการทำความเข้าใจความสามารถแบบหลายเอเจนต์ในโมเดลที่ผ่านการกลั่น และให้แนวทางเชิงปฏิบัติสำหรับการควบคุมพฤติกรรมการให้เหตุผลที่ถูกทำให้เป็นภายใน โค้ดมีให้ที่ URL ต่อไปนี้: https://github.com/johnsk95/latent_agents

Multi-agent debate has been shown to improve reasoning in large language models (LLMs). However, it is compute-intensive, requiring generation of long transcripts before answering questions. To address this inefficiency, we develop a framework that distills multi-agent debate into a single LLM through a two-stage fine-tuning pipeline combining debate structure learning with internalization via dynamic reward scheduling and length clipping. Across multiple models and benchmarks, our internalized models match or exceed explicit multi-agent debate performance using up to 93% fewer tokens. We then investigate the mechanistic basis of this capability through activation steering, finding that internalization creates agent-specific subspaces: interpretable directions in activation space corresponding to different agent perspectives. We further demonstrate a practical application: by instilling malicious agents into the LLM through internalized debate, then applying negative steering to suppress them, we show that distillation makes harmful behaviors easier to localize and control with smaller reductions in general performance compared to steering base models. Our findings offer a new perspective for understanding multi-agent capabilities in distilled models and provide practical guidelines for controlling internalized reasoning behaviors. Code available at https://github.com/johnsk95/latent_agents

ลิงก์บทความวิจัย

https://arxiv.org/abs/2604.24881

อ่านเพิ่มเติม

https://github.com/johnsk95/latent_agents


MOSS: การวิวัฒน์ตนเองผ่านการเขียนใหม่ในระดับซอร์สในระบบเอเจนต์อัตโนมัติ / MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems

แนะนำงานวิจัย

ระบบเอเจนต์อัตโนมัติที่สามารถเรียนรู้ได้ด้วยตนเองแม้หลังการนำไปใช้งานจริง และลดความล้มเหลวที่เกิดซ้ำได้ เป็นเป้าหมายสำคัญมาอย่างยาวนาน แต่ในทางปฏิบัติ ระบบส่วนใหญ่ยังคงอยู่แค่ในระดับการตั้งค่าหรือพรอมป์ต์ที่แก้ไขได้ด้วยข้อความ และไม่สามารถจัดการข้อบกพร่องเชิงโครงสร้างได้อย่างถึงราก เพื่อก้าวข้ามข้อจำกัดนี้ MOSS ที่ถูกเสนอขึ้นมาจึงใช้การปรับตัวในระดับซอร์ส (source-level adaptation) เป็นสื่อกลางของการวิวัฒน์ตนเอง และถูกออกแบบมาเพื่อให้สามารถเขียนโครงสร้างการทำงานแกนหลักของเอเจนต์ใหม่ได้โดยตรง ผู้เขียนชี้ให้เห็นว่าองค์ประกอบที่กำหนดพฤติกรรมการทำงานจริง เช่น routing, ลำดับของ hook, state invariant และ dispatch นั้นอยู่ในโค้ด ดังนั้น ความล้มเหลวบางประเภทที่ไม่อาจเข้าถึงได้ด้วยการเปลี่ยนเพียงไฟล์ skill หรือการจัดองค์ประกอบพรอมป์ต์จึงหลีกเลี่ยงไม่ได้ ในทางกลับกัน ซอร์สโค้ดมีคุณสมบัติ Turing-complete เป็น superset ของอาร์ติแฟกต์ที่อิงข้อความ และทำงานอย่างกำหนดแน่นอนได้โดยไม่ต้องพึ่งว่าโมเดลจะปฏิบัติตามคำสั่งหรือไม่ จึงถูกเสนอให้เป็นวิธีการปรับตัวที่ทั่วไปและเสถียรกว่ามาก

ระเบียบวิธีของ MOSS มีแกนสำคัญอยู่ที่การใช้หลักฐานความล้มเหลวในโปรดักชัน (production-failure evidence) ที่เก็บรวบรวมโดยอัตโนมัติเป็นจุดตั้งต้น แล้วดำเนินไปป์ไลน์การวิวัฒน์หลายขั้นตอนแบบตรึงลำดับตามหลักฐานนั้น การแก้ไขโค้ดเองถูกมอบหมายให้กับ external coding agent CLI (command-line interface) แต่ MOSS ควบคุมลำดับของขั้นตอนและการตัดสินขั้นสุดท้ายด้วยตนเอง ทำให้แยกความรับผิดชอบระหว่างการสร้างและการตรวจสอบได้อย่างชัดเจน เวอร์ชันตัวเลือกที่สร้างขึ้นด้วยวิธีนี้จะถูกตรวจสอบโดย replay ชุดความล้มเหลวอีกครั้งบน ephemeral trial workers ซึ่งมีความสำคัญตรงที่ไม่ได้อาศัยเพียงการวิเคราะห์แบบสถิตเท่านั้น แต่ทำการประเมินบนการจำลองเหตุการณ์ล้มเหลวจริงโดยอิงการทำซ้ำ ผู้สมัครที่ผ่านการตรวจสอบเท่านั้นจึงจะถูกเลื่อนขั้นผ่าน in-place container swap ภายใต้เงื่อนไขว่าผู้ใช้ยินยอม และหลังจากนั้น หากไม่ผ่านเงื่อนไขของ health probe ก็จะถูก rollback อัตโนมัติ จึงรับประกันความปลอดภัยในการปฏิบัติการไปพร้อมกัน

แนวทางนี้แตกต่างจากเอเจนต์ที่วิวัฒน์ตนเองในงานเดิมซึ่งมักพยายามปรับปรุงเฉพาะพื้นที่ที่แทนได้ด้วยข้อความ เช่น พรอมป์ต์ สคีมาหน่วยความจำ หรือ workflow graph ตรงที่ MOSS มองทั้งระบบรวมถึง execution harness จริงเป็นเป้าหมายของการวิวัฒน์ ดังนั้น MOSS จึงไม่ใช่เพียงโมเดลที่สร้างคำตอบได้ดีขึ้น แต่ควรเข้าใจว่าเป็นแพลตฟอร์มการปรับตัวที่สามารถแก้ไขข้อบกพร่องเชิงโครงสร้างของระบบเอเจนต์ที่กำลังทำงานอยู่ได้โดยตรง โดยเฉพาะการผสานไปป์ไลน์แบบกำหนดแน่นอนเข้ากับกระบวนการตรวจสอบ-เลื่อนขั้น-ย้อนกลับ ทำให้เสนอเส้นทางการปรับปรุงตนเองที่แข็งแกร่งกว่าวิธีที่เน้นข้อความซึ่งเปราะบางต่อ long-context drift ในระยะยาว การออกแบบนี้แสดงให้เห็นอย่างชัดเจนว่า หากเอเจนต์อัตโนมัติจะวิวัฒน์ได้อย่างปลอดภัยในสภาพแวดล้อมการให้บริการจริง ก็จำเป็นต้องมีไม่เพียงความสามารถในการเรียนรู้เท่านั้น แต่ยังต้องมีกลไกเชิงวิศวกรรมระบบที่ครอบคลุมการดีพลอย การตรวจสอบ และการ rollback ด้วย

ในเชิงทดลอง MOSS ยกระดับค่า grader score เฉลี่ยของงานสี่รายการใน OpenClaw จาก 0.25 เป็น 0.61 ได้ภายในรอบการวิวัฒน์เพียงครั้งเดียว และทำได้โดยไม่มีการแทรกแซงจากมนุษย์ ผลลัพธ์นี้แสดงให้เห็นว่าแนวทางการเขียนใหม่ในระดับซอร์สไม่ได้มีเพียงความทั่วไปในเชิงทฤษฎีเท่านั้น แต่ยังสามารถนำไปสู่การปรับปรุงประสิทธิภาพที่มีนัยสำคัญในระบบเอเจนต์โปรดักชันจริงได้ สุดท้าย บทความนี้ได้ขยายขอบเขตของเอเจนต์ที่วิวัฒน์ตนเองจากการปรับแต่งข้อความไปสู่การปรับโครงสร้างในระดับโค้ด และเปิดความเป็นไปได้ใหม่ที่ระบบอัตโนมัติจะสามารถแก้ไขความล้มเหลวที่เกิดซ้ำได้ด้วยตนเอง

บทคัดย่อ (Abstract)

หลังจากนำไปใช้งานแล้ว ระบบเชิงเอเจนต์อัตโนมัติโดยมากจะมีลักษณะคงที่: ระบบเหล่านี้ไม่เรียนรู้จากการโต้ตอบของผู้ใช้ และความล้มเหลวที่เกิดซ้ำจะยังคงอยู่ต่อไปจนกว่าการอัปเดตที่มนุษย์เป็นผู้ขับเคลื่อนครั้งถัดไปจะปล่อยการแก้ไขออกมา เพื่อตอบโจทย์นี้ เอเจนต์ที่วิวัฒน์ตัวเองได้จึงเกิดขึ้น แต่ระบบเหล่านี้ก็ยังจำกัดการวิวัฒน์ไว้เพียงอาร์ติแฟกต์ที่แก้ไขได้ด้วยข้อความเท่านั้น ได้แก่ ไฟล์ทักษะ การตั้งค่า prompt สคีมาหน่วยความจำ และกราฟเวิร์กโฟลว์ โดยปล่อย agent harness ไว้ตามเดิม เนื่องจากการ routing ลำดับของ hook state invariant และ dispatch อยู่ในโค้ด ไม่ได้อยู่ในอาร์ติแฟกต์ข้อความใด ๆ ความล้มเหลวเชิงโครงสร้างทั้งหมวดหมู่หนึ่งจึงไม่สามารถเข้าถึงได้ทางกายภาพจากชั้นข้อความ เราโต้แย้งว่าการปรับตัวในระดับซอร์สเป็นสื่อที่ทั่วไปกว่ามากในเชิงพื้นฐาน: มันเป็นแบบ Turing-complete เป็นซูเปอร์เซตแบบเข้มงวดของทุกขอบเขตที่แก้ไขได้ด้วยข้อความ ออกผลอย่างกำหนดแน่นอนแทนที่จะพึ่งการทำตามของโมเดลฐาน และไม่เสื่อมลงภายใต้การลื่นไหลของบริบทยาว เรานำเสนอ MOSS ซึ่งเป็นระบบที่ทำ self-rewriting ในระดับซอร์สบนโครงสร้างพื้นฐานเชิงเอเจนต์ระดับโปรดักชัน การวิวัฒน์แต่ละครั้งยึดโยงกับชุดหลักฐานความล้มเหลวในโปรดักชันที่คัดสรรโดยอัตโนมัติ และดำเนินไปผ่านไปป์ไลน์หลายขั้นตอนแบบกำหนดแน่นอน การแก้ไขโค้ดถูกมอบหมายให้กับ external coding-agent CLI แบบเสียบปลั๊กได้ ขณะที่ MOSS ยังคงควบคุมลำดับขั้นตอนและคำตัดสิน ผู้สมัครจะถูกตรวจสอบโดย replay ชุดข้อมูลดังกล่าวกับ candidate image ใน trial worker แบบชั่วคราว ก่อนจะถูกเลื่อนขั้นผ่านการสลับคอนเทนเนอร์แบบ in-place ที่ต้องได้รับความยินยอมจากผู้ใช้ และมี rollback ที่ควบคุมด้วย health probe บน OpenClaw นั้น MOSS ยกระดับคะแนน grader เฉลี่ยของ 4 งานจาก 0.25 เป็น 0.61 ได้ภายในเพียงหนึ่งรอบ โดยไม่ต้องมีการแทรกแซงจากมนุษย์

Autonomous agentic systems are largely static after deployment: they do not learn from user interactions, and recurring failures persist until the next human-driven update ships a fix. Self-evolving agents have emerged in response, but all confine evolution to text-mutable artifacts -- skill files, prompt configurations, memory schemas, workflow graphs -- and leave the agent harness untouched. Since routing, hook ordering, state invariants, and dispatch live in code rather than in any text artifact, an entire class of structural failure is physically unreachable from the text layer. We argue that source-level adaptation is a fundamentally more general medium: it is Turing-complete, a strict superset of every text-mutable scope, takes effect deterministically rather than through base-model compliance, and does not erode under long-context drift. We present MOSS, a system that performs self-rewriting at the source level on production agentic substrates. Each evolution is anchored to an automatically curated batch of production-failure evidence and proceeds through a deterministic multi-stage pipeline; code modification is delegated to a pluggable external coding-agent CLI while MOSS retains stage ordering and verdicts. Candidates are verified by replaying the batch against the candidate image in ephemeral trial workers, then promoted via user-consent-gated, in-place container swap with health-probe-gated rollback. On OpenClaw, MOSS lifts a four-task mean grader score from 0.25 to 0.61 in a single cycle without human intervention.

ลิงก์งานวิจัย

https://arxiv.org/abs/2605.22794

อ่านเพิ่มเติม

https://github.com/dav-joy-thon/MOSS


การจัดแนวความปลอดภัยของโมเดลภาษาผ่านเกมแบบไม่ร่วมมือ / Safety Alignment of LMs via Non-cooperative Games

แนะนำงานวิจัย

การจัดแนวความปลอดภัยของโมเดลภาษา (language models, LM) ได้กลายเป็นโจทย์แกนกลางของงานวิจัยด้าน AI alignment ในช่วงหลัง เพราะต้องทำให้โมเดลยังคงมีประโยชน์ใช้งานได้ ขณะเดียวกันก็ต้องทนทานต่ออินพุตที่เป็นอันตราย หากแนวทางเดิมมักหยุดอยู่ที่การสร้างพรอมป์ต์โจมตีขึ้นมาก่อน แล้วค่อยทำการปรับจูนละเอียดแบบลำดับขั้นเพื่อให้ป้องกันได้ งานวิจัยนี้เสนอการนิยามใหม่ให้การจัดแนวความปลอดภัยเป็นเกมผลรวมไม่เป็นศูนย์ (non-zero-sum game) ที่ Attacker LM และ Defender LM ปรับกลยุทธ์เข้าหากันแบบเรียลไทม์ ทั้งสองโมเดลเรียนรู้ร่วมกันผ่านการเสริมกำลังแบบออนไลน์ (online reinforcement learning, RL) โดยฝั่งผู้โจมตีจะสำรวจกลยุทธ์ red-teaming ที่ซับซ้อนยิ่งขึ้น ส่วนฝั่งผู้ป้องกันก็วิวัฒน์ให้ตอบสนองต่อการโจมตีเหล่านั้นได้แข็งแกร่งขึ้น โครงสร้างการปรับตัวซึ่งกันและกันนี้แตกต่างจากวิธีเดิมอย่างชัดเจน เพราะไม่ใช่การเรียนรู้ครั้งเดียวจากชุดข้อมูลแบบคงที่ แต่เป็นการขยายขอบเขตสมรรถนะอย่างต่อเนื่องผ่านการแข่งขันซ้ำ ๆ ระหว่างโมเดล โดยเฉพาะอย่างยิ่ง ผู้เขียนออกแบบสัญญาณรางวัลให้ไม่ได้อยู่ในรูปคะแนนรายจุด (point-wise score) แต่เป็นสัญญาณแบบอิงความชอบ (preference-based) ที่ได้จากการเปรียบเทียบแบบเป็นคู่ (pairwise comparison) เพื่อให้การกำกับดูแลมีเสถียรภาพมากขึ้นและลดความเปราะบางต่อ reward hacking

แกนกลางของวิธีนี้คือกระบวนการฝึกที่ชื่อว่า AdvGame ซึ่งมีเป้าหมายเพื่อผลักเส้นขอบพาเรโต (Pareto frontier) ระหว่างความปลอดภัยกับประโยชน์ใช้สอยให้ออกไปไกลกว่าเดิม กล่าวให้ชัดคือ เนื่องจากผู้โจมตีและผู้ป้องกันผลัดกันอัปเดตโดยสะท้อนนโยบายล่าสุดของอีกฝ่าย ผู้ป้องกันจึงได้ฝึกกับการโจมตีที่แข็งแกร่งขึ้นจริง ขณะที่ผู้โจมตีก็เรียนรู้ความสามารถในการตรวจจับช่องโหว่ทั่วไปที่ไม่จำกัดอยู่แค่จุดอ่อนของโมเดลใดโมเดลหนึ่ง การคลี่สมการในภาคผนวกแสดงให้เห็นกระบวนการสำคัญที่แปลงปัญหาการเหมาะที่สุดเชิงเกมนี้ให้อยู่ในรูปที่ฝึกได้จริง โดยแสดงการกระจายที่เหมาะที่สุดของนโยบายผู้โจมตีเป็นรูปการถ่วงน้ำหนักแบบเอ็กซ์โปเนนเชียลเมื่อเทียบกับนโยบายอ้างอิง (reference policy) จากนั้นจึงจัดรูปโดยใช้วิธีเปรียบเทียบผู้สมัครสองรายเพื่อตัดค่าคงที่สำหรับการทำ normalization ออกไป ในกระบวนการนี้ การฝึกผู้โจมตีจึงเปลี่ยนจากการถดถอยคะแนนสัมบูรณ์ ไปเป็นปัญหาการจัดลำดับความชอบเชิงสัมพัทธ์ ซึ่งนำไปสู่ฟังก์ชันวัตถุประสงค์ตระกูล Direct Preference Optimization (DPO) ได้อย่างเป็นธรรมชาติ กล่าวอีกนัยหนึ่ง คือใช้ trajectory ทั้งหมดที่เกิดจากพรอมป์ต์ที่ผู้โจมตีสร้างและคำตอบของผู้ป้องกันร่วมกันเป็นหน่วยเปรียบเทียบ ทำให้ได้สัญญาณการเรียนรู้ที่สมบูรณ์ยิ่งขึ้นจากปฏิสัมพันธ์จริง

นอกจากนี้ งานวิจัยนี้ยังเชื่อมความน่าจะเป็นของความชอบเข้ากับแบบจำลอง Bradley-Terry และนำเสนอแนวคิด marginalized preference เพื่อสรุปปฏิสัมพันธ์ระหว่างผู้โจมตีกับผู้ป้องกันในปริภูมิ logit ด้วยวิธีนี้ โมเดลสามารถเรียนรู้โครงสร้างความชอบที่ไม่ได้สะท้อนแค่ตัวพรอมป์ต์เอง แต่สะท้อนผลร่วมกันของพรอมป์ต์และคำตอบ พร้อมทั้งเฉลี่ยสัญญาณรบกวนของคำตอบรายตัวออกไปได้ ดังนั้น การอัปเดตผู้โจมตีจึงเกิดขึ้นบนการกระจายแบบพลวัตที่ถูกปรับใหม่อย่างต่อเนื่องโดยนโยบายปัจจุบันของผู้ป้องกัน ส่งผลให้มันลู่เข้าไปสู่ความสามารถด้าน red-teaming ที่นำไปทั่วไปกับหลายโมเดลได้ แทนที่จะเป็นการโจมตีที่เจาะจงกับเป้าหมายคงที่เพียงแบบเดียว ดังที่บทคัดย้ำไว้ การเหมาะที่สุดร่วมกันเช่นนี้มีความสำคัญ เพราะไม่เพียงให้ Defender LM ที่ทั้งมีประโยชน์มากขึ้นและทนทานต่อการโจมตีมากขึ้น แต่ยังให้ Attacker LM แบบทั่วไปที่ทรงพลังและสามารถนำไปใช้ได้จริงในสภาพแวดล้อมการใช้งานจริงด้วย ท้ายที่สุด งานนี้ได้ขยายการจัดแนวความปลอดภัยจากการเป็นเพียงเทคนิคการป้องกัน ไปสู่การเป็นปัญหาการเรียนรู้ที่ใช้การแข่งขันและการปรับตัวระหว่างโมเดลอย่างเป็นระบบ พร้อมเสนอทิศทางเชิงวิธีวิทยาใหม่สำหรับยกระดับทั้งความปลอดภัยและประสิทธิผลของโมเดลภาษาไปพร้อมกัน

บทคัดย่อ(Abstract)

การคงไว้ซึ่งความมีประโยชน์ของโมเดลภาษา (LM) พร้อมกับรับประกันความปลอดภัย ยังคงเป็นโจทย์สำคัญในงาน AI alignment แนวทางปัจจุบันอาศัยการฝึกแบบปฏิปักษ์เชิงลำดับ โดยสร้างพรอมป์ต์ปฏิปักษ์ขึ้นมาก่อน แล้วจึงไฟน์จูนโมเดลภาษาให้ป้องกันพรอมป์ต์เหล่านั้น เราเสนอพาราไดม์ที่แตกต่างออกไป โดยนิยามการจัดแนวด้านความปลอดภัยให้เป็นเกมแบบไม่ใช่ผลรวมศูนย์ระหว่าง Attacker LM และ Defender LM และฝึกทั้งสองโมเดลร่วมกันด้วยการเรียนรู้เสริมกำลังแบบออนไลน์ แต่ละ LM จะปรับตัวอย่างต่อเนื่องตามกลยุทธ์ที่เปลี่ยนแปลงของอีกฝ่าย ทำให้เกิดการปรับปรุงแบบวนซ้ำ วิธีของเราใช้สัญญาณรางวัลแบบอิงความพึงพอใจที่ได้จากการเปรียบเทียบเป็นคู่ แทนคะแนนแบบ point-wise จึงให้การกำกับดูแลที่แข็งแกร่งกว่า และอาจช่วยลด reward hacking ได้ สูตร RL ชื่อ AdvGame ของเราช่วยขยับพรมแดนพาเรโตระหว่างความปลอดภัยและความมีประโยชน์ ส่งผลให้ได้ Defender LM ที่ทั้งช่วยเหลือได้ดีกว่าและทนทานต่อการโจมตีแบบปฏิปักษ์มากขึ้นในเวลาเดียวกัน นอกจากนี้ Attacker LM ที่ได้ในท้ายที่สุดยังลู่เข้าสู่การเป็นเอเจนต์ red-teaming อเนกประสงค์ที่ทรงพลัง ซึ่งสามารถนำไปใช้ตรวจสอบและทดสอบโมเดลเป้าหมายใดๆ ได้โดยตรง โค้ดอยู่ที่ github.com/facebookresearch/advgame

การรับประกันความปลอดภัยของโมเดลภาษา (LM) โดยยังคงรักษาความมีประโยชน์ไว้ ยังคงเป็นความท้าทายสำคัญใน AI alignment แนวทางปัจจุบันอาศัยการฝึกแบบปฏิปักษ์เชิงลำดับ โดยสร้างพรอมป์ต์ปฏิปักษ์และไฟน์จูน LM ให้ป้องกันพรอมป์ต์เหล่านั้น เรานำเสนอพาราไดม์ที่แตกต่างออกไป โดยมองการจัดแนวด้านความปลอดภัยเป็นเกมแบบไม่ใช่ผลรวมศูนย์ระหว่าง Attacker LM และ Defender LM ที่ถูกฝึกร่วมกันผ่านการเรียนรู้เสริมกำลังแบบออนไลน์ แต่ละ LM จะปรับตัวอย่างต่อเนื่องตามกลยุทธ์ที่พัฒนาของอีกฝ่าย ทำให้เกิดการปรับปรุงแบบวนซ้ำ วิธีของเราใช้สัญญาณรางวัลแบบอิงความพึงพอใจที่ได้จากการเปรียบเทียบเป็นคู่ แทนคะแนนแบบ point-wise ทำให้ได้การกำกับดูแลที่แข็งแกร่งกว่าและอาจลด reward hacking ได้ สูตร RL ของเรา AdvGame ขยับพรมแดนพาเรโตของความปลอดภัยและความมีประโยชน์ ทำให้ได้ Defender LM ที่ทั้งมีประโยชน์มากขึ้นและทนทานต่อการโจมตีแบบปฏิปักษ์มากขึ้นพร้อมกัน นอกจากนี้ Attacker LM ที่ได้ยังลู่เข้าสู่การเป็นเอเจนต์ red-teaming อเนกประสงค์ที่แข็งแกร่ง ซึ่งสามารถนำไปใช้ตรวจสอบโมเดลเป้าหมายใดๆ ได้โดยตรง โค้ดอยู่ที่ github.com/facebookresearch/advgame.

ลิงก์งานวิจัย

https://arxiv.org/abs/2512.20806

อ่านเพิ่มเติม

https://github.com/facebookresearch/advgame


วางแผน, เฝ้าดู, กู้คืน: เบนช์มาร์กและสถาปัตยกรรมสำหรับการช่วยเหลือเชิงกระบวนการแบบเชิงรุก / Plan, Watch, Recover: A Benchmark and Architectures for Proactive Procedural Assistance

แนะนำงานวิจัย

ในงานเชิงกระบวนการจริง ผู้ใช้ไม่ได้ทำตามลำดับที่กำหนดไว้อย่างเคร่งครัดเสมอไป ดังนั้นระบบช่วยเหลือจึงต้องทำได้มากกว่าการทำนายขั้นตอนถัดไป โดยต้องตัดสินได้ทั้งว่าควรแทรกแซงเมื่อใดและควรแนะนำอย่างไร แนวทางที่เสนอจากมุมมองปัญหานี้มุ่งเน้นไปที่การช่วยเหลือเชิงกระบวนการแบบเชิงรุก ซึ่งตีความสถานการณ์ปัจจุบันจากข้อมูลมุมมองบุคคลที่หนึ่งของผู้ใช้ ประวัติการสนทนา และบริบทของคำถาม พร้อมตรวจจับแบบเรียลไทม์ได้ด้วยว่าเข้าสู่สถานะออกนอกแผน (out-of-plan, OOP) แล้วหรือไม่ โดยเฉพาะอย่างยิ่ง งานวิจัยนี้ให้ความสำคัญกับการแยกการตัดสินใจว่าจะเข้าแทรกแซงหรือไม่ ออกจากเนื้อหาของการแทรกแซง เพราะการตัดสินจังหวะเวลาและการสร้างคำแนะนำมีเป้าหมายการเพิ่มประสิทธิภาพที่ต่างกัน เมื่อผู้ใช้ออกจากขั้นตอนปกติ ระบบไม่ควรรอเงียบๆ แต่ควรให้คำสั่งกลับเข้าสู่ขั้นตอนที่สั้น กระชับ และแม่นยำในจังหวะที่เหมาะสม และเพื่อทำเช่นนั้น ระบบต้องติดตามทั้งสถานะเชิงกระบวนการและเบาะแสเชิงภาพไปพร้อมกัน

เพื่อรองรับเป้าหมายนี้ ผู้เขียนได้สร้างข้อมูลมุมมองบุคคลที่หนึ่งจากอุปกรณ์สวมใส่ขนาดใหญ่ชื่อ EgoProactive ขึ้นก่อน โดยให้ทั้งคำกำกับการออกนอกแผนอย่างชัดเจนและขั้นตอนการกู้คืน (recovery steps) ร่วมกัน ชุดข้อมูลนี้มีความสำคัญมากเพราะทำให้สามารถเรียนรู้ทางอ้อมและข้อผิดพลาดที่เกิดขึ้นในสภาพแวดล้อมจริงได้ และช่วยชดเชยข้อจำกัดของทรัพยากรเดิมที่ตั้งอยู่บนสมมติฐานว่าขั้นตอนดำเนินไปแบบเชิงเส้นเท่านั้น นอกจากนี้ ผ่าน Pro²Bench ซึ่งเป็นการจัดโครงสร้างเบนช์มาร์กเดิม 5 ชุด ได้แก่ Ego4D, EPIC-KITCHENS, EgoExo4D, HoloAssist และ HowTo100M ให้มาอยู่ในกรอบการแนะนำเชิงรุกแบบเดียวกัน ผู้วิจัยยังได้เตรียมสภาพแวดล้อมการประเมินที่สามารถเปรียบเทียบความสามารถในการจับจังหวะการแทรกแซงและการโค้ชเพื่อกู้คืนได้อย่างสม่ำเสมอข้ามโดเมนที่แตกต่างกัน นี่เป็นจุดสำคัญเพราะเป็นการขยายความเข้าใจขั้นตอนจากปัญหาการทำนายขั้นตอนถัดไปอย่างง่าย ไปสู่ปัญหาการวัดคุณภาพของปฏิสัมพันธ์จริง

ในด้านโมเดล งานวิจัยนี้เสนอ decoupled planner-interaction architecture ที่แยกส่วนผู้วางแผนออกจากส่วนปฏิสัมพันธ์ เพื่อให้การติดตามสถานะเชิงกระบวนการและการสร้างคำตอบไม่ได้ถูกผูกกันอย่างหลวมๆ แต่ถูกปรับให้เหมาะกับบทบาทของแต่ละส่วน นอกจากนี้ยังใช้การเลือกคลิปแบบยึดแผน (plan-anchored) เพื่อให้ความสำคัญกับช่วงภาพที่เกี่ยวข้องโดยตรงกับขั้นตอนปัจจุบันและการตัดสินใจเรื่องการกู้คืน แทนการประมวลผลวิดีโอทั้งหมดแบบไม่เลือก วิธีนี้ช่วยลดสัญญาณรบกวนที่ไม่จำเป็นในวิดีโอมุมมองบุคคลที่หนึ่งที่ยาว ขณะเดียวกันก็จับสัญญาณของการออกนอกแผนและเบาะแสที่จำเป็นต่อการกู้คืนได้ชัดเจนขึ้น กล่าวอีกนัยหนึ่ง สถาปัตยกรรมนี้เป็นโครงสร้างที่จัดแนวทั้ง “จะพูดอะไร” และ “จะดูอะไร” โดยยึดแผนเป็นศูนย์กลาง

อีกประเด็นที่น่าสนใจคือ ผ่านสูตรการฝึกหลังเรียนรู้ (post-training) งานนี้แสดงให้เห็นว่าวิธีดังกล่าวไม่ใช่เทคนิคเฉพาะที่ใช้ได้กับโมเดลใดโมเดลหนึ่งเท่านั้น แต่เป็นกระบวนการทั่วไปที่ถ่ายโอนไปยังแบ็กโบนที่หลากหลายได้จริง ในการทดลอง ผู้วิจัยได้ทำการทำซ้ำข้ามแบ็กโบนบน Llama 4 และ Qwen-3.6-VL เพื่อยืนยันความสามารถในการพกพาของวิธีการ ซึ่งบ่งชี้ว่าสามารถขยายไปสู่โมเดลมัลติโหมดที่ทรงพลังยิ่งขึ้นได้โดยง่าย ผลการทดลองแสดงให้เห็นว่าระบบ Llama-4 ที่ผ่านการฝึกแล้วมีคุณภาพการแทรกแซงเชิงวัตถุวิสัย (objective intervention quality) สูงกว่าเบสไลน์ที่แข็งแกร่งอย่าง Claude Opus 4.6, Gemini 3.1 Pro, GPT 5.2 และ Qwen3 VL 235B ในทั้งหกชุดข้อมูล โดยเฉพาะภายใต้เงื่อนไข oracle plan เมื่อควบคุมคุณภาพของแผนไว้ได้ ประสิทธิภาพของการแนะนำเพื่อกู้คืนจะดีขึ้นอย่างมาก ซึ่งสนับสนุนความสมเหตุสมผลของโครงสร้างแบบแยกส่วนระหว่างการติดตามแผนและการสร้างการแทรกแซงได้อย่างชัดเจน โดยสรุป งานวิจัยนี้ได้นิยามใหม่ให้ผู้ช่วยมัลติโหมดสำหรับผู้ใช้ที่กำลังทำงานเชิงกระบวนการ ไม่ใช่เป็นระบบทำนายขั้นตอน แต่เป็นโค้ชแบบแทรกแซงเรียลไทม์ พร้อมนำเสนอทั้งข้อมูล สถาปัตยกรรม และกลยุทธ์การเรียนรู้ที่ใกล้เคียงสถานการณ์จริงมากกว่า

บทคัดย่อ (Abstract)

โดยยึดโครงสร้างและคำศัพท์ของบทคัดย่อที่เป็นต้นฉบับการแปล จะถ่ายทอดประโยคแรกเป็นภาษาเกาหลีโดยตรงก่อน แล้วจึงปรับเกลาบทคัดย่อทั้งหมดให้แปลได้อย่างเป็นธรรมชาติและมีลักษณะเชิงวิชาการ
เราจินตนาการถึงระบบผู้ช่วยมัลติโหมดเชิงรุกที่ให้คำแนะนำแบบทีละขั้นตอนแก่ผู้ใช้แบบเรียลไทม์ในการทำงานเชิงกระบวนการ โดยตัดสินใจได้อย่างอัตโนมัติทั้งว่าเมื่อใดควรขัดจังหวะเพื่อเข้าแทรกแซง และควรโค้ชอย่างไร อย่างไรก็ตาม ความก้าวหน้าในด้านนี้ยังถูกจำกัดจากการขาดแคลนเบนช์มาร์กขนาดใหญ่ข้ามโดเมนที่สะท้อนสภาวะจริง โดยเฉพาะกรณีที่พบได้บ่อยซึ่งผู้ใช้ออกนอกลำดับขั้นตอนที่คาดหมายไว้ เราอุดช่องว่างนี้ด้วยผลงานสี่ประการ: (1) เปิดตัว EgoProactive ชุดข้อมูล wearable-egocentric ขนาดใหญ่สำหรับการช่วยเหลืองานเชิงกระบวนการแบบเชิงรุก ซึ่งมีการใส่คำอธิบายกำกับ Out-of-Plan (OOP) และขั้นตอนการกู้คืนไว้อย่างชัดเจน; (2) ขยายเบนช์มาร์กที่ใช้กันอย่างแพร่หลายห้าชุด (Ego4D, EPIC-KITCHENS, EgoExo4D, HoloAssist, HowTo100M) ให้เป็น Pro^2Bench ภายใต้สคีมาคำแนะนำเชิงรุกแบบ统一; (3) เสนอ สถาปัตยกรรม planner--interaction แบบแยกส่วน ที่ออกแบบเฉพาะสำหรับสถานะเชิงกระบวนการ สัญญาณภาพ และการแทรกการกู้คืน; (4) นำเสนอสูตร post-training ที่ถ่ายโอนข้ามตระกูลโมเดลได้ และตรวจสอบความถูกต้องด้วยการทำซ้ำข้าม backbone บน Llama 4 และ Qwen-3.6-VL ในการทดลองขนาดใหญ่ ระบบ Llama-4 ที่เราฝึกปรับปรุงคุณภาพการแทรกแซงเชิงวัตถุวิสัยได้อย่างมีนัยสำคัญเหนือ baseline เชิงพาณิชย์ที่แข็งแกร่ง (Claude Opus 4.6, Gemini 3.1 Pro, GPT 5.2) และ baseline แบบ open-weight (Qwen3 VL 235B) ในทั้งหกชุดข้อมูล การทดลองแบบ oracle-plan ยังแสดงให้เห็นเพิ่มเติมว่า เมื่อควบคุมคุณภาพของแผนไว้ โมเดล duplex ที่ผ่านการฝึกสามารถสร้างคำแนะนำคุณภาพสูงและให้ผลดีขึ้นอย่างมากในการกู้คืนจากการออกนอกแผน (OOP)

เราจินตนาการถึงระบบผู้ช่วยมัลติโหมดเชิงรุกที่ให้คำแนะนำแบบทีละขั้นตอนแก่ผู้ใช้แบบเรียลไทม์ในการทำงานเชิงกระบวนการ โดยตัดสินใจได้อย่างอัตโนมัติว่า\textit{เมื่อใด}ควรขัดจังหวะ และ\textit{ควรโค้ชอย่างไร} อย่างไรก็ตาม ความก้าวหน้าในด้านนี้ยังถูกจำกัดจากการขาดแคลนเบนช์มาร์กขนาดใหญ่ข้ามโดเมนที่สะท้อนสภาวะจริง โดยเฉพาะกรณีที่พบได้บ่อยซึ่งผู้ใช้ออกนอกลำดับขั้นตอนที่คาดหมายไว้ เราอุดช่องว่างนี้ด้วยผลงานสี่ประการ: \textbf{(1)}~เราเปิดตัว \textbf{EgoProactive} ชุดข้อมูล wearable-egocentric ขนาดใหญ่สำหรับการช่วยเหลืองานเชิงกระบวนการแบบเชิงรุก ซึ่งมีการใส่คำอธิบายกำกับ Out-of-Plan (OOP) และขั้นตอนการกู้คืนไว้อย่างชัดเจน; \textbf{(2)}~เราขยายเบนช์มาร์กที่ใช้กันอย่างแพร่หลายห้าชุด (Ego4D, EPIC-KITCHENS, EgoExo4D, HoloAssist, HowTo100M) ให้เป็น \textbf{Pro\textsuperscript{2}Bench} ภายใต้สคีมาคำแนะนำเชิงรุกแบบรวมศูนย์; \textbf{(3)}~เราเสนอ \textbf{สถาปัตยกรรม planner--interaction แบบแยกส่วน} ที่ออกแบบเฉพาะสำหรับสถานะเชิงกระบวนการ สัญญาณภาพ และการแทรกการกู้คืน; \textbf{(4)}~เรานำเสนอสูตร post-training ที่ถ่ายโอนข้ามตระกูลโมเดลได้ และตรวจสอบความถูกต้องด้วยการทำซ้ำข้าม backbone บน Llama~4 และ Qwen-3.6-VL ในการทดลองอย่างกว้างขวาง ระบบ Llama-4 ที่เราฝึกปรับปรุงคุณภาพการแทรกแซงเชิงวัตถุวิสัยได้อย่างมีนัยสำคัญเหนือ baseline เชิงกรรมสิทธิ์ที่แข็งแกร่ง (Claude Opus~4.6, Gemini~3.1~Pro, GPT~5.2) และ baseline แบบ open-weight (Qwen3~VL~235B) ในทั้งหกชุดข้อมูล การทดลองแบบ Oracle-plan ยังแสดงให้เห็นเพิ่มเติมว่า เมื่อควบคุมคุณภาพของแผนไว้ โมเดล duplex ที่ผ่านการฝึกสามารถสร้างคำแนะนำคุณภาพสูงและให้ผลดีขึ้นอย่างมากในการกู้คืนจากการออกนอกแผน

ลิงก์บทความวิจัย

https://arxiv.org/abs/2606.04970

อ่านเพิ่มเติม

https://huggingface.co/datasets/facebook/wearable-ai


FuzzingBrain V2: ระบบ LLM แบบมัลติเอเจนต์สำหรับการค้นหาและทำซ้ำช่องโหว่อัตโนมัติ / FuzzingBrain V2: A Multi-Agent LLM System for Automated Vulnerability Discovery and Reproduction

แนะนำบทความวิจัย

ท่ามกลางภัยคุกคามด้านความปลอดภัยจากช่องโหว่ซอฟต์แวร์ที่ทวีความรุนแรงขึ้นทุกวัน ในปี 2025 เพียงปีเดียวมีรายงาน CVE (Common Vulnerabilities and Exposures) ราว 50,000 รายการ แม้ว่าโมเดลภาษาขนาดใหญ่ (LLM) จะเปิดความเป็นไปได้ใหม่ให้กับการตรวจจับช่องโหว่อัตโนมัติ แต่วิธีการที่อิง LLM ซึ่งมีอยู่ในปัจจุบันยังคงมีปัญหาเชิงพื้นฐานที่ต้องแก้ไข โดยเฉพาะอย่างยิ่ง รายงานช่องโหว่ที่ LLM สร้างขึ้นมีอัตรา false positive สูง ขณะเดียวกันก็ขาดกลไกการตรวจสอบที่ทำซ้ำได้ อีกทั้งยังใช้ระดับความละเอียดที่ไม่เหมาะสม เช่น ระดับฟังก์ชันหรือระดับบรรทัด ในการระบุตำแหน่งช่องโหว่ และยังจัดการกับช่องโหว่ที่มีความซับซ้อน ซึ่งเกี่ยวข้องกับการพึ่งพาข้ามฟังก์ชันและเงื่อนไขการทริกเกอร์หลายชั้น ได้ไม่ดี งานวิจัยนี้นำเสนอ FuzzingBrain V2 ซึ่งเป็นระบบ LLM แบบมัลติเอเจนต์ที่ออกแบบมาเพื่อแก้โจทย์เหล่านี้อย่างเป็นระบบ โดยใช้เฟรมเวิร์ก OSS-Fuzz ของ Google เป็นแบ็กเอนด์สำหรับการตรวจสอบ ทำให้รับประกันการทำซ้ำได้ 100% สำหรับช่องโหว่ทั้งหมดที่ถูกรายงาน นอกจากนี้ ระบบยังแนะนำแนวคิดนามธรรมใหม่ชื่อ Suspicious Point ซึ่งรวมข้อมูล control flow เข้าไว้ด้วย ทำให้สามารถระบุตำแหน่งช่องโหว่ได้อย่างแม่นยำที่จุดเหมาะสมระหว่างระดับฟังก์ชันกับระดับบรรทัด และยังเพิ่ม function coverage ภายใต้ข้อจำกัดด้านทรัพยากรผ่านการวิเคราะห์ฟังก์ชันเชิงลำดับชั้นบนฐานตรรกะร่วมกับกลยุทธ์ fuzzing แบบสองชั้น ยิ่งไปกว่านั้น ยังเสริมการให้เหตุผลเกี่ยวกับช่องโหว่ที่ซับซ้อนด้วยเครื่องมือวิเคราะห์แบบสถิตและไดนามิกที่อิง Model Context Protocol พร้อมทั้งการออกแบบคอนเท็กซ์อย่างประณีต ในชุดข้อมูล C/C++ ของการแข่งขันรอบชิง AIxCC 2025 นั้น FuzzingBrain V2 ทำอัตราการตรวจจับได้ 90% (ตรวจพบ 36 ช่องโหว่จากทั้งหมด 40 รายการ) และในสภาพแวดล้อมการใช้งานจริงยังค้นพบช่องโหว่ที่ไม่เคยมีการเปิดเผยมาก่อนรวม 41 รายการในโครงการโอเพนซอร์ส 12 โครงการ โดยในจำนวนนี้มี 26 รายการได้รับการยืนยัน 23 รายการได้รับการแก้ไข และมี 2 รายการได้รับการจัดสรร CVE identifier ผลลัพธ์เหล่านี้พิสูจน์อย่างชัดเจนว่าแนวทางแบบมัลติเอเจนต์ที่ผสานความสามารถในการวิเคราะห์เชิงอรรถศาสตร์เข้ากับการตรวจจับบนฐานการทำงานจริง ไม่ได้เป็นเพียงความสำเร็จเชิงวิชาการเท่านั้น แต่ยังสามารถยกระดับความปลอดภัยของซอฟต์แวร์สำหรับการใช้งานจริงได้โดยตรง

บทคัดย่อ(Abstract)

ช่องโหว่ของซอฟต์แวร์ก่อให้เกิดภัยคุกคามด้านความปลอดภัยอย่างร้ายแรง โดยในปี 2025 มีการรายงาน CVE เกือบ 50,000 รายการ แม้ Large Language Models (LLM) จะแสดงศักยภาพสำหรับการตรวจหาช่องโหว่อัตโนมัติ แต่ยังคงมีความท้าทายหลักอยู่ 3 ประการ ประการแรก รายงานช่องโหว่ที่ LLM สร้างขึ้นมีอัตรา false positive สูงและขาดการยืนยันที่ทำซ้ำได้ ประการที่สอง แนวทางที่อิง LLM ที่มีอยู่ใช้ระดับความละเอียดที่ไม่เหมาะสมต่อการระบุตำแหน่งของช่องโหว่ โดยการวิเคราะห์ระดับฟังก์ชันมักพลาดบั๊กเมื่อบริบทกว้างเกินไป ขณะที่การวิเคราะห์ระดับบรรทัดก็ให้บริบทไม่เพียงพอ ประการที่สาม แนวทางที่มีอยู่ประสบปัญหาในการให้เหตุผลเกี่ยวกับช่องโหว่ที่มีการพึ่งพาข้ามฟังก์ชันและเงื่อนไขการกระตุ้นที่ซับซ้อน เราขอนำเสนอ FuzzingBrain V2 ซึ่งเป็นระบบ multi-agent ที่เข้ามาอุดช่องว่างเหล่านี้ผ่าน 4 ส่วนสำคัญ ได้แก่: (1) การวิเคราะห์ช่องโหว่อัตโนมัติเต็มรูปแบบที่สร้างบน OSS-Fuzz ของ Google เพื่อให้มั่นใจว่าช่องโหว่ที่รายงานทั้งหมดสามารถทำซ้ำได้ด้วย fuzzer; (2) Suspicious Point ซึ่งเป็น abstraction แบบใหม่บนพื้นฐาน control flow สำหรับการระบุตำแหน่งช่องโหว่อย่างแม่นยำในระดับความละเอียดที่เหมาะสม; (3) การวิเคราะห์ฟังก์ชันแบบลำดับชั้นที่ขับเคลื่อนด้วยตรรกะ พร้อม dual-layer fuzzing เพื่อเพิ่ม function coverage ภายใต้ข้อจำกัดด้านทรัพยากร; (4) เครื่องมือวิเคราะห์แบบ static และ dynamic ที่อิง MCP พร้อม context engineering เพื่อเสริมความสามารถในการให้เหตุผลต่อช่องโหว่ที่ซับซ้อน ในชุดข้อมูล C/C++ ของการแข่งขันรอบสุดท้าย AIxCC 2025 นั้น FuzzingBrain V2 ทำอัตราการตรวจจับได้ 90% (ตรวจพบ 36 ช่องโหว่จาก 40 รายการ) ในการนำไปใช้งานจริง FuzzingBrain V2 ค้นพบช่องโหว่ zero-day จำนวน 29 รายการใน 12 โครงการโอเพนซอร์ส ซึ่งทั้งหมดได้รับการยืนยันและแก้ไขโดยผู้ดูแลแล้ว และมี 2 รายการที่ได้รับการกำหนด CVE ID

ช่องโหว่ของซอฟต์แวร์เป็นภัยคุกคามด้านความปลอดภัยที่สำคัญ โดยในปี 2025 มีการรายงาน CVE เกือบ 50,000 รายการ แม้ Large Language Models (LLMs) จะแสดงศักยภาพในการตรวจหาช่องโหว่อัตโนมัติ แต่ยังมีความท้าทายสำคัญอยู่ 3 ประการ ประการแรก รายงานช่องโหว่ที่ LLM สร้างขึ้นมีอัตรา false positive สูงและขาดการยืนยันที่ทำซ้ำได้ ประการที่สอง แนวทางที่อิง LLM ที่มีอยู่ใช้ระดับความละเอียดที่ไม่เหมาะสมสำหรับการระบุตำแหน่งช่องโหว่: การวิเคราะห์ระดับฟังก์ชันมองข้ามบั๊กเมื่อบริบทกว้างเกินไป ขณะที่การวิเคราะห์ระดับบรรทัดขาดบริบทที่เพียงพอ ประการที่สาม แนวทางที่มีอยู่มีความยากลำบากในการให้เหตุผลเกี่ยวกับช่องโหว่ที่มีการพึ่งพาข้ามฟังก์ชันและเงื่อนไขการกระตุ้นที่ซับซ้อน เราขอนำเสนอ FuzzingBrain V2 ซึ่งเป็นระบบ multi-agent ที่แก้ไขช่องว่างเหล่านี้ผ่าน 4 ส่วนสำคัญ: (1) การวิเคราะห์ช่องโหว่อัตโนมัติเต็มรูปแบบที่สร้างบน OSS-Fuzz ของ Google เพื่อให้มั่นใจว่าช่องโหว่ที่รายงานทั้งหมดสามารถทำซ้ำได้ด้วย fuzzer; (2) Suspicious Point ซึ่งเป็น abstraction แบบใหม่บนพื้นฐาน control flow สำหรับการระบุตำแหน่งช่องโหว่อย่างแม่นยำในระดับความละเอียดที่เหมาะสม; (3) การวิเคราะห์ฟังก์ชันแบบลำดับชั้นที่ขับเคลื่อนด้วยตรรกะ พร้อม dual-layer fuzzing ที่ช่วยเพิ่ม function coverage ภายใต้ข้อจำกัดด้านทรัพยากร; (4) เครื่องมือวิเคราะห์แบบ static และ dynamic ที่อิง MCP พร้อม context engineering ที่ช่วยเสริมการให้เหตุผลกับช่องโหว่ที่ซับซ้อน บนชุดข้อมูล C/C++ ของการแข่งขันรอบสุดท้าย AIxCC 2025 นั้น FuzzingBrain V2 ทำอัตราการตรวจจับได้ 90% (36 ช่องโหว่จาก 40 รายการ) ในการนำไปใช้งานจริง FuzzingBrain V2 ค้นพบช่องโหว่ zero-day จำนวน 29 รายการใน 12 โครงการโอเพนซอร์ส ซึ่งทั้งหมดได้รับการยืนยันและแก้ไขโดยผู้ดูแลแล้ว และมี 2 รายการที่ได้รับการกำหนด CVE ID

ลิงก์บทความวิจัย

https://arxiv.org/abs/2605.21779


⚠️โฆษณา⚠️: 🔥ชุมชนผู้ใช้ PyTorch เกาหลี🇰🇷ที่ได้เรียบเรียงบทความนี้ไว้ บทความนี้มีประโยชน์สำหรับคุณไหม? หากสมัครเป็นสมาชิก เราจะส่งบทความสำคัญให้ทางอีเมล💌! คุณยังสามารถรับการแจ้งเตือนบทความใหม่ผ่าน Telegram หรือ Slack/Discord/Teams/Dooray/GoogleChat เป็นต้น ได้เช่นกัน :D

2 ความคิดเห็น

 
lyh4215 5 일 전

ขอบคุณครับ!

 
ninebow 4 일 전

ขอบคุณที่อ่านและแสดงความคิดเห็นไว้ด้วยนะครับ!!! 🙇