PyTorchKR🔥🇰🇷 🤔💭

เมื่อพิจารณางานวิจัย 10 ฉบับที่คัดเลือกมาในสัปดาห์นี้ จะเห็นได้ชัดว่าการวิจัยปัญญาประดิษฐ์กำลังก้าวข้ามการปรับปรุงประสิทธิภาพของโมเดลเพียงอย่างเดียว ไปสู่ 3 แนวโน้มสำคัญ ได้แก่ การผลักขีดจำกัดด้านความเป็นอิสระ ความน่าเชื่อถือ และประสิทธิภาพ

1️⃣ วิวัฒนาการของการพัฒนาตนเองแบบอัตโนมัติและระบบมัลติเอเจนต์: งานวิจัยสัปดาห์นี้สะท้อนกระแสที่เอเจนต์กำลังพัฒนาไปสู่ระบบอัตโนมัติที่สามารถจัดระเบียบตนเองและปรับปรุงจุดอ่อนของตนได้ โดยก้าวข้ามการพึ่งพาคำสั่งที่ชัดเจนจากมนุษย์หรือเส้นทางการทำงานที่ตายตัว Economy of Minds และ AutoScientists นำเสนอระบบความร่วมมือแบบกระจายศูนย์ที่เอเจนต์แบ่งบทบาทกันเองอย่างสมัครใจและเดินหน้าการสำรวจระยะยาวผ่านปฏิสัมพันธ์เชิงเศรษฐกิจ เช่น การประมูล การสะสมทุน หรือผ่านฟอรัมร่วม โดยไม่ต้องมีการควบคุมจากศูนย์กลาง ขณะที่ Self-Harness เสนอเฟรมเวิร์กที่เอเจนต์วิเคราะห์รูปแบบความล้มเหลวในอดีตของตนเอง แล้วปรับ system prompt และนโยบายการปฏิบัติงาน (Harness) ซ้ำไปมาเพื่อยกระดับประสิทธิภาพด้วยตนเอง สิ่งนี้ชี้ให้เห็นว่า AI กำลังเปลี่ยนจากเครื่องมือเชิงรับที่ทำงานเป็นภารกิจเดี่ยว ไปสู่ตัวแสดงเชิงวิวัฒนาการที่สามารถวางแผนและทำงานร่วมกันในระยะยาวได้อย่างกระตือรือร้น

2️⃣ การตรวจสอบความสามารถของ AI อย่างเข้มงวดและการใช้งานเชิงเสริมกัน (ไฮบริด): อีกหนึ่งแนวโน้มหลักคืองานวิจัยเชิงไตร่ตรองที่ชี้ให้เห็นข้อจำกัดที่แท้จริงซึ่งซ่อนอยู่หลังประสิทธิภาพภายนอกของ AI และพยายามก้าวข้ามข้อจำกัดนั้นด้วยการผสาน AI เข้ากับมนุษย์หรืออัลกอริทึมแบบดั้งเดิม LiveBrowseComp ตั้งข้อสังเกตถึงจุดบอดที่เอเจนต์ค้นหามักเพียงตรวจยืนยันความรู้เดิมภายในโมเดล มากกว่าจะค้นพบข้อมูลใหม่จริง ๆ ส่วน งานวิจัย AI reviewer แสดงเชิงประจักษ์ว่า AI เก่งมากในการตรวจจับข้อผิดพลาดเชิงละเอียด แต่ยังอ่อนแอในการทำความเข้าใจบริบทระยะยาว จึงยังไม่อาจแทนผู้ประเมินที่เป็นมนุษย์ได้ทั้งหมด และควรทำหน้าที่เป็น “ตัวเสริม” มากกว่า นอกจากนี้ งานวิจัยการเพิ่มประสิทธิภาพไฮเปอร์พารามิเตอร์ (HPO) ยังยืนยันว่า LLM มีความสามารถในการติดตามสถานะด้อยกว่าอัลกอริทึมแบบดั้งเดิม และสามารถดึงประสิทธิภาพสูงสุดออกมาได้ผ่านแนวทางไฮบริดที่แชร์สถานะภายในของวิธีแบบดั้งเดิม (CMA-ES) กับ LLM แนวโน้มนี้สะท้อนความพยายามเชิงปฏิบัติที่จะระวัง benchmark ที่อาจดูเกินจริง มองจุดอ่อนของ AI อย่างชัดเจน และออกแบบโครงสร้างความร่วมมือที่มีประสิทธิผลที่สุด

3️⃣ การเพิ่มประสิทธิภาพข้อมูล สภาพแวดล้อม และทรัพยากรคำนวณอย่างชาญฉลาด: แทนที่จะขยายขนาดโมเดลเพียงอย่างเดียว แนวทางด้านโครงสร้างพื้นฐานที่มุ่งเพิ่มประสิทธิภาพของสภาพแวดล้อมการฝึก ข้อมูล และการคำนวณของฮาร์ดแวร์ให้สูงสุด เพื่อยกระดับความคุ้มค่าต่อประสิทธิภาพ กำลังได้รับความสนใจอย่างมาก AutoForge แก้ปัญหาความสามารถในการขยายการฝึกโดยสังเคราะห์สภาพแวดล้อมจำลองที่ซับซ้อนสำหรับการเรียนรู้แบบเสริมกำลังของเอเจนต์โดยอัตโนมัติ ขณะที่ APEX แสดงให้เห็นถึงประสิทธิภาพข้อมูลในระดับสูง ด้วยการจัดประเภทความยากของข้อมูลแบบไดนามิกและทุ่มการคำนวณเพื่อการเพิ่มประสิทธิภาพ prompt ไปยังข้อมูลที่มีปริมาณสารสนเทศสูงที่สุดเท่านั้น นอกจากนี้ FP8 is All You Need ยังใช้การคำนวณเทนเซอร์ความแม่นยำต่ำ 8 บิตเพื่อก้าวข้ามข้อจำกัดของการประมวลผลสมรรถนะสูง (HPC) ที่ยึดติดกับเลขทศนิยมความแม่นยำคู่ (FP64) ซึ่งมีต้นทุนสูง และ DySIB ก็พิสูจน์ประสิทธิภาพเชิงคณิตศาสตร์ในการดึงเฉพาะข้อมูลพลวัตที่เป็นแก่นสำคัญออกมาจากข้อมูลสังเกตมิติสูง ทั้งหมดนี้คือความพยายามอย่างเข้มข้นในการใช้ทรัพยากรที่มีจำกัดให้ชาญฉลาดที่สุด เพื่อขยายศักยภาพในการประยุกต์ใช้ระบบ AI ในภาคอุตสาหกรรมและวิทยาศาสตร์อย่างแท้จริง

สรุปประเด็นสำคัญของแต่ละงานวิจัย

  • Economy of Minds นำเสนอระบบแบบกระจายศูนย์ที่เอเจนต์วิวัฒนาการได้เองและก่อรูปเป็นปัญญารวมหมู่ระดับสูง เช่น การให้เหตุผลหลายขั้นตอน โดยอาศัยกฎปฏิสัมพันธ์เชิงเศรษฐกิจที่เอเจนต์ได้สิทธิ์ในการกระทำผ่านการประมูลและสะสมความมั่งคั่งจากรางวัลของสภาพแวดล้อม โดยไม่มีการควบคุมจากศูนย์กลาง

  • AutoForge นำเสนอไปป์ไลน์แบบบูรณาการในระดับสภาพแวดล้อม ซึ่งสามารถสังเคราะห์สภาพแวดล้อมจำลองที่ยากและตรวจสอบได้จำนวนมากโดยอัตโนมัติ เพื่อการเรียนรู้แบบเสริมกำลังของ language agent ขนาดใหญ่ และช่วยเพิ่มเสถียรภาพในการฝึกโดยก้าวข้ามความไม่เสถียรจากผู้ใช้และความแตกต่างระหว่างสภาพแวดล้อม

  • APEX ออกแบบวิธีการที่เลือกช่วงข้อมูลแบบผสมซึ่งมีทั้งคำตอบถูกและผิดอย่างไดนามิก เพื่อเพิ่มประสิทธิภาพการใช้ข้อมูลให้สูงสุดภายใต้งบประมาณการคำนวณที่จำกัด โดยมุ่งแก้ความไม่มีประสิทธิภาพของวิธีเดิมที่สิ้นเปลืองชุดข้อมูลประเมินทั้งหมดในการปรับ prompt ของ large language model

  • Self-Harness นำเสนอเฟรมเวิร์กที่เอเจนต์วิเคราะห์รูปแบบความล้มเหลวที่พบจากร่องรอยการทำงานในอดีตของตนเอง และปรับแก้นโยบายการปฏิบัติงานที่ทำหน้าที่เป็นตัวกลางระหว่างตัวเอเจนต์กับสภาพแวดล้อมได้อย่างอัตโนมัติ ผ่านการทดสอบถดถอย โดยไม่ต้องอาศัยผู้เชี่ยวชาญมนุษย์หรือโมเดลภายนอกที่ทรงพลังกว่า

  • งานวิจัย autoresearch เปิดเผยว่า large language model ยังไม่สามารถก้าวข้ามอัลกอริทึมแบบดั้งเดิมได้อย่างสมบูรณ์ในสภาพแวดล้อมการเพิ่มประสิทธิภาพไฮเปอร์พารามิเตอร์ เนื่องจากความยากในการติดตามสถานะอย่างชัดเจน และเสนอแนวทางไฮบริดที่แชร์สถานะภายในของ covariance matrix adaptation evolution strategy กับ language model จนบรรลุประสิทธิภาพสูงสุด

  • FP8 is All You Need โต้แย้งความเชื่อเดิมที่ว่าฮาร์ดแวร์เลขทศนิยมความแม่นยำคู่แบบเนทีฟเป็นสิ่งจำเป็นสำหรับการประมวลผลสมรรถนะสูง โดยพิสูจน์ว่าสามารถกู้คืนประสิทธิภาพการทำงานได้โดยไม่สูญเสียความแม่นยำ ผ่านการผสาน Chinese remainder theorem เข้ากับการคำนวณเทนเซอร์ความแม่นยำต่ำ 8 บิตเพื่อเพิ่ม throughput ของเทนเซอร์ให้สูงสุด

  • งานวิจัย AI reviewer วิเคราะห์อย่างเป็นชั้นเชิงว่า AI สามารถทำหน้าที่เป็นตัวเสริมที่ยอดเยี่ยม โดยชี้ปัญหาเฉพาะตัวที่มนุษย์มองข้ามได้ จากผลการที่ผู้เชี่ยวชาญเฉพาะทาง 45 คนร่วมกันใส่คำอธิบายประกอบและตรวจสอบบทความในเครือ Nature จำนวนมาก แต่ก็ยังมีข้อจำกัดเชิงโครงสร้าง เช่น การจัดการบริบทยาวและการขาดความรู้โดยนัยเฉพาะสาขา

  • LiveBrowseComp วินิจฉัยปรากฏการณ์ที่ search agent แบบเดิมพึ่งพาการยืนยันความรู้เดิมที่ฝังอยู่แล้ว แทนที่จะสำรวจข้อเท็จจริงใหม่จากเว็บภายนอก และได้นำเสนอ benchmark ใหม่สำหรับประเมินความสามารถ deep search ที่แท้จริงต่อข้อเท็จจริงที่เพิ่งเกิดขึ้น ซึ่งอยู่นอกขอบเขตความรู้ของโมเดลอย่างเข้มงวด

  • DySIB นำเสนอวิธีการเรียนรู้พิกัดเชิงเรขาคณิตของปริภูมิสถานะมิติต่ำที่ควบคุมพลวัตของระบบได้อย่างแม่นยำและตีความได้ จากข้อมูลสังเกต time series มิติสูง โดยเพิ่มข้อมูลร่วมเชิงพยากรณ์ระหว่างหน้าต่างการสังเกตในอดีตและอนาคตให้สูงสุด โดยไม่จำเป็นต้องสร้างภาพดิบกลับโดยตรง

  • AutoScientists สร้างระบบวิจัยอัตโนมัติที่ให้ทีมเอเจนต์แบบกระจายศูนย์สามารถหารือ จัดระเบียบ และจัดการวงจรซ้ำของการตั้งสมมติฐาน การรันการทดลอง การวิเคราะห์ผล และการปรับแก้ ในกระบวนการทดลองวิทยาศาสตร์เชิงคำนวณระยะยาว พร้อมทั้งเก็บรักษาความรู้จากการสำรวจที่ล้มเหลวและร่วมมือกันไปในทิศทางที่มีแนวโน้มดี


เศรษฐศาสตร์แห่งจิตใจ: ปัญญามัลติเอเจนต์แบบเกิดขึ้นเองผ่านปฏิสัมพันธ์เชิงเศรษฐกิจ / Economy of Minds: Emerging Multi-Agent Intelligence with Economic Interactions

แนะนำงานวิจัย

งานวิจัยนี้ศึกษาว่าเอเจนต์จำนวนมากจะวิวัฒนาการไปสู่ปัญญารวมหมู่ที่แข็งแกร่งยิ่งขึ้นได้อย่างไรโดยไม่ต้องมีการควบคุมแบบรวมศูนย์ และน่าสนใจเป็นพิเศษตรงที่เป็นความพยายามนำทฤษฎีการประสานงานของตลาดแบบกระจายของ Friedrich Hayek มาประยุกต์ใช้กับปัญญาประดิษฐ์แบบมัลติเอเจนต์ ผู้เขียนเสนอกรอบที่เรียกว่า agent economy ซึ่งออกแบบให้เอเจนต์ไม่ได้เพียงแค่ร่วมมือกัน แต่ยังต้องได้สิทธิ์ในการกระทำผ่านการประมูล (auction) จ่ายเงินให้กันและกัน และสะสมความมั่งคั่งจากรางวัลที่ได้รับจากสภาพแวดล้อม สัญญาณเชิงเศรษฐกิจเหล่านี้ทำให้เกิดการจัดสรรเครดิตตามผลงานแบบกระจายศูนย์ (decentralized credit assignment) ระหว่างเอเจนต์ได้ แม้จะไม่มี orchestration ระดับโลกหรือโปรโตคอลการสื่อสารแบบชัดเจนแยกต่างหาก และยังทำให้คุณค่าของแต่ละการกระทำเผยออกมาอย่างเป็นธรรมชาติ ผลที่ตามมาคือ แผนงานไม่ได้ถูกบังคับจากภายนอก แต่ก่อตัวขึ้นจากภายในระหว่างที่เอเจนต์แต่ละตัวทำตามแรงจูงใจเชิงเศรษฐกิจของตนเอง กล่าวอีกนัยหนึ่ง นี่คือแนวทางที่ไม่ได้พยายามออกแบบกลไกความร่วมมืออันซับซ้อนอย่างประณีต แต่ตั้งกฎของปฏิสัมพันธ์ให้ดีพอจนความคิดรวมหมู่สามารถเติบโตขึ้นได้เอง

อีกหนึ่งแกนหลักของบทความนี้คือระบบไม่ได้หยุดอยู่กับโครงสร้างคงที่ แต่พัฒนาอย่างต่อเนื่องผ่าน economic selection เอเจนต์ที่มีประสิทธิภาพจะสะสมความมั่งคั่งได้มากกว่า และได้รับโอกาสในการปรับปรุงที่เน้นการใช้ประโยชน์ (exploitation) ขณะที่เอเจนต์ที่มีผลงานต่ำจะสูญเสียทรัพยากรและถูกแทนที่ด้วยเอเจนต์ใหม่ เปิดเส้นทางให้กับการสำรวจ (exploration) การออกแบบที่ใช้ความมั่งคั่ง (wealth) เป็นตัวแปรสถานะเช่นนี้ จึงก่อให้เกิดกลไกวิวัฒนาการแบบกระจายศูนย์ที่เชื่อมแรงจูงใจเฉพาะจุดของเอเจนต์แต่ละตัว (local incentives) เข้ากับประสิทธิภาพรวมระยะยาวของกลุ่ม (long-term global performance) ได้ มากกว่าการเพิ่มประสิทธิภาพพารามิเตอร์แบบธรรมดา โดยเฉพาะอย่างยิ่ง แม้จะเริ่มจากเอเจนต์เริ่มต้นที่อ่อนแอ แต่ผ่านพลวัตทางเศรษฐกิจนี้ กลยุทธ์การกระทำที่ซับซ้อนยิ่งขึ้นก็สามารถค่อย ๆ ถูกสะสมและผสานเข้าด้วยกันได้ ผู้เขียนแสดงให้เห็นว่าพฤติกรรมระดับสูง เช่น การให้เหตุผลหลายขั้นตอน (multi-step reasoning) สามารถเกิดขึ้นได้เองในกระบวนการนี้ และอ้างว่าเอเจนต์สามารถพัฒนาจากนโยบายเชิงตอบสนองแบบง่าย ๆ ไปสู่กลยุทธ์ที่รวมทั้งการวางแผนและการตรวจสอบได้

ในเชิงการทดลอง งานนี้ตรวจสอบประสิทธิผลของระบบเศรษฐกิจดังกล่าวกับงานแบบเอเจนต์ 5 ประเภท ได้แก่ การให้เหตุผลทางคณิตศาสตร์ การวิจัยการเงิน การวิจัยวิทยาศาสตร์ การออกแบบตัวเร่ง (accelerator design) และการปรับแต่งระบบกระจาย (distributed-system optimization) ผลที่รายงานระบุว่าวิธีที่เสนอให้ประสิทธิภาพเหนือกว่าโมเดลเดี่ยวขนาดใหญ่แบบรวมศูนย์ (monolithic baseline) ที่แข็งแกร่งกว่า ซึ่งชี้ให้เห็นว่าการขยายสเกลของปัญญาแบบหลายเอเจนต์ไม่จำเป็นต้องพึ่งพาการประสานงานแบบรวมศูนย์เสมอไป แก่นสำคัญที่งานวิจัยนี้นำเสนอคือ แทนที่จะออกแบบการประสานงานโดยตรง เราควรออกแบบโครงสร้างแรงจูงใจที่ทำให้การประสานงานเกิดขึ้นเองตามธรรมชาติ กลไกเศรษฐศาสตร์อย่างง่าย เช่น การประมูล การชำระเงิน ความมั่งคั่ง การล้มละลาย และการทดแทน สามารถจัดระเบียบทั้งการแข่งขันและความร่วมมือไปพร้อมกัน และในกระบวนการนั้นก็อาจก่อให้เกิดกลยุทธ์การให้เหตุผลและการแก้ปัญหาที่ emergent และดีกว่าเดิมได้ นอกจากนี้ ผู้เขียนยังนำเสนอข้อเข้าใจเชิงทฤษฎีว่าพลวัตทางเศรษฐกิจหล่อหลอมพฤติกรรมของเอเจนต์อย่างไร เพื่อแสดงให้เห็นว่าปรากฏการณ์นี้ไม่ใช่เพียงผลเชิงประจักษ์ที่เกิดขึ้นโดยบังเอิญ แต่เป็นพื้นที่การออกแบบที่ตั้งอยู่บนหลักการ ท้ายที่สุด งานนี้อธิบายว่าโครงสร้างแรงจูงใจแบบกระจายสามารถขับเคลื่อนการเติบโตของปัญญารวมหมู่ได้อย่างไร และเสนอพาราไดม์ใหม่สำหรับการออกแบบปัญญาประดิษฐ์หลายเอเจนต์ในอนาคต

บทคัดย่อ(Abstract)

กลุ่มเอเจนต์จะสามารถประสานตนเองและปรับตัวเองจนพัฒนาเป็นปัญญารวมหมู่ที่แข็งแกร่งขึ้นได้อย่างไรโดยปราศจากการควบคุมแบบรวมศูนย์? โดยได้รับแรงบันดาลใจจากทฤษฎีเศรษฐศาสตร์ว่าด้วยการประสานงานแบบกระจายในตลาดของ Friedrich Hayek เราศึกษาคำถามนี้ผ่านเศรษฐกิจของเอเจนต์ ซึ่งเอเจนต์แข่งขันกันผ่านการประมูลเพื่อแย่งสิทธิ์ในการลงมือทำ แลกเปลี่ยนการชำระเงิน และสะสมความมั่งคั่งจากรางวัลของสภาพแวดล้อม สัญญาณทางเศรษฐกิจที่เรียบง่ายเหล่านี้ก่อให้เกิดการจัดสรรเครดิตแบบกระจาย และขับเคลื่อนการวางแผนได้โดยไม่ต้องมีการประสานงานระดับโลกหรือโปรโตคอลการสื่อสารแบบชัดแจ้ง ประชากรของเอเจนต์วิวัฒน์ผ่านการคัดเลือกเชิงเศรษฐกิจ โดยเอเจนต์ที่มีประสิทธิภาพจะสะสมความมั่งคั่งและถูกกลายพันธุ์ผ่านการใช้ประโยชน์ (exploitation) ขณะที่เอเจนต์ที่ไม่มีประสิทธิภาพจะล้มละลายและถูกแทนที่ผ่านการสำรวจ (exploration) เราแสดงให้เห็นว่าแม้เริ่มต้นจากเอเจนต์ที่อ่อนแอ เศรษฐกิจนี้ก็สามารถสร้างกลยุทธ์การให้เหตุผลหลายขั้นตอนที่เกิดขึ้นเอง และทำผลงานเหนือกว่าค่าอ้างอิงแบบเดี่ยวที่แข็งแกร่งกว่าในงานแบบเอเจนต์ 5 ประเภท ได้แก่ การให้เหตุผลทางคณิตศาสตร์ การวิจัยการเงิน การวิจัยวิทยาศาสตร์ การออกแบบตัวเร่ง และการปรับแต่งระบบกระจาย นอกจากนี้ เรายังนำเสนอข้อเข้าใจเชิงทฤษฎีว่าพลวัตทางเศรษฐกิจหล่อหลอมพฤติกรรมของเอเจนต์อย่างไร โดยเชื่อมโยงแรงจูงใจระดับเฉพาะที่เข้ากับประสิทธิภาพระดับโลกในระยะยาว ผลลัพธ์ของเราชี้ให้เห็นเส้นทางใหม่สู่ปัญญาหลายเอเจนต์ กล่าวคือ แทนที่จะวิศวกรรมการประสานงานโดยตรง เราสามารถออกแบบโครงสร้างแรงจูงใจแบบกระจายที่ทำให้การประสานงานนั้นเกิดขึ้นเองโดยอัตโนมัติได้

How can a population of agents self-orchestrate and self-adapt into stronger collective intelligence without centralized control? Inspired by Friedrich Hayek's economic theory of decentralized coordination in markets, we study this question through an agent economy in which agents compete via auctions for the right to act, exchange payments, and accumulate wealth from environmental rewards. These simple economic signals induce decentralized credit assignment, driving planning without global orchestration or explicit communication protocols. The population evolves through economic selection: effective agents accumulate wealth and are mutated via exploitation, while ineffective ones go bankrupt and are replaced via exploration. We show that, initialized with weak agents, the economy produces emergent multi-step reasoning strategies and outperforms stronger monolithic baselines across five agentic tasks, including mathematical reasoning, financial research, scientific research, accelerator design, and distributed-system optimization. We further provide theoretical insights into how economic dynamics shape agent behaviors, linking local incentives to long-term global performance. Our results suggest a new path to multi-agent intelligence: rather than engineering coordination, we can design decentralized incentive structures under which it automatically emerges.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2606.02859

อ่านเพิ่มเติม

https://zhentingqi.github.io/internal/projects/EoM/

https://github.com/zhentingqi/EoM


AutoForge: การสังเคราะห์สภาพแวดล้อมอัตโนมัติสำหรับการเสริมกำลังเรียนรู้ของเอเจนต์ / AutoForge: Automated Environment Synthesis for Agentic Reinforcement Learning

แนะนำบทความวิจัย

หากต้องการฝึกเอเจนต์ที่อิงภาษาขนาดใหญ่ให้ใกล้เคียงกับโลกจริง จำเป็นต้องมีทั้งวิธีการผลิตสภาพแวดล้อมจำลองจำนวนมากอย่างมีเสถียรภาพในต้นทุนต่ำแต่มีความซับซ้อนเพียงพอ และกระบวนการเรียนรู้ที่ทนทานต่อสัญญาณรบกวนจากปฏิสัมพันธ์ที่เกิดขึ้นภายในสภาพแวดล้อมนั้น AutoForge เสนอทั้งไปป์ไลน์แบบบูรณาการสำหรับการสังเคราะห์สภาพแวดล้อมจำลองโดยอัตโนมัติที่เชื่อมโยงกับงานยากระดับสูงแต่ตรวจสอบได้ง่าย (high-difficulty but easily verifiable tasks) และอัลกอริทึมการเสริมกำลังเรียนรู้ระดับสภาพแวดล้อม (reinforcement learning, RL) ที่ออกแบบให้เหมาะกับคุณลักษณะของสภาพแวดล้อมดังกล่าว แนวคิดหลักคือมองสภาพแวดล้อมไม่ใช่เป็นเพียงชุดของพรอมต์ แต่เป็นระบบที่รันได้ซึ่งประกอบด้วยโครงสร้างสถานะและชุดของฟังก์ชันปฏิบัติการ และสร้างสภาพแวดล้อมเหล่านี้ในระดับขนาดใหญ่จากเอกสารอธิบายเครื่องมือ โดยเฉพาะในขั้นตอนสร้างโครงสร้างสถานะ ได้แยกชื่อแอตทริบิวต์ออกจากค่าจริง และในขั้นตอนสร้างชุดฟังก์ชัน ได้สังเคราะห์โค้ด Python ที่อิงกับโครงสร้างสถานะโดยอัตโนมัติ ทำให้สามารถวางงานที่หลากหลายลงบนสคีมาสภาพแวดล้อมที่นำกลับมาใช้ซ้ำได้อย่างสม่ำเสมอ

จากนั้น ในขั้นตอนสร้างลำดับเครื่องมือ ระบบไม่ได้เพียงเรียงรายการเครื่องมือแบบตรงไปตรงมา แต่สร้างกราฟไม่มีวงจรแบบมีทิศทาง (directed acyclic graph, DAG) ที่มีทั้งการเรียกใช้เครื่องมือและการให้เหตุผลระดับสูงผูกพันกัน ผ่าน random walk บนกราฟ การผสานลำดับ การแทรกโหนดการให้เหตุผล และการแทรกขอบการให้เหตุผล กระบวนการนี้มีเป้าหมายเพื่อสร้างงานที่ต้องอาศัยความพึ่งพาที่ซับซ้อนกว่างานแบบค้นคืนข้อมูลเพียงครั้งเดียวอย่างมาก และให้ระดับความยากที่ใกล้เคียงกับสถานการณ์ที่เอเจนต์จริงต้องเรียกใช้เครื่องมือ ตีความผลลัพธ์ และตัดสินใจการกระทำถัดไปมากกว่า กราฟที่สร้างขึ้นจะถูกส่งต่อไปยังขั้นตอนสร้างงานอีกครั้ง เพื่อปรับแต่งให้เป็นตัวอย่างการเรียนรู้ที่ตรวจสอบได้ซึ่งมีทั้งสถานะเริ่มต้นและสถานะสุดท้าย โดยความถูกต้องไม่ได้ตัดสินจากการตรงกันของเส้นทางเครื่องมือเฉพาะเส้นทางหนึ่ง แต่ตัดสินจากการตรงกันของสถานะสุดท้ายแทน จุดนี้สะท้อนคุณลักษณะของสภาพแวดล้อมเอเจนต์ที่สามารถบรรลุเป้าหมายเดียวกันได้ผ่านหลายเส้นทาง และมีความสำคัญตรงที่จัดแนวทั้งการสร้างข้อมูลและเกณฑ์การประเมินให้ยึดสถานะเป็นศูนย์กลาง

อัลกอริทึมการเรียนรู้ ERPO ขยายจาก GRPO เดิม เพื่อให้สามารถจัดการทั้งความไม่เสถียรของผู้ใช้จำลอง (simulated user) และความแตกต่างกันระหว่างสภาพแวดล้อมได้พร้อมกัน เอเจนต์จะทำ rollout โดยสลับกันระหว่างการเรียกใช้เครื่องมือและการขอข้อมูลจากผู้ใช้ และในกระบวนการนี้จะใช้ interleaved thinking เพื่อคงเนื้อหาการให้เหตุผลก่อนหน้าไว้ พร้อมเดินหน้าวางแผนระยะยาวและปรับแผนต่อเนื่อง นอกจากนี้ ยังใช้กลยุทธ์ masking erroneous user behaviors (MEU) เพื่อระบุพฤติกรรมผู้ใช้ที่ผิดพลาดล่วงหน้าและตัดออกจากสัญญาณการเรียนรู้ ช่วยลดปัญหาที่ความผิดพลาดของผู้ใช้สังเคราะห์ไปรบกวนการประมาณรางวัลและการอัปเดตนโยบาย สิ่งที่สำคัญที่สุดคือการประมาณค่า advantage ระดับสภาพแวดล้อม ซึ่งคำนวณ advantage โดยทำ normalization ของรางวัลภายในสภาพแวดล้อมเดียวกัน แทนที่จะทำกับชุดคำถามเดียวกัน จึงไวต่อความแตกต่างด้านความยากและ outlier ระหว่างสภาพแวดล้อมต่าง ๆ น้อยกว่า และทำให้การฝึกมีเสถียรภาพสูงขึ้น

ท้ายที่สุดแล้ว การออกแบบนี้สามารถมองได้ว่าเป็นความพยายามในการรวมสามชั้นของการสร้างสภาพแวดล้อม ขั้นตอนปฏิสัมพันธ์ และการประมาณรางวัล เข้าเป็นกรอบงานเดียวที่สอดคล้องกัน เพื่อให้ agentic reinforcement learning ได้ทั้งความสามารถในการขยายขนาด เสถียรภาพ และความสามารถในการทำให้ทั่วไปพร้อมกัน การตรวจสอบบน tau-bench, tau2-Bench และ VitaBench รวมถึงการวิเคราะห์การทำให้ทั่วไปนอกโดเมน บ่งชี้ว่า AutoForge อาจทำหน้าที่เป็นโครงสร้างพื้นฐานสำหรับการฝึกเอเจนต์จริงได้ ไม่ได้เป็นเพียงเทคนิคสร้างข้อมูลสังเคราะห์เท่านั้น

บทคัดย่อ(Abstract)

การทำ reinforcement learning (RL) ในสภาพแวดล้อมจำลองเป็นวิธีที่คุ้มค่าและขยายขนาดได้สูงมากในการยกระดับเอเจนต์ที่ใช้ภาษา อย่างไรก็ตาม งานก่อนหน้านี้ยังจำกัดอยู่ที่การสังเคราะห์สภาพแวดล้อมแบบกึ่งอัตโนมัติ หรือภารกิจที่มีระดับความยากไม่เพียงพอ ทำให้ขาดทั้งความกว้างและความลึก นอกจากนี้ ความไม่เสถียรของผู้ใช้จำลองที่ถูกรวมอยู่ในสภาพแวดล้อมเหล่านี้ รวมถึงความแตกต่างกันระหว่างสภาพแวดล้อมจำลอง ยังสร้างความท้าทายเพิ่มเติมให้กับ agentic RL ในงานนี้ เราเสนอ (1) pipeline แบบบูรณาการสำหรับการสังเคราะห์สภาพแวดล้อมจำลองที่เชื่อมโยงกับภารกิจที่มีความยากสูงแต่ตรวจสอบได้ง่าย อย่างเป็นอัตโนมัติและขยายขนาดได้ และ (2) อัลกอริทึม RL ระดับสภาพแวดล้อมที่ไม่เพียงบรรเทาความไม่เสถียรของผู้ใช้ได้อย่างมีประสิทธิภาพ แต่ยังทำ advantage estimation ที่ระดับสภาพแวดล้อมด้วย จึงช่วยเพิ่มทั้งประสิทธิภาพและเสถียรภาพของการฝึก การประเมินอย่างครอบคลุมบน agentic benchmarks ซึ่งรวมถึง tau-bench, tau2-Bench และ VitaBench ยืนยันประสิทธิผลของวิธีที่เราเสนอ การวิเคราะห์เชิงลึกเพิ่มเติมยังตอกย้ำถึงความสามารถในการทำให้ทั่วไปนอกโดเมน

Conducting reinforcement learning (RL) in simulated environments offers a cost-effective and highly scalable way to enhance language-based agents. However, previous work has been limited to semi-automated environment synthesis or tasks lacking sufficient difficulty, offering little breadth or depth. In addition, the instability of simulated users integrated into these environments, along with the heterogeneity across simulated environments, poses further challenges for agentic RL. In this work, we propose: (1) a unified pipeline for automated and scalable synthesis of simulated environments associated with high-difficulty but easily verifiable tasks; and (2) an environment level RL algorithm that not only effectively mitigates user instability but also performs advantage estimation at the environment level, thereby improving training efficiency and stability. Comprehensive evaluations on agentic benchmarks, including tau-bench, tau2-Bench, and VitaBench, validate the effectiveness of our proposed method. Further in-depth analyses underscore its out-of-domain generalization.

ลิงก์งานวิจัย

https://arxiv.org/abs/2512.22857


APEX: ผู้เชี่ยวชาญด้านการทำ prompt engineering อัตโนมัติด้วยการเลือกข้อมูลแบบไดนามิก / APEX: Automated Prompt Engineering eXpert with Dynamic Data Selection

แนะนำงานวิจัย

เนื่องจากโมเดลภาษาขนาดใหญ่ (Large Language Models, LLMs) ไวต่อรูปแบบการเขียนพรอมป์ต์อย่างมาก การทำ automatic prompt optimization จึงเป็นโจทย์สำคัญในการดึงศักยภาพของมันออกมาให้เต็มที่ แนวทางเดิมที่อิง evolutionary algorithms มีจุดแข็งในการค่อย ๆ ปรับเปลี่ยนพรอมป์ต์ แต่ก็เผยข้อจำกัดว่ามักใช้ชุดข้อมูลสำหรับพัฒนาซ้ำ ๆ เสมือนเป็นทรัพยากรประเมินผลแบบคงที่ ส่งผลให้สิ้นเปลืองงบประมาณการคำนวณอย่างไม่มีประสิทธิภาพ APEX (Automatic Prompt Engineering eXpert) เสนอกรอบแนวคิดใหม่เพื่อแก้คอขวดนี้ โดยเพิ่มประสิทธิภาพทั้งการสำรวจพรอมป์ต์และการใช้ข้อมูลไปพร้อมกัน หัวใจของวิธีนี้คือกลยุทธ์การจัดโครงสร้างชุดข้อมูลใหม่แบบไดนามิกตาม optimization lineage ออกเป็นสามชั้น ได้แก่ Easy, Hard และ Mixed โดยเฉพาะชั้น Mixed ซึ่งมีทั้งคำตอบที่โมเดลตอบถูกและตอบผิดร่วมกัน จะถูกมองว่าเป็นช่วงที่มีข้อมูลมากที่สุด มุมมองนี้ชี้ให้เห็นอย่างชัดเจนว่า สิ่งที่สำคัญกว่าการดูตัวอย่างจำนวนมาก คือการระบุให้ได้ว่าตัวอย่างใดให้สัญญาณที่มีความหมายต่อการปรับปรุงพรอมป์ต์จริง ๆ

APEX สกัด frontier ที่มีมูลค่าสูงสองแบบจากชั้น Mixed แบบแรกคือ addressable frontier ซึ่งเหมาะต่อการสร้างการกลายพันธุ์ที่ให้ข้อมูล และอีกแบบคือ rank-sensitive frontier ซึ่งไวต่อการแยกแยะความเหนือกว่าหรือด้อยกว่าของพรอมป์ต์ผู้สมัคร แบบแรกให้ทิศทางสำหรับการแก้ไขพรอมป์ต์ ส่วนแบบหลังช่วยตัดสินได้ว่าการดัดแปลงแบบใดนำไปสู่ประสิทธิภาพที่ดีกว่าจริง ดังนั้น frontier ทั้งสองจึงเสริมบทบาทกันระหว่างการสำรวจกับการประเมิน โดยเฉพาะอย่างยิ่ง โครงสร้างนี้ต่างจากวิธีเดิมที่จัดการกับทั้งชุดข้อมูลแบบเหมารวม เพราะมันมุ่งรวมการคำนวณไปที่ตัวอย่างที่มีความหมายที่สุดในขั้นตอนการเพิ่มประสิทธิภาพปัจจุบัน จึงยกระดับประสิทธิภาพการใช้ข้อมูลได้อย่างมาก กล่าวอีกนัยหนึ่ง APEX ไม่ได้เปลี่ยนพรอมป์ต์จำนวนมากแบบไร้ทิศทาง แต่เลือกโจมตีจุดที่พฤติกรรมของโมเดลไม่เสถียรที่สุด และจึงอัดแน่นด้วยข้อมูลมากที่สุดอย่างมีกลยุทธ์ การออกแบบนี้นิยามการเพิ่มประสิทธิภาพพรอมป์ต์ใหม่ ไม่ใช่เป็นเพียงปัญหาการสร้าง แต่เป็นปัญหาการสำรวจเชิงปรับตัวที่ผสานทั้งการเลือกข้อมูลและการเปรียบเทียบผู้สมัครเข้าด้วยกัน

ในเชิงทดลอง APEX ได้รับการตรวจสอบบนสาม benchmark ที่มีลักษณะแตกต่างกัน ได้แก่ IFBench, SimpleQA Verified และ FACTS Grounding และยังแสดงการปรับปรุงที่เสถียรภายใต้เงื่อนไขงบประมาณคงที่ที่ประเมินได้ 5,000 ครั้ง ผลลัพธ์คือ เมื่อเทียบกับพรอมป์ต์ตั้งต้น APEX ช่วยเพิ่มประสิทธิภาพเฉลี่ย 11.2% บน Gemini 2.5 Flash และเฉลี่ย 6.8% บน Gemma 3 27B พิสูจน์ให้เห็นว่าแนวทางที่ยึดข้อมูลเป็นศูนย์กลางมีความสำคัญเพียงใดต่อการเพิ่มประสิทธิภาพพรอมป์ต์ที่ทั้งมีประสิทธิผลและทรงพลัง ความสำเร็จนี้มีความหมายตรงที่ APEX ไม่ได้เพียงยกระดับอัลกอริทึมการสำรวจเท่านั้น แต่ยังแสดงเชิงประจักษ์ว่าความสำเร็จหรือล้มเหลวของ prompt engineering ขึ้นอยู่กับการเลือกข้อมูลใด เมื่อใด และอย่างไร ในท้ายที่สุด งานวิจัยนี้ได้ย้ายแก่นสำคัญของการทำ automatic prompt optimization จาก “การประเมินให้มากขึ้น” ไปสู่ “การใช้ข้อมูลอย่างชาญฉลาดขึ้น” และนำเสนอวิธีวิทยาที่ใช้งานได้จริงและทำให้ทั่วไปได้ สำหรับการบรรลุประสิทธิภาพที่สูงขึ้นภายใต้ทรัพยากรการคำนวณที่จำกัด

บทคัดย่อ(Abstract)

โมเดลภาษาขนาดใหญ่ (LLM) มีความไวต่อการจัดรูปแบบพรอมป์ต์อย่างมาก จึงจำเป็นต้องมีการปรับแต่งพรอมป์ต์อัตโนมัติเพื่อดึงศักยภาพออกมาให้ได้สูงสุด แม้อัลกอริทึมเชิงวิวัฒนาการจะกลายเป็นแนวทางหลัก แต่ก็ยังติดคอขวดสำคัญคือประสิทธิภาพด้านข้อมูล วิธีการในปัจจุบันมองชุดข้อมูลสำหรับการพัฒนาเป็นเบนช์มาร์กแบบคงที่ ทำให้สิ้นเปลืองงบประมาณการคำนวณจำนวนมากไปกับข้อมูลที่ให้สารสนเทศต่ำ งานวิจัยนี้นำเสนอ APEX (Automatic Prompt Engineering eXpert) ซึ่งเป็นเฟรมเวิร์กใหม่ที่ปรับการใช้ข้อมูลให้เหมาะสมไปพร้อมกับการค้นหาพรอมป์ต์ APEX จัดแบ่งชุดข้อมูลแบบไดนามิกเป็นชั้น Easy, Hard และ Mixed โดยอิงจากสายวิวัฒนาการของการปรับแต่ง ด้วยการให้ความสำคัญกับชั้น Mixed ซึ่งช่วยระบุข้อมูลที่ LLM ทำผลงานได้ไม่สม่ำเสมอ เราจึงค้นพบชุดย่อยที่ให้ผลคุ้มค่าสูง 2 ชุด ได้แก่ addressable frontier สำหรับสร้างการกลายพันธุ์ที่ให้ข้อมูล และ rank-sensitive frontier สำหรับแยกคุณภาพของตัวเลือกผู้สมัคร เราประเมิน APEX บนเบนช์มาร์กที่หลากหลาย 3 รายการ ได้แก่ IFBench, SimpleQA Verified และ FACTS Grounding ภายใต้งบประมาณคงที่ที่ 5,000 ครั้งของการเรียกประเมินผล APEX ทำผลงานได้ดีกว่าพรอมป์ต์ตั้งต้นเฉลี่ย 11.2% บน Gemini 2.5 Flash และ 6.8% บน Gemma 3 27B ด้วยประสิทธิภาพด้านข้อมูลที่เหนือกว่า แสดงให้เห็นว่าแนวทางที่ยึดข้อมูลเป็นศูนย์กลางคือหัวใจสำคัญของการปรับแต่งพรอมป์ต์ที่ทั้งมีประสิทธิภาพและได้ผล

Large Language Models are highly sensitive to prompt formulation, necessitating automatic prompt optimization to unlock their full potential. While evolutionary algorithms have emerged as the dominant paradigm, they suffer from a critical bottleneck: data efficiency. Current methods treat the development dataset as a static benchmark, wasting significant compute budget on uninformative data. In this work, we introduce APEX (Automatic Prompt Engineering eXpert), a novel framework that optimizes the data usage alongside the prompt search. APEX dynamically stratifies the dataset into Easy, Hard, and Mixed tiers based on the optimization lineage. By prioritizing the Mixed tier, which identifies the data where the LLM has mixed performance, we identify two high-leverage subsets: the addressable frontier for generating informative mutations and the rank-sensitive frontier for distinguishing candidate quality. We evaluate APEX across three diverse benchmarks: IFBench, SimpleQA Verified, and FACTS Grounding. Under a fixed budget of 5,000 evaluation calls, due to its data efficiency, APEX outperforms the initial prompt by an average of 11.2% on Gemini 2.5 Flash and 6.8% on Gemma 3 27B, demonstrating that a data-centric approach is key to efficient and effective prompt optimization.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2606.11459


Self-Harness: ฮาร์เนสที่พัฒนาตัวเองได้ / Self-Harness: Harnesses That Improve Themselves

แนะนำบทความวิจัย

ประสิทธิภาพของเอเจนต์ที่อิงกับโมเดลภาษาขนาดใหญ่ (Large Language Model, LLM) ไม่ได้ถูกกำหนดโดยความสามารถในการให้เหตุผลของโมเดลพื้นฐานเพียงอย่างเดียว แต่ยังขึ้นอยู่กับการออกแบบฮาร์เนส (harness) ที่ทำหน้าที่เป็นตัวกลางในการโต้ตอบกับสภาพแวดล้อมอย่างมาก ฮาร์เนสคือชั้นปฏิบัติการที่ครอบคลุมตั้งแต่ system prompt วิธีการใช้เครื่องมือ ขั้นตอนการตรวจสอบ ไปจนถึงนโยบายการกู้คืนเมื่อเกิดความล้มเหลว ดังนั้นแม้จะเป็นโมเดลเดียวกัน แต่หากใช้ฮาร์เนสต่างกันก็อาจแสดงพฤติกรรมที่แตกต่างกันอย่างสิ้นเชิง ผู้เขียนให้ความสำคัญกับประเด็นนี้ โดยตั้งคำถามว่าฮาร์เนสไม่ควรเป็นทรัพยากรคงที่ที่ผู้เชี่ยวชาญมนุษย์ออกแบบด้วยตนเองเท่านั้นอีกต่อไป แต่ควรสามารถพัฒนาตัวเองได้จากรูปแบบความล้มเหลวที่เกิดขึ้นจริงของโมเดล จากมุมมองนี้ Self-Harness ที่นำเสนอจึงแสดงพาราไดม์ใหม่ ซึ่งเอเจนต์ที่อิง LLM สามารถปรับปรุงฮาร์เนสในการปฏิบัติงานของตนเองได้อย่างต่อเนื่องโดยไม่ต้องพึ่งเอเจนต์ภายนอกที่แข็งแกร่งกว่าหรือวิศวกรมนุษย์

วิธีการหลักของ Self-Harness อยู่ในลูปการทำซ้ำที่ประกอบด้วยการค้นหาจุดอ่อน (Weakness Mining), การเสนอฮาร์เนส (Harness Proposal) และการตรวจสอบข้อเสนอ (Proposal Validation) ขั้นแรก ระบบจะค้นหารูปแบบความล้มเหลวเฉพาะของแต่ละโมเดลจาก execution traces เพื่อวินิจฉัยอย่างเป็นโครงสร้างว่าพฤติกรรมใดที่บั่นทอนประสิทธิภาพซ้ำ ๆ จากนั้นจะสร้างข้อเสนอการแก้ไขฮาร์เนสขั้นต่ำที่เชื่อมโยงโดยตรงกับจุดอ่อนนั้นอย่างหลากหลาย โดยมุ่งไปที่การแก้ไขเฉพาะจุดในระดับที่ขัดเกลานโยบายการปฏิบัติงานจริงให้ละเอียดขึ้น มากกว่าการเปลี่ยนแปลงขนาดใหญ่เกินไป สุดท้าย ระบบจะรับข้อเสนอนั้นก็ต่อเมื่อผ่าน regression testing แล้วเท่านั้น เพื่อยืนยันว่าการแก้ไขที่เป็นตัวเลือกจะไม่ทำลายประสิทธิภาพเดิม จึงก่อให้เกิดระบบการปรับปรุงที่ปลอดภัยและสะสมต่อยอดได้ ไม่ใช่เพียงการปรับแต่งพรอมป์ต์แบบง่าย ๆ การออกแบบนี้คือการทำให้แนวคิดที่ว่าฮาร์เนสไม่เพียงสั่งพฤติกรรมของโมเดล แต่ยังสามารถเรียนรู้ย้อนกลับจากความล้มเหลวของโมเดลได้ด้วย เกิดขึ้นจริงในเชิงเทคนิค

งานวิจัยนี้ตรวจสอบเฟรมเวิร์กดังกล่าวในสภาพแวดล้อม Terminal-Bench-2.0 โดยเริ่มต้นจากฮาร์เนสที่เรียบง่ายมาก และนำไปใช้กับโมเดลพื้นฐาน 3 รุ่นจากคนละตระกูล ได้แก่ MiniMax M2.5, Qwen3.5-35B-A3B และ GLM-5 ผลการทดลองพบว่าอัตราการผ่านชุดทดสอบ holdout เพิ่มขึ้นจาก 40.5% เป็น 61.9%, จาก 23.8% เป็น 38.1% และจาก 42.9% เป็น 57.1% ตามลำดับ แสดงให้เห็นว่า Self-Harness สามารถสร้างผลการปรับปรุงได้อย่างสม่ำเสมอโดยไม่ขึ้นกับชนิดของโมเดล โดยเฉพาะในการวิเคราะห์เชิงคุณภาพ พบว่าการปรับปรุงไม่ได้เป็นเพียงการเติมคำสั่งเชิงทั่วไปเข้าไปเท่านั้น แต่เป็นกระบวนการแปลงจุดอ่อนของแต่ละโมเดลให้กลายเป็นการเปลี่ยนแปลงฮาร์เนสที่เฉพาะเจาะจงและนำไปใช้ได้จริง สิ่งนี้ชี้ชัดว่าคอขวดของการยกระดับประสิทธิภาพเอเจนต์ไม่ได้อยู่เพียงภายในพารามิเตอร์ของโมเดลเท่านั้น และแม้เพียงการทำให้นโยบายการปฏิบัติงานเรียนรู้ได้อย่างละเอียดขึ้น ก็สามารถนำไปสู่การปรับปรุงประสิทธิภาพอย่างมีนัยสำคัญได้ สุดท้ายแล้ว Self-Harness จึงนำเสนอทิศทางการวิจัยใหม่ที่ชี้ว่าเอเจนต์ที่อิง LLM ไม่ได้ถูกหล่อหลอมโดยฮาร์เนสเท่านั้น แต่ยังสามารถกลับมาหล่อหลอมฮาร์เนสได้อีกด้วย

บทคัดย่อ (Abstract)

ประสิทธิภาพของเอเจนต์ที่ขับเคลื่อนด้วย LLM ถูกกำหนดร่วมกันโดยทั้งโมเดลพื้นฐานและฮาร์เนส (harness) ที่ทำหน้าที่เป็นตัวกลางในการโต้ตอบกับสภาพแวดล้อม เนื่องจากแต่ละโมเดลแสดงพฤติกรรมที่แตกต่างกัน การออกแบบฮาร์เนสที่มีประสิทธิภาพจึงหลีกเลี่ยงไม่ได้ที่จะต้องปรับให้เหมาะกับแต่ละโมเดลโดยเฉพาะ อย่างไรก็ตาม ฮาร์เนสของเอเจนต์ในปัจจุบันก็ยังคงถูกออกแบบโดยผู้เชี่ยวชาญมนุษย์เป็นส่วนใหญ่ ซึ่งเป็นแนวทางที่ขยายต่อได้ยากเมื่อ LLM สมัยใหม่มีความหลากหลายมากขึ้นและพัฒนาอย่างรวดเร็ว งานวิจัยนี้นำเสนอ Self-Harness ซึ่งเป็นกระบวนทัศน์ใหม่ที่เอเจนต์ที่ขับเคลื่อนด้วย LLM สามารถปรับปรุงฮาร์เนสสำหรับการทำงานของตนเองได้ โดยไม่ต้องพึ่งวิศวกรมนุษย์หรือเอเจนต์ภายนอกที่ทรงพลังกว่า เรานำ Self-Harness มาทำให้ใช้งานได้จริงในรูปแบบลูปวนซ้ำ 3 ขั้นตอน ได้แก่ Weakness Mining ซึ่งระบุรูปแบบความล้มเหลวเฉพาะของแต่ละโมเดลจาก execution trace, Harness Proposal ซึ่งสร้างข้อเสนอการปรับแก้ฮาร์เนสที่หลากหลายแต่มีการเปลี่ยนแปลงน้อยที่สุดและเชื่อมโยงกับความล้มเหลวเหล่านั้น, และ Proposal Validation ซึ่งจะยอมรับการแก้ไขที่เป็นตัวเลือกก็ต่อเมื่อผ่าน regression testing เท่านั้น เราใช้ Self-Harness กับ Terminal-Bench-2.0 โดยเริ่มจากฮาร์เนสตั้งต้นที่เรียบง่ายและโมเดลพื้นฐาน 3 รุ่นจากตระกูลที่ต่างกัน ได้แก่ MiniMax M2.5, Qwen3.5-35B-A3B และ GLM-5 ในทั้งสามโมเดล Self-Harness ช่วยเพิ่มประสิทธิภาพได้อย่างสม่ำเสมอ โดยอัตราการผ่านบนชุด holdout เพิ่มขึ้นจาก 40.5% เป็น 61.9%, จาก 23.8% เป็น 38.1% และจาก 42.9% เป็น 57.1% ตามลำดับ การวิเคราะห์เชิงคุณภาพยังแสดงให้เห็นด้วยว่า Self-Harness ไม่ได้เพียงเพิ่มคำสั่งทั่วไปเข้าไปเท่านั้น แต่ยังสามารถแปลงจุดอ่อนเฉพาะของแต่ละโมเดลให้กลายเป็นการเปลี่ยนแปลงฮาร์เนสที่เป็นรูปธรรมและนำไปปฏิบัติได้อย่างมีประสิทธิภาพ ผลลัพธ์เหล่านี้ชี้ให้เห็นถึงแนวทางสู่เอเจนต์ที่ขับเคลื่อนด้วย LLM ซึ่งไม่ได้เป็นเพียงสิ่งที่ถูกกำหนดโดยฮาร์เนสเท่านั้น แต่ยังสามารถมีส่วนร่วมในการปรับโครงสร้างฮาร์เนสใหม่ได้ด้วย

The performance of LLM-based agents is jointly shaped by their base models and the harnesses that mediate their interaction with the environment. Because different models exhibit distinct behaviors, effective harness design is inherently model-specific. Yet agent harnesses are still largely engineered by human experts, a paradigm that scales poorly as modern LLMs become increasingly diverse and rapidly evolving. In this paper, we introduce Self-Harness, a new paradigm in which an LLM-based agent improves its own operating harness, without relying on human engineers or stronger external agents. We operationalize Self-Harness as an iterative loop with three stages: Weakness Mining, which identifies model-specific failure patterns from execution traces; Harness Proposal, which generates diverse yet minimal harness modifications tied to these failures; and Proposal Validation, which accepts candidate edits only after regression testing. We instantiate Self-Harness on Terminal-Bench-2.0 using a minimal initial harness and three base models from diverse families: MiniMax M2.5, Qwen3.5-35B-A3B, and GLM-5. Across all three models, Self-Harness consistently improves performance, with held-out pass rates increasing from 40.5% to 61.9%, 23.8% to 38.1%, and 42.9% to 57.1%, respectively. Qualitative analyses further show that Self-Harness does not simply add generic instructions, but effectively turns model-specific weaknesses into concrete, executable harness changes. These results suggest a path toward LLM-based agents that are not merely shaped by their harnesses, but can also participate in reshaping them.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2606.09498


โมเดลภาษาขนาดใหญ่ (LLM) สามารถเอาชนะอัลกอริทึมการหาค่าไฮเปอร์พารามิเตอร์ที่เหมาะสมแบบดั้งเดิมได้หรือไม่? งานวิจัยเกี่ยวกับ autoresearch / Can LLMs Beat Classical Hyperparameter Optimization Algorithms? A Study on autoresearch

แนะนำบทความวิจัย

งานวิจัยนี้ตรวจสอบว่าเอเจนต์ LLM สามารถก้าวข้ามอัลกอริทึมแบบดั้งเดิมได้หรือไม่ในสภาพแวดล้อมการหาค่าไฮเปอร์พารามิเตอร์ที่เหมาะสม (HPO) จริง โดยใช้ repository autoresearch เป็นสนามทดลองเพื่อสำรวจทั้งศักยภาพและข้อจำกัดของการเพิ่มประสิทธิภาพผ่านการแก้ไขโค้ดอย่างตรงไปตรงมา ในที่นี้เอเจนต์ไม่ได้มีหน้าที่เพียงเลือกไฮเปอร์พารามิเตอร์เชิงตัวเลขเท่านั้น แต่ต้องแก้ไขโค้ดการฝึกเองโดยตรงเพื่อปรับปรุงประสิทธิภาพของโมเดลภาษาขนาดเล็ก และมีเป้าหมายเพื่อลด validation bits-per-byte (val_bpb) ให้ต่ำที่สุดภายใต้งบประมาณการคำนวณที่กำหนดไว้ โดยเฉพาะอย่างยิ่ง ปัญหานี้ครอบคลุมพื้นที่โค้ดขนาดใหญ่ที่รวมทั้งสถาปัตยกรรม, optimizer, training loop และขนาดโมเดล จึงต้องอาศัยทั้งความสามารถในการเข้าใจภาษาและการติดตามสถานะของการเพิ่มประสิทธิภาพพร้อมกัน ทำให้ท้าทายกว่าการเพิ่มประสิทธิภาพแบบ black-box ทั่วไปอย่างมาก ผู้เขียนเปรียบเทียบวิธีการแบบดั้งเดิมอย่าง Covariance Matrix Adaptation Evolution Strategy (CMA-ES) และ Tree-structured Parzen Estimator (TPE) กับแนวทางที่อิง LLM โดยตรงในสภาพแวดล้อมนี้ พร้อมวิเคราะห์อย่างเป็นระบบว่าอะไรคือปัจจัยที่กำหนดประสิทธิภาพจริง ผลลัพธ์ชี้ให้เห็นว่าในพื้นที่ค้นหาที่กำหนดตายตัว วิธีการแบบดั้งเดิมเหนือกว่าอย่างสม่ำเสมอ และโดยเฉพาะอย่างยิ่ง ความเสถียรในการลดความล้มเหลวระหว่างการรันมีความสำคัญมากกว่าความหลากหลายของผู้สมัครที่สร้างขึ้น

สิ่งที่น่าสนใจคือ เมื่ออนุญาตให้ LLM แก้ไขซอร์สโค้ดได้โดยตรง ช่องว่างดังกล่าวลดลงบ้าง แต่แม้จะรวมโมเดลชั้นนำในขณะนั้นอย่าง Claude Opus 4.6 และ Gemini 3.1 Pro Preview ก็ยังไม่สามารถไล่ทันวิธีการแบบดั้งเดิมได้ทั้งหมด ข้อสังเกตนี้นำไปสู่ข้อสรุปว่า แม้ LLM จะสามารถเสนอการแก้ไขที่มีประโยชน์ได้ในแต่ละ trial แต่ก็ยังอ่อนแอในการรักษาสถานะของการเพิ่มประสิทธิภาพให้สอดคล้องกันตลอดการทดลองซ้ำจำนวนมาก ในทางกลับกัน อัลกอริทึมแบบดั้งเดิมแม้จะขาดความรู้เชิงโดเมน แต่มีจุดแข็งในการอัปเดตสถานะที่ชัดเจนและเสถียร เช่น เวกเตอร์ค่าเฉลี่ย, step size และ covariance matrix จากความเสริมกันนี้ ผู้เขียนจึงเสนอวิธีไฮบริดชื่อ Centaur ซึ่งออกแบบมาเพื่อแชร์สถานะภายในที่ตีความได้ของ CMA-ES กับ LLM เพื่อให้โมเดลภาษาสะท้อนบริบทของการค้นหาได้ดีขึ้น Centaur ให้ประสิทธิภาพดีที่สุดตลอดการทดลอง และที่น่าทึ่งคือ แม้ใช้เพียง LLM ขนาดเล็กระดับ 0.8B ก็ยังสามารถเอาชนะได้ทั้งวิธีแบบดั้งเดิมล้วนและวิธีแบบ LLM ล้วน ในทางกลับกัน วิธีแก้ไขโค้ดแบบไม่มีข้อจำกัดต้องใช้โมเดลที่ใหญ่กว่า ซึ่งบ่งชี้ว่าอินเทอร์เฟซของการเพิ่มประสิทธิภาพและการแทนสถานะมีอิทธิพลต่อประสิทธิภาพมากกว่าขนาดโมเดลเพียงอย่างเดียว นอกจากนี้ ผู้เขียนยังวิเคราะห์อย่างละเอียดถึงความหลากหลายของการค้นหา, การสเกลของโมเดล และสัดส่วนของ trial ที่ LLM เสนอใน Centaur ทำให้เห็นอย่างประณีตว่า LLM เป็นจุดแข็งเมื่อใดและเป็นจุดอ่อนเมื่อใด โดยสรุป งานวิจัยนี้แสดงให้เห็นอย่างชัดเจนว่า LLM ให้ผลดีที่สุดไม่ใช่ในฐานะตัวแทนที่เข้ามาแทน optimizer แบบดั้งเดิม แต่ในฐานะองค์ประกอบเชิงความร่วมมือที่ช่วยเสริมสถานะการค้นหาที่ชัดเจน

บทคัดย่อ (Abstract)

รีโพซิทอรี autoresearch ช่วยให้เอเจนต์ LLM สามารถแก้ไขโค้ดการฝึกได้โดยตรงเพื่อปรับไฮเปอร์พารามิเตอร์ให้เหมาะสมที่สุด เราใช้สิ่งนี้เป็น testbed เพื่อเปรียบเทียบอัลกอริทึม HPO แบบดั้งเดิมกับวิธีการที่อิง LLM สำหรับปัญหาการปรับไฮเปอร์พารามิเตอร์ของโมเดลภาษาขนาดเล็กภายใต้งบประมาณการประมวลผลที่คงที่ เมื่อกำหนด search space แบบคงที่ตลอดทั้ง autoresearch วิธีการดั้งเดิมอย่าง CMA-ES และ TPE ให้ประสิทธิภาพเหนือกว่าเอเจนต์ที่อิง LLM อย่างสม่ำเสมอ โดยในกรณีนี้การหลีกเลี่ยงความล้มเหลวจากหน่วยความจำไม่พอ (OOM) สำคัญกว่าความหลากหลายของการสำรวจ การอนุญาตให้ LLM แก้ไขซอร์สโค้ดได้โดยตรงช่วยลดช่องว่างเมื่อเทียบกับวิธีการดั้งเดิม แต่ก็ยังปิดช่องว่างนั้นได้ไม่หมด แม้จะใช้โมเดลล้ำสมัย ณ เวลาที่เขียน เช่น Claude Opus 4.6 และ Gemini 3.1 Pro Preview ก็ตาม เราสังเกตว่า LLM มีปัญหาในการติดตามสถานะการเพิ่มประสิทธิภาพข้ามการทดลองหลายครั้ง ขณะที่วิธีการดั้งเดิมกลับขาดความรู้เชิงโดเมนแบบที่ LLM มี เพื่อรวมจุดแข็งของทั้งสองแนวทาง เราจึงเสนอ Centaur ซึ่งเป็นวิธีแบบไฮบริดที่แชร์สถานะภายในที่ตีความได้ของ CMA-ES เช่น mean vector, step-size และ covariance matrix ให้กับ LLM Centaur ทำผลงานได้ดีที่สุดในการทดลองของเรา และเพียงใช้ LLM ขนาด 0.8B ก็เพียงพอที่จะเอาชนะทั้งวิธีการดั้งเดิมทั้งหมดและวิธีแบบ LLM ล้วน การแก้ไขโค้ดแบบไร้ข้อจำกัดต้องใช้โมเดลที่ใหญ่กว่าจึงจะแข่งขันกับวิธีการดั้งเดิมได้ นอกจากนี้ เรายังวิเคราะห์เพิ่มเติมเกี่ยวกับความหลากหลายของการสำรวจ การสเกลโมเดลจาก 0.8B ไปยังโมเดลระดับล้ำสมัย และการทดลองตัดออกเกี่ยวกับสัดส่วนของการทดลองที่ LLM เสนอใน Centaur โดยสรุป ผลลัพธ์ของเราชี้ว่า LLM มีประสิทธิภาพสูงสุดเมื่อใช้เป็นตัวเสริมของตัวปรับเหมาะแบบดั้งเดิม มากกว่าจะใช้แทนที่ โค้ดดูได้ที่ https://github.com/ferreirafabio/autoresearch-automl และอินเทอร์แอกทีฟเดโมดูได้ที่ https://ferreirafabio.github.io/autoresearch-automl

The autoresearch repository enables an LLM agent to optimize hyperparameters by editing training code directly. We use it as a testbed to compare classical HPO algorithms against LLM-based methods on tuning the hyperparameters of a small language model under a fixed compute budget. When defining a fixed search space over autoresearch, classical methods such as CMA-ES and TPE consistently outperform LLM-based agents, where avoiding out-of-memory failures matters more than search diversity. Allowing the LLM to directly edit source code narrows the gap to the classical methods but does not close it, even with frontier models available at the time of writing such as Claude Opus 4.6 and Gemini 3.1 Pro Preview. We observe that LLMs struggle to track optimization state across trials. In contrast, classical methods lack the domain knowledge of LLMs. To combine the strengths of both, we introduce Centaur, a hybrid that shares CMA-ES's interpretable internal state, including mean vector, step-size, and covariance matrix, with an LLM. Centaur achieves the best result in our experiments, and a 0.8B LLM already suffices to outperform all classical and pure LLM methods. Unconstrained code editing requires larger models to be competitive with classical methods. We further analyze search diversity, model scaling from 0.8B to frontier models, and ablate the fraction of LLM-proposed trials in Centaur. All in all, our results suggest that LLMs are most effective as a complement to classical optimizers, not as a replacement. Code is available at https://github.com/ferreirafabio/autoresearch-automl & interactive demo at https://ferreirafabio.github.io/autoresearch-automl.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2603.24647

อ่านเพิ่มเติม

https://github.com/ferreirafabio/autoresearch-automl

https://ferreirafabio.github.io/autoresearch-automl


FP8 ก็เพียงพอแล้ว (ตอนที่ 1): โต้แย้ง FP64 บนฮาร์ดแวร์ในฐานะจอกศักดิ์สิทธิ์ของ HPC / FP8 is All You Need (Part 1): Debunking Hardware FP64 as the HPC Holy Grail

แนะนำบทความวิจัย

ในแวดวงการประมวลผลสมรรถนะสูง (HPC, high-performance computing) มีความเชื่อกันมาอย่างยาวนานว่าการคำนวณแบบเลขทศนิยมลอยตัวความแม่นยำสองเท่าระดับฮาร์ดแวร์ (FP64, double-precision floating point) เป็นเงื่อนไขจำเป็นสำหรับงานคำนวณทางวิทยาศาสตร์ แต่บทความนี้เสนอว่าข้อสมมตินั้นอาจไม่เป็นจริงอีกต่อไปในยุค GPU รุ่นใหม่ที่ปรับให้เหมาะกับ AI โดยเฉพาะ โดยเฉพาะจากข้อเท็จจริงที่ว่า native FP64 throughput ใน NVIDIA Blackwell Ultra (B300) ลดลงอย่างมาก ผู้เขียนจึงชี้ว่าเส้นทางที่ใช้งานได้จริงกว่าอาจเป็นการอาศัย FP8 (8-bit floating point) tensor throughput ที่มีอยู่อย่างอุดมสมบูรณ์เพื่อกู้คืนความแม่นยำระดับ FP64 แทน เพื่อทำเช่นนี้ ผู้เขียนได้ผสาน Chinese Remainder Theorem (CRT) เข้ากับ Ozaki Scheme II เพื่อแยกค่าออกเป็นหลาย residual modular channel แล้วจึงกู้คืนกลับอย่างแม่นยำ โดยออกแบบให้กระบวนการนี้คงความแม่นยำเชิงตัวเลขระดับ FP64 เอาไว้ได้ ขณะเดียวกันก็ยังใช้ประโยชน์จาก throughput สูงของการคำนวณเทนเซอร์แบบความละเอียดต่ำได้อย่างเต็มที่ วิธีวิทยาหลักไม่ใช่แค่การเร่งความเร็วแบบประมาณค่าอย่างง่าย แต่คือการย้ายเส้นทางการคำนวณทั้งหมดไปไว้บน tensor core แบบความละเอียดต่ำ ในขณะที่ผลลัพธ์สุดท้ายถูกกู้คืนกลับอย่างเคร่งครัดด้วยการประกอบสร้างใหม่บนฐานจำนวนเต็ม ซึ่งทำให้แตกต่างอย่างชัดเจนจากแนวทางเดิมที่ยึด FP64 เป็นศูนย์กลาง

อีกหนึ่งผลงานสำคัญของบทความนี้คือโมเดล Tensor-Memory Equilibrium (TME) ซึ่งเป็นการขยาย Roofline model แบบดั้งเดิม TME ไม่ได้ดูเพียงสมดุลระหว่างสมรรถนะการคำนวณกับแบนด์วิดท์หน่วยความจำเท่านั้น แต่ยังสะท้อนทั้งตัวคูณด้านการคำนวณ ตัวคูณด้านแบนด์วิดท์ และความหน่วงจากการกู้คืนที่เกิดขึ้นระหว่างกระบวนการแปลงการทำงานแบบอิง FP8 ไปเป็นเวิร์กโหลด FP64 เพื่ออธิบายสมรรถนะในการรันจริง ผู้เขียนอธิบายผ่านกรอบนี้ว่า register-level fusion สามารถทำให้ไม่ต้องเขียนผลลัพธ์กลางออกไปยังหน่วยความจำบ่อยครั้ง ส่งผลให้ bandwidth multiplier เข้าใกล้ 1 ได้ในทางปฏิบัติ และทำให้เกิดโครงสร้างที่ซ่อน reconstruction overhead ไว้หลัง memory wall กล่าวอีกนัยหนึ่ง แม้จะมีขั้นตอนการแปลงและการกู้คืนเพิ่มเติม สมรรถนะโดยรวมก็ยังอาจคงอยู่ได้แทบไม่สูญเสียในช่วงที่การย้ายข้อมูลในหน่วยความจำเป็นตัวกำหนดหลัก

เคอร์เนล Ozaki Scheme II ที่นำเสนอจากมุมมองของการติดตั้งใช้งาน แสดงให้เห็นอย่างชัดเจนว่าแนวคิดนี้ทำงานจริงอย่างไร โครงสร้างที่แยกเมทริกซ์และเวกเตอร์อินพุตออกเป็นหลาย residue channel สะสมผลในแต่ละช่องด้วยการคำนวณเทนเซอร์ที่อิง wmma แล้วค่อยกู้คืนเป็นค่า double เดียวในตอนท้ายผ่านการประกอบกลับแบบ Garner สะท้อนปรัชญาการออกแบบที่แยกความแม่นยำออกจากความเร็ว และจัดสรรเส้นทางฮาร์ดแวร์ที่เหมาะสมที่สุดให้แต่ละด้าน ในขณะเดียวกัน ข้อเท็จจริงที่ว่าเคอร์เนล HPC ตัวแทนอย่าง SpMV(sparse matrix-vector multiplication), GEMV(general matrix-vector multiplication) และ stencil สามารถประมวลผลได้ทั้งหมดด้วยตรรกะเดียวกัน ก็แสดงให้เห็นว่าวิธีนี้ไม่ใช่การปรับแต่งที่จำกัดอยู่กับงานเฉพาะประเภทใดประเภทหนึ่งเท่านั้น ผลลัพธ์ด้านประสิทธิภาพก็สนับสนุนข้ออ้างนี้เช่นกัน โดยผู้เขียนอธิบายว่าแม้ native FP64 ของ B300 จะอ่อนลงอย่างมาก แต่เส้นทาง Ozaki II สามารถไปถึงขีดจำกัดด้านหน่วยความจำได้ด้วย throughput ที่ใช้งานจริงสูงกว่ามาก และยังแสดงให้เห็นประสิทธิภาพที่เทียบเท่าหรือดีกว่าเมื่อเทียบกับ H100

ท้ายที่สุด แก่นสำคัญที่งานวิจัยนี้ต้องการสื่อคือ ความเชื่อเดิมที่ว่าการรักษาความแม่นยำระดับ double precision จำเป็นต้องพึ่งพาฮาร์ดแวร์ native FP64 นั้น ไม่ได้เป็นสัจธรรมที่เด็ดขาดอีกต่อไป การผสาน FP8 tensor throughput, การกู้คืนแบบ CRT และการฟิวชันระดับรีจิสเตอร์เข้าด้วยกัน ทำให้สามารถได้ทั้งความแม่นยำระดับ FP64 และประสิทธิภาพด้านแบนด์วิดท์หน่วยความจำพร้อมกันใน HPC ระดับ production environment และอาจให้ศักยภาพด้านประสิทธิภาพสูงกว่าสถาปัตยกรรมแบบเก่าที่เน้น FP64 โดยตรงเสียอีก ข้ออ้างนี้ทำให้ต้องกลับมาทบทวนลำดับความสำคัญของการออกแบบฮาร์ดแวร์ และชี้อย่างชัดเจนว่าการประมวลผลเชิงวิทยาศาสตร์ในอนาคตอาจไม่จำเป็นต้องพึ่งพาหน่วยคำนวณความแม่นยำเดี่ยวเพียงแบบเดียวอีกต่อไป

บทคัดย่อ(Abstract)

ความเชื่อดั้งเดิมของวงการ HPC มองว่า native hardware FP64 silicon เป็นรากฐานที่ลดทอนไม่ได้ของการคำนวณเชิงวิทยาศาสตร์ หรือก็คือ “จอกศักดิ์สิทธิ์” ของการจำลองแบบ double precision อย่างไรก็ตาม บทความนี้โต้แย้งว่าความเชื่อนี้ไม่ถูกต้อง บน GPU ที่ปรับแต่งมาสำหรับ AI ในเจเนอเรชัน B300 และหลังจากนั้น การผสาน FP8 tensor throughput ที่มีอยู่อย่างอุดมสมบูรณ์เข้ากับ Ozaki Scheme II ที่อิง Chinese Remainder Theorem ทำให้สามารถกู้คืนการทำงานระดับ memory roof ได้ด้วยความแม่นยำ FP64 เต็มรูปแบบ ครอบคลุมเคอร์เนล HPC มาตรฐานทั้งหมด NVIDIA Blackwell Ultra(B300) ลด native FP64 ลงเหลือราว ~1.3 TFLOPS ซึ่งถดถอยลง 31 เท่าเมื่อเทียบกับ B200 และทำให้แม้แต่เคอร์เนลที่ติดคอขวดด้านหน่วยความจำ(SpMV, GEMV, stencil) ก็กลายเป็นงานที่ติดคอขวดด้านการคำนวณ เรานำเสนอ 4 ส่วน贡献 ประการแรก เราเสนอแบบจำลองวิเคราะห์แบบรวมชื่อ Tensor-Memory Equilibrium (TME) model ซึ่งขยาย Roofline ด้วยตัวคูณการคำนวณ α ตัวคูณแบนด์วิดท์ β และ latency ของการกู้คืน γ ประการที่สอง เราระบุว่าการฟิวชันระดับรีจิสเตอร์คือกลไกที่ผลักดันให้ β → 1 ทำให้ต้นทุนของการ emulation แทบจะกลายเป็นศูนย์เมื่ออยู่หลัง memory wall ประการที่สาม เราคาดการณ์ว่า Ozaki II จะยกระดับ emulated FP64 จาก native lower bound ราว ~1 TFLOPS ไปเป็นราว ~500 TFLOPS บน B300 และราว ~400 TFLOPS บน Rubin R200 โดยสูงกว่า native FP64 upper bound ของ B200 มากกว่าหนึ่งลำดับขนาดในช่วงที่ติดคอขวดด้านการคำนวณ และสอดคล้องกับ memory roof ในช่วงที่ติดคอขวดด้านแบนด์วิดท์ ประการที่สี่ เมื่อใช้ H100 เป็น baseline นั้น Ozaki II ให้ประสิทธิภาพเทียบเท่าหรือดีกว่า H100 ในทุก workload ที่ศึกษา ขณะที่ native FP64 ของ B300 ทำให้เกิดการถดถอยได้สูงสุดถึง 50 เท่า เมื่อนำมารวมกับการวิเคราะห์ FFT ในบทความ Part(2) ที่รายงานควบคู่กัน (การกู้คืน fixed-point แบบ Kulisch บน INT32 pipe ที่ยังคงเหลืออยู่) และ FP32+Kahan reductions แล้ว เคอร์เนลทุกคลาสที่สำรวจบน B300 สามารถไปถึง memory roof ได้ด้วย FP64 เต็มรูปแบบ หลักฐานเหล่านี้สนับสนุนข้ออ้างในชื่อบทความ นั่นคือ FP8 เพียงอย่างเดียว เมื่อมี Ozaki II และเส้นทางหลบแบบ Kulisch ก็เพียงพอแล้วสำหรับ production HPC; native FP64 silicon ไม่ได้เป็นจอกศักดิ์สิทธิ์อย่างที่เคยเชื่อกันอีกต่อไป

Conventional HPC dogma holds that native hardware FP64 silicon is the irreducible foundation of scientific computing -- the "holy grail" of double-precision simulation. This paper argues the dogma is wrong: on AI-optimised GPUs of the B300 generation and beyond, abundant FP8 tensor throughput combined with the Chinese Remainder Theorem-based Ozaki Scheme II recovers memory-roof execution at full FP64 accuracy across the canonical HPC kernel spectrum. NVIDIA's Blackwell Ultra (B300) collapses native FP64 to ~1.3 TFLOPS -- a 31x regression from the B200 -- rendering even memory-bound kernels (SpMV, GEMV, stencils) compute-bound. We make four contributions. First, a unified analytic model, the Tensor-Memory Equilibrium (TME) model, augmenting the Roofline with a compute multiplier alpha, a bandwidth multiplier beta, and a reconstruction latency gamma. Second, we identify register-level fusion as the mechanism driving beta -> 1, making emulation essentially free behind the memory wall. Third, we project that Ozaki II vaults emulated FP64 from the ~1 TFLOPS native floor to ~500 TFLOPS (B300) and ~400 TFLOPS (Rubin R200), exceeding even B200's native FP64 ceiling by over an order of magnitude in the compute-bound regime while matching the memory roof in the bandwidth-bound regime. Fourth, against an H100 baseline, Ozaki II matches or exceeds H100 on every workload studied, versus the up-to-50x regression that B300 native FP64 imposes. Combined with a companion FFT analysis (Kulisch fixed-point reconstruction on the surviving INT32 pipe) and FP32+Kahan reductions reported in the companion Part(2) paper, every surveyed kernel class on B300 reaches the memory roof at full FP64. The evidence supports the title's claim: FP8, with Ozaki II and Kulisch escape routes, is all one needs for production HPC; native FP64 silicon is no longer the holy grail it has been taken to be.

ลิงก์บทความ

https://arxiv.org/abs/2606.06510


ข้อจำกัดและโอกาสของ AI reviewer: งานวิจัยที่ให้ผู้เชี่ยวชาญนักวิทยาศาสตร์ 45 คนตรวจทานรีวิวของบทความในเครือ Nature / On the limits and opportunities of AI reviewers: Reviewing the reviews of Nature-family papers with 45 expert scientists

แนะนำบทความ

เมื่อมีการนำผู้รีวิวปัญญาประดิษฐ์ (AI) มาใช้ในกระบวนการพิจารณาบทความวิทยาศาสตร์มากขึ้นเรื่อย ๆ ข้อจำกัดของแนวทางที่ตัดสินประสิทธิภาพของมันจากเพียงความสอดคล้องของคำตัดสินสุดท้ายก็ยิ่งชัดเจนขึ้น ในความเป็นจริง คุณภาพของการประเมินแตกต่างกันอย่างมากตามความแม่นยำของคำวิจารณ์แต่ละข้อที่ผู้รีวิวทิ้งไว้ ว่าชี้ประเด็นสำคัญได้มากน้อยเพียงใด และมีหลักฐานรองรับข้ออ้างนั้นเพียงพอหรือไม่ ด้วยเหตุนี้ ผู้เขียนจึงพยายามเปิดเผยความสามารถและข้อจำกัดที่แท้จริงของผู้รีวิว AI อย่างละเอียดผ่านการประเมินในระดับจุลภาคเช่นนี้ เพื่อการนี้ พวกเขาได้ออกแบบการศึกษาการใส่คำอธิบายประกอบขนาดใหญ่โดยมีนักวิทยาศาสตร์ผู้เชี่ยวชาญ 45 คนจากสาขาฟิสิกส์ ชีววิทยา และวิทยาศาสตร์สุขภาพเข้าร่วม และให้ตัดสินคำวิจารณ์รายข้อจำนวน 2,960 ข้อที่เขียนโดยมนุษย์และ AI ต่อบทความในเครือ Nature จำนวน 82 ฉบับ คำวิจารณ์แต่ละข้อถูกประเมินบนสามแกน ได้แก่ correctness (ความถูกต้อง), significance (ความสำคัญ) และ sufficiency of evidence (ความเพียงพอของหลักฐาน) และจากการตรวจสอบรวม 469 ชั่วโมง ทำให้สามารถวิเคราะห์ได้หลายชั้นว่าผู้รีวิว AI ทำอะไรได้ดีจริง และล้มเหลวตรงไหน วิธีวิทยานี้มีความสำคัญมากเพราะไม่ได้หยุดอยู่แค่การถามว่า “AI ให้ข้อสรุปคล้ายมนุษย์หรือไม่” แต่ยังแสดงให้เห็นอย่างเป็นรูปธรรมด้วยว่า AI จับปัญหาประเภทใดได้ดีกว่า และในบริบทแบบใดกลับตัดสินมากเกินไปหรือไม่แม่นยำ ผลเชิงปริมาณชี้ว่าผู้รีวิว AI ในปัจจุบันไม่ได้เป็นเพียงเครื่องมือช่วยแบบผิวเผิน ตัวอย่างเช่น เอเจนต์รีวิวที่อิง GPT-5.2 ทำคะแนนได้สูงกว่าผู้รีวิวมนุษย์ที่ได้คะแนนสูงสุดของแต่ละบทความในเกณฑ์รวมสามแกนการประเมิน ขณะที่ผู้รีวิว AI รายอื่น ๆ รวมถึง Gemini 3.0 Pro และ Claude Opus 4.5 ก็ยังทำได้ดีกว่าผู้รีวิวมนุษย์ที่ได้คะแนนต่ำสุดในทุกแกน ยิ่งไปกว่านั้น คำวิจารณ์ที่ถูกต้องจากผู้รีวิว AI มักถูกประเมินว่ามีความสำคัญและมีหลักฐานเพียงพอบ่อยกว่า และยังตรวจพบประเด็นใหม่ 26% ที่มนุษย์ไม่ได้ชี้ไว้ ซึ่งยืนยันถึงศักยภาพในการขยายขอบเขตการตรวจจับ อย่างไรก็ตาม ในเวลาเดียวกัน ผู้รีวิว AI ก็มีแนวโน้มสูงที่จะวิจารณ์ซ้ำกันเองอย่างมาก ทำให้อัตราความซ้ำสูงกว่ามนุษย์มาก และยังเผยให้เห็นจุดอ่อนที่เกิดซ้ำ เช่น การขาดความรู้โดยนัยของสาขาย่อยบางด้าน ข้อจำกัดในการจัดการบริบทยาว ๆ และการวิจารณ์ประเด็นเล็กน้อยอย่างรุนแรงเกินไป กรณีศึกษาเชิงคุณภาพในภาคผนวกแสดงให้เห็นว่าจุดอ่อนเหล่านี้ไม่ได้เป็นเพียงคำตอบผิดธรรมดา แต่เชื่อมโยงกับปัญหาเชิงโครงสร้าง เช่น การตีความแนวปฏิบัติเฉพาะสาขาผิดพลาด ความคลาดเคลื่อนของบริบทตามเวลา การเรียกร้องเกินควรโดยไม่คำนึงถึงความเป็นไปได้ในการแก้ไข และการมองข้ามความไม่สอดคล้องกันระหว่างโค้ดกับเนื้อหา สุดท้าย งานวิจัยนี้เสนออย่างน่าเชื่อถือว่าผู้รีวิว AI มีแนวโน้มเป็นเครื่องมือเสริมมากกว่าจะมาแทนที่ผู้ประเมินมนุษย์ โดยสามารถตรวจจับปัญหาได้กว้างขึ้นอย่างรวดเร็วและทำการตรวจสอบอย่างละเอียด พร้อมมอบหลักฐานสำคัญสำหรับการนิยามบทบาทแบ่งงานระหว่างมนุษย์กับ AI ในการประเมินทางวิทยาศาสตร์ในอนาคต

บทคัดย่อ(Abstract)

เมื่อความสามารถของ AI พัฒนาขึ้น ผู้รีวิว AI ก็เริ่มถูกนำมาใช้ในการทบทวนโดยผู้ทรงคุณวุฒิทางวิทยาศาสตร์ แต่ความสามารถและความน่าเชื่อถือของมันยังคงเป็นคำถามอยู่ นักวิทยาศาสตร์จำนวนมากมองสิ่งนี้เป็นเพียงระบบเชิงความน่าจะเป็นที่ไม่มีความเชี่ยวชาญพอจะประเมินงานวิจัย ขณะที่นักวิจัยอีกส่วนหนึ่งกลับประเมินความพร้อมของมันในแง่ดีมากกว่าโดยไม่มีหลักฐานที่เป็นรูปธรรม การทำความเข้าใจว่า AI reviewer ทำอะไรได้ดี ขาดตรงไหน และยังมีโจทย์ใดค้างอยู่ เป็นเรื่องจำเป็น อย่างไรก็ตาม การประเมินผู้รีวิว AI ที่มีอยู่เดิมมักเน้นว่าคำตัดสินของมันสอดคล้องกับคำตัดสินของมนุษย์หรือไม่ (เช่น ความสอดคล้องของคะแนน การคาดการณ์การตอบรับ) ซึ่งไม่เพียงพอที่จะอธิบายความสามารถและข้อจำกัดของมันได้ งานวิจัยนี้จึงมุ่งปิดช่องว่างดังกล่าวผ่านการศึกษาการใส่คำอธิบายประกอบโดยผู้เชี่ยวชาญในวงกว้าง โดยนักวิทยาศาสตร์เฉพาะทาง 45 คนในสาขาวิทยาศาสตร์กายภาพ วิทยาศาสตร์ชีวภาพ และวิทยาศาสตร์สุขภาพ ใช้เวลา 469 ชั่วโมง ประเมินคำวิจารณ์รายข้อ 2,960 ข้อที่มาจากรีวิวที่มนุษย์เขียนและ AI สร้างขึ้นสำหรับบทความในเครือ Nature 82 ฉบับ โดยแต่ละข้อมุ่งไปที่แง่มุมเฉพาะหนึ่งประการของบทความ และประเมินในมิติของความถูกต้อง ความสำคัญ และความเพียงพอของหลักฐาน ในตัวชี้วัดแบบรวมสามมิติ เอเจนต์รีวิวที่ขับเคลื่อนด้วย GPT-5.2 มีคะแนนสูงกว่าผู้รีวิวมนุษย์ที่ได้คะแนนสูงสุดของแต่ละบทความ (60.0% เทียบกับ 48.2%, p = 0.009) ขณะที่ผู้รีวิว AI ทั้งหมด รวมถึง Gemini 3.0 Pro และ Claude Opus 4.5 มีผลงานสูงกว่าผู้รีวิวมนุษย์ที่ได้คะแนนต่ำสุดในทุกมิติ นอกจากนี้ คำวิจารณ์ที่ถูกต้องของผู้รีวิว AI ยังมักถูกประเมินว่ามีความสำคัญและมีหลักฐานสนับสนุนเพียงพอบ่อยกว่า และยังเปิดเผยปัญหาเฉพาะอีก 26% ที่ไม่มีมนุษย์คนใดยกขึ้นมา อย่างไรก็ดี ความซ้ำซ้อนระหว่างผู้รีวิว AI สูงกว่ามนุษย์มาก (21% เทียบกับ 3% สำหรับคู่ผู้รีวิวข้ามกัน) และยังพบจุดอ่อนที่เกิดซ้ำ 16 ประการซึ่งมนุษย์ไม่มีร่วมด้วย เช่น ข้อจำกัดด้านความรู้ในสาขาย่อย ความสามารถจำกัดในการจัดการบริบทยาวข้ามหลายไฟล์ และท่าทีวิพากษ์วิจารณ์มากเกินไปต่อปัญหาเล็กน้อย โดยสรุป ผลลัพธ์ของเราชี้ว่าผู้รีวิว AI ในปัจจุบันควรถูกวางตำแหน่งเป็นตัวเสริม ไม่ใช่ตัวแทนของผู้รีวิวมนุษย์

With the advancement of AI capabilities, AI reviewers are beginning to be deployed in scientific peer review, yet their capability and credibility remain in question: many scientists simply view them as probabilistic systems without the expertise to evaluate research, while other researchers are more optimistic about their readiness without concrete evidence. Understanding what AI reviewers do well, where they fall short, and what challenges remain is essential. However, existing evaluations of AI reviewers have focused on whether their verdicts match human verdicts (e.g., score alignment, acceptance prediction), which is insufficient to characterize their capabilities and limits. In this paper, we close this gap through a large-scale expert annotation study, in which 45 domain scientists in Physical, Biological, and Health Sciences spent 469 hours rating 2,960 individual criticisms (each targeting one specific aspect of a paper) from human-written and AI-generated reviews of 82 Nature-family papers on correctness, significance, and sufficiency of evidence. On a composite of all three dimensions, a reviewing agent powered by GPT-5.2 scores above each paper's top-rated human reviewer (60.0% vs. 48.2%, p = 0.009), while all three AI reviewers (including Gemini 3.0 Pro and Claude Opus 4.5) exceed the lowest-rated human across every dimension. AI reviewers' accurate criticisms are also more often rated significant and well-evidenced, and surface a distinct 26% of issues no human raises. However, AI reviewers overlap far more than humans do (21% vs. 3% for cross-reviewer pairs), and exhibit 16 recurring weaknesses humans do not share, such as limited subfield knowledge, lack of long context management over multiple files, and overly critical stance on minor issues. Overall, our results position current AI reviewers as complements to, not substitutes for, human reviewers.

ลิงก์บทความ

https://arxiv.org/abs/2605.20668

อ่านเพิ่มเติม

https://prometheus-eval.github.io/cmu-paper-reviewer/

https://github.com/prometheus-eval/cmu-paper-reviewer

https://huggingface.co/datasets/prometheus-eval/peerreview-bench


LiveBrowseComp: เอเจนต์ค้นหากำลังค้นหาจริง ๆ หรือแค่ยืนยันสิ่งที่รู้อยู่แล้ว? / LiveBrowseComp: Are Search Agents Searching, or Just Verifying What They Already Know?

แนะนำงานวิจัย

เอเจนต์ค้นหา (search agents) ที่อาศัยโมเดลภาษาขนาดใหญ่ (Large Language Model, LLM) ได้รับความสนใจจากความสามารถในการสำรวจเว็บภายนอกเพื่อค้นหาข้อเท็จจริงล่าสุด แต่จุดตั้งต้นของงานวิจัยนี้คือปัญหาที่ว่า ในทางปฏิบัติเอเจนต์เหล่านี้มักไม่ได้ค้นพบข้อมูลใหม่ หากแต่เพียงใช้เว็บมายืนยันความรู้ที่มีอยู่ภายในโมเดล (intrinsic knowledge) อยู่แล้ว ผู้เขียนนิยามปรากฏการณ์นี้ว่า การพึ่งพาความรู้ภายใน (Intrinsic Knowledge Dependence, IKD) และออกแบบการวิเคราะห์จาก 3 มุมมองเพื่อวินิจฉัยอย่างละเอียดว่าเครื่องมือค้นหาช่วยขยายการให้เหตุผลของเอเจนต์ได้จริงมากน้อยเพียงใด ประการแรก พวกเขาวัดว่าโมเดลตอบได้มากเพียงใดในสภาวะ closed-book ที่ตัดเครื่องมือออกทั้งหมด เพื่อดูว่าเบนช์มาร์กเดิมถูกครอบคลุมด้วยความรู้ภายในของโมเดลตั้งแต่ต้นมากแค่ไหน ประการที่สอง อนุญาตให้ค้นหาได้แต่ลบเอกสารหลักฐานที่สนับสนุนคำตอบออก เพื่อดูว่าเอเจนต์ใช้หลักฐานภายนอกจริงหรือเพียงอาศัยการยืนยันสมมติฐานที่คิดไว้แล้ว ประการที่สาม ติดตามเส้นทางการค้นหาและจัดหมวดหมู่ว่าคิวรีเริ่มจากสมมติฐานที่โมเดลสร้างขึ้นภายใน หรือเริ่มจากเบาะแสที่ได้จากผลการค้นหา เพื่อแยกให้ออกว่าการค้นหาเป็นกระบวนการค้นพบ (discovery) หรือกระบวนการตรวจสอบยืนยัน (verification) กันแน่ ระเบียบวิธีนี้มีความสำคัญตรงที่ไม่ได้หยุดอยู่แค่การเปรียบเทียบความแม่นยำของคำตอบ แต่พยายามผ่าดูหลักการทำงานจริงของเอเจนต์ค้นหา

ผลการวิเคราะห์แสดงอย่างชัดเจนว่าเบนช์มาร์กการค้นหาแบบเดิมอาจทำให้ความสามารถในการค้นหากับการยืนยันซ้ำโดยอาศัยความจำปะปนกัน โมเดลบางตัวตอบคำถามใน BrowseComp ได้มากถึง 44.5% แม้ไม่มีเครื่องมือช่วย คิวรีค้นหามากกว่าครึ่งเริ่มจากสมมติฐานที่โมเดลสร้างขึ้นภายใน ไม่ใช่จากผลการค้นหา และเมื่อเอาหลักฐานที่สนับสนุนคำตอบออก ประสิทธิภาพกลับต่ำกว่าเกณฑ์ closed-book เสียอีก สิ่งนี้ชี้ว่าเอเจนต์ค้นหามีแนวโน้มสูงที่จะใช้การค้นหาเพื่อยืนยันสิ่งที่รู้อยู่แล้ว มากกว่าจะค้นหาข้อเท็จจริงใหม่จากเว็บ เพื่อแก้ปัญหานี้ ผู้เขียนจึงเสนอเบนช์มาร์ก deep-search ใหม่ชื่อ LiveBrowseComp ซึ่งประกอบด้วยคำถามที่มนุษย์เขียน 335 ข้อ โดยอาศัยข้อเท็จจริงที่เผยแพร่ภายใน 90 วันล่าสุดนับจากเวลาสร้างเบนช์มาร์ก สร้างขึ้นจากแหล่งข้อมูลที่อัปเดตต่อเนื่อง 6 แห่ง ได้แก่ GDELT, TMDB, RAWG, CVE/NVD, SportsDB และ USGS เพื่อให้ไม่สามารถแก้ได้ง่ายด้วยความรู้ล่วงหน้าของโมเดลเดิม นอกจากนี้ยังตัดเหตุการณ์ที่เป็นที่รู้จักอย่างกว้างขวางทั่วโลกออก เพื่อลดโอกาสที่การนึกออกหรือการเดาตามสามัญสำนึกจะนำไปสู่คำตอบที่ถูกต้อง ผลคือเอเจนต์ทุกตัวที่นำมาประเมินมีความแม่นยำแบบ closed-book ต่ำกว่า 2% และแม้เพิ่มการค้นหา คะแนนก็ยังลดลง 25–40 คะแนนเมื่อเทียบกับ BrowseComp อีกทั้งลำดับความสามารถของโมเดลแบบเดิมก็ไม่สามารถทำนายประสิทธิภาพได้อย่างเสถียรอีกต่อไป ท้ายที่สุด งานวิจัยนี้ชี้อย่างมีน้ำหนักว่า การประเมินประสิทธิภาพของเอเจนต์ค้นหาควรดูไม่ใช่ว่า “มันยืนยันสิ่งที่รู้อยู่แล้วได้ดีแค่ไหน” แต่ควรดูว่า “มันค้นหาข้อเท็จจริงที่ไม่รู้และก้าวข้ามขอบเขตความรู้ปัจจุบันได้จริงเพียงใด”

บทคัดย่อ (Abstract)

เอเจนต์ค้นหาที่อาศัย LLM กำลังค้นหาจริง ๆ หรือกำลังใช้เว็บเพื่อยืนยันสิ่งที่รู้อยู่แล้วกันแน่? เราศึกษาคำถามนี้บน BrowseComp ด้วยตัวชี้วัดวินิจฉัย 3 แบบ การวิเคราะห์ของเราเผยให้เห็นการพึ่งพาความรู้ภายใน (Intrinsic Knowledge Dependence, IKD) กล่าวคือ แม้จะเข้าถึงเครื่องมือได้ เอเจนต์ก็มักพึ่งพาความรู้ภายในที่ถูกเข้ารหัสอยู่ในโมเดลก่อนการดึงข้อมูล มากกว่าหลักฐานภายนอกที่ได้จากการค้นหา เอเจนต์สามารถตอบคำถามใน BrowseComp ได้มากถึง 44.5% โดยไม่ใช้เครื่องมือ สร้างคิวรีค้นหามากกว่าครึ่งจากสมมติฐานที่ผลิตขึ้นภายใน ไม่ใช่จากเบาะแสที่ดึงมาได้ และเมื่อเอาหลักฐานที่สนับสนุนคำตอบออก ประสิทธิภาพกลับแย่กว่า baseline แบบ closed-book ผลลัพธ์เหล่านี้บ่งชี้ว่าเบนช์มาร์กการค้นหาแบบคงที่อาจให้รางวัลกับการยืนยันที่อาศัยความจำ มากกว่าการค้นพบที่ขับเคลื่อนด้วยหลักฐาน และทำให้สิ่งที่เอเจนต์รู้อยู่แล้วปะปนกับสิ่งที่มันค้นหาเจอได้จริง

จากนั้น เราแนะนำ LiveBrowseComp ซึ่งเป็นเบนช์มาร์ก deep-search ที่ออกแบบมาเพื่อประเมินเอเจนต์ให้พ้นขอบเขตของความรู้ภายใน เบนช์มาร์กนี้ประกอบด้วยคำถามที่มนุษย์เขียน 335 ข้อ ซึ่งคำตอบอาศัยข้อเท็จจริงที่เผยแพร่ภายใน 90 วันก่อนการสร้างเบนช์มาร์ก คำถามถูกดึงมาจากแหล่งข้อมูลที่อัปเดตแล้ว 6 แห่ง และผ่านการกรองเพื่อคัดเหตุการณ์ที่เป็นที่รู้จักอย่างกว้างขวางทั่วโลกออก ใน LiveBrowseComp เอเจนต์ทุกตัวที่ได้รับการประเมินมีความแม่นยำแบบ closed-book ต่ำกว่า 2% คะแนนที่เสริมด้วยการค้นหาลดลง 25–40 คะแนนเมื่อเทียบกับ BrowseComp และอันดับของโมเดลเดิมไม่สามารถใช้ทำนายประสิทธิภาพได้อย่างเสถียรอีกต่อไป LiveBrowseComp ใช้งานได้ที่ https://huggingface.co/datasets/Forival/LiveBrowseComp

Are LLM-based search agents genuinely searching, or using the web to verify what they already know? We study this question on BrowseComp with three diagnostics. Our analysis reveals Intrinsic Knowledge Dependence (IKD): even with tool access, agents often rely on intrinsic knowledge -- information encoded in the model before retrieval -- rather than on external evidence. Agents answer up to 44.5% of BrowseComp questions without tools, generate more than half of their search queries from internally produced hypotheses rather than retrieved leads, and perform worse than closed-book baselines when answer-supporting evidence is removed. These results suggest that static search benchmarks can reward memory-backed verification rather than evidence-driven discovery, conflating what agents already know with what they can find. We then introduce LiveBrowseComp, a deep-search benchmark designed to evaluate agents beyond intrinsic coverage. It contains 335 human-authored questions whose answers depend on facts published within the 90 days preceding benchmark construction, drawn from six updated sources and filtered to exclude globally salient events. On LiveBrowseComp, all evaluated agents fall below 2% closed-book accuracy, search-augmented scores drop by 25-40 points relative to BrowseComp, and prior model rankings no longer reliably predict performance. LiveBrowseComp is available at https://huggingface.co/datasets/Forival/LiveBrowseComp.

ลิงก์งานวิจัย

https://arxiv.org/abs/2605.28721

อ่านเพิ่มเติม

https://huggingface.co/datasets/Forival/LiveBrowseComp


Information bottleneck เพื่อเรียนรู้ phase space ของพลวัตจากข้อมูลการทดลองมิติสูง / Information bottleneck for learning the phase space of dynamics from high-dimensional experimental data

แนะนำงานวิจัย

การค้นหาตัวแปรสถานะที่กำกับพลวัตที่แท้จริงของระบบจากการสังเกตวิดีโอความละเอียดสูงหรืออนุกรมเวลา ถือเป็นโจทย์สำคัญอย่างยิ่งในฟิสิกส์ ชีววิทยา และงานวิจัยระบบซับซ้อนโดยรวม แม้ค่าที่สังเกตได้เองมักมีทั้งสัญญาณรบกวนและข้อมูลซ้ำซ้อนจำนวนมาก แต่เบื้องหลังนั้นมักมีโครงสร้างของปริภูมิเฟส (phase space) ที่มีมิติต่ำกว่าอยู่พอสมควร ดังนั้นประเด็นสำคัญจึงไม่ใช่การกู้คืนการสังเกตเดิมแบบตรง ๆ แต่เป็นการหาพิกัดแฝงที่อธิบายพลวัตนั้นได้ดีที่สุด ผู้เขียนจึงเสนอ DySIB (Dynamical Symmetric Information Bottleneck) บนมุมมองนี้ โดยเรียนรู้การแทนค่าแบบมิติต่ำด้วยการเพิ่ม predictive mutual information ระหว่างหน้าต่างการสังเกตในอดีตและอนาคตให้สูงสุด พร้อมกับควบคุมความซับซ้อนของการแทนค่าแฝงไปพร้อมกัน จุดเด่นสำคัญของแนวทางนี้คือ ต่างจาก autoencoder ที่ลด reconstruction error โดยตรง เพราะมันไม่พยายามกู้คืนวิดีโออินพุต แต่เรียนรู้เฉพาะใน latent space เท่านั้น ทำให้สามารถตัดทิ้งความแปรผันเชิงรายละเอียดที่ไม่เกี่ยวข้องกับข้อมูลซึ่งจำเป็นต่อการพยากรณ์พลวัตได้อย่างเด็ดขาด

ระเบียบวิธีของ DySIB เป็นการขยายหลักการ Information Bottleneck ไปสู่โจทย์การเรียนรู้พลวัต โดยออกแบบให้การแทนค่าแฝงไม่ได้เป็นเพียงเวกเตอร์ที่ถูกบีบอัด แต่ทำหน้าที่ใกล้เคียง sufficient statistic ที่สามารถทำนายอนาคตได้ดี เพื่อให้ทำเช่นนั้นได้ โครงสร้างจึงปฏิบัติต่ออดีตและอนาคตอย่างสมมาตร ใช้ขอบล่าง InfoNCE เพื่อประมาณข้อมูลเชิงพยากรณ์ และควบคุมความซับซ้อนของการแทนค่าผ่าน prior distribution แบบเกาส์เซียน นอกจากนี้ยังใช้ time-delay embedding และ shared encoder เพื่อแมปหน้าต่างอดีตและอนาคตด้วยเกณฑ์เชิงเรขาคณิตเดียวกัน ช่วยเพิ่มทั้งความสามารถในการเปรียบเทียบและการตีความใน latent space การออกแบบเช่นนี้แตกต่างจากโมเดลพยากรณ์แบบเดิมตรงที่ไม่ได้มุ่งสร้างเฟรมอนาคตอย่างง่าย ๆ แต่เน้นเรียนรู้ระบบพิกัดที่บรรจุโครงสร้างแก่นแท้ของพลวัต

การตรวจสอบเชิงประจักษ์ทำกับข้อมูลวิดีโอการทดลองของลูกตุ้มจริง (physical pendulum) ซึ่งเป็นระบบที่รู้ state space จริงอยู่แล้ว จึงเป็นสนามทดสอบที่เหมาะอย่างยิ่งสำหรับประเมินความสอดคล้องของพิกัดแฝงที่เรียนรู้ได้อย่างเข้มงวด ผลลัพธ์คือ DySIB สามารถเลือกทั้งมิติแฝงและความยาวของหน้าต่างเวลาให้สอดคล้องกับข้อมูลได้อย่าง self-consistent พร้อมกู้คืนการแทนค่า 2 มิติที่ตรงกับจำนวนองศาอิสระจริงของลูกตุ้ม และพิกัดที่เรียนรู้ได้ก็สอดคล้องอย่างราบรื่นกับมุมและความเร็วเชิงมุม นอกจากนี้ การแทนค่านี้ยังสร้างซ้ำได้ทั้งจุดสมดุลเสถียร อานไม่เสถียร separatrix และโครงสร้างโทโพโลยีแบบวงแหวนที่ใช้แยกการหมุนกับการสั่น แสดงให้เห็นว่ามันจับได้พร้อมกันทั้งมิติ โทโพโลยี และโครงสร้างเรขาคณิต ไม่ได้เป็นเพียงความคล้ายคลึงทางภาพเท่านั้น การที่ยังคงกู้คืนได้แม้จากวิดีโอความละเอียดต่ำ ยังสนับสนุนว่า DySIB มีประสิทธิภาพในการละทิ้งรายละเอียดการสังเกตที่ไม่จำเป็น และดึงเฉพาะข้อมูลที่สำคัญต่อพลวัตออกมา

ความสำคัญของงานนี้อยู่ที่การแสดงให้เห็นว่าสามารถค้นพบพิกัดพลวัตที่ตีความได้โดยตรงจากการสังเกตมิติสูง โดยเฉพาะในแง่ที่มันสร้างแนวคิดเรื่องตัวแปรสถานะ ตัวแปรเชิงผล ตัวแปรลำดับ ซึ่งใช้กันมาอย่างยาวนานในฟิสิกส์ ขึ้นใหม่ด้วยแนวทางขับเคลื่อนด้วยข้อมูล ทำให้ DySIB อาจมองได้ว่าเป็นสะพานเชิงระเบียบวิธีระหว่างทฤษฎีฟิสิกส์แบบดั้งเดิมกับการเรียนรู้การแทนค่าสมัยใหม่ ขณะเดียวกันก็เผยให้เห็นข้อจำกัดอย่างชัดเจน เช่น ความไม่เป็นเอกฐานของการแทนค่าแฝง, gauge freedom และความเป็นไปได้ในการขยายไปสู่ระบบไม่เชิงเส้นที่ซับซ้อนกว่า ในอนาคตจึงยังมีช่องทางสำหรับการทำให้ทั่วไปกับระบบที่มีสัญญาณรบกวนสูง ระบบโกลาหล หรือระบบหลายสเกล ถึงกระนั้น งานวิจัยนี้ก็พิสูจน์เชิงทดลองว่าเพียงข้อมูลเชิงพยากรณ์ก็สามารถกู้คืนพิกัดของปริภูมิเฟสจริงได้ และเปิดเส้นทางวิจัยใหม่จากการสังเกตดิบไปสู่สมการการเคลื่อนที่ที่ตีความได้

บทคัดย่อ(Abstract)

การระบุตัวแปรสถานะเชิงพลวัตของระบบจากค่าการสังเกตมิติสูงเป็นปัญหาหลักในวิทยาศาสตร์กายภาพโดยรวม ความท้าทายคือ ตัวแปรสถานะไม่สามารถสังเกตได้โดยตรง และต้องอนุมานจากข้อมูลดิบมิติสูงโดยไม่มีการกำกับ ที่นี่เราแนะนำ DySIB (Dynamical Symmetric Information Bottleneck) ซึ่งเป็นวิธีสำหรับเรียนรู้การแทนค่ามิติต่ำของข้อมูลอนุกรมเวลา โดยเพิ่ม predictive mutual information ระหว่างหน้าต่างการสังเกตในอดีตและอนาคตให้สูงสุด พร้อมลงโทษความซับซ้อนของการแทนค่า ฟังก์ชันวัตถุประสงค์นี้ทำงานทั้งหมดใน latent space และไม่ต้องกู้คืนค่าการสังเกต เรานำ DySIB ไปใช้กับชุดข้อมูลวิดีโอการทดลองของลูกตุ้มจริง ซึ่งเป็นกรณีที่รู้ state space ที่แท้จริงอยู่แล้ว วิธีการนี้ โดยใช้ไฮเปอร์พารามิเตอร์ของสถาปัตยกรรมการเรียนรู้ที่กำหนดอย่าง self-consistent จากข้อมูล สามารถกู้คืนการแทนค่า 2 มิติที่สอดคล้องกับมิติ โทโพโลยี และเรขาคณิตของปริภูมิเฟสของลูกตุ้ม โดยพิกัดที่เรียนรู้ได้สอดคล้องอย่างราบรื่นกับมุมและความเร็วเชิงมุมมาตรฐาน ผลลัพธ์เหล่านี้แสดงให้เห็นว่า ในระบบทดลองที่มีการกำหนดคุณลักษณะไว้อย่างดี ข้อมูลเชิงพยากรณ์ใน latent space สามารถใช้กู้คืนพิกัดเชิงพลวัตที่ตีความได้โดยตรงจากข้อมูลมิติสูง

Identifying the dynamical state variables of a system from high-dimensional observations is a central problem across physical sciences. The challenge is that the state variables are not directly observable and must be inferred from raw high-dimensional data without supervision. Here we introduce DySIB (Dynamical Symmetric Information Bottleneck) as a method to learn low-dimensional representations of time-series data by maximizing predictive mutual information between past and future observation windows while penalizing representation complexity. This objective operates entirely in latent space and avoids reconstruction of the observations. We apply DySIB to an experimental video dataset of a physical pendulum, where the underlying state space is known. The method, with hyperparameters of the learning architecture set self-consistently by the data, recovers a two-dimensional representation that matches the dimensionality, topology, and geometry of the pendulum phase space, with the learned coordinates aligning smoothly with the canonical angle and angular velocity. These results demonstrate, on a well-characterized experimental system, that predictive information in latent space can be used to recover interpretable dynamical coordinates directly from high-dimensional data.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2604.24662


AutoScientists: ทีมเอเจนต์แบบจัดระเบียบตัวเองสำหรับการทดลองวิทยาศาสตร์ที่ดำเนินระยะยาว / AutoScientists: Self-Organizing Agent Teams for Long-Running Scientific Experimentation

[IMG] AutoScientists: ทีมเอเจนต์แบบจัดระเบียบตัวเองสำหรับการทดลองวิทยาศาสตร์ที่ดำเนินระยะยาว / AutoScientists: Self-Organizing Agent Teams for Long-Running Scientific Experimentation
|1028x488

แนะนำบทความวิจัย

ในการทดลองทางวิทยาศาสตร์ระยะยาว มักมีการวนซ้ำของการตั้งสมมติฐาน ออกแบบการทดลอง ดำเนินการทดลอง และปรับทิศทางอีกครั้งตามผลลัพธ์ที่ได้ โดย AutoScientists ทำให้กระบวนการนี้เป็นปัญหาการสำรวจแบบวนซ้ำอย่างเป็นทางการ และนำเสนอระบบเอเจนต์แบบกระจายศูนย์เพื่อดำเนินการดังกล่าว เมื่อเทียบกับเอเจนต์ปัญญาประดิษฐ์แบบเดิมที่โดยมากมักเดินตามเส้นทางการวิจัยเพียงเส้นทางเดียว หรือทำงานตามเป้าหมายที่ผู้วางแผนส่วนกลางกำหนดไว้อย่างตายตัว วิธีนี้ถูกออกแบบให้เอเจนต์หลายตัวอ่านและเขียน shared state ร่วมกัน พร้อมจัดตั้งและปรับโครงสร้างทีมได้ด้วยตนเอง แนวคิดหลักคือแทนที่จะสั่งการจากศูนย์กลางแบบรวบยอด ระบบจะให้เอเจนต์รวมตัวกันอย่างอิสระรอบสมมติฐานที่มีแนวโน้มดีตามรูปแบบการสะสมของหลักฐาน วิจารณ์ข้อเสนอของกันและกันอย่างเข้มข้นก่อนใช้ทรัพยากรการทดลอง และแบ่งปันทั้งความสำเร็จและความล้มเหลวเพื่อลดการสำรวจซ้ำซ้อนที่ไม่จำเป็น เพื่อรองรับสิ่งนี้ บทความได้กำหนดปัญหาการหาค่าเหมาะที่สุดในการค้นหาโปรแกรมที่ทำให้ประสิทธิภาพการประเมินสูงสุดภายในพื้นที่การสำรวจ โดยอิงจากคำอธิบายงาน โปรแกรมตั้งต้น ชุดข้อมูลสำหรับการเรียนรู้ และตัวชี้วัดการประเมิน พร้อมทั้งแยกเกณฑ์ระหว่างข้อมูลฝึก ข้อมูลตรวจสอบ และหากจำเป็นก็ใช้ cross-validation (CV) เพื่อกำหนดเกณฑ์การประเมินสำหรับการทดลองระยะยาวให้ชัดเจน การตั้งปัญหาเช่นนี้มีความสำคัญเพราะทำให้การค้นพบทางวิทยาศาสตร์ไม่ได้ถูกมองเป็นเพียงการคาดการณ์ครั้งเดียว แต่เป็นกระบวนการวิจัยที่การแก้ไขและการตรวจสอบในระดับโปรแกรมสะสมต่อเนื่องไปเรื่อย ๆ

การทำงานของ AutoScientists ประกอบด้วยวงจรของช่วงอภิปรายและช่วงปฏิบัติการเป็นหลัก ในช่วงอภิปราย เอเจนต์จะหารือกันว่าสมมติฐานใดมีแนวโน้มดีโดยอาศัย champion model ปัจจุบัน บันทึกการทดลองในอดีต และเนื้อหาในฟอรัมที่ใช้ร่วมกัน โดยในระยะแรกจะเสนอทิศทางการสำรวจที่หลากหลายอย่างกว้างขวาง ก่อนจะวิจารณ์แนวคิดของกันและกันเพื่อค้นหาจุดบอดในพื้นที่การสำรวจ จากนั้นในช่วงปฏิบัติการ ทีมที่ก่อตัวขึ้นจะทำการทดลองแบบขนาน และบันทึกผลของแต่ละการทดลองลงใน experiment log และฟอรัมร่วม เพื่อให้ทีมอื่นนำไปอ้างอิงได้ทันที โดยเฉพาะอย่างยิ่ง ระบบนี้แยกบทบาทหน้าที่ออกจากกัน เช่น เอเจนต์ฝั่งนักวิเคราะห์ทำหน้าที่ค้นหาและเสนอทิศทางที่ยังไม่เคยลอง ส่วนเอเจนต์ฝั่งผู้ทดลองทำหน้าที่แก้ไขโค้ดและฝึกโมเดลจริง ซึ่งช่วยลดคอขวดที่มักเกิดขึ้นในกระบวนการทดลองที่ยาวนาน นอกจากนี้ยังเก็บการทดลองที่ล้มเหลวไว้ในรายการแยกต่างหากเพื่อไม่ให้ทำซ้ำในทิศทางเดิม และหากมีความเป็นไปได้ว่าการเพิ่มขึ้นของประสิทธิภาพเป็นเพียง statistical noise ก็จะมีขั้นตอนตรวจสอบซ้ำด้วย seed เพิ่มเติมก่อนเลื่อนสถานะ เพื่อหลีกเลี่ยงการเข้าใจผิดว่าการปรับปรุงที่เกิดขึ้นโดยบังเอิญคือความก้าวหน้าจริง

จุดแข็งที่สำคัญที่สุดของแนวทางนี้ไม่ได้อยู่ที่การสร้างไอเดียได้มากขึ้นเพียงอย่างเดียว แต่อยู่ที่การทำให้โครงสร้างของการสะสมองค์ความรู้จากการทดลองเป็นระบบ เอเจนต์จะคงสถานะภายในและความทรงจำไว้ พร้อมเรียนรู้อย่างต่อเนื่องตลอดช่วงเวลาที่ยาวนาน วิเคราะห์กลไกของการปรับแก้ที่ประสบความสำเร็จเพื่อเชื่อมโยงไปยังสมมติฐานถัดไป และเก็บรักษาแม้กระทั่งแนวทางที่ล้มเหลวไว้เป็นทรัพยากรการเรียนรู้ของทั้งระบบ ผลลัพธ์คือ AutoScientists ไม่ได้ทิ้งไว้เพียงโปรแกรมที่มีประสิทธิภาพสูงสุดในฐานะผลผลิตงานวิจัยเท่านั้น แต่ยังสร้าง model card และรายงานผลการวิจัยไว้ด้วย ทำให้ได้ทั้ง reproducibility และ interpretability ไปพร้อมกัน การออกแบบลักษณะนี้แตกต่างจากแนวทางเอเจนต์เดิมอย่างชัดเจน เพราะรวมเอาความสามารถในการปรับตัว การทำงานแบบขนาน และการเรียนรู้จากความล้มเหลว ซึ่งสำคัญต่อการทดลองทางวิทยาศาสตร์ที่รันระยะยาว เข้ามาไว้ในระบบเดียว ในทางปฏิบัติ วิธีนี้แสดงผลลัพธ์ที่ดีกว่าเอเจนต์เดิมในงานชีวการแพทย์แมชชีนเลิร์นนิง การเพิ่มประสิทธิภาพการฝึก language model และการทำนาย protein fitness โดยใน BioML-Bench ทำได้ค่า leaderboard percentile เฉลี่ย 74.4% จาก 24 งาน และให้ผลลัพธ์ดีกว่าเอเจนต์เดี่ยวที่แข็งแกร่งที่สุดอยู่ 8.33% นอกจากนี้ ในการเพิ่มประสิทธิภาพการฝึก GPT ระบบยังไปถึงค่าเป้าหมาย validation bits-per-byte ได้เร็วกว่า Autoresearch 1.9 เท่า และใน ProteinGym ก็แสดงการปรับปรุงที่เหนือกว่าผลงานดีที่สุดเดิมทั้งในปัญหาการจับกันของ ACE2-Spike และใน assay ทั้งหมด 217 รายการ จึงยืนยันได้ว่าเอเจนต์แบบกระจายศูนย์ที่จัดระเบียบตนเองสามารถสร้างผลลัพธ์ที่เป็นรูปธรรมต่อการสำรวจทางวิทยาศาสตร์ระยะยาวได้

บทคัดย่อ(Abstract)

การวิจัยทางวิทยาศาสตร์ดำเนินไปผ่านวงจรซ้ำของการตั้งสมมติฐาน การออกแบบการทดลอง การดำเนินการ และการปรับแก้ AI agent สามารถทำให้บางส่วนของกระบวนการนี้เป็นอัตโนมัติได้ แต่แนวทางที่มีอยู่เดิมมักจะดำเนินตามเส้นทางการวิจัยเพียงเส้นทางเดียว หรือประสานงานผ่านตัววางแผนส่วนกลางที่มีเป้าหมายตายตัว ผลลัพธ์คือมันมีความยากในการรักษาการสำรวจแบบขนาน การปรับตัวเมื่อหลักฐานเชิงทดลองเปลี่ยนแปลง หรือการเก็บรักษาความรู้เกี่ยวกับแนวทางที่ล้มเหลวในระหว่างการทดลองระยะยาว เราขอแนะนำ AutoScientists ซึ่งเป็นทีม AI agent แบบกระจายศูนย์สำหรับการทดลองวิทยาศาสตร์เชิงคำนวณที่ดำเนินระยะยาว เหล่า agent จะตีความสถานะการทดลองที่ใช้ร่วมกัน จัดตั้งทีมกันเองรอบสมมติฐานที่มีแนวโน้ม วิจารณ์ข้อเสนอก่อนใช้ทรัพยากรคอมพิวต์สำหรับการทดลอง และแบ่งปันทั้งความสำเร็จและความล้มเหลวเพื่อลดการสำรวจที่ซ้ำซ้อน ภายใต้งบประมาณการทดลองที่เท่ากัน AutoScientists แสดงประสิทธิภาพเหนือกว่า AI agent รุ่นก่อนในด้าน biomedical machine learning, การเพิ่มประสิทธิภาพการฝึก language model และการทำนาย protein fitness บน BioML-Bench ซึ่งครอบคลุม biomedical imaging, protein engineering, single-cell omics และ drug discovery นั้น AutoScientists ทำค่า leaderboard percentile เฉลี่ยได้ 74.4% จาก 24 งาน ปรับปรุงดีกว่า AI agent ที่แข็งแกร่งที่สุดอยู่ +8.33% ในการเพิ่มประสิทธิภาพการฝึก GPT นั้น AutoScientists ไปถึงค่า validation bits-per-byte เป้าหมายได้เร็วกว่า Autoresearch 1.9 เท่า และยังคงค้นพบการปรับปรุงต่อได้แม้เริ่มจากสถานะแชมป์ตั้งต้นที่แนวทางแบบ agent เดี่ยวไม่พบการปรับปรุงใดเลย (การปรับปรุงที่ถูกยอมรับ 7 ครั้ง เทียบกับ 0 ครั้ง) ในการทำนาย ProteinGym fitness นั้น AutoScientists ค้นพบวิธีสำหรับการจับกันของ ACE2-Spike ที่ปรับปรุงดีกว่าโมเดลล้ำสมัยปัจจุบันอยู่ +12.5% ตามค่า Spearman correlation นอกจากนี้ เมื่อนำวิธีเดียวกันไปใช้กับ ProteinGym assay ทั้ง 217 รายการโดยไม่ต้องแก้ไข ก็ยังปรับปรุงดีกว่าวิธีล้ำสมัยก่อนหน้าอยู่ +6.5% ตามค่า Spearman correlation

การวิจัยทางวิทยาศาสตร์ดำเนินไปผ่านวงจรซ้ำของการตั้งสมมติฐาน การออกแบบการทดลอง การดำเนินการ และการปรับแก้ AI agents สามารถทำให้บางส่วนของกระบวนการนี้เป็นอัตโนมัติได้ แต่แนวทางที่มีอยู่เดิมมักจะดำเนินตามเส้นทางการวิจัยเพียงเส้นทางเดียว หรือประสานงานผ่านตัววางแผนส่วนกลางที่มีเป้าหมายตายตัว ผลลัพธ์คือพวกมันมีความยากในการรักษาการสำรวจแบบขนาน การปรับตัวเมื่อหลักฐานเชิงทดลองเปลี่ยนแปลง หรือการเก็บรักษาความรู้เกี่ยวกับแนวทางที่ล้มเหลวตลอดการทดลองที่กินเวลานาน เราขอแนะนำ AutoScientists ซึ่งเป็นทีม AI agents แบบกระจายศูนย์สำหรับการทดลองวิทยาศาสตร์เชิงคำนวณระยะยาว เหล่า agents จะตีความสถานะการทดลองที่ใช้ร่วมกัน จัดตั้งทีมกันเองรอบสมมติฐานที่มีแนวโน้ม วิจารณ์ข้อเสนอก่อนใช้ทรัพยากรคอมพิวต์สำหรับการทดลอง และแบ่งปันทั้งความสำเร็จและความล้มเหลวเพื่อลดการสำรวจที่ซ้ำซ้อน ภายใต้งบประมาณการทดลองที่เท่ากัน AutoScientists ปรับปรุงเหนือกว่า AI agents รุ่นก่อนในด้าน biomedical machine learning, การเพิ่มประสิทธิภาพการฝึก language model และการทำนาย protein fitness บน BioML-Bench ซึ่งครอบคลุม biomedical imaging, protein engineering, single-cell omics และ drug discovery นั้น AutoScientists ทำค่า leaderboard percentile เฉลี่ยได้ 74.4% จาก 24 งาน ปรับปรุงดีกว่า AI agent ที่แข็งแกร่งที่สุดอยู่ +8.33% ในการเพิ่มประสิทธิภาพการฝึก GPT นั้น AutoScientists ไปถึงค่า validation bits-per-byte เป้าหมายได้เร็วกว่า Autoresearch 1.9 เท่า และยังคงค้นพบการปรับปรุงต่อได้แม้เริ่มจากจุดตั้งต้นที่เป็น champion ซึ่งแนวทางแบบ agent เดี่ยวไม่พบการปรับปรุงใดเลย (การปรับปรุงที่ถูกยอมรับ 7 ครั้ง เทียบกับ 0 ครั้ง) ในการทำนาย ProteinGym fitness นั้น AutoScientists ค้นพบวิธีสำหรับการจับกันของ ACE2-Spike ที่ปรับปรุงดีกว่าโมเดลล้ำสมัยปัจจุบันอยู่ +12.5% ตามค่า Spearman correlation เมื่อนำวิธีเดียวกันไปใช้กับ ProteinGym assays ทั้ง 217 รายการโดยไม่ต้องแก้ไข ก็ยังปรับปรุงดีกว่าวิธีล้ำสมัยก่อนหน้าอยู่ +6.5% ตามค่า Spearman correlation

ลิงก์บทความวิจัย

https://arxiv.org/abs/2605.28655

อ่านเพิ่มเติม

https://autoscientists.openscientist.ai/

https://github.com/mims-harvard/AutoScientists


⚠️โฆษณา⚠️: 🔥ชุมชนผู้ใช้ PyTorch เกาหลี🇰🇷ที่สรุปบทความนี้คิดว่าบทความนี้มีประโยชน์ไหม? หากสมัครเป็นสมาชิก เราจะส่งบทความสำคัญให้ทางอีเมล💌! คุณยังสามารถรับการแจ้งเตือนบทความใหม่ผ่าน Telegram หรือ Slack/Discord/Teams/Dooray/GoogleChat ฯลฯ ได้เช่นกัน :D

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น