ภาพรวม

  • เราได้ทดลองแปลอัตโนมัติบทความเกี่ยวกับงานวิจัย ML ที่ DAIR.AI เผยแพร่ทุกสัปดาห์

  • เมื่อพิจารณางานวิจัยที่ได้รับคัดเลือกในสัปดาห์นี้ จะเห็นได้ว่าความสนใจต่อด้านต่าง ๆ เช่น Large Language Models (LLMs), Multimodal Models และ Visual Language Models มีความโดดเด่นเป็นพิเศษ งานวิจัยอย่าง "Knowledge Fusion of LLMs", "Resource-efficient LLMs & Multimodal Models" และ "Red Teaming Visual Language Models" สะท้อนแนวโน้มสำคัญเหล่านี้ พร้อมนำเสนอการวิจัยและพัฒนาเกี่ยวกับโมเดลขนาดใหญ่ ประสิทธิภาพของโมเดล การเรียนรู้แบบหลายโมดัล และการยกระดับความสามารถในการประมวลผลข้อมูลภาพ

  • แนวโน้มดังกล่าวเกิดขึ้นท่ามกลางความสำคัญที่เพิ่มขึ้นของความสามารถในการทำความเข้าใจและประมวลผลข้อมูลที่ซับซ้อนในเทคโนโลยีปัญญาประดิษฐ์ช่วงไม่กี่ปีที่ผ่านมา โดยเฉพาะในด้าน Natural Language Processing (NLP) และ Computer Vision โมเดลภาษาขนาดใหญ่ทำผลงานได้ยอดเยี่ยมในงานด้านความเข้าใจภาษาที่หลากหลาย ขณะที่โมเดลหลายโมดัลได้กลายเป็นองค์ประกอบสำคัญของงานวิจัยที่มุ่งสู่ความเข้าใจแบบมนุษย์ผ่านการผสานข้อมูลหลายประเภทเข้าด้วยกัน เช่น ข้อความ ภาพ และเสียง นอกจากนี้ Visual Language Models ยังมีบทบาทสำคัญในการสร้างระบบ AI ที่สมบูรณ์และโต้ตอบได้มากขึ้น ด้วยการทำให้สามารถเข้าถึงภาพและคอนเทนต์เชิงภาพผ่านภาษาได้

  • แนวโน้มที่มองเห็นได้จากชื่อเรื่องและบทนำนี้ ชี้ให้เห็นว่าไม่เพียงมีงานวิจัยเพื่อยกระดับประสิทธิภาพของโมเดล AI ขั้นสูงมากขึ้นเท่านั้น แต่ยังมีงานจำนวนมากที่มุ่งสร้างมาตรฐานใหม่ด้านผลิตภาพและประสิทธิภาพด้วย งานวิจัยที่ว่าด้วยการเพิ่มประสิทธิภาพการใช้ทรัพยากรของโมเดลขนาดใหญ่สะท้อนทิศทางการวิจัยปัจจุบันที่มุ่งสู่การพัฒนา AI อย่างยั่งยืนในแง่ของการใช้พลังงานและต้นทุนการคำนวณ อีกทั้งยังเน้นย้ำถึงความพยายามของทั้งแวดวงวิชาการและภาคอุตสาหกรรมในการแก้ปัญหาที่จำเป็นต้องได้รับการคลี่คลาย เพื่อให้ปัญญาประดิษฐ์ถูกนำไปใช้จริงในภาคอุตสาหกรรมและสังคมได้อย่างกว้างขวางยิ่งขึ้น


วิเคราะห์เชิงลึกทุกสรรพสิ่ง: ปลดปล่อยพลังของข้อมูลขนาดใหญ่ที่ไม่มีการติดป้ายกำกับ / Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data

แนะนำงานวิจัย

  • โซลูชันการประเมินความลึกจากภาพเดี่ยวที่แข็งแกร่งซึ่งสามารถจัดการภาพใดก็ได้ในทุกสถานการณ์ โดยใส่คำอธิบายกำกับให้ข้อมูลขนาดใหญ่ที่ไม่มีป้ายกำกับโดยอัตโนมัติ (สูงสุดราว 62 ล้านรายการ) เพื่อลดข้อผิดพลาดด้านการทำให้ทั่วไป และเสนอแนวทางที่มีประสิทธิภาพในการใช้ประโยชน์จากข้อมูลไร้ป้ายกำกับขนาดใหญ่ นอกจากความสามารถในการทำให้ทั่วไปแล้ว ยังสร้างสถิติใหม่ระดับ state-of-the-art ผ่านการ fine-tuning และต่อยอดไปสู่ depth-conditioned ControlNet ที่ได้รับการปรับปรุงด้วย

    A robust monocular depth estimation solution that can deal with any images under any circumstance; automatically annotates large-scale unlabeled data (~62m) which helps to reduce generalization error; proposes effective strategies to leverage the power of the large-scale unlabeled data; besides generalization ability, it established new state-of-the-art through fine-tuning and even results in an enhanced depth-conditioned controlnet.

บทคัดย่องานวิจัย (Abstract)

  • งานวิจัยนี้นำเสนอ Depth Anything ซึ่งเป็นโซลูชันที่ใช้งานได้จริงอย่างมากสำหรับการประเมินความลึกจากภาพเดี่ยวอย่างแข็งแกร่ง โดยไม่ได้มุ่งพัฒนาโมดูลเทคนิคใหม่ ๆ แต่ตั้งเป้าสร้าง foundation model ที่เรียบง่ายแต่ทรงพลัง ซึ่งสามารถจัดการภาพทุกประเภทได้ในทุกสภาวะ เพื่อให้บรรลุเป้าหมายนี้ ผู้วิจัยได้ขยายชุดข้อมูลด้วยการออกแบบ data engine สำหรับรวบรวมและใส่คำอธิบายกำกับข้อมูลขนาดใหญ่ที่ไม่มีป้ายกำกับโดยอัตโนมัติ (ประมาณ 62 ล้านรายการ) ซึ่งช่วยขยายขอบเขตของข้อมูลอย่างมีนัยสำคัญและลดข้อผิดพลาดในการทำให้ทั่วไปได้ จากนั้นได้ศึกษากลยุทธ์ที่เรียบง่ายแต่มีประสิทธิภาพ 2 ประการเพื่อทำให้การขยายสเกลข้อมูลมีศักยภาพมากขึ้น ประการแรกคือการสร้างเป้าหมายการเพิ่มประสิทธิภาพที่ท้าทายยิ่งขึ้นด้วยการใช้เครื่องมือ data augmentation ซึ่งบังคับให้โมเดลแสวงหาความรู้เชิงภาพเพิ่มเติมอย่างกระตือรือร้นและเรียนรู้ representation ที่แข็งแกร่ง ประการที่สองคือการพัฒนาการกำกับดูแลแบบเสริมเพื่อบังคับให้โมเดลรับช่วง semantic priors ที่อุดมสมบูรณ์จาก encoder ที่ผ่านการ pre-trained มาแล้ว เราประเมินความสามารถแบบ zero-shot อย่างกว้างขวาง ทั้งกับชุดข้อมูลสาธารณะ 6 ชุดและภาพถ่ายที่ถ่ายแบบสุ่ม ผลลัพธ์แสดงให้เห็นถึงความสามารถในการทำให้ทั่วไปที่น่าประทับใจ นอกจากนี้ เมื่อทำ fine-tuning ด้วยข้อมูลความลึกเชิงเมตริกจาก NYUv2 และ KITTI ก็สามารถสร้างสถิติ SOTA ใหม่ได้ โมเดลความลึกที่ดียิ่งขึ้นยังนำไปสู่ ControlNet แบบ depth-conditioned ที่ดียิ่งขึ้นด้วย รายละเอียดเพิ่มเติมดูได้ที่ https://github.com/LiheYoung/Depth-Anything

    This work presents Depth Anything, a highly practical solution for robust monocular depth estimation. Without pursuing novel technical modules, we aim to build a simple yet powerful foundation model dealing with any images under any circumstances. To this end, we scale up the dataset by designing a data engine to collect and automatically annotate large-scale unlabeled data (~62M), which significantly enlarges the data coverage and thus is able to reduce the generalization error. We investigate two simple yet effective strategies that make data scaling-up promising. First, a more challenging optimization target is created by leveraging data augmentation tools. It compels the model to actively seek extra visual knowledge and acquire robust representations. Second, an auxiliary supervision is developed to enforce the model to inherit rich semantic priors from pre-trained encoders. We evaluate its zero-shot capabilities extensively, including six public datasets and randomly captured photos. It demonstrates impressive generalization ability. Further, through fine-tuning it with metric depth information from NYUv2 and KITTI, new SOTAs are set. Our better depth model also results in a better depth-conditioned ControlNet. Our models are released at https://github.com/LiheYoung/Depth-Anything.

ลิงก์งานวิจัย

https://arxiv.org/abs/2401.10891v1

อ่านเพิ่มเติม

https://x.com/_akhaliq/status/1749284669936275463


การผสานความรู้ของโมเดลภาษาขนาดใหญ่ / Knowledge Fusion of Large Language Models

แนะนำงานวิจัย

  • เสนอ FuseLLM ซึ่งมีแนวคิดหลักคือการทำให้ความรู้จากหลาย learning organization ถูกทำให้เป็นภายนอกและถ่ายโอนความสามารถเหล่านั้นไปยัง learning organization เป้าหมาย โดยอาศัยการกระจายการสร้างของ source learning organization เพื่อทำให้ทั้งความรู้ส่วนรวมและจุดแข็งเฉพาะบุคคลถูกทำให้เป็นภายนอกและถ่ายโอนไปยัง learning organization เป้าหมายผ่านการเรียนรู้อย่างต่อเนื่อง และพบว่า FuseLLM สามารถปรับปรุงประสิทธิภาพของโมเดลเป้าหมายได้ในความสามารถหลากหลาย เช่น การให้เหตุผล สามัญสำนึก และการสร้างโค้ด

    เสนอ FuseLLM โดยมีแนวคิดหลักคือการดึงความรู้จาก LLM หลายตัวออกมาและถ่ายโอนความสามารถเหล่านั้นไปยัง LLM เป้าหมาย ใช้การกระจายการสร้างของ source LLM เพื่อดึงออกมาทั้งความรู้ร่วมกันและจุดแข็งเฉพาะของแต่ละตัว แล้วถ่ายโอนไปยัง LLM เป้าหมายผ่านการฝึกอย่างต่อเนื่อง และพบว่า FuseLLM สามารถยกระดับประสิทธิภาพของโมเดลเป้าหมายได้ในความสามารถหลากหลาย เช่น การให้เหตุผล สามัญสำนึก และการสร้างโค้ด

บทคัดย่อ(Abstract)

  • แม้ว่าการฝึก large language model (LLM) ตั้งแต่ต้นจะสามารถสร้างโมเดลที่มีฟังก์ชันและจุดแข็งเฉพาะตัวได้ แต่ก็มีต้นทุนสูงมากและอาจทำให้เกิดความสามารถที่ซ้ำซ้อนกัน อีกทางเลือกหนึ่งคือการรวม LLM ที่ผ่านการพรีเทรนไว้แล้วให้กลายเป็นโมเดลที่ทรงพลังกว่าเดิม ซึ่งเป็นแนวทางที่คุ้มค่าและน่าสนใจ อย่างไรก็ตาม เนื่องจาก LLM เหล่านี้มีสถาปัตยกรรมที่แตกต่างกัน การผสมน้ำหนักของโมเดลโดยตรงจึงแทบเป็นไปไม่ได้ ในงานนี้ เรานำเสนอแนวคิดเรื่อง knowledge fusion สำหรับ LLM โดยมุ่งรวมความสามารถของ LLM ที่มีอยู่และถ่ายโอนไปยัง LLM เดียว ด้วยการอาศัยการกระจายการสร้างของ source LLM เราจึงดึงเอาทั้งความรู้ร่วมกันและจุดแข็งเฉพาะของแต่ละโมเดลออกมา ซึ่งอาจยกระดับความสามารถของโมเดลเป้าหมายให้เหนือกว่า source LLM แต่ละตัวได้ ผู้วิจัยตรวจสอบแนวทางนี้ด้วย LLM ยอดนิยม 3 ตัวที่มีสถาปัตยกรรมต่างกัน ได้แก่ Llama-2, MPT และ OpenLLaMA บน benchmark และงานหลากหลายประเภท ผลลัพธ์ยืนยันว่าการหลอมรวม LLM สามารถปรับปรุงประสิทธิภาพของโมเดลเป้าหมายได้ในความสามารถหลายด้าน เช่น การให้เหตุผล สามัญสำนึก และการสร้างโค้ด โค้ด น้ำหนักโมเดล และข้อมูลเปิดเผยไว้ที่ \url{https://github.com/fanqiwan/FuseLLM}

    แม้ว่าการฝึก large language models (LLMs) ตั้งแต่เริ่มต้นจะสามารถสร้างโมเดลที่มีฟังก์ชันและจุดแข็งที่แตกต่างกันได้ แต่ก็มาพร้อมต้นทุนที่สูงมากและอาจก่อให้เกิดความสามารถที่ซ้ำซ้อนกันได้ อีกทางเลือกหนึ่งคือการรวม LLM ที่ผ่านการพรีเทรนแล้วเข้าด้วยกันให้เป็นโมเดลที่ทรงพลังยิ่งขึ้น ซึ่งเป็นแนวทางที่คุ้มค่าและน่าสนใจ อย่างไรก็ตาม เนื่องจาก LLM เหล่านี้มีสถาปัตยกรรมที่หลากหลาย การผสมน้ำหนักของโมเดลโดยตรงจึงไม่ใช่เรื่องที่ทำได้จริง ในบทความนี้ เราเสนอแนวคิดเรื่องการหลอมรวมความรู้สำหรับ LLM โดยมีเป้าหมายเพื่อรวมความสามารถของ LLM ที่มีอยู่และถ่ายโอนไปยัง LLM เดียว ด้วยการอาศัยการกระจายการสร้างของ source LLM เราดึงเอาทั้งความรู้ร่วมกันและจุดแข็งเฉพาะของแต่ละตัวออกมา ซึ่งอาจยกระดับความสามารถของโมเดลเป้าหมายให้เหนือกว่าความสามารถของ source LLM แต่ละตัวได้ เราตรวจสอบแนวทางของเราด้วย LLM ยอดนิยม 3 ตัวที่มีสถาปัตยกรรมต่างกัน ได้แก่ Llama-2, MPT และ OpenLLaMA บน benchmark และงานหลากหลายประเภท ผลการศึกษายืนยันว่าการหลอมรวม LLM สามารถปรับปรุงประสิทธิภาพของโมเดลเป้าหมายได้ในความสามารถหลายด้าน เช่น การให้เหตุผล สามัญสำนึก และการสร้างโค้ด โค้ด น้ำหนักโมเดล และข้อมูลของเราเปิดเผยสู่สาธารณะที่ \url{https://github.com/fanqiwan/FuseLLM}.

ลิงก์งานวิจัย

https://arxiv.org/abs/2401.10491

อ่านเพิ่มเติม

https://github.com/fanqiwan/FuseLLM

https://x.com/omarsar0/status/1749267663900057620


MambaByte: โมเดล Selective State Space แบบไม่ต้องใช้โทเคน / MambaByte: Token-free Selective State Space Model

แนะนำงานวิจัย

  • ปรับ Mamba SSM ให้เรียนรู้จาก raw bytes โดยตรง ไบต์ทำให้เกิดลำดับที่ยาวขึ้น ซึ่ง autoregressive Transformers ขยายสเกลได้ไม่ดีนัก งานนี้รายงานข้อได้เปรียบอย่างมากด้านการอนุมานที่เร็วขึ้น และยังทำผลงานได้เหนือกว่า subword Transformers ด้วย

    ปรับ mamba ssm ให้เรียนรู้โดยตรงจาก raw bytes ไบต์ทำให้ลำดับยาวขึ้น ซึ่ง autoregressive transformers จะขยายสเกลได้ไม่ดีในกรณีนี้ งานนี้รายงานประโยชน์อย่างมากที่เกี่ยวข้องกับการอนุมานที่เร็วขึ้น และยังทำผลงานได้ดีกว่า subword transformers อีกด้วย

บทคัดย่อ(Abstract)

  • ภาษาโมเดลแบบไม่ใช้โทเคนเรียนรู้โดยตรงจาก raw bytes และขจัดอคติจากการทำ subword tokenization อย่างไรก็ตาม การทำงานในระดับไบต์ทำให้ลำดับยาวขึ้นอย่างมาก และ Transformers แบบอัตถดถอยอัตโนมัติมาตรฐานขยายสเกลได้ไม่ดีในสภาพแวดล้อมเช่นนี้ เราทดลองกับ MambaByte ซึ่งเป็นการดัดแปลงแบบไม่ใช้โทเคนของ Mamba state space model ที่ฝึกแบบอัตถดถอยอัตโนมัติบนลำดับไบต์ ผลการทดลองชี้ให้เห็นว่า MambaByte มีประสิทธิภาพด้านการคำนวณเหนือกว่าเมื่อเทียบกับโมเดลระดับไบต์อื่น ๆ นอกจากนี้ เรายังพบว่า MambaByte สามารถแข่งขันได้กับ subword Transformers ระดับ state-of-the-art และถึงขั้นทำผลงานได้ดีกว่าอีกด้วย อีกทั้งด้วยการขยายตามความยาวแบบเชิงเส้น MambaByte จึงมีข้อได้เปรียบด้านการอนุมานที่รวดเร็วกว่าเมื่อเทียบกับ Transformers ผลการศึกษานี้แสดงให้เห็นถึงความเป็นไปได้ของ MambaByte ในการทำให้ language modeling แบบไม่ใช้โทเคนเกิดขึ้นได้

    โมเดลภาษาที่ไม่ต้องใช้โทเคนเรียนรู้โดยตรงจาก raw bytes และขจัดอคติของการทำ subword tokenization ออกไป อย่างไรก็ตาม การทำงานบนไบต์ส่งผลให้ลำดับยาวขึ้นอย่างมีนัยสำคัญ และ Transformers แบบอัตถดถอยอัตโนมัติมาตรฐานขยายสเกลได้ไม่ดีในสภาพแวดล้อมเช่นนี้ เราทดลองกับ MambaByte ซึ่งเป็นการดัดแปลงแบบไม่ใช้โทเคนของ Mamba state space model ที่ฝึกแบบอัตถดถอยอัตโนมัติบนลำดับไบต์ ผลการทดลองของเราชี้ให้เห็นถึงประสิทธิภาพด้านการคำนวณของ MambaByte เมื่อเทียบกับโมเดลระดับไบต์อื่น ๆ เรายังพบว่า MambaByte สามารถแข่งขันได้กับ subword Transformers ระดับแนวหน้า และแม้กระทั่งทำผลงานได้เหนือกว่า นอกจากนี้ เนื่องจากมีการขยายตามความยาวแบบเชิงเส้น MambaByte จึงได้เปรียบด้านการอนุมานที่รวดเร็วกว่าเมื่อเทียบกับ Transformers ผลการค้นพบของเราสร้างหลักฐานยืนยันความเป็นไปได้ของ MambaByte ในการทำให้ language modeling แบบไม่ต้องใช้โทเคนเกิดขึ้นได้

ลิงก์งานวิจัย

https://arxiv.org/abs/2401.13660

อ่านเพิ่มเติม

https://x.com/omarsar0/status/1750366964759859633


Diffuse to Choose: เพิ่มประสิทธิภาพการทำ image-conditioned inpainting ใน latent diffusion models สำหรับ Virtual Try-All / Diffuse to Choose: Enriching Image Conditioned Inpainting in Latent Diffusion Models for Virtual Try-All

แนะนำงานวิจัย

  • โมเดล inpainting แบบ image-conditioned ที่อิง diffusion ซึ่งสร้างสมดุลระหว่างการอนุมานที่รวดเร็วกับความคมชัดสูง พร้อมทั้งทำ semantic manipulation ได้อย่างแม่นยำในคอนเทนต์ของฉากที่กำหนด และยังให้ประสิทธิภาพเหนือกว่าวิธี zero-shot diffusion inpainting ที่มีอยู่เดิม รวมถึงอัลกอริทึม few-shot diffusion personalization อย่าง DreamPaint ด้วย
    > A diffusion-based image-conditioned inpainting model to balance fast inference with high-fidelity while enabling accurate semantic manipulations in a given scene content; outperforms existing zero-shot diffusion inpainting methods and even few-shot diffusion personalization algorithms such as dreampaint.

บทคัดย่อ(Abstract)

  • เมื่อการช้อปปิ้งออนไลน์เติบโตขึ้น ความสามารถที่ผู้ซื้อจะมองเห็นภาพสินค้าภายในสภาพแวดล้อมของตนเองแบบเสมือนจริง หรือสิ่งที่เรียกว่า 'Virtual Try-All' จึงกลายเป็นเรื่องสำคัญ โมเดล diffusion รุ่นใหม่โดยเนื้อแท้มี world model อยู่ภายใน ทำให้เหมาะกับงานนี้ในบริบทของ inpainting อย่างไรก็ตาม โมเดล diffusion แบบ image-conditioned แบบดั้งเดิมมักไม่สามารถเก็บรายละเอียดระดับละเอียดของสินค้าได้ ขณะที่โมเดลที่ขับเคลื่อนด้วย personalization เช่น DreamPaint นั้นเก็บรายละเอียดของสินค้าได้ดี แต่ยังไม่เหมาะกับการใช้งานแบบเรียลไทม์ Unity นำเสนอ "Diffuse to Choose" ซึ่งเป็นโมเดล image-conditioned inpainting แบบอิง diffusion รูปแบบใหม่ ที่สามารถสร้างสมดุลระหว่างการอนุมานที่รวดเร็วกับการคงรายละเอียดความคมชัดสูงของไอเท็มอ้างอิงไว้ได้อย่างมีประสิทธิภาพ พร้อมรับประกันการปรับเปลี่ยนเชิงความหมายอย่างแม่นยำในคอนเทนต์ของฉากที่กำหนด แนวทางของ Unity อาศัยการผสานคุณลักษณะแบบละเอียดจากภาพอ้างอิงเข้าไปยัง latent feature maps ของโมเดล diffusion หลักโดยตรง ควบคู่กับ perceptual loss เพื่อรักษารายละเอียดของไอเท็มอ้างอิงให้ดียิ่งขึ้น Unity ได้ทดสอบอย่างกว้างขวางทั้งกับชุดข้อมูลภายในและชุดข้อมูลสาธารณะที่เปิดให้ใช้งาน และแสดงให้เห็นว่า Diffuse to Choose เหนือกว่าวิธี zero-shot diffusion inpainting ที่มีอยู่เดิม ตลอดจนอัลกอริทึม few-shot diffusion personalization อย่าง DreamPaint
    > As online shopping is growing, the ability for buyers to virtually visualize products in their settings-a phenomenon we define as "Virtual Try-All"-has become crucial. Recent diffusion models inherently contain a world model, rendering them suitable for this task within an inpainting context. However, traditional image-conditioned diffusion models often fail to capture the fine-grained details of products. In contrast, personalization-driven models such as DreamPaint are good at preserving the item's details but they are not optimized for real-time applications. We present "Diffuse to Choose," a novel diffusion-based image-conditioned inpainting model that efficiently balances fast inference with the retention of high-fidelity details in a given reference item while ensuring accurate semantic manipulations in the given scene content. Our approach is based on incorporating fine-grained features from the reference image directly into the latent feature maps of the main diffusion model, alongside with a perceptual loss to further preserve the reference item's details. We conduct extensive testing on both in-house and publicly available datasets, and show that Diffuse to Choose is superior to existing zero-shot diffusion inpainting methods as well as few-shot diffusion personalization algorithms like DreamPaint.

ลิงก์งานวิจัย

https://arxiv.org/abs/2401.13795

อ่านเพิ่มเติม

https://x.com/_akhaliq/status/1750737690553692570


WARM: ว่าด้วยข้อดีของโมเดลรางวัลแบบถัวเฉลี่ยน้ำหนัก / WARM: On the Benefits of Weight Averaged Reward Models

แนะนำงานวิจัย

  • นำเสนอ weighted averaged reward models (WARM) ซึ่งเกี่ยวข้องกับการทำ fine-tuning reward models หลายตัวแล้วนำมาเฉลี่ยกันใน weight space เพื่อเพิ่มประสิทธิภาพเมื่อเทียบกับ prediction ensembling แบบดั้งเดิม และช่วยยกระดับคุณภาพกับความสอดคล้องเชิง alignment ของการทำนายจาก LLM
    > Introduces weighted averaged rewards models (warm) that involve fine-tuning multiple rewards models and then averaging them in the weight space; average weighting improves efficiency compared to traditional prediction ensembling; it improves the quality and alignment of llm predictions.

บทคัดย่อ(Abstract)

  • การปรับโมเดลภาษาขนาดใหญ่ (LLM) ให้สอดคล้องกับความชอบของมนุษย์ผ่าน reinforcement learning (RLHF) อาจนำไปสู่ reward hacking ซึ่งเป็นกรณีที่ LLM อาศัยช่องโหว่ของ reward model (RM) เพื่อให้ได้รางวัลสูงในเชิงผิวเผินโดยไม่ได้บรรลุเป้าหมายที่แท้จริง โดย Unity ระบุความท้าทายหลัก 2 ประการในการออกแบบ RM เพื่อลดปัญหา reward hacking ได้แก่ การเปลี่ยนแปลงของการกระจายข้อมูลระหว่างกระบวนการ RL และความไม่สอดคล้องกันของความชอบของมนุษย์ เพื่อแก้ปัญหานี้ ทีมวิจัยเสนอ Weight Averaged Reward Models (WARM) โดยเริ่มจาก fine-tune RM หลายตัว แล้วนำมาเฉลี่ยกันใน weight space กลยุทธ์นี้อิงจากข้อสังเกตที่ว่าน้ำหนักที่ผ่านการ fine-tune แล้วยังคงเชื่อมต่อกันแบบเชิงเส้นเมื่อใช้การ pre-training เดียวกัน การเฉลี่ยน้ำหนักทำให้ WARM มีประสิทธิภาพดีกว่าเมื่อเทียบกับการ ensemble ค่าทำนายแบบดั้งเดิม พร้อมทั้งเพิ่มความน่าเชื่อถือภายใต้ distribution shift และความทนทานต่อความไม่สอดคล้องของ preference จากการทดลองกับงานสรุปข้อความโดยใช้วิธี best-of-N และ RL พบว่า WARM ช่วยยกระดับทั้งคุณภาพโดยรวมและความสอดคล้องของผลลัพธ์จาก LLM ตัวอย่างเช่น policy RL ที่ fine-tune ด้วย WARM มีอัตราชนะ 79.4% เมื่อเทียบกับ policy RL ที่ fine-tune ด้วย RM ตัวเดียว
    > Aligning large language models (LLMs) with human preferences through reinforcement learning (RLHF) can lead to reward hacking, where LLMs exploit failures in the reward model (RM) to achieve seemingly high rewards without meeting the underlying objectives. We identify two primary challenges when designing RMs to mitigate reward hacking: distribution shifts during the RL process and inconsistencies in human preferences. As a solution, we propose Weight Averaged Reward Models (WARM), first fine-tuning multiple RMs, then averaging them in the weight space. This strategy follows the observation that fine-tuned weights remain linearly mode connected when sharing the same pre-training. By averaging weights, WARM improves efficiency compared to the traditional ensembling of predictions, while improving reliability under distribution shifts and robustness to preference inconsistencies. Our experiments on summarization tasks, using best-of-N and RL methods, shows that WARM improves the overall quality and alignment of LLM predictions; for example, a policy RL fine-tuned with WARM has a 79.4% win rate against a policy RL fine-tuned with a single RM.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2401.12187

อ่านเพิ่มเติม

https://x.com/ramealexandre/status/1749719471806157304


แบบสำรวจเกี่ยวกับ LLM ที่ใช้ทรัพยากรอย่างมีประสิทธิภาพและโมเดลพื้นฐานแบบมัลติโหมด / A Survey of Resource-efficient LLM and Multimodal Foundation Models

แนะนำงานวิจัย

  • งานสำรวจด้าน ML ที่ใช้ทรัพยากรอย่างมีประสิทธิภาพและโมเดลพื้นฐานแบบมัลติโหมด ซึ่งนำเสนอการวิเคราะห์และอินไซต์อย่างครอบคลุมเกี่ยวกับงานวิจัยด้านประสิทธิภาพของ ML รวมถึงสถาปัตยกรรม อัลกอริทึม การออกแบบระบบจริง และการนำไปใช้งาน
    > A survey of resource-efficient llms and multimodal foundations models; provides a comprehensive analysis and insights into ml efficiency research, including architectures, algorithms, and practical system designs and implementations.

บทคัดย่อ(Abstract)

  • โมเดลพื้นฐานขนาดใหญ่ เช่น โมเดลภาษาขนาดใหญ่ (LLM), Vision Transformer (ViT), diffusion และโมเดลมัลติโหมดที่อิง LLM กำลังพลิกโฉมวงจรชีวิตของแมชชีนเลิร์นนิงทั้งหมด ตั้งแต่การฝึกไปจนถึงการนำไปใช้งานจริง อย่างไรก็ตาม ความก้าวหน้าอย่างมากด้านความอเนกประสงค์และประสิทธิภาพของโมเดลเหล่านี้ต้องแลกมาด้วยต้นทุนด้านทรัพยากรฮาร์ดแวร์ที่สูงมาก เพื่อสนับสนุนการเติบโตของโมเดลขนาดใหญ่เหล่านี้ในลักษณะที่ขยายขนาดได้และยั่งยืนต่อสิ่งแวดล้อม จึงมีความสนใจอย่างมากในการพัฒนากลยุทธ์ที่ใช้ทรัพยากรอย่างมีประสิทธิภาพ แบบสำรวจนี้เจาะลึกถึงความสำคัญของงานวิจัยดังกล่าวโดยพิจารณาทั้งในมุมของอัลกอริทึมและระบบ พร้อมนำเสนอการวิเคราะห์อย่างครอบคลุมและอินไซต์ที่มีคุณค่าซึ่งสังเคราะห์จากวรรณกรรมที่มีอยู่ ครอบคลุมหัวข้อที่หลากหลายตั้งแต่สถาปัตยกรรมโมเดลล้ำสมัยและอัลกอริทึมสำหรับการฝึก/การให้บริการ ไปจนถึงการออกแบบและการใช้งานระบบจริง เป้าหมายของแบบสำรวจนี้คือการให้ภาพรวมว่ากลยุทธ์ปัจจุบันกำลังรับมือกับความท้าทายด้านทรัพยากรที่เกิดจากโมเดลพื้นฐานขนาดใหญ่อย่างไร และอาจช่วยจุดประกายความก้าวหน้าใหม่ ๆ ในอนาคตของสาขานี้
    > Large foundation models, including large language models (LLMs), vision transformers (ViTs), diffusion, and LLM-based multimodal models, are revolutionizing the entire machine learning lifecycle, from training to deployment. However, the substantial advancements in versatility and performance these models offer come at a significant cost in terms of hardware resources. To support the growth of these large models in a scalable and environmentally sustainable way, there has been a considerable focus on developing resource-efficient strategies. This survey delves into the critical importance of such research, examining both algorithmic and systemic aspects. It offers a comprehensive analysis and valuable insights gleaned from existing literature, encompassing a broad array of topics from cutting-edge model architectures and training/serving algorithms to practical system designs and implementations. The goal of this survey is to provide an overarching understanding of how current approaches are tackling the resource challenges posed by large foundation models and to potentially inspire future breakthroughs in this field.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2401.08092v1

อ่านเพิ่มเติม

https://x.com/omarsar0/status/1749208653926654010


การทดสอบโจมตีเชิง red team กับโมเดลวิชวลภาษา / Red Teaming Visual Language Models

แนะนำงานวิจัย

  • ขั้นแรก งานวิจัยนี้นำเสนอชุดข้อมูล red teaming ที่ประกอบด้วย 10 งานย่อย (เช่น การทำให้ภาพชวนเข้าใจผิด, การ jailbreak แบบหลายโมดัล, ความเป็นธรรมด้านใบหน้า ฯลฯ) และพบว่า VLM (Vision-Language Models) โอเพนซอร์สชื่อดัง 10 รุ่นมีความยากลำบากกับ red teaming ในระดับที่แตกต่างกัน และมีช่องว่างด้านประสิทธิภาพกับ gpt-4v สูงสุดถึง 31% อีกทั้งยังนำ red teaming alignment ไปใช้กับ llava-v1.5 ร่วมกับ SFT (Supervised Fine-tuning) โดยใช้ชุดข้อมูล red teaming ที่เสนอขึ้น ซึ่งช่วยปรับปรุงประสิทธิภาพของโมเดลบนชุดทดสอบได้ 10%
    > First presents a red teaming dataset of 10 subtasks (e.g., image misleading, multi-modal jailbreaking, face fairness, etc); finds that 10 prominent open-sourced vlms struggle with the red teaming in different degrees and have up to 31% performance gap with gpt-4v; also applies red teaming alignment to llava-v1.5 with sft using the proposed red teaming dataset, which improves model performance by 10% in the test set.

บทคัดย่อของงานวิจัย (Abstract)

  • VLM (Vision-Language Models) ขยายความสามารถของ LLM (Large Language Models) เพื่อรองรับอินพุตแบบหลายโมดัล เนื่องจากมีการยืนยันแล้วว่า LLM สามารถถูกชักนำให้สร้างเนื้อหาที่เป็นอันตรายหรือไม่ถูกต้องผ่านกรณีทดสอบเฉพาะบางแบบ (เรียกว่า Red Teaming) จึงยังคงเป็นคำถามว่า VLM จะทำงานอย่างไรในสถานการณ์ลักษณะเดียวกัน โดยเฉพาะเมื่อมีการรวมกันของอินพุตข้อความและภาพ เพื่อสำรวจปัญหานี้ เรานำเสนอชุดข้อมูล red teaming แบบใหม่ RTVLM ซึ่งครอบคลุม 10 งานย่อย (เช่น การทำให้ภาพชวนเข้าใจผิด, การ jailbreak แบบหลายโมดัล, ความเป็นธรรมด้านใบหน้า ฯลฯ) ภายใต้ 4 มิติหลัก (ความซื่อตรง, ความเป็นส่วนตัว, ความปลอดภัย, ความเป็นธรรม) RTVLM ของ Criteo เป็นชุดข้อมูล red teaming ชุดแรกที่ใช้ benchmark VLM ปัจจุบันใน 4 มิตินี้ ผลการวิเคราะห์อย่างละเอียดแสดงให้เห็นว่า VLM โอเพนซอร์สชื่อดัง 10 รุ่นมีความยากลำบากกับ red teaming ในระดับที่แตกต่างกัน และมีช่องว่างด้านประสิทธิภาพกับ GPT-4V สูงสุดถึง 31% นอกจากนี้ เรายังนำ red teaming alignment ไปใช้กับ LLaVA-v1.5 อย่างตรงไปตรงมาผ่าน Supervised Fine-tuning (SFT) โดยใช้ RTVLM ซึ่งช่วยเสริมประสิทธิภาพของโมเดลขึ้น 10% บนชุดทดสอบ RTVLM, 13% บน MM-Hal และไม่มีการลดลงอย่างมีนัยสำคัญบน MM-Bench ทำให้แซงหน้าโมเดลตระกูล LLaVA อื่น ๆ ที่ใช้ข้อมูล alignment แบบทั่วไป สิ่งนี้เผยให้เห็นว่า VLM โอเพนซอร์สในปัจจุบันยังขาด red teaming alignment อยู่มาก โค้ดและชุดข้อมูลของเราจะเปิดเป็นโอเพนซอร์ส
    > VLMs (Vision-Language Models) extend the capabilities of LLMs (Large Language Models) to accept multimodal inputs. Since it has been verified that LLMs can be induced to generate harmful or inaccurate content through specific test cases (termed as Red Teaming), how VLMs perform in similar scenarios, especially with their combination of textual and visual inputs, remains a question. To explore this problem, we present a novel red teaming dataset RTVLM, which encompasses 10 subtasks (e.g., image misleading, multi-modal jail-breaking, face fairness, etc) under 4 primary aspects (faithfulness, privacy, safety, fairness). Our RTVLM is the first red-teaming dataset to benchmark current VLMs in terms of these 4 different aspects. Detailed analysis shows that 10 prominent open-sourced VLMs struggle with the red teaming in different degrees and have up to 31% performance gap with GPT-4V. Additionally, we simply apply red teaming alignment to LLaVA-v1.5 with Supervised Fine-tuning (SFT) using RTVLM, and this bolsters the models' performance with 10% in RTVLM test set, 13% in MM-Hal, and without noticeable decline in MM-Bench, overpassing other LLaVA-based models with regular alignment data. This reveals that current open-sourced VLMs still lack red teaming alignment. Our code and datasets will be open-source.

ลิงก์งานวิจัย

https://arxiv.org/abs/2401.12915

อ่านเพิ่มเติม

https://x.com/omarsar0/status/1750170361843384790


Lumiere: โมเดล diffusion เชิงเวลา-พื้นที่สำหรับการสร้างวิดีโอ / Lumiere: A Space-Time Diffusion Model for Video Generation

แนะนำงานวิจัย

  • โมเดล diffusion แบบข้อความเป็นวิดีโอเชิงเวลา-พื้นที่สำหรับสังเคราะห์วิดีโอที่มีการเคลื่อนไหวสมจริงและสอดคล้องกัน โดยนำเสนอสถาปัตยกรรม space-time u-net ที่สร้างช่วงเวลาทั้งหมดของวิดีโอในครั้งเดียวด้วยการประมวลผลเพียงรอบเดียว ทำผลลัพธ์การสร้างข้อความเป็นวิดีโอที่ล้ำสมัย และรองรับงานสร้างคอนเทนต์และแอปพลิเคชันตัดต่อวิดีโอได้หลากหลาย เช่น image-to-video, video inpainting และการสร้างแบบ stylized
    > A text-to-video space-time diffusion model for synthesizing videos with realistic and coherent motion; introduces a space-time u-net architecture to generate the entire temporal duration of a video at once via a single pass; achieves state-of-the-art text-to-video generation results and supports a wide range of content creation tasks and video editing applications, including image-to-video, video inpainting, and stylized generation.

บทคัดย่อของงานวิจัย (Abstract)

  • ขอแนะนำ Lumiere โมเดล text-to-video diffusion ที่ออกแบบมาเพื่อสังเคราะห์วิดีโอซึ่งถ่ายทอดการเคลื่อนไหวที่สมจริง หลากหลาย และสอดคล้องกัน ซึ่งเป็นโจทย์สำคัญของการสังเคราะห์วิดีโอ เพื่อการนี้ Unity ได้เปิดตัวสถาปัตยกรรม Space-Time U-Net ที่สร้างช่วงเวลาทั้งหมดของวิดีโอพร้อมกันในครั้งเดียวผ่านการทำงานเพียงรอบเดียวของโมเดล ซึ่งแตกต่างจากโมเดลวิดีโอที่มีอยู่เดิมที่สังเคราะห์คีย์เฟรมที่อยู่ห่างกันก่อน แล้วจึงทำ temporal super-resolution ซึ่งเป็นแนวทางที่โดยเนื้อแท้แล้วทำให้ยากต่อการรักษาความสอดคล้องเชิงเวลาทั่วทั้งวิดีโอ ด้วยการใช้ทั้ง spatial และ (ที่สำคัญ) temporal down-sampling และ up-sampling ร่วมกับการใช้ประโยชน์จากโมเดล text-to-image diffusion ที่พรีเทรนไว้ล่วงหน้า โมเดลนี้จึงเรียนรู้วิธีสร้างวิดีโอความละเอียดต่ำที่มีอัตราเฟรมเต็มแบบโดยตรง ผ่านการประมวลผลในหลายสเกลของ space-time โดยสาธิตผลลัพธ์การสร้าง text-to-video ระดับล้ำสมัย และแสดงให้เห็นว่าการออกแบบนี้รองรับงานสร้างคอนเทนต์และแอปพลิเคชันตัดต่อวิดีโอได้อย่างหลากหลาย ไม่ว่าจะเป็น image-to-video, video inpainting และการสร้างแบบ stylized
    > We introduce Lumiere -- a text-to-video diffusion model designed for synthesizing videos that portray realistic, diverse and coherent motion -- a pivotal challenge in video synthesis. To this end, we introduce a Space-Time U-Net architecture that generates the entire temporal duration of the video at once, through a single pass in the model. This is in contrast to existing video models which synthesize distant keyframes followed by temporal super-resolution -- an approach that inherently makes global temporal consistency difficult to achieve. By deploying both spatial and (importantly) temporal down- and up-sampling and leveraging a pre-trained text-to-image diffusion model, our model learns to directly generate a full-frame-rate, low-resolution video by processing it in multiple space-time scales. We demonstrate state-of-the-art text-to-video generation results, and show that our design easily facilitates a wide range of content creation tasks and video editing applications, including image-to-video, video inpainting, and stylized generation.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2401.12945

อ่านเพิ่มเติม

https://discuss.pytorch.kr/t/lumiere-google/3357

https://x.com/GoogleAI/status/1751003814931689487


Medusa: เฟรมเวิร์กเร่งความเร็วการอนุมาน LLM แบบเรียบง่ายด้วยหัวถอดรหัสหลายหัว / Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads

แนะนำบทความวิจัย

  • เป็นเฟรมเวิร์กแบบเรียบง่ายสำหรับเร่งความเร็วการอนุมานของ LLM โดยใช้หัวถอดรหัสหลายหัวที่ทำนายโทเค็นถัดไปหลายตัวแบบขนาน การทำงานแบบขนานช่วยลดจำนวนขั้นตอนการถอดรหัสได้อย่างมาก และสามารถเพิ่มความเร็วได้มากกว่า 2.2 เท่าโดยไม่ลดทอนคุณภาพการสร้างผลลัพธ์ ขณะที่ Medusa-2 ยังเพิ่มความเร็วต่อได้เป็น 2.3~3.6 เท่า
    > A simple framework for llm inference acceleration using multiple decoding heads that predict multiple subsequent tokens in parallel; parallelization substantially reduces the number of decoding steps; it can achieve over 2.2x speedup without compromising generation quality, while medusa-2 further improves the speedup to 2.3-3.6x.

บทคัดย่อ(Abstract)

  • กระบวนการอนุมานของโมเดลภาษาขนาดใหญ่ (LLM) มักถูกจำกัด เนื่องจากกระบวนการถอดรหัสแบบอัตโนมัติถดถอยไม่มีความสามารถในการประมวลผลแบบขนาน ทำให้การทำงานส่วนใหญ่ถูกจำกัดด้วยแบนด์วิดท์หน่วยความจำของตัวเร่งความเร็ว แม้ว่าจะมีการเสนอวิธีอย่าง speculative decoding เพื่อแก้ปัญหานี้ แต่การนำไปใช้งานยังทำได้ยากจากปัญหาในการจัดหาและดูแล draft model แยกต่างหาก งานวิจัยนี้นำเสนอ Medusa ซึ่งเป็นวิธีที่มีประสิทธิภาพในการเสริมการอนุมานของ LLM โดยเพิ่ม decoding head เพื่อทำนายโทเคนถัดไปหลายตัวแบบขนาน Medusa ใช้กลไก attention แบบ tree-based เพื่อสร้าง candidate continuation หลายชุด และตรวจสอบทั้งหมดพร้อมกันในแต่ละขั้นตอนของการถอดรหัส ด้วยการใช้ประโยชน์จากการประมวลผลแบบขนาน Medusa ทำให้เกิดโอเวอร์เฮดเพียงเล็กน้อยมากในด้านเวลาแฝงต่อหนึ่งขั้นตอน ขณะเดียวกันก็ลดจำนวนขั้นตอนการถอดรหัสที่จำเป็นลงได้อย่างมาก เพื่อตอบโจทย์ความต้องการของกรณีใช้งานที่หลากหลาย Medusa มีขั้นตอนการ fine-tuning อยู่ 2 ระดับ: Medusa-1: Medusa ถูก fine-tune โดยตรงบน backbone LLM ที่ถูกแช่แข็งไว้ ทำให้เร่งการอนุมานได้โดยไม่สูญเสียคุณภาพ Medusa-2: Medusa ถูก fine-tune ร่วมกับ backbone LLM เพื่อเพิ่มความแม่นยำในการทำนายของ Medusa head และเพิ่มความเร็วได้มากขึ้น แต่ต้องใช้สูตรการฝึกแบบพิเศษเพื่อรักษาความสามารถของ backbone model เอาไว้ นอกจากนี้ ยังมีการเสนอส่วนขยายหลายอย่างเพื่อปรับปรุงหรือขยายประโยชน์ใช้สอยของ Medusa รวมถึง self-distillation สำหรับจัดการสถานการณ์ที่ไม่มีข้อมูลฝึก และ acceptance scheme ทั่วไปเพื่อเพิ่มอัตราการยอมรับโดยยังคงคุณภาพของการสร้างข้อความไว้ ผู้วิจัยประเมิน Medusa กับโมเดลที่มีขนาดและขั้นตอนการฝึกหลากหลายแบบ ผลการทดลองแสดงให้เห็นว่า Medusa-1 สามารถเพิ่มความเร็วได้มากกว่า 2.2 เท่าโดยไม่ลดทอนคุณภาพการสร้างข้อความ ขณะที่ Medusa-2 สามารถเพิ่มความเร็วได้ต่อไปเป็น 2.3~3.6 เท่า
    > The inference process in Large Language Models (LLMs) is often limited due to the absence of parallelism in the auto-regressive decoding process, resulting in most operations being restricted by the memory bandwidth of accelerators. While methods such as speculative decoding have been suggested to address this issue, their implementation is impeded by the challenges associated with acquiring and maintaining a separate draft model. In this paper, we present Medusa, an efficient method that augments LLM inference by adding extra decoding heads to predict multiple subsequent tokens in parallel. Using a tree-based attention mechanism, Medusa constructs multiple candidate continuations and verifies them simultaneously in each decoding step. By leveraging parallel processing, Medusa introduces only minimal overhead in terms of single-step latency while substantially reducing the number of decoding steps required. We present two levels of fine-tuning procedures for Medusa to meet the needs of different use cases: Medusa-1: Medusa is directly fine-tuned on top of a frozen backbone LLM, enabling lossless inference acceleration. Medusa-2: Medusa is fine-tuned together with the backbone LLM, enabling better prediction accuracy of Medusa heads and higher speedup but needing a special training recipe that preserves the backbone model's capabilities. Moreover, we propose several extensions that improve or expand the utility of Medusa, including a self-distillation to handle situations where no training data is available and a typical acceptance scheme to boost the acceptance rate while maintaining generation quality. We evaluate Medusa on models of various sizes and training procedures. Our experiments demonstrate that Medusa-1 can achieve over 2.2x speedup without compromising generation quality, while Medusa-2 further improves the speedup to 2.3-3.6x.

ลิงก์งานวิจัย

https://arxiv.org/abs/2401.10774v1

อ่านเพิ่มเติม

https://discuss.pytorch.kr/t/…

https://x.com/jiayq/status/1749461664393810350


AgentBoard: คณะกรรมการประเมินเชิงวิเคราะห์สำหรับเอเจนต์ LLM แบบหลายเทิร์น / AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents

แนะนำงานวิจัย

  • การประเมินเชิงวิเคราะห์ผ่านเบนช์มาร์กแบบครอบคลุมที่มาพร้อมเฟรมเวิร์กประเมินผลแบบโอเพนซอร์ส ช่วยประเมินความสามารถและข้อจำกัดของ LM agent และทำให้พฤติกรรมของเอเจนต์เข้าใจได้ชัดเจนขึ้น ซึ่งนำไปสู่การสร้าง LM agent ที่แข็งแกร่งและมีความทนทานมากยิ่งขึ้น
    > A comprehensive benchmark with an open-source evaluation framework to perform analytical evaluation of llm agents; helps to assess the capabilities and limitations of llm agents and demystifies agent behaviors which leads to building stronger and robust llm agents.

บทคัดย่อ(Abstract)

  • การประเมินโมเดลภาษาขนาดใหญ่ (LLM) ในฐานะเอเจนต์อเนกประสงค์เป็นสิ่งจำเป็นต่อการทำความเข้าใจความสามารถของมัน และช่วยให้ผสานเข้ากับแอปพลิเคชันจริงได้ง่ายขึ้น อย่างไรก็ตาม กระบวนการประเมินมีความท้าทายอย่างมาก โดยอุปสรรคหลักคือการทำเบนช์มาร์กประสิทธิภาพของเอเจนต์ในสถานการณ์ที่หลากหลายภายใต้เฟรมเวิร์กแบบรวมศูนย์ โดยเฉพาะการคงไว้ซึ่งสภาพแวดล้อมที่สังเกตได้เพียงบางส่วนและการรับประกันปฏิสัมพันธ์หลายรอบ นอกจากนี้ เฟรมเวิร์กการประเมินในปัจจุบันส่วนใหญ่ยังมุ่งเน้นที่อัตราความสำเร็จสุดท้าย ทำให้แทบไม่เห็นอินไซต์ระหว่างกระบวนการ และไม่สามารถให้ความเข้าใจเชิงลึกเกี่ยวกับความสามารถของโมเดลได้ เพื่อแก้ปัญหาเหล่านี้ Unity ได้เปิดตัว AgentBoard ซึ่งเป็นทั้งเบนช์มาร์กแบบครอบคลุมที่บุกเบิกและเฟรมเวิร์กการประเมินแบบโอเพนซอร์สที่ออกแบบมาสำหรับการประเมินเชิงวิเคราะห์ของเอเจนต์ LLM โดยเฉพาะ AgentBoard มอบเมตริกอัตราความก้าวหน้าแบบละเอียดที่จับพัฒนาการทีละขั้นได้ พร้อมชุดเครื่องมือประเมินแบบครบถ้วนที่ช่วยให้ประเมินเอเจนต์เพื่อการวิเคราะห์หลายมิติได้ง่ายผ่านการแสดงผลแบบโต้ตอบ สิ่งนี้ไม่เพียงช่วยให้เห็นชัดถึงความสามารถและข้อจำกัดของเอเจนต์ LLM แต่ยังยกระดับความสามารถในการตีความผลลัพธ์ของเอเจนต์ด้วย ท้ายที่สุด AgentBoard คือก้าวสำคัญในการทำความเข้าใจพฤติกรรมของเอเจนต์ให้ชัดเจนยิ่งขึ้น และเร่งการพัฒนาเอเจนต์ LLM ที่แข็งแกร่งกว่าเดิม
    > Evaluating large language models (LLMs) as general-purpose agents is essential for understanding their capabilities and facilitating their integration into practical applications. However, the evaluation process presents substantial challenges. A primary obstacle is the benchmarking of agent performance across diverse scenarios within a unified framework, especially in maintaining partially-observable environments and ensuring multi-round interactions. Moreover, current evaluation frameworks mostly focus on the final success rate, revealing few insights during the process and failing to provide a deep understanding of the model abilities. To address these challenges, we introduce AgentBoard, a pioneering comprehensive benchmark and accompanied open-source evaluation framework tailored to analytical evaluation of LLM agents. AgentBoard offers a fine-grained progress rate metric that captures incremental advancements as well as a comprehensive evaluation toolkit that features easy assessment of agents for multi-faceted analysis through interactive visualization. This not only sheds light on the capabilities and limitations of LLM agents but also propels the interpretability of their performance to the forefront. Ultimately, AgentBoard serves as a significant step towards demystifying agent behaviors and accelerating the development of stronger LLM agents.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2401.13178v1

อ่านเพิ่มเติม

https://x.com/ma_chang_nlp/status/1750369056539218082


ต้นฉบับ

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-5c8


⚠️โฆษณา⚠️: บทความนี้ที่ ชุมชนผู้ใช้ PyTorch เกาหลี รวบรวมไว้มีประโยชน์ไหม? หาก สมัครเป็นสมาชิก เราจะส่งบทความสำคัญให้ทางอีเมล! (ค่าเริ่มต้นคือ Weekly แต่ เปลี่ยนเป็น Daily ได้)

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น