• บทความเกี่ยวกับงานวิจัย ML ที่ DAIR.AI เผยแพร่ทุกสัปดาห์นี้ถูกแปลแบบอัตโนมัติ
  • งานวิจัยที่ได้รับคัดเลือกในสัปดาห์นี้โดยรวมจะเห็นได้ว่ามีจำนวนมากที่ใช้ประโยชน์จาก large language models (LLMs) โดยเฉพาะอย่างยิ่งจากชื่ออย่าง 'Tool Use in LLMs', 'Step-by-Step Comparisons Make LLMs Better Reasoners', 'LLM4Decompile', 'Agent-FLAN', 'LLMs Leak Proprietary Information', 'Retrieval-Augmented Fine-Tuning' จะเห็นได้ว่างานเหล่านี้ครอบคลุมทั้งขอบเขตการประยุกต์ใช้ที่หลากหลายของ LLMs วิธีการเพิ่มประสิทธิภาพ และแม้แต่ประเด็นด้านความปลอดภัย

  • แนวโน้มดังกล่าวสามารถมองได้ว่าเป็นผลจากความพยายามในหลากหลายสาขาวิจัยที่ต้องการสำรวจขอบเขตการใช้งานของ LLMs หลังจากที่ LLMs ได้รับความสนใจอย่างมากในวงการปัญญาประดิษฐ์ในช่วงไม่กี่ปีที่ผ่านมา โดยเฉพาะอย่างยิ่ง ไม่ใช่แค่ระเบียบวิธีเพื่อจัดการงานเดิมให้มีประสิทธิภาพมากขึ้นเท่านั้น แต่ยังรวมถึงการยกระดับความสามารถในการให้เหตุผลระหว่างการใช้เครื่องมือหรือกระบวนการแก้ปัญหา การสำรวจสาขาการประยุกต์ใช้ใหม่อย่างเช่นการทำ reverse engineering ซอฟต์แวร์ ตลอดจนงานวิจัยด้านความเสถียรและความปลอดภัยของโมเดล ซึ่งล้วนขยายความเป็นไปได้ในการพัฒนา LLMs นอกจากนี้ งานวิจัยเหล่านี้ยังมีบทบาทสำคัญในการทำความเข้าใจให้ลึกซึ้งยิ่งขึ้นว่า LLMs สามารถถูกนำไปใช้ในสภาพแวดล้อมจริงได้อย่างไร และมีปัญหาที่อาจเกิดขึ้นอะไรบ้างที่เกี่ยวข้องกับเรื่องนี้

  • ควบคู่กันไป งานอย่าง 'Evolutionary Model Merge', 'DROID' ยังเสนอการวิจัยเกี่ยวกับการรวมและกระบวนการพัฒนาของโมเดล ซึ่งแสดงให้เห็นว่าความสนใจต่อวิธีการปรับปรุงและเพิ่มประสิทธิภาพโมเดลอย่างต่อเนื่องก็กำลังเพิ่มสูงขึ้นเช่นกัน สิ่งนี้ชี้ทิศทางสำคัญต่อการพัฒนาและบูรณาการเทคโนโลยีปัญญาประดิษฐ์ที่หลากหลาย ไม่ใช่เพียง LLMs เท่านั้น และคาดว่าจะยังคงเป็นหัวข้อสำคัญในงานวิจัยต่อไปในอนาคต ดังนั้น งานวิจัยที่ได้รับคัดเลือกในสัปดาห์นี้จึงมอบมุมมองเชิงลึกอันมีค่าเกี่ยวกับแนวโน้มปัจจุบันและทิศทางในอนาคตของงานวิจัยที่เกี่ยวข้องกับ LLMs


Grok-1

แนะนำบทความ

  • โมเดล mixture-of-experts ที่มีพารามิเตอร์ 314B พร้อมการเปิดเผย base model weights และสถาปัตยกรรมเครือข่าย; โมเดล MoE นี้เปิดใช้น้ำหนัก 25% สำหรับโทเคนที่กำหนด และมีวัน cutoff ของการ pretraining อยู่ที่เดือนตุลาคม 2023

    a mixture-of-experts model with 314B parameters which includes the open release of the base model weights and network architecture; the MoE model activates 25% of the weights for a given token and its pretraining cutoff date is October 2023.

ลิงก์บทความ

https://x.ai/blog/grok-os

อ่านเพิ่มเติม

https://discuss.pytorch.kr/t/x-ai-grok/3793/1

https://x.com/ibab_ml/status/1769447989192675748


การเพิ่มประสิทธิภาพเชิงวิวัฒนาการของสูตรการรวมโมเดล / Evolutionary Optimization of Model Merging Recipes

แนะนำบทความ

  • แนวทางที่ทำให้การพัฒนา foundation model เป็นอัตโนมัติโดยใช้วิวัฒนาการเพื่อรวมโมเดลโอเพนซอร์ส; ช่วยให้เกิดการรวมข้ามโดเมน จน Japanese Math LLM สามารถทำผลงานระดับ state-of-the-art บนเบนช์มาร์ก Japanese LLM ได้ แม้จะไม่ได้ถูกฝึกมาอย่างชัดเจนสำหรับงานเหล่านี้ และยังเหนือกว่าโมเดลที่มีพารามิเตอร์มากกว่ามากอีกด้วย

    an approach for automating foundation model development using evolution to combine open-source models; facilitates cross-domain merging where a Japanese Math LLM achieved state-of-the-art performance on Japanese LLM benchmarks, even surpassing models with significantly more parameters, despite not explicitly trained for these tasks.

บทคัดย่อ(Abstract)

  • งานนี้นำเสนอกรณีการประยุกต์ใช้อัลกอริทึมเชิงวิวัฒนาการรูปแบบใหม่เพื่อทำให้การสร้าง foundation models ที่ทรงพลังเป็นอัตโนมัติ แม้การรวมโมเดลจะกลายเป็นแนวทางที่มีอนาคตสำหรับการพัฒนา LLM เนื่องจากมีความคุ้มค่าด้านต้นทุน แต่ในปัจจุบันยังพึ่งพาสัญชาตญาณของมนุษย์และความรู้เฉพาะทาง จึงจำกัดศักยภาพของแนวทางนี้ ในที่นี้ ผู้วิจัยเสนอแนวทางเชิงวิวัฒนาการที่ก้าวข้ามข้อจำกัดดังกล่าว ด้วยการค้นหาการผสมผสานที่มีประสิทธิภาพของโมเดลโอเพนซอร์สที่หลากหลายโดยอัตโนมัติ และใช้ประโยชน์จาก collective intelligence ของโมเดลเหล่านั้น โดยไม่ต้องใช้ข้อมูลฝึกเพิ่มเติมจำนวนมากหรือทรัพยากรคอมพิวต์สูง แนวทางนี้ทำงานทั้งใน parameter space และ data flow space ทำให้สามารถปรับให้เหมาะสมได้มากกว่าการปรับแค่น้ำหนักของแต่ละโมเดล แนวทางนี้ยังเอื้อให้เกิดการรวมข้ามโดเมน จนสามารถสร้างโมเดลอย่าง Japanese LLM ที่มีความสามารถด้านการให้เหตุผลทางคณิตศาสตร์ได้ ที่น่าทึ่งคือ Japanese Math LLM นี้สามารถทำผลงานระดับสูงสุดบนเบนช์มาร์ก Japanese LLM ที่เป็นที่ยอมรับหลากหลายชุดได้ แม้จะไม่ได้รับการฝึกอย่างชัดเจนสำหรับงานลักษณะนี้ และยังเหนือกว่าโมเดลที่มีพารามิเตอร์มากกว่ามากอีกด้วย นอกจากนี้ culturally-aware Japanese VLM ที่สร้างขึ้นด้วยแนวทางนี้ยังแสดงให้เห็นถึงประสิทธิผลในการอธิบายเนื้อหาที่มีความเฉพาะต่อวัฒนธรรมญี่ปุ่น โดยทำได้ดีกว่า Japanese VLM รุ่นก่อนหน้า งานนี้ไม่เพียงส่งคืนโมเดลใหม่ระดับ state-of-the-art ให้แก่ชุมชนโอเพนซอร์สเท่านั้น แต่ยังแนะนำกระบวนทัศน์ใหม่ของการประกอบโมเดลแบบอัตโนมัติ ซึ่งปูทางไปสู่การสำรวจแนวทางทางเลือกที่มีประสิทธิภาพสำหรับการพัฒนา foundation model

    We present a novel application of evolutionary algorithms to automate the creation of powerful foundation models. While model merging has emerged as a promising approach for LLM development due to its cost-effectiveness, it currently relies on human intuition and domain knowledge, limiting its potential. Here, we propose an evolutionary approach that overcomes this limitation by automatically discovering effective combinations of diverse open-source models, harnessing their collective intelligence without requiring extensive additional training data or compute. Our approach operates in both parameter space and data flow space, allowing for optimization beyond just the weights of the individual models. This approach even facilitates cross-domain merging, generating models like a Japanese LLM with Math reasoning capabilities. Surprisingly, our Japanese Math LLM achieved state-of-the-art performance on a variety of established Japanese LLM benchmarks, even surpassing models with significantly more parameters, despite not being explicitly trained for such tasks. Furthermore, a culturally-aware Japanese VLM generated through our approach demonstrates its effectiveness in describing Japanese culture-specific content, outperforming previous Japanese VLMs. This work not only contributes new state-of-the-art models back to the open-source community, but also introduces a new paradigm for automated model composition, paving the way for exploring alternative, efficient approaches to foundation model development.

ลิงก์บทความ

https://arxiv.org/abs/2403.13187

อ่านเพิ่มเติม

https://x.com/SakanaAILabs/status/1770613032198279663


TacticAI: ผู้ช่วย AI สำหรับแท็กติกฟุตบอล / TacticAI: an AI assistant for football tactics

แนะนำบทความ

  • เป็นระบบผู้ช่วย AI สำหรับแท็กติกฟุตบอลที่พัฒนาและประเมินผลร่วมกับผู้เชี่ยวชาญเฉพาะด้านจาก Liverpool FC โดยมอบวิธีให้โค้ชสุ่มและสำรวจการจัดวางผู้เล่นทางเลือกสำหรับรูปแบบลูกเตะมุม และเลือกแท็กติกที่มีโอกาสสำเร็จสูงที่สุด ซึ่งข้อเสนอจากโมเดลของ TacticAI ได้รับความนิยมมากกว่าแท็กติกเดิมใน 90% ของกรณี และมอบระบบค้นหารูปแบบลูกเตะมุมที่มีประสิทธิภาพ

    an AI-powered assistant for football tactics developed and evaluated in collaboration with domain experts from Liverpool FC; the systems offer coaches a way to sample and explore alternative player setups for a corner kick routine and select the tactic with the highest predicted likelihood of success; TacticAI’s model suggestions are favored over existing tactics 90% of the time and it offers an effective corner kick retrieval system.

บทคัดย่อ (Abstract)

  • การระบุรูปแบบสำคัญของแท็กติกที่ทีมคู่แข่งใช้ และการพัฒนาวิธีตอบโต้ที่มีประสิทธิภาพ คือหัวใจสำคัญของฟุตบอลสมัยใหม่ อย่างไรก็ตาม การทำสิ่งนี้ในเชิงอัลกอริทึมยังคงเป็นโจทย์วิจัยที่ยังไม่ถูกแก้ไข เพื่อแก้ความต้องการที่ยังไม่ได้รับการตอบสนองนี้ Unity จึงเสนอ TacticAI ผู้ช่วย AI ด้านแท็กติกฟุตบอลที่พัฒนาและประเมินผลอย่างใกล้ชิดร่วมกับผู้เชี่ยวชาญเฉพาะด้านจาก Liverpool FC งานนี้มุ่งเน้นการวิเคราะห์ลูกเตะมุม เนื่องจากเป็นช่วงที่เปิดโอกาสให้โค้ชแทรกแซงและปรับปรุงได้โดยตรงมากที่สุด TacticAI ผสานทั้งองค์ประกอบเชิงพยากรณ์และเชิงสร้าง ทำให้โค้ชสามารถสุ่มและสำรวจการจัดวางผู้เล่นทางเลือกสำหรับแต่ละรูปแบบลูกเตะมุมได้อย่างมีประสิทธิภาพ และเลือกแบบที่มีความน่าจะเป็นสำเร็จสูงสุดตามการคาดการณ์ Unity ตรวจสอบความถูกต้องของ TacticAI ผ่านงาน benchmark ที่เกี่ยวข้องหลายอย่าง เช่น การคาดการณ์ผู้รับบอลและการพยายามยิง รวมถึงการแนะนำการปรับตำแหน่งผู้เล่น ประโยชน์ใช้สอยของ TacticAI ได้รับการยืนยันผ่านการศึกษาเชิงคุณภาพที่ดำเนินการร่วมกับผู้เชี่ยวชาญด้านฟุตบอลของ Liverpool FC ผลการศึกษาชี้ให้เห็นว่า ข้อเสนอจากโมเดลของ TacticAI ไม่เพียงแยกไม่ออกจากแท็กติกจริงเท่านั้น แต่ยังได้รับความนิยมมากกว่าแท็กติกเดิมใน 90% ของกรณี และยังมีระบบค้นหารูปแบบลูกเตะมุมที่มีประสิทธิภาพอีกด้วย TacticAI สามารถบรรลุผลลัพธ์เหล่านี้ได้แม้มีข้อจำกัดด้านความพร้อมของข้อมูลมาตรฐานระดับ gold standard โดยทำให้การใช้ข้อมูลมีประสิทธิภาพผ่าน geometric deep learning

    Identifying key patterns of tactics implemented by rival teams, and developing effective responses, lies at the heart of modern football. However, doing so algorithmically remains an open research challenge. To address this unmet need, we propose TacticAI, an AI football tactics assistant developed and evaluated in close collaboration with domain experts from Liverpool FC. We focus on analysing corner kicks, as they offer coaches the most direct opportunities for interventions and improvements. TacticAI incorporates both a predictive and a generative component, allowing the coaches to effectively sample and explore alternative player setups for each corner kick routine and to select those with the highest predicted likelihood of success. We validate TacticAI on a number of relevant benchmark tasks: predicting receivers and shot attempts and recommending player position adjustments. The utility of TacticAI is validated by a qualitative study conducted with football domain experts at Liverpool FC. We show that TacticAI’s model suggestions are not only indistinguishable from real tactics, but also favoured over existing tactics 90% of the time, and that TacticAI offers an effective corner kick retrieval system. TacticAI achieves these results despite the limited availability of gold-standard data, achieving data efficiency through geometric deep learning.

ลิงก์บทความ

https://www.nature.com/articles/s41467-024-45965-x

อ่านเพิ่มเติม

https://discuss.pytorch.kr/t/tacticai-ai-feat-deepmind-fc/3841

https://x.com/GoogleDeepMind/status/1770121564085707082


การใช้เครื่องมือใน LLM / Tool Use in LLMs

แนะนำบทความ

  • นำเสนอภาพรวมของการใช้เครื่องมือใน LLM รวมถึงคำนิยามอย่างเป็นทางการของกระบวนทัศน์การใช้เครื่องมือ สถานการณ์ที่ LLM ใช้ประโยชน์จากการใช้เครื่องมือ และงานประเภทใดที่แนวทางนี้ทำงานได้ดี อีกทั้งยังให้การวิเคราะห์การใช้เครื่องมือที่ซับซ้อน และสรุป testbed กับตัวชี้วัดการประเมินผลในงานด้าน LM tooling โดยรวม

    provides an overview of tool use in LLMs, including a formal definition of the tool-use paradigm, scenarios where LLMs leverage tool usage, and for which tasks this approach works well; it also provides an analysis of complex tool usage and summarize testbeds and evaluation metrics across LM tooling works.

บทคัดย่อ (Abstract)

แม้โมเดลภาษา (LM) จะทรงพลัง แต่ส่วนใหญ่ถูกใช้สำหรับงานสร้างข้อความเป็นหลัก ขณะที่เครื่องมือได้ช่วยยกระดับประสิทธิภาพอย่างมากสำหรับงานที่ต้องใช้ทักษะซับซ้อน อย่างไรก็ตาม งานจำนวนมากใช้คำว่า “เครื่องมือ” ในความหมายที่แตกต่างกันออกไป จึงเกิดคำถามว่า เครื่องมือคืออะไรกันแน่? แล้วเครื่องมือช่วย LM ได้ที่ไหนและอย่างไร? ในงานสำรวจนี้ ผู้เขียนเสนอคำนิยามที่เป็นหนึ่งเดียวของเครื่องมือว่าเป็นโปรแกรมภายนอกที่ LM ใช้งาน และทำการทบทวนอย่างเป็นระบบเกี่ยวกับสถานการณ์และแนวทางการใช้เครื่องมือของ LM จากการทบทวนดังกล่าว ผู้เขียนศึกษาประสิทธิภาพของวิธีการใช้เครื่องมือต่าง ๆ ในเชิงประจักษ์ โดยวัดทรัพยากรคอมพิวต์ที่ต้องใช้และการเพิ่มขึ้นของประสิทธิภาพบนเบนช์มาร์กหลากหลายชุด พร้อมทั้งชี้ให้เห็นความท้าทายบางประการและแนวทางวิจัยที่เป็นไปได้ในอนาคต

Language models (LMs) are powerful yet mostly for text generation tasks. Tools have substantially enhanced their performance for tasks that require complex skills. However, many works adopt the term “tool” in different ways, raising the question: What is a tool anyway? Subsequently, where and how do tools help LMs? In this survey, we provide a unified definition of tools as external programs used by LMs, and perform a systematic review of LM tooling scenarios and approaches. Grounded on this review, we empirically study the efficiency of various tooling methods by measuring their required compute and performance gains on various benchmarks, and highlight some challenges and potential future research in the field.

ลิงก์บทความ

https://zorazrw.github.io/files/WhatAreToolsAnyway.pdf

อ่านเพิ่มเติม

https://x.com/omarsar0/status/1770497515898433896


RankPrompt: ทำให้โมเดลภาษากลายเป็นนักให้เหตุผลที่ดียิ่งขึ้นด้วยการเปรียบเทียบทีละขั้น / RankPrompt: Step-by-Step Comparisons Make Language Models Better Reasoners

แนะนำบทความ

  • เสนอ RankPrompt ซึ่งเป็นวิธีพรอมป์ตที่ทำให้ LLM สามารถจัดอันดับคำตอบของตนเองได้โดยไม่ต้องใช้ทรัพยากรเพิ่มเติม วิธี self-ranking นี้จัดอันดับตัวเลือกผ่านการประเมินเปรียบเทียบอย่างเป็นระบบทีละขั้น และดูเหมือนว่าจะได้ผลดีเพราะอาศัยความสามารถของ LLM ในการสร้างลำดับของการเปรียบเทียบเป็นเดโม ทำให้ RankPrompt ช่วยยกระดับความสามารถด้านการให้เหตุผลของ ChatGPT และ GPT-4 อย่างมากในงานให้เหตุผลเชิงคณิตศาสตร์และสามัญสำนึกจำนวนมาก

    proposes RankPrompt, a prompting method to enable LLMs to self-rank their responses without additional resources; this self-ranking approach ranks candidates through a systematic, step-by-step comparative evaluation; it seems to work well as it leverages the capabilities of LLMs to generate chains of comparisons as demonstrations; RankPrompt significantly enhances the reasoning performance of ChatGPT and GPT-4 on many arithmetic and commonsense reasoning tasks.

บทคัดย่อ(Abstract)

  • โมเดลภาษาขนาดใหญ่ (LLM) ได้แสดงประสิทธิภาพที่น่าประทับใจในงานให้เหตุผลหลากหลายประเภท อย่างไรก็ตาม แม้แต่ LLM ระดับล้ำสมัยอย่าง ChatGPT ก็ยังมีแนวโน้มเกิดข้อผิดพลาดเชิงตรรกะระหว่างกระบวนการให้เหตุผล โซลูชันที่มีอยู่ เช่น การใช้ตัวตรวจสอบเฉพาะงานหรือการโหวตข้ามหลายเส้นทางการให้เหตุผลนั้น ต้องอาศัยคำอธิบายประกอบจากมนุษย์จำนวนมาก หรือไม่ก็ล้มเหลวในสถานการณ์ที่คำตอบไม่สอดคล้องกัน เพื่อรับมือกับความท้าทายเหล่านี้ ผู้เขียนจึงนำเสนอ RankPrompt ซึ่งเป็นวิธีพรอมป์ตแบบใหม่ที่ทำให้ LLM สามารถจัดอันดับคำตอบของตนเองได้โดยไม่ต้องใช้ทรัพยากรเพิ่มเติม RankPrompt แยกปัญหาการจัดอันดับออกเป็นชุดของการเปรียบเทียบระหว่างคำตอบที่หลากหลาย โดยใช้ประโยชน์จากความสามารถโดยธรรมชาติของ LLM ในการสร้างลำดับการเปรียบเทียบให้เป็นตัวอย่างตามบริบท ผลการทดลองใน 11 งานด้านการให้เหตุผลเชิงคณิตศาสตร์และสามัญสำนึกแสดงให้เห็นว่า RankPrompt ช่วยเพิ่มประสิทธิภาพการให้เหตุผลของ ChatGPT และ GPT-4 ได้อย่างมีนัยสำคัญ โดยปรับปรุงได้สูงสุดถึง 13% นอกจากนี้ RankPrompt ยังทำผลงานได้โดดเด่นในการประเมินอัตโนมัติบนงานปลายเปิดที่อาศัย LLM โดยให้ผลสอดคล้องกับการตัดสินของมนุษย์ 74% ของเวลาในชุดข้อมูล AlpacaEval อีกทั้งยังแสดงให้เห็นถึงความทนทานต่อความแปรผันของลำดับคำตอบและความสม่ำเสมอของคำตอบอีกด้วย เมื่อพิจารณารวมกันแล้ว ผลลัพธ์เหล่านี้ยืนยันว่า RankPrompt เป็นวิธีที่มีประสิทธิภาพในการดึงฟีดแบ็กคุณภาพสูงจากโมเดลภาษา

    Large Language Models (LLMs) have achieved impressive performance across various reasoning tasks. However, even state-of-the-art LLMs such as ChatGPT are prone to logical errors during their reasoning processes. Existing solutions, such as deploying task-specific verifiers or voting over multiple reasoning paths, either require extensive human annotations or fail in scenarios with inconsistent responses. To address these challenges, we introduce RankPrompt, a new prompting method that enables LLMs to self-rank their responses without additional resources. RankPrompt breaks down the ranking problem into a series of comparisons among diverse responses, leveraging the inherent capabilities of LLMs to generate chains of comparison as contextual exemplars. Our experiments across 11 arithmetic and commonsense reasoning tasks show that RankPrompt significantly enhances the reasoning performance of ChatGPT and GPT-4, with improvements of up to 13%. Moreover, RankPrompt excels in LLM-based automatic evaluations for open-ended tasks, aligning with human judgments 74% of the time in the AlpacaEval dataset. It also exhibits robustness to variations in response order and consistency. Collectively, our results validate RankPrompt as an effective method for eliciting high-quality feedback from language models.

ลิงก์บทความ

https://arxiv.org/abs/2403.12373

อ่านเพิ่มเติม

https://x.com/omarsar0/status/1770492690129359135


LLM4Decompile: ถอดคอมไพล์ไบนารีโค้ดด้วยโมเดลภาษาขนาดใหญ่ / LLM4Decompile: Decompiling Binary Code with Large Language Models

แนะนำบทความ

  • ชุดผลิตภัณฑ์ decompilation LLM แบบ open-access ที่มีตั้งแต่ 1B ถึง 33B พารามิเตอร์; โมเดลเหล่านี้ฝึกจากโทเค็น 4 พันล้านรายการของซอร์สโค้ดภาษา C และแอสเซมบลีโค้ดที่สอดคล้องกัน; ผู้เขียนยังแนะนำ Decompile-Eval ซึ่งเป็นชุดข้อมูลสำหรับประเมินความสามารถในการคอมไพล์ซ้ำและรันซ้ำสำหรับงาน decompilation รวมถึงการประเมินจากมุมมองของ program semantics; LLM4Decompile แสดงความสามารถในการ decompile แอสเซมบลีโค้ดได้ 21% โดยทำผลงานดีกว่า GPT-4 อยู่ 50%

    a family of open-access decompilation LLMs ranging from 1B to 33B parameters; these models are trained on 4 billion tokens of C source code and corresponding assembly code; the authors also introduce Decompile-Eval, a dataset for assessing re-compatibility and re-executability for decompilation and evaluating with a perspective of program semantics; LLM4Decompile demonstrates the capability to decompile 21% of the assembly code, achieving a 50% improvement over GPT-4.

บทคัดย่อของบทความ(Abstract)

  • Decompilation มีเป้าหมายเพื่อกู้คืนโค้ดที่คอมไพล์แล้วให้กลับเป็นซอร์สโค้ดที่มนุษย์อ่านได้ แต่มีความยากลำบากจากรายละเอียดอย่างชื่อและโครงสร้าง โมเดลภาษาขนาดใหญ่ (LLM) ได้แสดงศักยภาพในงานด้านการเขียนโปรแกรม จึงเป็นแรงจูงใจให้ประยุกต์ใช้กับ decompilation อย่างไรก็ตาม ยังไม่มีโอเพนซอร์ส LLM สำหรับ decompilation นอกจากนี้ ระบบประเมิน decompilation ที่มีอยู่ในปัจจุบันส่วนใหญ่พิจารณาความแม่นยำระดับโทเค็นเป็นหลัก และแทบละเลยความสามารถในการรันได้ของโค้ด ซึ่งเป็นคุณสมบัติที่สำคัญที่สุดของโปรแกรมทุกตัว ดังนั้น เราจึงเปิดตัว decompilation LLM แบบ open-access ชุดแรกที่มีขนาดตั้งแต่ 1B ถึง 33B ซึ่งผ่านการ pre-train บนโทเค็น 4 พันล้านรายการของซอร์สโค้ดภาษา C และแอสเซมบลีโค้ดที่สอดคล้องกัน โอเพนซอร์ส LLM เหล่านี้สามารถใช้เป็น baseline สำหรับการพัฒนาต่อในสาขานี้ได้ เพื่อให้การประเมินโปรแกรมมีความเป็นเชิงปฏิบัติ เราได้แนะนำ Decompile-Eval ซึ่งเป็นชุดข้อมูลแรกที่คำนึงถึงความสามารถในการคอมไพล์ซ้ำและรันซ้ำสำหรับ decompilation เบนช์มาร์กนี้เน้นย้ำความสำคัญของการประเมินโมเดล decompilation จากมุมมองของ program semantics ผลการทดลองบ่งชี้ว่า LLM4Decompile ของเราสามารถ decompile แอสเซมบลีโค้ดได้อย่างถูกต้อง 21% ซึ่งดีกว่า GPT-4 อยู่ 50% โค้ด ชุดข้อมูล และโมเดลของเราเผยแพร่ไว้ที่ https://github.com/albertan017/LLM4Decompile

    Decompilation aims to restore compiled code to human-readable source code, but struggles with details like names and structure. Large language models (LLMs) show promise for programming tasks, motivating their application to decompilation. However, there does not exist any open-source LLM for decompilation. Moreover, existing decompilation evaluation systems mainly consider token-level accuracy and largely ignore code executability, which is the most important feature of any program. Therefore, we release the first open-access decompilation LLMs ranging from 1B to 33B pre-trained on 4 billion tokens of C source code and the corresponding assembly code. The open-source LLMs can serve as baselines for further development in the field. To ensure practical program evaluation, we introduce Decompile-Eval, the first dataset that considers re-compilability and re-executability for decompilation. The benchmark emphasizes the importance of evaluating the decompilation model from the perspective of program semantics. Experiments indicate that our LLM4Decompile has demonstrated the capability to accurately decompile 21% of the assembly code, which achieves a 50% improvement over GPT-4. Our code, dataset, and models are released at https://github.com/albertan017/LLM4Decompile

ลิงก์บทความ

https://arxiv.org/abs/2403.05286v1

อ่านเพิ่มเติม

https://discuss.pytorch.kr/t/llm4decompile-llm-decompile/3809

https://github.com/albertan017/LLM4Decompile

https://x.com/omarsar0/status/1771218791399092351


Agent-FLAN: การออกแบบข้อมูลและวิธีการปรับจูนเอเจนต์อย่างมีประสิทธิภาพสำหรับโมเดลภาษาขนาดใหญ่ / Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models

แนะนำบทความ

  • ออกแบบข้อมูลและวิธีการเพื่อ fine-tune โมเดลภาษาสำหรับเอเจนต์ได้อย่างมีประสิทธิภาพ ซึ่งเรียกว่า Agent-FLAN; ทำให้ Llama2-7B มีประสิทธิภาพดีกว่างานก่อนหน้าที่ดีที่สุด 3.5% ในชุดข้อมูลประเมินเอเจนต์ที่หลากหลาย; Agent-FLAN ช่วยบรรเทาปัญหา hallucination ได้อย่างมากเมื่อขยายขนาดโมเดล และโดยทั่วไปยังช่วยปรับปรุง LLM พร้อมทั้งยกระดับความสามารถของเอเจนต์ได้อย่างสม่ำเสมอ;

    Designs data and methods to effectively fine-tune language models for agents, referred to as Agent-FLAN; this enables Llama2-7B to outperform prior best works by 3.5% across various agent evaluation datasets; Agent-FLAN greatly alleviates the hallucination issues and consistently improves the agent capability of LLMs when scaling model sizes while generally improving the LLM;

บทคัดย่อของบทความ(Abstract)

  • โมเดลภาษาขนาดใหญ่ (LLM) แบบโอเพนซอร์สประสบความสำเร็จอย่างมากในงาน NLP หลากหลายประเภท แต่เมื่อทำงานเป็นเอเจนต์ก็ยังด้อยกว่าโมเดลที่อิง API อย่างมาก การผสานความสามารถของเอเจนต์เข้ากับ LLM ทั่วไปจึงกลายเป็นปัญหาสำคัญและเร่งด่วน บทความนี้นำเสนอข้อสังเกตสำคัญ 3 ประการก่อน ได้แก่ (1) คอร์ปัสฝึกสำหรับเอเจนต์ในปัจจุบันมีทั้งการทำตามรูปแบบและการให้เหตุผลแบบเอเจนต์ปะปนกันอยู่ ซึ่งแตกต่างจากการกระจายของข้อมูล pre-training อย่างมีนัยสำคัญ (2) LLM มีความเร็วในการเรียนรู้ต่างกันไปตามความสามารถที่จำเป็นต่องานเอเจนต์ และ (3) แนวทางปัจจุบันมีผลข้างเคียงเมื่อพัฒนาความสามารถของเอเจนต์ด้วยการนำอาการหลอน (hallucination) เข้ามา จากผลการศึกษาข้างต้น ผู้วิจัยจึงเสนอ Agent-FLAN ซึ่งสามารถปรับจูนละเอียดโมเดลภาษาสำหรับเอเจนต์ได้อย่างมีประสิทธิภาพ ด้วยการแยกองค์ประกอบและออกแบบคอร์ปัสฝึกใหม่อย่างพิถีพิถัน Agent-FLAN ทำให้โมเดลมีประสิทธิภาพเหนือกว่างานก่อนหน้าที่ดีที่สุดอยู่ 3.5% บนชุดข้อมูลประเมินเอเจนต์ที่หลากหลาย ด้วยตัวอย่างเชิงลบที่สร้างขึ้นอย่างครอบคลุม Agent-FLAN ช่วยบรรเทาปัญหา hallucination ได้อย่างมากบนเกณฑ์มาตรฐานการประเมินที่จัดทำขึ้น นอกจากนี้ยังปรับปรุงความสามารถด้านเอเจนต์ของ LLM ได้อย่างต่อเนื่องเมื่อขยายขนาดโมเดล พร้อมกับเพิ่มความสามารถทั่วไปของ LLM ขึ้นเล็กน้อย สามารถดูโค้ดได้ที่ https://github.com/InternLM/Agent-FLAN

    Open-sourced Large Language Models (LLMs) have achieved great success in various NLP tasks, however, they are still far inferior to API-based models when acting as agents. How to integrate agent ability into general LLMs becomes a crucial and urgent problem. This paper first delivers three key observations: (1) the current agent training corpus is entangled with both formats following and agent reasoning, which significantly shifts from the distribution of its pre-training data; (2) LLMs exhibit different learning speeds on the capabilities required by agent tasks; and (3) current approaches have side-effects when improving agent abilities by introducing hallucinations. Based on the above findings, we propose Agent-FLAN to effectively Fine-tune LANguage models for Agents. Through careful decomposition and redesign of the training corpus, Agent-FLAN enables Llama2-7B to outperform prior best works by 3.5% across various agent evaluation datasets. With comprehensively constructed negative samples, Agent-FLAN greatly alleviates the hallucination issues based on our established evaluation benchmark. Besides, it consistently improves the agent capability of LLMs when scaling model sizes while slightly enhancing the general capability of LLMs. The code will be available at https://github.com/InternLM/Agent-FLAN.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2403.12881v1

อ่านเพิ่มเติม

https://github.com/InternLM/Agent-FLAN

https://x.com/_akhaliq/status/1770302813152690259


เมื่อ logits ของ LLM ที่ได้รับการปกป้องผ่าน API ทำให้ข้อมูลกรรมสิทธิ์รั่วไหล / Logits of API-Protected LLMs Leak Proprietary Information

แนะนำบทความวิจัย

  • แสดงให้เห็นว่าสามารถเรียนรู้ข้อมูลที่ไม่เปิดเผยต่อสาธารณะจำนวนมากเกี่ยวกับ LLM ที่ได้รับการปกป้องผ่าน API ได้โดยใช้ logits; ด้วยจำนวน API query ที่ค่อนข้างน้อย วิธีการนี้ประเมินได้ว่าขนาด embedding ของ gpt-3.5-turbo ของ OpenAI อยู่ที่ประมาณ 4,096; และยังเสนอ guardrails เพื่อป้องกันการโจมตีที่ใช้ในงานนี้ด้วย

    shows that it’s possible to learn a large amount of non-public information about an API-protected LLM using the logits; with a relatively small number of API queries, the approach estimates that the embedding size of OpenAI's gpt-3.5-turbo to be about 4,096; the paper also proposes guardrails against the attacks used.

บทคัดย่อ(Abstract)

  • การทำให้โมเดลภาษาขนาดใหญ่ (LLM) กลายเป็นเชิงพาณิชย์ ทำให้การเข้าถึงโมเดลแบบปิดผ่าน API ระดับสูงเพียงอย่างเดียวกลายเป็นแนวปฏิบัติทั่วไป งานวิจัยนี้แสดงให้เห็นว่า แม้จะตั้งสมมติฐานแบบอนุรักษ์นิยมเกี่ยวกับสถาปัตยกรรมของโมเดล ก็ยังสามารถเรียนรู้ข้อมูลที่ไม่เปิดเผยต่อสาธารณะของ LLM ที่ถูกป้องกันด้วย API ได้อย่างน่าประหลาดใจ จากจำนวนการ query API ที่ค่อนข้างน้อย (เช่น มีค่าใช้จ่ายต่ำกว่า 1,000 ดอลลาร์สำหรับ OpenAI's gpt-3.5-turbo) แก่นสำคัญของผลการศึกษานี้คือ LLM สมัยใหม่ส่วนใหญ่ประสบปัญหา softmax bottleneck ซึ่งทำให้เอาต์พุตของโมเดลถูกจำกัดอยู่ใน subspace เชิงเส้นของพื้นที่เอาต์พุตทั้งหมด เราแสดงให้เห็นว่าสิ่งนี้สามารถนำไปสู่ model image หรือ model signature ซึ่งเปิดความสามารถหลายอย่างได้ด้วยต้นทุนที่ไม่สูงนัก เช่น ค้นหาขนาด hidden size ของ LLM ได้อย่างมีประสิทธิภาพ ดึงเอาต์พุตของ vocabulary ทั้งหมด ตรวจจับและแยกความแตกต่างของการอัปเดตโมเดลหลายแบบ ระบุ LLM ต้นทางจากเอาต์พุตเต็มของ LLM เพียงชุดเดียว และแม้แต่ประมาณค่าพารามิเตอร์ของชั้นเอาต์พุต การตรวจสอบเชิงประจักษ์ยืนยันประสิทธิผลของวิธีนี้ และทำให้เราประเมินได้ว่าขนาด embedding ของ OpenAI's gpt-3.5-turbo อยู่ที่ประมาณ 4,096 สุดท้าย เราหารือถึงวิธีที่ผู้ให้บริการ LLM สามารถป้องกันการโจมตีลักษณะนี้ได้ รวมถึงวิธีมองความสามารถเหล่านี้ในฐานะฟีเจอร์ (แทนที่จะเป็นบั๊ก) เพื่อเพิ่มความโปร่งใสและความรับผิดชอบ

    The commercialization of large language models (LLMs) has led to the common practice of high-level API-only access to proprietary models. In this work, we show that even with a conservative assumption about the model architecture, it is possible to learn a surprisingly large amount of non-public information about an API-protected LLM from a relatively small number of API queries (e.g., costing under $1,000 for OpenAI's gpt-3.5-turbo). Our findings are centered on one key observation: most modern LLMs suffer from a softmax bottleneck, which restricts the model outputs to a linear subspace of the full output space. We show that this lends itself to a model image or a model signature which unlocks several capabilities with affordable cost: efficiently discovering the LLM's hidden size, obtaining full-vocabulary outputs, detecting and disambiguating different model updates, identifying the source LLM given a single full LLM output, and even estimating the output layer parameters. Our empirical investigations show the effectiveness of our methods, which allow us to estimate the embedding size of OpenAI's gpt-3.5-turbo to be about 4,096. Lastly, we discuss ways that LLM providers can guard against these attacks, as well as how these capabilities can be viewed as a feature (rather than a bug) by allowing for greater transparency and accountability.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2403.09539

อ่านเพิ่มเติม

https://x.com/DimitrisPapail/status/1768654579254579385


DROID: ชุดข้อมูลการควบคุมหุ่นยนต์ในสภาพแวดล้อมจริงขนาดใหญ่ / DROID: A Large-Scale In-The-Wild Robot Manipulation Dataset

แนะนำบทความวิจัย

  • ชุดข้อมูลการควบคุมหุ่นยนต์โอเพนซอร์สขนาดใหญ่สำหรับฝึกและสร้างนโยบายการควบคุมหุ่นยนต์ที่มีความสามารถและความทนทานมากขึ้น โดยมี trajectory ของเดโม 76,000 รายการที่เก็บจาก 564 ฉากและ 86 งาน และการฝึกด้วย DROID สามารถนำไปสู่นโยบายที่มีประสิทธิภาพสูงขึ้นและการทำ generalization ที่ดีขึ้น

    an open-source, large-scale robot manipulation dataset to train and build more capable and robust robotic manipulation policies; it contains 76K demonstration trajectories, collected across 564 scenes and 86 tasks; training with DROID leads to higher performing policies and generalization.

บทคัดย่อ(Abstract)

  • การสร้างชุดข้อมูลการควบคุมหุ่นยนต์ขนาดใหญ่ที่หลากหลายและมีคุณภาพสูง เป็นก้าวสำคัญสู่การพัฒนานโยบายการควบคุมหุ่นยนต์ที่มีความสามารถและความทนทานมากขึ้น อย่างไรก็ตาม การสร้างชุดข้อมูลลักษณะนี้เป็นเรื่องท้าทาย เพราะการเก็บข้อมูลการควบคุมหุ่นยนต์ในสภาพแวดล้อมที่หลากหลายก่อให้เกิดปัญหาด้านโลจิสติกส์และความปลอดภัย และต้องอาศัยการลงทุนจำนวนมากทั้งด้านฮาร์ดแวร์และแรงงานมนุษย์ ด้วยเหตุนี้ แม้แต่นโยบายการควบคุมหุ่นยนต์ที่ครอบคลุมที่สุดในปัจจุบัน ก็ยังส่วนใหญ่ฝึกจากข้อมูลที่เก็บในสภาพแวดล้อมเพียงไม่กี่แห่งซึ่งมีความหลากหลายของฉากและงานอย่างจำกัด ในงานวิจัยนี้ เรานำเสนอ DROID (Distributed Robot Interaction Dataset) ซึ่งเป็นชุดข้อมูลการควบคุมหุ่นยนต์ที่หลากหลาย ประกอบด้วย trajectory ของเดโม 76k รายการ หรือข้อมูลปฏิสัมพันธ์ 350 ชั่วโมง ที่เก็บจาก 564 ฉากและ 84 งาน โดยผู้เก็บข้อมูล 50 คนในอเมริกาเหนือ เอเชีย และยุโรป ตลอดระยะเวลา 12 เดือน เราแสดงให้เห็นว่าการฝึกด้วย DROID นำไปสู่นโยบายที่มีประสิทธิภาพสูงขึ้นและมีความสามารถในการทำ generalization ดีขึ้น เราเปิดซอร์สทั้งชุดข้อมูลทั้งหมด โค้ดสำหรับการเรียนรู้นโยบาย และคู่มือแบบละเอียดสำหรับทำซ้ำการตั้งค่าฮาร์ดแวร์หุ่นยนต์ของเรา

    The creation of large, diverse, high-quality robot manipulation datasets is an important stepping stone on the path toward more capable and robust robotic manipulation policies. However, creating such datasets is challenging: collecting robot manipulation data in diverse environments poses logistical and safety challenges and requires substantial investments in hardware and human labour. As a result, even the most general robot manipulation policies today are mostly trained on data collected in a small number of environments with limited scene and task diversity. In this work, we introduce DROID (Distributed Robot Interaction Dataset), a diverse robot manipulation dataset with 76k demonstration trajectories or 350 hours of interaction data, collected across 564 scenes and 84 tasks by 50 data collectors in North America, Asia, and Europe over the course of 12 months. We demonstrate that training with DROID leads to policies with higher performance and improved generalization ability. We open source the full dataset, policy learning code, and a detailed guide for reproducing our robot hardware setup.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2403.12945

อ่านเพิ่มเติม

https://x.com/chelseabfinn/status/1770311755140575413


RAFT: ปรับโมเดลภาษาให้เหมาะกับ RAG เฉพาะโดเมน / RAFT: Adapting Language Model to Domain Specific RAG

แนะนำงานวิจัย

  • โดยผสานข้อดีของ RAG และการปรับจูนละเอียดเข้าด้วยกัน จะช่วยเพิ่มความสามารถของโมเดลในการตอบคำถามในบริบทแบบ “open-book” ภายในโดเมน และเมื่อรวมกับคำตอบสไตล์ CoT ของ RAFT ก็จะช่วยปรับปรุงการให้เหตุผลได้

    combines the benefits of RAG and fine-tuning to improve a model's ability to answer questions in "open-book" in-domain settings; combining it with RAFT's CoT-style response helps to improve reasoning.

บทคัดย่อของงานวิจัย (Abstract)

  • การพรีเทรนโมเดลภาษาขนาดใหญ่ (LLM) บนคอร์ปัสข้อมูลข้อความขนาดใหญ่ได้กลายเป็นแนวทางมาตรฐานไปแล้ว ในการนำ LLM เหล่านี้ไปใช้กับแอปพลิเคชันปลายทางจำนวนมาก ก็มักจะมีการใส่ความรู้ใหม่เพิ่มเติมเข้าไปในโมเดลที่พรีเทรนไว้แล้ว (เช่น ข่าวที่มีความเร่งด่วนด้านเวลา หรือความรู้โดเมนส่วนตัว) ผ่านการพรอมป์ต์แบบอิง RAG หรือการปรับจูนละเอียด อย่างไรก็ตาม วิธีวิทยาที่เหมาะสมที่สุดในการทำให้โมเดลได้รับความรู้ใหม่นี้ยังคงเป็นคำถามที่ยังไม่มีข้อสรุป ในบทความนี้ ผู้วิจัยนำเสนอ Retrieval Augmented FineTuning (RAFT) ซึ่งเป็นสูตรการฝึกที่ช่วยปรับปรุงความสามารถของโมเดลในการตอบคำถามในสภาพแวดล้อมแบบ “open-book” ภายในโดเมน ใน RAFT เมื่อให้คำถามและชุดเอกสารที่ดึงค้นมา โมเดลจะถูกฝึกให้เพิกเฉยต่อเอกสารที่ไม่ช่วยในการตอบคำถาม ซึ่งเรียกว่าเอกสารรบกวน RAFT ทำสิ่งนี้ได้โดยอ้างอิงข้อความตามต้นฉบับในลำดับที่ถูกต้องจากเอกสารที่เกี่ยวข้องซึ่งช่วยตอบคำถามได้ และเมื่อจับคู่กับคำตอบสไตล์ chain-of-thought ของ RAFT ก็จะช่วยเพิ่มความสามารถในการให้เหตุผลของโมเดล ในงาน RAG เฉพาะโดเมน RAFT ช่วยปรับปรุงประสิทธิภาพของโมเดลได้อย่างสม่ำเสมอในชุดข้อมูล PubMed, HotpotQA และ Gorilla โดยนำเสนอสูตร post-training สำหรับยกระดับ LLM ที่พรีเทรนไว้แล้วให้ทำงานกับ RAG ภายในโดเมนได้ดีขึ้น โค้ดและเดโมของ RAFT เปิดซอร์สไว้ที่ github.com/ShishirPatil/gorilla

    Pretraining Large Language Models (LLMs) on large corpora of textual data is now a standard paradigm. When using these LLMs for many downstream applications, it is common to additionally bake in new knowledge (e.g., time-critical news, or private domain knowledge) into the pretrained model either through RAG-based-prompting, or fine-tuning. However, the optimal methodology for the model to gain such new knowledge remains an open question. In this paper, we present Retrieval Augmented FineTuning (RAFT), a training recipe that improves the model's ability to answer questions in a "open-book" in-domain settings. In RAFT, given a question, and a set of retrieved documents, we train the model to ignore those documents that don't help in answering the question, which we call, distractor documents. RAFT accomplishes this by citing verbatim the right sequence from the relevant document that would help answer the question. This coupled with RAFT's chain-of-thought-style response helps improve the model's ability to reason. In domain-specific RAG, RAFT consistently improves the model's performance across PubMed, HotpotQA, and Gorilla datasets, presenting a post-training recipe to improve pre-trained LLMs to in-domain RAG. RAFT's code and demo are open-sourced at github.com/ShishirPatil/gorilla.

ลิงก์งานวิจัย

https://arxiv.org/abs/2403.10131

อ่านเพิ่มเติม

https://discuss.pytorch.kr/t/raft-rag-llm-rag-finetuning/3842

https://x.com/cwolferesearch/status/1770912695765660139


ต้นฉบับ

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-01b


บทความนี้สรุปด้วยโมเดล GPT จึงอาจมีบางส่วนที่ไม่ถูกต้อง โปรดอ้างอิงต้นฉบับด้านล่างของบทความควบคู่กันไปด้วย! หากระหว่างอ่านพบเนื้อหาที่ฟังดูแปลกหรือไม่ถูกต้อง รบกวนแจ้งในคอมเมนต์ด้วย

⚠️โฆษณา⚠️: บทความนี้ที่สรุปโดย ชุมชนผู้ใช้ PyTorch เกาหลี มีประโยชน์สำหรับคุณหรือไม่? หาก สมัครสมาชิก เราจะส่งบทความสำคัญทางอีเมลให้คุณ! (ค่าเริ่มต้นคือ Weekly แต่ เปลี่ยนเป็น Daily ได้)

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น