[2023/10/16 ~ 10/22] งานวิจัย ML เด่นประจำสัปดาห์ (Top ML Papers of the Week)
(discuss.pytorch.kr)ภาพรวม
-
ได้ทดลองแปลอัตโนมัติบทความเกี่ยวกับงานวิจัย ML ที่ DAIR.AI เผยแพร่ทุกสัปดาห์
-
แนวโน้มสำคัญของงานวิจัยที่ถูกคัดเลือกในสัปดาห์นี้มีอยู่ใหญ่ ๆ สองด้าน โดยด้านแรกคือระบบสนทนาแบบเปิดโดเมน (Open domain dialog system) และงานวิจัยที่ทำให้ปัญญาประดิษฐ์สามารถสร้างคำอธิบายด้วยตนเองหรือแก้ปัญหาต่อไปได้เอง
-
ระบบสนทนาแบบเปิดโดเมนคือเทคโนโลยีที่ทำให้ระบบปัญญาประดิษฐ์สามารถสนทนากับผู้ใช้ได้อย่างเป็นธรรมชาติ ซึ่งถูกกล่าวถึงเป็นหัวข้อในงานอย่าง "OpenAgents", "LLMs for Software Engineering", "Eliciting Human Preferences with LLMs" เป็นต้น งานวิจัยเหล่านี้ศึกษาวิธีที่ระบบปัญญาประดิษฐ์จะเรียนรู้และพัฒนาตนเองผ่านการสนทนากับผู้ใช้ได้
-
นอกจากนี้ งานวิจัยที่ว่าด้วยการให้ปัญญาประดิษฐ์สร้างคำอธิบายเองหรือแก้ปัญหาต่อไปด้วยตนเอง ก็ถูกนำเสนอในงานอย่าง "A Study of LLM-Generated Self-Explanations", "Self-RAG", "Retrieval-Augmentation for Long-form Question Answering" เป็นต้น เป้าหมายหลักของงานเหล่านี้คือการทำให้กระบวนการที่ปัญญาประดิษฐ์ใช้ในการแก้ปัญหาหรือสร้างคำอธิบายมีความโปร่งใส เพื่อให้ผู้ใช้เข้าใจได้ แนวโน้มนี้ดูเป็นทิศทางที่เป็นธรรมชาติ เมื่อพิจารณาถึงความสำคัญของการวิจัยที่มุ่งทำให้ปัญญาประดิษฐ์กลายเป็นเทคโนโลยีที่โปร่งใสและใช้งานได้อย่างแพร่หลายมากขึ้น
Llemma(เลมมา): โมเดลภาษาขนาดใหญ่แบบเปิดสำหรับคณิตศาสตร์ / Llemma: An Open Language Model For Mathematics
แนะนำงานวิจัย
- โมเดล Llemma สำหรับคณิตศาสตร์ที่ฝึกต่อเนื่องจาก Code Llama บนชุดข้อมูล Proof-Pile-2 มีประสิทธิภาพเหนือกว่าโอเพนเบสโมเดลและ Minerva ที่ยังไม่เปิดตัว บนข้อมูลอย่างบทความวิทยาศาสตร์ ข้อมูลเว็บที่มีคณิตศาสตร์ ชุดข้อมูลที่มีโค้ดคณิตศาสตร์ และเบนช์มาร์กด้านคณิตศาสตร์ พร้อมเปิดตัวโมเดลรวมถึงชุดข้อมูลและโค้ดสำหรับทำซ้ำการทดลอง #mathglm #
llm สำหรับคณิตศาสตร์ซึ่งอิงจากการ pretraining ต่อเนื่องจาก code llama บนชุดข้อมูล proof-pile-2; ชุดข้อมูลประกอบด้วยบทความวิทยาศาสตร์ ข้อมูลเว็บที่มีคณิตศาสตร์ และโค้ดคณิตศาสตร์; llemma ทำผลงานได้ดีกว่าโอเพนเบสโมเดลและ minerva ที่ยังไม่เปิดตัวบน math benchmark; มีการเปิดเผยโมเดล รวมถึงชุดข้อมูลและโค้ดเพื่อทำซ้ำการทดลอง
บทคัดย่อ
- เราขอนำเสนอ Llemma ซึ่งเป็นโมเดลภาษาขนาดใหญ่สำหรับคณิตศาสตร์ เราทำการ pretraining ต่อเนื่องให้กับ Code Llama บน Proof-Pile-2 ซึ่งเป็นชุดผสมของบทความวิทยาศาสตร์ ข้อมูลเว็บที่มีคณิตศาสตร์ และโค้ดคณิตศาสตร์ จนได้เป็น Llemma บนเบนช์มาร์ก MATH นั้น Llemma มีประสิทธิภาพเหนือกว่าโอเพนเบสโมเดลทั้งหมดที่เป็นที่รู้จัก รวมถึงตระกูลโมเดล Minerva ที่ยังไม่เปิดตัว เมื่อเทียบกันบนจำนวนพารามิเตอร์ที่เท่ากัน นอกจากนี้ Llemma ยังสามารถใช้เครื่องมือและพิสูจน์ทฤษฎีบทเชิงรูปนัยได้โดยไม่ต้อง fine-tuning เพิ่มเติมใด ๆ เราเปิดเผยอาร์ติแฟกต์ทั้งหมดต่อสาธารณะ ไม่ว่าจะเป็นโมเดลขนาด 7 พันล้านและ 34 พันล้านพารามิเตอร์, Proof-Pile-2 และโค้ดสำหรับทำซ้ำการทดลองของเรา
We present Llemma, a large language model for mathematics. We continue pretraining Code Llama on the Proof-Pile-2, a mixture of scientific papers, web data containing mathematics, and mathematical code, yielding Llemma. On the MATH benchmark Llemma outperforms all known open base models, as well as the unreleased Minerva model suite on an equi-parameter basis. Moreover, Llemma is capable of tool use and formal theorem proving without any further finetuning. We openly release all artifacts, including 7 billion and 34 billion parameter models, the Proof-Pile-2, and code to replicate our experiments.
ลิงก์งานวิจัย
https://arxiv.org/abs/2310.10631
อ่านเพิ่มเติม
https://x.com/zhangir_azerbay/status/1714098025956864031
โมเดลภาษาขนาดใหญ่สำหรับวิศวกรรมซอฟต์แวร์: งานสำรวจและปัญหาที่เปิดอยู่ / Large Language Models for Software Engineering: Survey and Open Problems
แนะนำงานวิจัย
- งานสำรวจอย่างครอบคลุมเกี่ยวกับ LLM สำหรับวิศวกรรมซอฟต์แวร์ พร้อมประเด็นวิจัยและความท้าทายทางเทคนิคที่ยังเปิดอยู่
A comprehensive survey of llms for software engineering, including open research and technical challenges.
บทคัดย่อ
- บทความนี้นำเสนองานสำรวจในสาขาเกิดใหม่ของโมเดลภาษาขนาดใหญ่ (LLMs) สำหรับวิศวกรรมซอฟต์แวร์ (SE) และยังเสนอประเด็นวิจัยที่ยังเปิดอยู่สำหรับการประยุกต์ใช้ LLM กับปัญหาทางเทคนิคที่วิศวกรซอฟต์แวร์ต้องเผชิญ คุณสมบัติที่เกิดขึ้นใหม่ของ LLM นำมาซึ่งความแปลกใหม่และความสร้างสรรค์ ครอบคลุมการประยุกต์ใช้ตลอดทั้งกิจกรรมด้านวิศวกรรมซอฟต์แวร์ ไม่ว่าจะเป็นการเขียนโค้ด การออกแบบ ความต้องการ การซ่อมแซม การรีแฟกเตอร์ การปรับปรุงประสิทธิภาพ การจัดทำเอกสาร และการวิเคราะห์ อย่างไรก็ตาม คุณสมบัติใหม่เหล่านี้เองก็ทำให้เกิดความท้าทายทางเทคนิคที่สำคัญเช่นกัน เราจำเป็นต้องมีเทคนิคที่สามารถคัดกรองคำตอบที่ไม่ถูกต้อง เช่น hallucinations ได้อย่างเชื่อถือได้ งานสำรวจของเราเผยให้เห็นบทบาทสำคัญของเทคนิคแบบไฮบริด (SE แบบดั้งเดิมร่วมกับ LLMs) ในการพัฒนาและนำระบบ SE ที่อิงกับ LLM ไปใช้งานอย่างน่าเชื่อถือ มีประสิทธิภาพ และเกิดผลจริง
This paper provides a survey of the emerging area of Large Language Models (LLMs) for Software Engineering (SE). It also sets out open research challenges for the application of LLMs to technical problems faced by software engineers. LLMs' emergent properties bring novelty and creativity with applications right across the spectrum of Software Engineering activities including coding, design, requirements, repair, refactoring, performance improvement, documentation and analytics. However, these very same emergent properties also pose significant technical challenges; we need techniques that can reliably weed out incorrect solutions, such as hallucinations. Our survey reveals the pivotal role that hybrid techniques (traditional SE plus LLMs) have to play in the development and deployment of reliable, efficient and effective LLM-based SE.
ลิงก์งานวิจัย
https://arxiv.org/abs/2310.03533
อ่านเพิ่มเติม
https://x.com/omarsar0/status/1713940983199506910
Self-RAG: เรียนรู้การค้นคืน การสร้าง และการวิจารณ์ผ่านการสะท้อนตนเอง / Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection
แนะนำงานวิจัย
- นำเสนอเฟรมเวิร์ก retrieval-augmented แบบใหม่ที่ยกระดับคุณภาพและความถูกต้องเชิงข้อเท็จจริงของ LM ผ่านการค้นคืนและการสะท้อนตนเอง โดยฝึก LM ให้ค้นคืนข้อความตอนต่าง ๆ แบบปรับตัวตามความจำเป็น และสร้างพร้อมทั้งสะท้อนต่อทั้งข้อความที่ค้นคืนมาและผลลัพธ์ที่ตัวเองสร้างผ่านโทเค็น reflection แบบพิเศษ ซึ่งทำผลงานได้เหนือกว่า sota llms (chatgpt และ retrieval-augmented llama2-chat) อย่างชัดเจนในงาน open-domain QA, reasoning และ fact verification รวมถึงการปรับปรุงด้าน factuality ด้วย #rag
> Presents a new retrieval-augmented framework that enhances an lm’s quality and factuality through retrieval and self-reflection; trains an lm that adaptively retrieves passages on demand, and generates and reflects on the passages and its own generations using special reflection tokens; it significantly outperforms sota llms (chatgpt and retrieval-augmented llama2-chat) on open-domain qa, reasoning, and fact verification tasks, including factuality improvements.
บทคัดย่อของงานวิจัย
- แม้จะมีความสามารถโดดเด่น แต่โมเดลภาษาขนาดใหญ่ (LLM) มักสร้างคำตอบที่มีความคลาดเคลื่อนจากข้อเท็จจริง เนื่องจากพึ่งพาเพียงความรู้ในพารามิเตอร์ที่ตัวโมเดลเก็บไว้เท่านั้น Retrieval-Augmented Generation (RAG) ซึ่งเป็นแนวทางเฉพาะกิจที่เสริม LM ด้วยการค้นคืนความรู้ที่เกี่ยวข้อง สามารถลดปัญหานี้ได้ อย่างไรก็ตาม การค้นคืนและผนวกรวมข้อความที่ค้นมาแบบจำนวนคงที่โดยไม่เลือก ไม่ว่าจะจำเป็นต้องค้นคืนหรือไม่ หรือข้อความนั้นเกี่ยวข้องหรือไม่ อาจลดความยืดหยุ่นของ LM หรือทำให้สร้างคำตอบที่ไม่เป็นประโยชน์ได้ เราขอแนะนำเฟรมเวิร์กใหม่ชื่อ Self-Reflective Retrieval-Augmented Generation (Self-RAG) ที่ยกระดับคุณภาพและความถูกต้องเชิงข้อเท็จจริงของ LM ผ่านการค้นคืนและการสะท้อนตนเอง เฟรมเวิร์กของ Facebook นี้ฝึก LM เดี่ยวแบบทั่วไปให้ค้นคืนข้อความตอนต่าง ๆ ตามต้องการได้แบบปรับตัว และสร้างพร้อมทั้งสะท้อนต่อข้อความที่ค้นคืนมาและผลลัพธ์ที่ตัวเองสร้าง โดยใช้โทเค็นพิเศษที่เรียกว่า reflection tokens การสร้าง reflection tokens ทำให้สามารถควบคุม LM ได้ในช่วงอนุมาน จึงปรับพฤติกรรมให้เหมาะกับความต้องการของงานที่หลากหลายได้ การทดลองแสดงให้เห็นว่า Self-RAG (พารามิเตอร์ 7B และ 13B) ทำผลงานได้เหนือกว่า LLM และโมเดล retrieval-augmented ระดับ state-of-the-art ในชุดงานที่หลากหลายอย่างชัดเจน โดยเฉพาะ Self-RAG มีประสิทธิภาพเหนือกว่า ChatGPT และ Llama2-chat ที่เสริมการค้นคืน ในงาน Open-domain QA, reasoning และ fact verification และยังแสดงให้เห็นถึงข้อได้เปรียบอย่างมีนัยสำคัญในการปรับปรุง factuality และความแม่นยำของการอ้างอิงสำหรับการสร้างข้อความแบบยาวเมื่อเทียบกับโมเดลเหล่านี้
> Despite their remarkable capabilities, large language models (LLMs) often produce responses containing factual inaccuracies due to their sole reliance on the parametric knowledge they encapsulate. Retrieval-Augmented Generation (RAG), an ad hoc approach that augments LMs with retrieval of relevant knowledge, decreases such issues. However, indiscriminately retrieving and incorporating a fixed number of retrieved passages, regardless of whether retrieval is necessary, or passages are relevant, diminishes LM versatility or can lead to unhelpful response generation. We introduce a new framework called Self-Reflective Retrieval-Augmented Generation (Self-RAG) that enhances an LM's quality and factuality through retrieval and self-reflection. Our framework trains a single arbitrary LM that adaptively retrieves passages on-demand, and generates and reflects on retrieved passages and its own generations using special tokens, called reflection tokens. Generating reflection tokens makes the LM controllable during the inference phase, enabling it to tailor its behavior to diverse task requirements. Experiments show that Self-RAG (7B and 13B parameters) significantly outperforms state-of-the-art LLMs and retrieval-augmented models on a diverse set of tasks. Specifically, Self-RAG outperforms ChatGPT and retrieval-augmented Llama2-chat on Open-domain QA, reasoning and fact verification tasks, and it shows significant gains in improving factuality and citation accuracy for long-form generations relative to these models.
ลิงก์งานวิจัย
https://arxiv.org/abs/2310.11511
อ่านเพิ่มเติม
https://x.com/AkariAsai/status/1715110277077962937
ทำความเข้าใจ Retrieval Augmentation สำหรับการตอบคำถามแบบยาว / Understanding Retrieval Augmentation for Long-Form Question Answering
แนะนำงานวิจัย
- สำรวจโมเดลภาษาที่เสริมการค้นคืนสำหรับการตอบคำถามแบบยาว และพบว่าการค้นคืนเป็นองค์ประกอบสำคัญ แต่เอกสารหลักฐานควรถูกเพิ่มเข้าไปใน llm อย่างระมัดระวัง อีกทั้งยังพบว่าความผิดพลาดด้าน attribution เกิดขึ้นบ่อยกว่าเมื่อเอกสารที่ค้นคืนมาไม่มีข้อมูล/หลักฐานเพียงพอสำหรับการตอบคำถามนั้น
> Explores retrieval-augmented language models on long-form question answering; finds that retrieval is an important component but evidence documents should be carefully added to the llm; finds that attribution error happens more frequently when retrieved documents lack sufficient information/evidence for answering the question.
บทคัดย่อของงานวิจัย
- นำเสนองานศึกษาว่าด้วย language model (LM) แบบ retrieval-augmented สำหรับการตอบคำถามแบบยาว โดยวิเคราะห์ว่าการเสริมด้วยการค้นคืนข้อมูลส่งผลต่อ LM ที่แตกต่างกันอย่างไร ผ่านการเปรียบเทียบคำตอบที่โมเดลสร้างขึ้นโดยใช้เอกสารหลักฐานชุดเดียวกัน และความแตกต่างด้านคุณภาพของชุดเอกสารที่ค้นคืนส่งผลต่อคำตอบที่สร้างจาก LM เดียวกันอย่างไร ศึกษาคุณลักษณะต่าง ๆ ของคำตอบที่สร้างขึ้น (เช่น ความลื่นไหล ความยาว ความแปรปรวน) โดยเน้นเป็นพิเศษที่การอ้างอิงของคำตอบแบบยาวไปยังเอกสารหลักฐานในบริบท มีการรวบรวม annotation จากมนุษย์เกี่ยวกับการอ้างอิงของคำตอบ และประเมินวิธีการตัดสินการอ้างอิงโดยอัตโนมัติ งานวิจัยนี้มอบอินไซต์ใหม่เกี่ยวกับผลของ retrieval augmentation ต่อการสร้างข้อความยาวที่อุดมด้วยความรู้ของ LM นอกจากนี้ยังระบุรูปแบบการอ้างอิงในการสร้างข้อความยาวและวิเคราะห์สาเหตุหลักของข้อผิดพลาดด้านการอ้างอิง การวิเคราะห์เหล่านี้ร่วมกันเผยให้เห็นว่า retrieval augmentation ส่งผลต่อการสร้างข้อความยาวที่อุดมด้วยความรู้อย่างไร และชี้ทิศทางสำหรับงานในอนาคต
> We present a study of retrieval-augmented language models (LMs) on long-form question answering. We analyze how retrieval augmentation impacts different LMs, by comparing answers generated from models while using the same evidence documents, and how differing quality of retrieval document set impacts the answers generated from the same LM. We study various attributes of generated answers (e.g., fluency, length, variance) with an emphasis on the attribution of generated long-form answers to in-context evidence documents. We collect human annotations of answer attribution and evaluate methods for automatically judging attribution. Our study provides new insights on how retrieval augmentation impacts long, knowledge-rich text generation of LMs. We further identify attribution patterns for long text generation and analyze the main culprits of attribution errors. Together, our analysis reveals how retrieval augmentation impacts long knowledge-rich text generation and provide directions for future work.
ลิงก์บทความวิจัย
https://arxiv.org/abs/2310.12150
อ่านเพิ่มเติม
https://x.com/omarsar0/status/1714986431859282144
GenBench
แนะนำบทความวิจัย
- นำเสนอเฟรมเวิร์กเพื่อจัดลักษณะและทำความเข้าใจงานวิจัยด้านการทำให้ทั่วไปใน NLP โดยประกอบด้วยการวิเคราะห์อภิมานของบทความ 543 ฉบับ และชุดเครื่องมือสำหรับสำรวจและทำความเข้าใจงานวิจัยด้านการทำให้ทั่วไปได้ดียิ่งขึ้น
> Presents a framework for characterizing and understanding generalization research in nlp; involves a meta-analysis of 543 papers and a set of tools to explore and better understand generalization studies.
ลิงก์บทความวิจัย
https://nature.com/articles/s42256-023-00729-y/…
อ่านเพิ่มเติม
https://x.com/AIatMeta/status/1715041427283902793
โมเดลภาษาขนาดใหญ่สามารถอธิบายตัวเองได้หรือไม่? งานศึกษาว่าด้วยคำอธิบายตนเองที่สร้างโดย LLM / Can Large Language Models Explain Themselves? A Study of LLM-Generated Self-Explanations
แนะนำบทความวิจัย
- ประเมินความสามารถของ LLM ในการสร้างคำอธิบายการระบุคุณลักษณะของฟังก์ชันได้ด้วยตนเอง โดยการอธิบายตนเองมีประโยชน์ต่อการปรับปรุงประสิทธิภาพและความจริงแท้ของ LLM และความสามารถนี้สามารถใช้ร่วมกับการพรอมป์แบบ chain-of-thought ได้ #chain-of-thought
> Assesses an llm's capability to self-generate feature attribution explanations; self-explanation is useful to improve performance and truthfulness in llms; this capability can be used together with chain-of-thought prompting.
บทคัดย่อบทความวิจัย
- โมเดลภาษาขนาดใหญ่ (LLM) เช่น ChatGPT ได้พิสูจน์แล้วว่ามีประสิทธิภาพโดดเด่นในงานประมวลผลภาษาธรรมชาติ (NLP) ที่หลากหลาย เช่น การวิเคราะห์อารมณ์ การให้เหตุผลเชิงคณิตศาสตร์ และการสรุปความ นอกจากนี้ เนื่องจากโมเดลเหล่านี้ถูกปรับแต่งตามคำสั่งจากบทสนทนาของมนุษย์เพื่อสร้างคำตอบที่ “เป็นประโยชน์” จึงสามารถและมักจะสร้างคำอธิบายควบคู่ไปกับคำตอบได้ ซึ่งเราเรียกสิ่งนี้ว่า “การอธิบายตนเอง” ตัวอย่างเช่น เมื่อวิเคราะห์อารมณ์ของรีวิวภาพยนตร์ โมเดลอาจแสดงผลไม่เพียงแค่ว่าอารมณ์เป็นบวกเท่านั้น แต่ยังให้คำอธิบายด้วย (เช่น การแสดงรายการคำในรีวิวที่สื่ออารมณ์ เช่น “ยอดเยี่ยม” และ “น่าจดจำ”) คำอธิบายตนเองที่สร้างขึ้นโดยอัตโนมัติเหล่านี้มีความแม่นยำเพียงใด? งานวิจัยนี้ศึกษาคำถามดังกล่าวในงานวิเคราะห์อารมณ์และคำอธิบายแบบ feature attribution ซึ่งเป็นหนึ่งในบริบทที่มีการศึกษามากที่สุดในแวดวง interpretability (สำหรับโมเดลก่อนยุค ChatGPT) โดยเฉพาะ เราศึกษาวิธีการต่าง ๆ ในการดึงการอธิบายตนเองออกมา ประเมินความซื่อตรงของมันด้วยชุดตัวชี้วัดการประเมิน และเปรียบเทียบกับวิธีอธิบายแบบดั้งเดิม เช่น occlusion หรือแผนที่ความเด่นของ LIME จากการทดลองอย่างกว้างขวาง เราพบว่าการอธิบายตนเองของ ChatGPT ให้ผลลัพธ์ทัดเทียมกับวิธีอธิบายแบบเดิม แต่มีความแตกต่างจากกันมากเมื่อพิจารณาจากตัวชี้วัดความสอดคล้องหลายแบบ ขณะเดียวกันก็มีต้นทุนในการสร้างต่ำกว่ามาก เพราะถูกสร้างมาพร้อมกับการพยากรณ์ นอกจากนี้ เรายังระบุคุณลักษณะที่น่าสนใจได้หลายประการ ซึ่งผลักดันให้เรากลับมาทบทวนแนวปฏิบัติด้าน interpretability ของโมเดลที่ใช้อยู่ในปัจจุบันจำนวนมากในยุคของ LLM แบบ ChatGPT (และที่คล้ายกัน)
Large language models (LLMs) such as ChatGPT have demonstrated superior performance on a variety of natural language processing (NLP) tasks including sentiment analysis, mathematical reasoning and summarization. Furthermore, since these models are instruction-tuned on human conversations to produce "helpful" responses, they can and often will produce explanations along with the response, which we call self-explanations. For example, when analyzing the sentiment of a movie review, the model may output not only the positivity of the sentiment, but also an explanation (e.g., by listing the sentiment-laden words such as "fantastic" and "memorable" in the review). How good are these automatically generated self-explanations? In this paper, we investigate this question on the task of sentiment analysis and for feature attribution explanation, one of the most commonly studied settings in the interpretability literature (for pre-ChatGPT models). Specifically, we study different ways to elicit the self-explanations, evaluate their faithfulness on a set of evaluation metrics, and compare them to traditional explanation methods such as occlusion or LIME saliency maps. Through an extensive set of experiments, we find that ChatGPT's self-explanations perform on par with traditional ones, but are quite different from them according to various agreement metrics, meanwhile being much cheaper to produce (as they are generated along with the prediction). In addition, we identified several interesting characteristics of them, which prompt us to rethink many current model interpretability practices in the era of ChatGPT(-like) LLMs.
ลิงก์บทความ
https://arxiv.org/abs/2310.11207
อ่านเพิ่มเติม
https://x.com/omarsar0/status/1714665747752923620
OpenAgents(โอเพนเอเจนต์): แพลตฟอร์มแบบเปิดสำหรับ language agents ในโลกจริง / OpenAgents: An Open Platform for Language Agents in the Wild
แนะนำงานวิจัย
- เป็นแพลตฟอร์มสำหรับการใช้งานและโฮสต์ language agents แบบเปิดในโลกจริง โดยประกอบด้วยเอเจนต์ 3 ประเภท ได้แก่ data agent สำหรับการวิเคราะห์ข้อมูล, plugins agent ที่มีเครื่องมือ API รายวันมากกว่า 200 รายการ และ web agent สำหรับการท่องเว็บอัตโนมัติ
An open platform for using and hosting language agents in the wild; includes three agents, including a data agent for data analysis, a plugins agent with 200+ daily api tools, and a web agent for autonomous web browsing.
บทคัดย่อบทความ
- เอเจนต์ภาษามีศักยภาพในการใช้ภาษาธรรมชาติสำหรับงานที่หลากหลายและซับซ้อนในสภาพแวดล้อมที่ต่างกัน โดยเฉพาะเมื่อสร้างบนพื้นฐานของโมเดลภาษาขนาดใหญ่ (LLM) เฟรมเวิร์กเอเจนต์ภาษาในปัจจุบันมุ่งอำนวยความสะดวกในการสร้างเอเจนต์ภาษาแบบพิสูจน์แนวคิด แต่กลับมองข้ามการเข้าถึงเอเจนต์ของผู้ใช้ที่ไม่ใช่ผู้เชี่ยวชาญ และแทบไม่ให้ความสำคัญกับการออกแบบในระดับแอปพลิเคชัน เราขอนำเสนอ OpenAgents ซึ่งเป็นแพลตฟอร์มแบบเปิดสำหรับการใช้งานและโฮสต์เอเจนต์ภาษาในชีวิตประจำวัน OpenAgents ประกอบด้วยเอเจนต์ 3 ประเภท: (1) Data Agent สำหรับการวิเคราะห์ข้อมูลด้วย Python/SQL และเครื่องมือข้อมูล (2) Plugins Agent ที่มีเครื่องมือ API สำหรับการใช้งานประจำวันมากกว่า 200 รายการ (3) Web Agent สำหรับการท่องเว็บแบบอัตโนมัติ ผู้ใช้ทั่วไปสามารถโต้ตอบกับความสามารถของเอเจนต์ผ่านเว็บอินเทอร์เฟซผู้ใช้ที่ปรับให้เหมาะกับการตอบสนองที่รวดเร็วและการจัดการความล้มเหลวทั่วไป ขณะเดียวกันก็มอบประสบการณ์การดีพลอยที่ราบรื่นบนสภาพแวดล้อมโลคัลให้แก่นักพัฒนาและนักวิจัย เพื่อเป็นรากฐานสำหรับการสร้างเอเจนต์ภาษาที่สร้างสรรค์และเอื้อต่อการประเมินในโลกจริง เราอธิบายทั้งความท้าทายและโอกาสอย่างชัดเจน โดยมุ่งหวังจะวางรากฐานสำหรับการวิจัยและพัฒนาเอเจนต์ภาษาสำหรับโลกจริงในอนาคต
> Language agents show potential in being capable of utilizing natural language for varied and intricate tasks in diverse environments, particularly when built upon large language models (LLMs). Current language agent frameworks aim to facilitate the construction of proof-of-concept language agents while neglecting the non-expert user access to agents and paying little attention to application-level designs. We present OpenAgents, an open platform for using and hosting language agents in the wild of everyday life. OpenAgents includes three agents: (1) Data Agent for data analysis with Python/SQL and data tools; (2) Plugins Agent with 200+ daily API tools; (3) Web Agent for autonomous web browsing. OpenAgents enables general users to interact with agent functionalities through a web user interface optimized for swift responses and common failures while offering developers and researchers a seamless deployment experience on local setups, providing a foundation for crafting innovative language agents and facilitating real-world evaluations. We elucidate the challenges and opportunities, aspiring to set a foundation for future research and development of real-world language agents.
ลิงก์บทความวิจัย
https://arxiv.org/abs/2310.10634v1
อ่านเพิ่มเติม
https://x.com/ChengZhoujun/status/1714343204148113860
ชักจูงความชอบของมนุษย์ด้วยโมเดลภาษา / Eliciting Human Preferences with Language Models
แนะนำงานวิจัย
- ใช้โมเดลภาษาเพื่อชี้นำกระบวนการกำหนดงาน และใช้เฟรมเวิร์กการเรียนรู้เพื่อช่วยให้โมเดลสามารถชักจูงและอนุมานพฤติกรรมที่ตั้งใจไว้ผ่านการโต้ตอบกับผู้ใช้ด้วยภาษาธรรมชาติแบบอิสระ อีกทั้งยังแสดงให้เห็นว่า ด้วยการสร้างคำถามปลายเปิด ระบบสามารถสร้างคำตอบที่ให้ข้อมูลมากกว่าพรอมป์ต์ที่ผู้ใช้เขียนเอง
> Uses language models to guide the task specification process and a learning framework to help models elicit and infer intended behavior through free-form, language-based interaction with users; shows that by generating open-ended questions, the system generates responses that are more informative than user-written prompts.
บทคัดย่อบทความวิจัย
- โมเดลภาษา (LM) สามารถถูกชี้นำให้ทำงานเป้าหมายได้ด้วยการใช้ตัวอย่างที่มีป้ายกำกับหรือพรอมป์ภาษาธรรมชาติ อย่างไรก็ตาม การเลือกตัวอย่างหรือการเขียนพรอมป์อาจเป็นเรื่องยาก โดยเฉพาะในงานที่มี edge case แปลก ๆ ต้องอธิบายความชอบที่คลุมเครืออย่างแม่นยำ หรือจำเป็นต้องมี mental model ที่ถูกต้องเกี่ยวกับพฤติกรรมของ LM เราเสนอให้ใช้ ตัว LM เอง เพื่อช่วยชี้นำกระบวนการกำหนดสเปกของงาน ในบทความนี้ เราแนะนำ Generative Active Task Elicitation (GATE) ซึ่งเป็นเฟรมเวิร์กการเรียนรู้ที่โมเดลจะดึงและอนุมานพฤติกรรมที่ตั้งใจไว้ผ่านการโต้ตอบกับผู้ใช้ด้วยภาษาแบบอิสระ เราศึกษา GATE ใน 3 ด้าน ได้แก่ การตรวจสอบความถูกต้องของอีเมล การแนะนำคอนเทนต์ และการให้เหตุผลเชิงศีลธรรม ในการทดลองที่ลงทะเบียนล่วงหน้า เราแสดงให้เห็นว่า LM ที่ถูกพรอมป์ให้ทำ GATE (เช่น สร้างคำถามปลายเปิดหรือสังเคราะห์ edge case ที่ให้ข้อมูลสูง) มักดึงคำตอบที่มีข้อมูลมากกว่าพรอมป์หรือป้ายกำกับที่ผู้ใช้เขียนเอง ผู้ใช้รายงานว่าการดึงข้อกำหนดของงานแบบโต้ตอบใช้ความพยายามน้อยกว่าการเขียนพรอมป์หรือการติดป้ายกำกับตัวอย่าง และยังเผยให้เห็นประเด็นใหม่ ๆ ที่ผู้ใช้ไม่ได้นึกถึงในตอนแรก ผลการศึกษานี้ชี้ให้เห็นว่าการดึงข้อมูลที่ขับเคลื่อนด้วย LM อาจเป็นเครื่องมือทรงพลังในการปรับโมเดลให้สอดคล้องกับความชอบและคุณค่าของมนุษย์ที่ซับซ้อน
> Language models (LMs) can be directed to perform target tasks by using labeled examples or natural language prompts. But selecting examples or writing prompts for can be challenging--especially in tasks that involve unusual edge cases, demand precise articulation of nebulous preferences, or require an accurate mental model of LM behavior. We propose to use LMs themselves to guide the task specification process. In this paper, we introduce Generative Active Task Elicitation (GATE): a learning framework in which models elicit and infer intended behavior through free-form, language-based interaction with users. We study GATE in three domains: email validation, content recommendation, and moral reasoning. In preregistered experiments, we show that LMs prompted to perform GATE (e.g., by generating open-ended questions or synthesizing informative edge cases) elicit responses that are often more informative than user-written prompts or labels. Users report that interactive task elicitation requires less effort than prompting or example labeling and surfaces novel considerations not initially anticipated by users. Our findings suggest that LM-driven elicitation can be a powerful tool for aligning models to complex human preferences and values.
ลิงก์บทความ
https://arxiv.org/abs/2310.11589
อ่านเพิ่มเติม
https://x.com/AlexTamkin/status/1715040019520569395
AutoMix: การผสมโมเดลภาษาอัตโนมัติ / AutoMix: Automatically Mixing Language Models
แนะนำบทความ
- แนวทางในการส่งต่อคิวรีไปยัง llms โดยอิงจากความถูกต้องของโมเดลภาษาขนาดเล็ก (ทำผ่านการ self-verification แบบ few-shot); มีการแนะนำ meta-verifier เพื่อตรวจสอบผลลัพธ์ของตัว verifier (ซึ่งโดยทั่วไปเป็นโมเดลขนาดเล็กกว่า) และส่งคิวรีไปยังโมเดลภาษาที่ใหญ่กว่าหากจำเป็น การทดลองด้วย llama2-13/70b บนชุดข้อมูลการให้เหตุผลแบบอิงบริบท 5 ชุด แสดงให้เห็นว่า AutoMix เหนือกว่าค่าอ้างอิงเดิม โดยเพิ่มผลประโยชน์ส่วนเพิ่มต่อค่าใช้จ่ายได้สูงสุด 89%
> An approach to route queries to llms based on the correctness of smaller language models (done via few-shot self-verification); a meta-verifier is introduced to check the verifier's output (typically a smaller model) and route the query to a larger language model if needed. experiments using llama2-13/70b, on five context-grounded reasoning datasets demonstrate that automix surpasses established baselines, improving the incremental benefit per cost by up to 89%.
บทคัดย่อ
- ปัจจุบันผู้ให้บริการ Cloud API มีโมเดลภาษาขนาดใหญ่ (LLM) ให้ใช้งานในหลายขนาดและหลายการตั้งค่า ความหลากหลายนี้แม้จะเปิดทางเลือกได้กว้างขึ้น แต่การใช้ตัวเลือกเหล่านี้อย่างมีประสิทธิภาพเพื่อเพิ่มประสิทธิภาพด้านต้นทุนการคำนวณและประสิทธิผลยังคงเป็นความท้าทาย ในงานนี้ เรานำเสนอ AutoMix ซึ่งเป็นแนวทางที่ส่งคิวรีไปยัง LM ที่ใหญ่กว่าอย่างมีกลยุทธ์ โดยอิงจากความถูกต้องโดยประมาณของผลลัพธ์จาก LM ขนาดเล็ก หัวใจสำคัญของ AutoMix คือกลไก self-verification แบบ few-shot ที่ประเมินความน่าเชื่อถือของเอาต์พุตของตัวเองได้โดยไม่ต้องฝึกเพิ่ม เนื่องจากการตรวจสอบอาจมีสัญญาณรบกวน AutoMix จึงใช้ meta verifier เพื่อปรับปรุงความแม่นยำของการประเมินเหล่านี้ ผลการทดลองด้วย LLAMA2-13/70B บนชุดข้อมูลการให้เหตุผลแบบอิงบริบท 5 ชุด แสดงให้เห็นว่า AutoMix เหนือกว่าค่าอ้างอิงเดิม โดยปรับปรุงผลประโยชน์ส่วนเพิ่มต่อค่าใช้จ่ายได้สูงสุด 89% โค้ดและข้อมูลอยู่ที่ https://github.com/automix-llm/automix
> Large language models (LLMs) are now available in various sizes and configurations from cloud API providers. While this diversity offers a broad spectrum of choices, effectively leveraging the options to optimize computational cost and performance remains challenging. In this work, we present AutoMix, an approach that strategically routes queries to larger LMs, based on the approximate correctness of outputs from a smaller LM. Central to AutoMix is a few-shot self-verification mechanism, which estimates the reliability of its own outputs without requiring training. Given that verifications can be noisy, we employ a meta verifier in AutoMix to refine the accuracy of these assessments. Our experiments using LLAMA2-13/70B, on five context-grounded reasoning datasets demonstrate that AutoMix surpasses established baselines, improving the incremental benefit per cost by up to 89%. Our code and data are available at https://github.com/automix-llm/automix.
ลิงก์บทความ
https://arxiv.org/abs/2310.12963
อ่านเพิ่มเติม
https://x.com/omarsar0/status/1715385477627334718
การวางแผนวิดีโอ-ภาษา / Video Language Planning
แนะนำงานวิจัย
- อัลกอริทึมที่นำเสนอนี้สามารถสังเคราะห์แผนวิดีโอระยะยาวที่ซับซ้อนครอบคลุมโดเมนหุ่นยนต์ได้ ผ่านกระบวนการค้นหาแบบต้นไม้ที่ฝึกโมเดลวิชัน-ภาษาให้ทำหน้าที่เป็นนโยบายและฟังก์ชันค่า และฝึกโมเดลข้อความเป็นวิดีโอให้เป็นโมเดลพลวัต
> Enables synthesizing complex long-horizon video plans across robotics domains; the proposed algorithm involves a tree search procedure that trains vision-language models to serve as policies and value functions, and text-to-video models as dynamic models.
บทคัดย่องานวิจัย
- เราสนใจที่จะทำให้การวางแผนเชิงภาพสำหรับงานระยะยาวที่ซับซ้อนเป็นไปได้ในพื้นที่ของวิดีโอและภาษาที่สร้างขึ้น โดยอาศัยความก้าวหน้าล่าสุดของโมเดลกำเนิดขนาดใหญ่ที่ผ่านการพรีเทรนบนข้อมูลระดับอินเทอร์เน็ต เพื่อจุดประสงค์นี้ เราขอนำเสนอ Video Language Planning (VLP) ซึ่งเป็นอัลกอริทึมที่ประกอบด้วยกระบวนการค้นหาแบบต้นไม้ โดยเราฝึก (i) โมเดลวิชัน-ภาษาให้ทำหน้าที่ทั้งเป็นนโยบายและฟังก์ชันค่า และ (ii) โมเดลข้อความเป็นวิดีโอให้เป็นโมเดลพลวัต VLP รับอินพุตเป็นคำสั่งงานระยะยาวและภาพสังเกตการณ์ปัจจุบัน แล้วสร้างแผนวิดีโอระยะยาวที่ให้ข้อกำหนดแบบหลายโมดัลอย่างละเอียด (วิดีโอและภาษา) ซึ่งอธิบายวิธีทำภารกิจสุดท้ายให้สำเร็จ VLP สามารถขยายตามงบประมาณการคำนวณที่เพิ่มขึ้น โดยเมื่อใช้เวลาคำนวณมากขึ้นก็จะได้แผนวิดีโอที่ดีขึ้น และสามารถสังเคราะห์แผนวิดีโอระยะยาวได้ในโดเมนหุ่นยนต์ที่หลากหลาย ตั้งแต่การจัดเรียงวัตถุหลายชิ้นใหม่ ไปจนถึงการควบคุมเชิงคล่องแคล่วของแขนกลสองข้างแบบหลายกล้อง แผนวิดีโอที่สร้างขึ้นสามารถแปลงเป็นการกระทำของหุ่นยนต์จริงได้ผ่านนโยบายแบบมีเป้าหมายกำกับ ซึ่งอิงตามแต่ละเฟรมขั้นกลางของวิดีโอที่สร้างขึ้น ผลการทดลองแสดงให้เห็นว่า VLP ช่วยเพิ่มอัตราความสำเร็จของงานระยะยาวได้อย่างมากเมื่อเทียบกับวิธีการก่อนหน้า ทั้งบนหุ่นยนต์จำลองและหุ่นยนต์จริง (ครอบคลุมฮาร์ดแวร์ 3 แพลตฟอร์ม)
> We are interested in enabling visual planning for complex long-horizon tasks in the space of generated videos and language, leveraging recent advances in large generative models pretrained on Internet-scale data. To this end, we present video language planning (VLP), an algorithm that consists of a tree search procedure, where we train (i) vision-language models to serve as both policies and value functions, and (ii) text-to-video models as dynamics models. VLP takes as input a long-horizon task instruction and current image observation, and outputs a long video plan that provides detailed multimodal (video and language) specifications that describe how to complete the final task. VLP scales with increasing computation budget where more computation time results in improved video plans, and is able to synthesize long-horizon video plans across different robotics domains: from multi-object rearrangement, to multi-camera bi-arm dexterous manipulation. Generated video plans can be translated into real robot actions via goal-conditioned policies, conditioned on each intermediate frame of the generated video. Experiments show that VLP substantially improves long-horizon task success rates compared to prior methods on both simulated and real robots (across 3 hardware platforms).
ลิงก์งานวิจัย
https://arxiv.org/abs/2310.10625
อ่านเพิ่มเติม
https://x.com/du_yilun/status/1714297584842318157
ต้นฉบับ
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-ff8
ยังไม่มีความคิดเห็น