[2023/09/11 ~ 09/17] บทความวิจัย ML เด่นประจำสัปดาห์นี้ (Top ML Papers of the Week)
(discuss.pytorch.kr)ภาพรวม
- ได้ทดลองแปลอัตโนมัติบทความเกี่ยวกับงานวิจัย ML ที่ DAIR.AI เผยแพร่ทุกสัปดาห์
- งานวิจัยที่ถูกคัดเลือกในสัปดาห์นี้ส่วนใหญ่เน้นไปที่หัวข้อ LLM (Large Language Model) โดยเฉพาะ และจุดที่น่าสนใจคือมีความหลากหลายในวิธีการจัดการกับ LLM งานวิจัยเหล่านี้วิเคราะห์ LLM จากหลายมุมมอง ไม่ว่าจะเป็นวิธีการฝึกของโมเดลภาษา ศักยภาพในการพัฒนาของ LLM แบบเอเจนต์ การทำให้ LLM มีความประณีตยิ่งขึ้นและความสามารถในการเรียนรู้ด้วยตนเอง ตลอดจนชุดงานวิจัยที่เกี่ยวข้องกับ LLM
- แนวโน้มนี้แสดงให้เห็นว่าแนวทางการฝึกโมเดลภาษากำลังได้รับความสำคัญอย่างมากในแวดวงปัญญาประดิษฐ์และแมชชีนเลิร์นนิง และในบรรดานั้น LLM กำลังได้รับความสนใจอย่างเด่นชัด นอกจากนี้ ความหลากหลายในวิธีการจัดการกับ LLM ยังบ่งชี้ว่าเทคโนโลยีนี้สามารถประยุกต์ใช้ได้อย่างกว้างขวาง และสะท้อนให้เห็นถึงศักยภาพของมัน
มีแค่ตำราเรียนก็พอ II: รายงานทางเทคนิคของ PHI-1.5 / Textbooks Are All You Need II: phi-1.5 technical report
แนะนำงานวิจัย
- โมเดลใหม่ขนาด 1.3 พันล้านพารามิเตอร์ที่ฝึกด้วยโทเคน 30 พันล้านโทเคน พร้อมชุดข้อมูลที่ประกอบด้วยข้อมูลสังเคราะห์ระดับ "คุณภาพแบบตำราเรียน" โดย phi-1.5 สามารถแข่งขันหรือทำผลงานได้ดีกว่าโมเดลขนาดใหญ่กว่าอื่น ๆ ในงานด้านการให้เหตุผล ซึ่งชี้ให้เห็นว่าคุณภาพของข้อมูลมีบทบาทสำคัญมากกว่าที่เคยเชื่อกัน #llm #llm-alignment
A new 1.3 billion parameter model trained on 30 billion tokens; the dataset consists of "textbook-quality" synthetically generated data; phi-1.5 competes or outperforms other larger models on reasoning tasks suggesting that data quality plays a more important role than previously thought.
บทคัดย่องานวิจัย
- เรากำลังสานต่อการศึกษาศักยภาพของโมเดลภาษาขนาดเล็กที่อิง Transformer ซึ่งเริ่มต้นจาก $TinyStories$ โมเดลขนาด 10 ล้านพารามิเตอร์ที่สามารถสร้างภาษาอังกฤษที่สอดคล้องได้ และงานต่อยอดอย่าง $phi-1$ โมเดลขนาด 1.3 พันล้านพารามิเตอร์ที่มีความสามารถด้านการเขียนโค้ด Python ใกล้เคียงระดับล้ำสมัย งานหลังได้เสนอให้ใช้ Large Language Models (LLMs) ที่มีอยู่แล้วสร้างข้อมูลแบบ "คุณภาพระดับตำราเรียน" เพื่อปรับปรุงกระบวนการเรียนรู้ให้ดีกว่าการใช้ข้อมูลเว็บแบบดั้งเดิม ในครั้งนี้ เราเดินตามแนวทาง "Textbooks Are All You Need" โดยมุ่งเน้นที่การให้เหตุผลเชิงสามัญสำนึกในภาษาธรรมชาติ และได้สร้างโมเดลใหม่ขนาด 1.3 พันล้านพารามิเตอร์ชื่อ \textbf{phi-1.5} ซึ่งมีประสิทธิภาพในงานภาษาธรรมชาติใกล้เคียงกับโมเดลที่ใหญ่กว่าถึง 5 เท่า และเหนือกว่ามากกว่า LLM ส่วนใหญ่ที่ไม่ใช่ระดับ frontier ในงานให้เหตุผลที่ซับซ้อนกว่า เช่น คณิตศาสตร์ระดับประถมและการเขียนโค้ดพื้นฐาน โดยทั่วไปแล้ว $phi-1.5$ แสดงลักษณะหลายอย่างของ LLM ที่ใหญ่กว่ามาก ทั้งในด้านดี เช่น ความสามารถในการ "คิดเป็นลำดับขั้น" หรือทำ in-context learning ขั้นพื้นฐานบางส่วน และด้านเสีย เช่น การหลอนข้อมูล รวมถึงความเป็นไปได้ในการสร้างเนื้อหาที่เป็นพิษหรือมีอคติ อย่างไรก็ตาม สิ่งที่น่าพึงพอใจคือเราเห็นการปรับปรุงในด้านเหล่านี้เนื่องจากไม่มีการใช้ข้อมูลจากเว็บ เราได้เปิดซอร์ส \textbf{phi-1.5} เพื่อส่งเสริมการวิจัยเพิ่มเติมในประเด็นเร่งด่วนเหล่านี้
We continue the investigation into the power of smaller Transformer-based language models as initiated by \textbf{TinyStories} -- a 10 million parameter model that can produce coherent English -- and the follow-up work on \textbf{phi-1}, a 1.3 billion parameter model with Python coding performance close to the state-of-the-art. The latter work proposed to use existing Large Language Models (LLMs) to generate
textbook quality" data as a way to enhance the learning process compared to traditional web data. We follow theTextbooks Are All You Need" approach, focusing this time on common sense reasoning in natural language, and create a new 1.3 billion parameter model named \textbf{phi-1.5}, with performance on natural language tasks comparable to models 5x larger, and surpassing most non-frontier LLMs on more complex reasoning tasks such as grade-school mathematics and basic coding. More generally, \textbf{phi-1.5} exhibits many of the traits of much larger LLMs, both good -- such as the ability to ``think step by step" or perform some rudimentary in-context learning -- and bad, including hallucinations and the potential for toxic and biased generations -- encouragingly though, we are seeing improvement on that front thanks to the absence of web data. We open-source \textbf{phi-1.5} to promote further research on these urgent topics.
ลิงก์งานวิจัย
https://arxiv.org/abs/2309.05463
อ่านเพิ่มเติม
https://x.com/omarsar0/status/1701590130270601422
การเติบโตและศักยภาพของเอเจนต์ที่อิง Large Language Model: บทความสำรวจ / The Rise and Potential of Large Language Model Based Agents: A Survey
แนะนำงานวิจัย
- ภาพรวมอย่างครอบคลุมเกี่ยวกับเอเจนต์ที่อิง LLM ครอบคลุมตั้งแต่วิธีสร้างเอเจนต์เหล่านี้ไปจนถึงวิธีนำไปใช้ให้เกิดประโยชน์ #survey-paper
A comprehensive overview of llm based agents; covers from how to construct these agents to how to harness them for good.
บทคัดย่องานวิจัย
- มนุษยชาติแสวงหาปัญญาประดิษฐ์ (AI) ที่มีความสามารถเทียบเท่าหรือเหนือกว่ามนุษย์มาอย่างยาวนาน และ AI agent ก็ถูกมองว่าเป็นหนทางที่มีแนวโน้มสำหรับเป้าหมายนี้ AI agent คือเอนทิตีประดิษฐ์ที่รับรู้สภาพแวดล้อม ตัดสินใจ และลงมือกระทำ มีความพยายามมากมายในการพัฒนา AI agent อัจฉริยะมาตั้งแต่ช่วงกลางศตวรรษที่ 20 อย่างไรก็ตาม ความพยายามเหล่านี้มักมุ่งไปที่การพัฒนาอัลกอริทึมหรือกลยุทธ์การฝึกเพื่อยกระดับความสามารถเฉพาะด้านหรือประสิทธิภาพในงานเฉพาะเป็นหลัก สิ่งที่ชุมชนยังขาดอยู่จริง ๆ คือโมเดลที่มีความทั่วไปและทรงพลังเพียงพอที่จะเป็นจุดตั้งต้นสำหรับการออกแบบ AI agent ที่สามารถปรับตัวเข้ากับสถานการณ์อันหลากหลายได้ ด้วยความสามารถอันโดดเด่นและใช้งานได้หลากหลาย Large Language Model (LLM) จึงถูกมองว่าเป็นประกายเริ่มต้นที่อาจนำไปสู่ Artificial General Intelligence (AGI) และมอบความหวังในการสร้าง AI agent แบบทั่วไป งานวิจัยจำนวนมากได้นำ LLM มาใช้เป็นรากฐานในการสร้าง AI agent และสร้างความก้าวหน้าที่สำคัญ เราเริ่มต้นด้วยการไล่เรียงแนวคิดเรื่อง agent ตั้งแต่รากฐานทางปรัชญาไปจนถึงพัฒนาการในสาขา AI พร้อมอธิบายว่าเหตุใด LLM จึงเหมาะสมจะเป็นพื้นฐานของ AI agent จากนั้นจึงนำเสนอกรอบแนวคิดสำหรับ agent ที่อิงกับ LLM ซึ่งประกอบด้วยองค์ประกอบหลัก 3 ส่วน ได้แก่ สมอง การรับรู้ และการกระทำ โดยกรอบนี้สามารถปรับให้เหมาะกับการใช้งานที่แตกต่างกันได้ ต่อจากนั้น เราจะสำรวจการประยุกต์ใช้ agent ที่อิงกับ LLM อย่างกว้างขวางใน 3 มิติ ได้แก่ สถานการณ์แบบ agent เดี่ยว สถานการณ์แบบหลาย agent และความร่วมมือระหว่างมนุษย์กับ agent หลังจากนั้น เรายังเจาะลึกไปที่สังคมของ agent โดยสำรวจพฤติกรรมและบุคลิกของ agent ที่อิงกับ LLM ปรากฏการณ์ทางสังคมที่เกิดขึ้นเมื่อ agent เหล่านี้ก่อตัวเป็นสังคม และข้อมูลเชิงลึกที่มอบให้ต่อสังคมมนุษย์ สุดท้าย เราจะอภิปรายหัวข้อสำคัญต่าง ๆ และปัญหาที่เปิดค้างอยู่ในสาขานี้
> For a long time, humanity has pursued artificial intelligence (AI) equivalent to or surpassing the human level, with AI agents considered a promising vehicle for this pursuit. AI agents are artificial entities that sense their environment, make decisions, and take actions. Many efforts have been made to develop intelligent AI agents since the mid-20th century. However, these efforts have mainly focused on advancement in algorithms or training strategies to enhance specific capabilities or performance on particular tasks. Actually, what the community lacks is a sufficiently general and powerful model to serve as a starting point for designing AI agents that can adapt to diverse scenarios. Due to the versatile and remarkable capabilities they demonstrate, large language models (LLMs) are regarded as potential sparks for Artificial General Intelligence (AGI), offering hope for building general AI agents. Many research efforts have leveraged LLMs as the foundation to build AI agents and have achieved significant progress. We start by tracing the concept of agents from its philosophical origins to its development in AI, and explain why LLMs are suitable foundations for AI agents. Building upon this, we present a conceptual framework for LLM-based agents, comprising three main components: brain, perception, and action, and the framework can be tailored to suit different applications. Subsequently, we explore the extensive applications of LLM-based agents in three aspects: single-agent scenarios, multi-agent scenarios, and human-agent cooperation. Following this, we delve into agent societies, exploring the behavior and personality of LLM-based agents, the social phenomena that emerge when they form societies, and the insights they offer for human society. Finally, we discuss a range of key topics and open problems within the field.
ลิงก์งานวิจัย
https://arxiv.org/abs/2309.07864
อ่านเพิ่มเติม
https://x.com/omarsar0/status/1702736490067890239
EvoDiff
แนะนำงานวิจัย
- ผสานข้อมูลระดับวิวัฒนาการเข้ากับ diffusion model เพื่อการสร้างโปรตีนแบบควบคุมได้ในพื้นที่ลำดับ ทำให้สามารถสร้างโปรตีนที่โมเดลแบบอิงโครงสร้างไม่สามารถเข้าถึงได้ #diffusion
> Combines evolutionary-scale data with diffusion models for controllable protein generation in sequence space; it can generate proteins inaccessible to structure-based models.
ลิงก์งานวิจัย
https://www.biorxiv.org/content/10.1101/2023.09.11.556673v1
อ่านเพิ่มเติม
https://x.com/KevinKaichuang/status/1701953715312136302
RAIN: ภาษาโมเดลของคุณสามารถจัดแนวตัวเองได้โดยไม่ต้อง Finetuning / RAIN: Your Language Models Can Align Themselves without Finetuning
แนะนำงานวิจัย
- พบว่าเมื่อผสานกลไกการประเมินตนเองและการย้อนกลับเข้าด้วยกัน llms ที่ยังไม่ได้จัดแนวก็สามารถสร้างคำตอบที่สอดคล้องกับความชอบของมนุษย์ได้โดยตรงผ่านการเสริมพลังให้ตนเอง
> Discovers that by integrating self-evaluation and rewind mechanisms, unaligned llms can directly produce responses consistent with human preferences via self-boosting.
บทคัดย่อผลงานวิจัย
- โมเดลภาษาขนาดใหญ่ (LLM) มักแสดงให้เห็นถึงความไม่สอดคล้องกับความต้องการของมนุษย์ งานวิจัยก่อนหน้านี้ได้รวบรวมข้อมูลความต้องการของมนุษย์ แล้วปรับโมเดลที่ผ่านการพรีเทรนด้วยการเรียนรู้แบบเสริมกำลังหรือ instruction tuning (หรือขั้นตอนที่เรียกว่า fine-tuning) ในทางตรงกันข้าม การจัดแนว LLM ที่ถูกตรึงไว้โดยไม่ใช้ข้อมูลเพิ่มเติมนั้นน่าสนใจกว่า งานวิจัยนี้สำรวจศักยภาพของแนวทางหลังดังกล่าว โดยค้นพบว่าเมื่อผสานกลไกการประเมินตนเองและการย้อนกลับเข้าด้วยกัน LLM ที่ยังไม่ได้จัดแนวสามารถสร้างคำตอบที่สอดคล้องกับความต้องการของมนุษย์ได้โดยตรงผ่านการเสริมประสิทธิภาพตนเอง Unity ได้นำเสนอวิธีอนุมานแบบใหม่ชื่อ Rewindable Auto-regressive INference (RAIN) ซึ่งทำให้ LLM ที่ผ่านการพรีเทรนสามารถประเมินผลลัพธ์ที่ตนเองสร้างขึ้น และใช้ผลการประเมินนั้นเพื่อนำทางการย้อนกลับและการสร้างต่อไปข้างหน้าเพื่อความปลอดภัยของ AI โดยเฉพาะอย่างยิ่ง RAIN ทำงานได้โดยไม่ต้องใช้ข้อมูลเพิ่มเติมสำหรับการจัดแนวโมเดล และไม่ต้องมีการฝึก การคำนวณกราเดียนต์ หรือการอัปเดตพารามิเตอร์ใด ๆ ระหว่างขั้นตอนการประเมินตนเอง โมเดลจะได้รับคำแนะนำผ่านพรอมป์ต์เทมเพลตแบบคงที่ว่าควรจัดแนวตามความต้องการของมนุษย์แบบใด ทำให้ไม่จำเป็นต้องแก้ไขพรอมป์ต์ตั้งต้น ผลการทดลองที่ประเมินโดย GPT-4 และมนุษย์ยืนยันประสิทธิภาพของ RAIN โดยในชุดข้อมูล HH นั้น RAIN ช่วยเพิ่มอัตราความไม่เป็นอันตรายของ LLaMA 30B จาก 82% เป็น 97% เมื่อเทียบกับ vanilla inference ขณะเดียวกันก็รักษาอัตราความมีประโยชน์ไว้ได้ ภายใต้การโจมตีแบบปรปักษ์ชั้นนำ llm-attacks บน Vicuna 33B นั้น RAIN ได้สร้าง baseline การป้องกันใหม่ด้วยการลดอัตราความสำเร็จของการโจมตีจาก 94% เหลือ 19%
> Large language models (LLMs) often demonstrate inconsistencies with human preferences. Previous research gathered human preference data and then aligned the pre-trained models using reinforcement learning or instruction tuning, the so-called finetuning step. In contrast, aligning frozen LLMs without any extra data is more appealing. This work explores the potential of the latter setting. We discover that by integrating self-evaluation and rewind mechanisms, unaligned LLMs can directly produce responses consistent with human preferences via self-boosting. We introduce a novel inference method, Rewindable Auto-regressive INference (RAIN), that allows pre-trained LLMs to evaluate their own generation and use the evaluation results to guide backward rewind and forward generation for AI safety. Notably, RAIN operates without the need of extra data for model alignment and abstains from any training, gradient computation, or parameter updates; during the self-evaluation phase, the model receives guidance on which human preference to align with through a fixed-template prompt, eliminating the need to modify the initial prompt. Experimental results evaluated by GPT-4 and humans demonstrate the effectiveness of RAIN: on the HH dataset, RAIN improves the harmlessness rate of LLaMA 30B over vanilla inference from 82% to 97%, while maintaining the helpfulness rate. Under the leading adversarial attack llm-attacks on Vicuna 33B, RAIN establishes a new defense baseline by reducing the attack success rate from 94% to 19%.
ลิงก์บทความวิจัย
https://arxiv.org/abs/2309.07124
อ่านเพิ่มเติม
https://x.com/omarsar0/status/1702131444041011395
การเรียนรู้ปาร์กูร์ของหุ่นยนต์ / Robot Parkour Learning
แนะนำบทความวิจัย
- นำเสนอระบบสำหรับการเรียนรู้นโยบายปาร์กูร์แบบอิงการมองเห็นชนิด end-to-end ซึ่งถ่ายโอนไปยังหุ่นยนต์เดินสี่ขาโดยใช้กล้องความลึกแบบ egocentric ของมัน และแสดงให้เห็นว่าหุ่นยนต์ต้นทุนต่ำสามารถเลือกและปฏิบัติทักษะปาร์กูร์ได้โดยอัตโนมัติในสภาพแวดล้อมจริง
> Presents a system for learning end-to-end vision-based parkour policy which is transferred to a quadrupedal robot using its ecocentric depth camera; shows that low-cost robots can automatically select and execute parkour skills in a real-world environment.
บทคัดย่อบทความวิจัย
- ปาร์กูร์คือความท้าทายขั้นใหญ่ของการเคลื่อนที่ด้วยขาสำหรับหุ่นยนต์ ที่ต้องเอาชนะสิ่งกีดขวางหลากหลายอย่างอย่างรวดเร็วในสภาพแวดล้อมที่ซับซ้อน วิธีการเดิมสามารถสร้างทักษะการเคลื่อนที่ที่หลากหลายแต่ไร้การรับรู้ หรือทักษะที่อิงการมองเห็นแต่เฉพาะทาง โดยใช้ข้อมูลอ้างอิงจากสัตว์หรือรางวัลที่ซับซ้อน อย่างไรก็ตาม การทำปาร์กูร์แบบอัตโนมัติต้องให้หุ่นยนต์เรียนรู้ทักษะที่ทั่วไปนำไปใช้ได้จริง ซึ่งทั้งอิงการมองเห็นและมีความหลากหลาย เพื่อให้รับรู้และตอบสนองต่อสถานการณ์ต่าง ๆ ได้ ในงานวิจัยนี้ ผู้วิจัยนำเสนอระบบสำหรับเรียนรู้นโยบายปาร์กูร์แบบ end-to-end ที่อิงการมองเห็นเพียงชุดเดียว ซึ่งครอบคลุมทักษะปาร์กูร์ที่หลากหลาย โดยใช้รางวัลแบบง่ายและไม่ต้องมีข้อมูลท่าทางอ้างอิงใด ๆ ผู้วิจัยพัฒนาวิธี reinforcement learning ที่ได้แรงบันดาลใจจาก direct collocation เพื่อสร้างทักษะปาร์กูร์ เช่น การปีนข้ามสิ่งกีดขวางสูง การกระโดดข้ามช่องว่างขนาดใหญ่ การคลานลอดสิ่งกีดขวางต่ำ การเบียดผ่านช่องแคบ และการวิ่ง จากนั้นกลั่นทักษะเหล่านี้ให้เป็นนโยบายปาร์กูร์แบบอิงการมองเห็นเพียงชุดเดียว และถ่ายโอนไปยังหุ่นยนต์สี่ขาโดยใช้กล้อง depth แบบ egocentric ของมัน ระบบของผู้วิจัยแสดงให้เห็นว่าสามารถทำให้หุ่นยนต์ต้นทุนต่ำสองรุ่นที่แตกต่างกันเลือกและปฏิบัติทักษะปาร์กูร์ที่เหมาะสมได้โดยอัตโนมัติ เพื่อผ่านสภาพแวดล้อมจริงที่ท้าทาย
> Parkour is a grand challenge for legged locomotion that requires robots to overcome various obstacles rapidly in complex environments. Existing methods can generate either diverse but blind locomotion skills or vision-based but specialized skills by using reference animal data or complex rewards. However, autonomous parkour requires robots to learn generalizable skills that are both vision-based and diverse to perceive and react to various scenarios. In this work, we propose a system for learning a single end-to-end vision-based parkour policy of diverse parkour skills using a simple reward without any reference motion data. We develop a reinforcement learning method inspired by direct collocation to generate parkour skills, including climbing over high obstacles, leaping over large gaps, crawling beneath low barriers, squeezing through thin slits, and running. We distill these skills into a single vision-based parkour policy and transfer it to a quadrupedal robot using its egocentric depth camera. We demonstrate that our system can empower two different low-cost robots to autonomously select and execute appropriate parkour skills to traverse challenging real-world environments.
ลิงก์บทความ
https://arxiv.org/abs/2309.05665
อ่านเพิ่มเติม
https://x.com/zipengfu/status/1701316023612219445
แบบสำรวจเรื่อง Hallucination ใน Large Foundation Models / A Survey of Hallucination in Large Foundation Models
แนะนำบทความ
- จัดประเภทปรากฏการณ์ hallucination หลายรูปแบบ พร้อมนำเสนอเกณฑ์การประเมินและกลยุทธ์ในการบรรเทาปัญหา hallucination #survey-paper #foundation-model
> Classifies different types of hallucination phenomena and provides evaluation criteria for assessing hallucination along with mitigation strategies.
บทคัดย่อบทความ
- Hallucination ใน foundation model (FM) หมายถึงการสร้างเนื้อหาที่เบี่ยงเบนไปจากข้อเท็จจริง หรือมีข้อมูลที่แต่งขึ้น งานสำรวจฉบับนี้นำเสนอภาพรวมอย่างกว้างขวางของความพยายามล่าสุดในการระบุ อธิบาย และรับมือกับปัญหา hallucination โดยมุ่งเน้นเป็นพิเศษที่ "Large" Foundation Models (LFMs) บทความนี้จัดประเภทปรากฏการณ์ hallucination หลายรูปแบบที่เกิดขึ้นเฉพาะกับ LFM และกำหนดเกณฑ์การประเมินเพื่อวัดระดับของ hallucination นอกจากนี้ยังทบทวนกลยุทธ์ที่มีอยู่ในการลด hallucination ใน LFM และอภิปรายทิศทางการวิจัยที่เป็นไปได้ในอนาคต โดยสรุปแล้ว บทความนี้เป็นการสำรวจอย่างครอบคลุมเกี่ยวกับความท้าทายและแนวทางแก้ไขที่เกี่ยวข้องกับ hallucination ใน LFM
> Hallucination in a foundation model (FM) refers to the generation of content that strays from factual reality or includes fabricated information. This survey paper provides an extensive overview of recent efforts that aim to identify, elucidate, and tackle the problem of hallucination, with a particular focus on ``Large'' Foundation Models (LFMs). The paper classifies various types of hallucination phenomena that are specific to LFMs and establishes evaluation criteria for assessing the extent of hallucination. It also examines existing strategies for mitigating hallucination in LFMs and discusses potential directions for future research in this area. Essentially, the paper offers a comprehensive examination of the challenges and solutions related to hallucination in LFMs.
ลิงก์บทความ
https://arxiv.org/abs/2309.05922
อ่านเพิ่มเติม
https://x.com/omarsar0/status/1701970034711539839
Agents: เฟรมเวิร์กโอเพนซอร์สสำหรับ autonomous language agents / Agents: An Open-source Framework for Autonomous Language Agents
แนะนำบทความ
- เป็นไลบรารีโอเพนซอร์สสำหรับสร้าง autonomous language agents ที่รองรับความสามารถอย่างการวางแผน หน่วยความจำ การใช้เครื่องมือ การสื่อสารหลายเอเจนต์ และอื่น ๆ
> An open-source library for building autonomous language agents including support for features like planning, memory, tool usage, multi-agent communication, and more.
บทคัดย่อบทความ
- ด้วยความก้าวหน้าล่าสุดของโมเดลภาษาขนาดใหญ่ (LLM) ทำให้นักวิจัยและนักพัฒนาสามารถสร้างเอเจนต์ภาษาที่ทำงานได้อย่างอัตโนมัติ ซึ่งสามารถแก้ปัญหางานหลากหลายประเภทและโต้ตอบกับสภาพแวดล้อม มนุษย์ และเอเจนต์อื่น ๆ ผ่านอินเทอร์เฟซภาษาธรรมชาติได้ เรามองว่า language agents เป็นทิศทางที่มีอนาคตสู่ปัญญาประดิษฐ์ และได้เปิดตัวไลบรารีโอเพนซอร์ส Agents เพื่อทำให้ความก้าวหน้าเหล่านี้เข้าถึงผู้ใช้ที่ไม่ใช่ผู้เชี่ยวชาญได้มากขึ้น Agents ถูกออกแบบมาอย่างพิถีพิถันเพื่อรองรับความสามารถสำคัญ เช่น การวางแผน หน่วยความจำ การใช้เครื่องมือ การสื่อสารหลายเอเจนต์ และการควบคุมเชิงสัญลักษณ์อย่างละเอียด Agents ใช้งานง่ายสำหรับผู้ใช้ทั่วไป เพราะช่วยให้ผู้ที่ไม่ใช่ผู้เชี่ยวชาญสามารถสร้าง ปรับแต่ง ทดสอบ จูน และดีพลอยเอเจนต์ภาษาทำงานอัตโนมัติระดับล้ำสมัยได้โดยแทบไม่ต้องเขียนโค้ดมากนัก นอกจากนี้ ไลบรารียังเป็นมิตรต่อการวิจัย เพราะการออกแบบแบบโมดูลาร์ทำให้นักวิจัยขยายต่อได้ง่าย Agents ใช้งานได้ที่ https://github.com/aiwaves-cn/agents
> ความก้าวหน้าล่าสุดของ large language models (LLMs) ทำให้นักวิจัยและนักพัฒนาสามารถสร้าง autonomous language agents ที่สามารถแก้ปัญหางานหลากหลายโดยอัตโนมัติ และโต้ตอบกับสภาพแวดล้อม มนุษย์ และเอเจนต์อื่น ๆ ผ่านอินเทอร์เฟซภาษาธรรมชาติได้ เรามองว่า language agents เป็นทิศทางที่มีศักยภาพสู่ปัญญาประดิษฐ์ทั่วไป และได้เปิดตัว Agents ซึ่งเป็นไลบรารีโอเพนซอร์ส โดยมีเป้าหมายเพื่อเปิดโอกาสให้ผู้ใช้ที่ไม่ใช่ผู้เชี่ยวชาญเข้าถึงความก้าวหน้าเหล่านี้ได้กว้างขึ้น Agents ถูกออกแบบมาอย่างรอบคอบเพื่อรองรับความสามารถสำคัญ ได้แก่ การวางแผน หน่วยความจำ การใช้เครื่องมือ การสื่อสารระหว่างหลายเอเจนต์ และการควบคุมเชิงสัญลักษณ์อย่างละเอียด Agents เป็นมิตรต่อผู้ใช้ เพราะช่วยให้ผู้ที่ไม่ใช่ผู้เชี่ยวชาญสามารถสร้าง ปรับแต่ง ทดสอบ ปรับจูน และดีพลอย autonomous language agents ระดับล้ำสมัยได้โดยไม่ต้องเขียนโค้ดมากนัก ไลบรารียังเป็นมิตรต่อการวิจัย เพราะการออกแบบแบบโมดูลาร์ทำให้สามารถขยายต่อได้ง่ายสำหรับนักวิจัย Agents ใช้งานได้ที่ https://github.com/aiwaves-cn/agents.
ลิงก์บทความ
https://arxiv.org/abs/2309.07870
อ่านเพิ่มเติม
https://x.com/arankomatsuzaki/status/1702497897395396960
Radiology-Llama2: โมเดลภาษาขนาดใหญ่สำหรับรังสีวิทยาที่ดีที่สุดในระดับเดียวกัน / Radiology-Llama2: Best-in-Class Large Language Model for Radiology
แนะนำบทความ
- นำเสนอ LLM ที่พัฒนาบนพื้นฐานของ Llama 2 และปรับให้เหมาะกับงานรังสีวิทยา โดยจูนด้วยชุดข้อมูลรายงานรังสีวิทยาขนาดใหญ่ เพื่อสร้าง impression ที่สอดคล้องและมีประโยชน์ทางคลินิกจากผลการตรวจทางรังสีวิทยา
> นำเสนอ llm ที่อิงกับ llama 2 และปรับให้เหมาะกับงานรังสีวิทยา โดยจูนด้วยชุดข้อมูลรายงานรังสีวิทยาขนาดใหญ่ เพื่อสร้าง impression ที่มีความสอดคล้องและมีประโยชน์ทางคลินิกจาก findings ทางรังสีวิทยา
บทคัดย่อ
- บทความนี้นำเสนอ Radiology-Llama2 ซึ่งเป็นโมเดลภาษาขนาดใหญ่ที่เชี่ยวชาญด้านรังสีวิทยา ผ่านกระบวนการที่เรียกว่า instruction tuning โดย Radiology-Llama2 สร้างบนสถาปัตยกรรม Llama2 และได้รับการฝึกเพิ่มเติมด้วยชุดข้อมูลรายงานรังสีวิทยาขนาดใหญ่ เพื่อสร้าง impression ที่มีความสอดคล้องและเป็นประโยชน์ทางคลินิกจากผลการตรวจทางรังสีวิทยา ผลการประเมินเชิงปริมาณด้วยเมตริก ROUGE บนชุดข้อมูล MIMIC-CXR และ OpenI แสดงให้เห็นว่า Radiology-Llama2 ทำผลงานได้ล้ำสมัยเมื่อเทียบกับโมเดลภาษาสร้างข้อความอื่น ๆ โดยได้คะแนน Rouge-1 ที่ 0.4834 บน MIMIC-CXR และ 0.4185 บน OpenI นอกจากนี้ การประเมินเพิ่มเติมโดยผู้เชี่ยวชาญด้านรังสีวิทยายังเน้นจุดแข็งของโมเดลในด้านความเข้าใจง่าย ความสอดคล้อง ความเกี่ยวข้อง ความกระชับ และประโยชน์ทางคลินิก งานวิจัยนี้แสดงให้เห็นถึงศักยภาพของ localized language models ที่ออกแบบและปรับจูนสำหรับโดเมนเฉพาะทางอย่างรังสีวิทยา หากมีการประเมินและนำไปใช้อย่างเหมาะสม โมเดลลักษณะนี้สามารถเปลี่ยนแปลงวงการอย่างรังสีวิทยาได้ ด้วยการทำงานซ้ำ ๆ ให้เป็นอัตโนมัติและเสริมความเชี่ยวชาญของมนุษย์
> บทความนี้แนะนำ Radiology-Llama2 ซึ่งเป็น large language model ที่เชี่ยวชาญด้านรังสีวิทยาผ่านกระบวนการที่เรียกว่า instruction tuning โดย Radiology-Llama2 พัฒนาบนสถาปัตยกรรม Llama2 และฝึกเพิ่มเติมด้วยชุดข้อมูลรายงานรังสีวิทยาขนาดใหญ่ เพื่อสร้าง impression ที่สอดคล้องและมีประโยชน์ทางคลินิกจาก radiological findings การประเมินเชิงปริมาณด้วยเมตริก ROUGE บนชุดข้อมูล MIMIC-CXR และ OpenI แสดงให้เห็นว่า Radiology-Llama2 มีประสิทธิภาพระดับ state-of-the-art เมื่อเทียบกับโมเดลภาษาสร้างข้อความอื่น ๆ โดยได้คะแนน Rouge-1 ที่ 0.4834 บน MIMIC-CXR และ 0.4185 บน OpenI การประเมินเพิ่มเติมโดยผู้เชี่ยวชาญด้านรังสีวิทยายังชี้ให้เห็นถึงจุดแข็งของโมเดลในด้านความเข้าใจได้ ความสอดคล้อง ความเกี่ยวข้อง ความกระชับ และประโยชน์ทางคลินิก งานนี้สะท้อนให้เห็นถึงศักยภาพของ localized language models ที่ออกแบบและปรับจูนสำหรับโดเมนเฉพาะทางอย่างรังสีวิทยา หากมีการประเมินและนำไปใช้อย่างเหมาะสม โมเดลลักษณะนี้สามารถพลิกโฉมสาขาอย่างรังสีวิทยาได้ด้วยการทำงานซ้ำ ๆ ให้เป็นอัตโนมัติและเสริมความเชี่ยวชาญของมนุษย์
ลิงก์บทความ
https://arxiv.org/abs/2309.06419
อ่านเพิ่มเติม
https://x.com/omarsar0/status/1701774444052557965
เอเจนต์สื่อสารสำหรับการพัฒนาซอฟต์แวร์ / Communicative Agents for Software Development
แนะนำบทความ
- แนะนำ chatdev บริษัทพัฒนาซอฟต์แวร์เสมือนจริงที่ขับเคลื่อนด้วยแชตและสะท้อนโมเดลแบบ waterfall พร้อมแสดงให้เห็นประสิทธิภาพของเอเจนต์ในการสร้างซอฟต์แวร์ โดยสามารถทำกระบวนการพัฒนาซอฟต์แวร์ทั้งหมดเสร็จภายใน 7 นาทีด้วยต้นทุนต่ำกว่า 1 ดอลลาร์
> นำเสนอ chatdev บริษัทพัฒนาซอฟต์แวร์เสมือนจริงที่ขับเคลื่อนด้วยแชตและสะท้อนโมเดล waterfall; แสดงให้เห็นประสิทธิผลของเอเจนต์ในการสร้างซอฟต์แวร์ โดยสามารถทำกระบวนการพัฒนาซอฟต์แวร์ทั้งหมดเสร็จในเวลาไม่ถึงเจ็ดนาทีด้วยต้นทุนต่ำกว่าหนึ่งดอลลาร์
บทคัดย่อ
- วิศวกรรมซอฟต์แวร์เป็นสาขาที่มีลักษณะเด่นด้วยกระบวนการตัดสินใจที่ซับซ้อน และมักอาศัยสัญชาตญาณที่ละเอียดอ่อนและการหารือร่วมกัน ความก้าวหน้าล่าสุดของดีปเลิร์นนิงได้เริ่มปฏิวัติแนวปฏิบัติด้านวิศวกรรมซอฟต์แวร์ผ่านการออกแบบที่ซับซ้อนซึ่งถูกนำไปใช้ในหลากหลายขั้นตอนของการพัฒนาซอฟต์แวร์ งานวิจัยนี้นำเสนอแนวคิดใหม่ที่ใช้ประโยชน์จาก large language models (LLM) ตลอดทั้งกระบวนการพัฒนาซอฟต์แวร์ โดยทำให้กระบวนการสำคัญต่าง ๆ ง่ายขึ้นและรวมเป็นหนึ่งเดียวผ่านการสื่อสารด้วยภาษาธรรมชาติ จึงไม่จำเป็นต้องมีโมเดลเฉพาะทางในแต่ละขั้นตอนอีกต่อไป แกนกลางของแนวคิดนี้คือ ChatDev บริษัทพัฒนาซอฟต์แวร์เสมือนที่ขับเคลื่อนด้วยแชต ซึ่งสะท้อนรูปแบบ waterfall แบบดั้งเดิม โดยแบ่งกระบวนการพัฒนาออกอย่างละเอียดเป็น 4 ช่วงเวลาที่ชัดเจน ได้แก่ การออกแบบ การเขียนโค้ด การทดสอบ และการจัดทำเอกสาร แต่ละช่วงจะมีทีมเอเจนต์ เช่น โปรแกรมเมอร์ ผู้ตรวจทานโค้ด และวิศวกรทดสอบ เข้ามามีส่วนร่วมเพื่อส่งเสริมการสนทนาแบบร่วมมือกันและทำให้เวิร์กโฟลว์ลื่นไหล Chat chain ทำหน้าที่เป็นตัวกลางโดยแยกแต่ละช่วงออกเป็นงานย่อยระดับอะตอม สิ่งนี้ทำให้สามารถทำหน้าที่ได้สองด้าน คือเสนอและตรวจสอบความถูกต้องของโซลูชันผ่านการสื่อสารที่รับรู้บริบท นำไปสู่การแก้ปัญหางานย่อยเฉพาะได้อย่างมีประสิทธิภาพ การวิเคราะห์เชิงเครื่องมือของ ChatDev แสดงให้เห็นประสิทธิผลที่น่าทึ่งในการสร้างซอฟต์แวร์ โดยสามารถทำกระบวนการพัฒนาซอฟต์แวร์ทั้งหมดให้เสร็จสิ้นได้ภายในไม่ถึง 7 นาที ด้วยต้นทุนต่ำกว่า 1 ดอลลาร์ อีกทั้งยังสามารถระบุและบรรเทาช่องโหว่ที่อาจเกิดขึ้น รวมถึงแก้ไข hallucination ที่อาจเกิดขึ้นได้ พร้อมยังคงรักษาทั้งประสิทธิภาพและความคุ้มค่าด้านต้นทุนไว้ได้อย่างยอดเยี่ยม ศักยภาพของ ChatDev เปิดความเป็นไปได้ใหม่ ๆ สำหรับการผสาน LLM เข้ากับโลกของการพัฒนาซอฟต์แวร์
> Software engineering is a domain characterized by intricate decision-making processes, often relying on nuanced intuition and consultation. Recent advancements in deep learning have started to revolutionize software engineering practices through elaborate designs implemented at various stages of software development. In this paper, we present an innovative paradigm that leverages large language models (LLMs) throughout the entire software development process, streamlining and unifying key processes through natural language communication, thereby eliminating the need for specialized models at each phase. At the core of this paradigm lies ChatDev, a virtual chat-powered software development company that mirrors the established waterfall model, meticulously dividing the development process into four distinct chronological stages: designing, coding, testing, and documenting. Each stage engages a team of agents, such as programmers, code reviewers, and test engineers, fostering collaborative dialogue and facilitating a seamless workflow. The chat chain acts as a facilitator, breaking down each stage into atomic subtasks. This enables dual roles, allowing for proposing and validating solutions through context-aware communication, leading to efficient resolution of specific subtasks. The instrumental analysis of ChatDev highlights its remarkable efficacy in software generation, enabling the completion of the entire software development process in under seven minutes at a cost of less than one dollar. It not only identifies and alleviates potential vulnerabilities but also rectifies potential hallucinations while maintaining commendable efficiency and cost-effectiveness. The potential of ChatDev unveils fresh possibilities for integrating LLMs into the realm of software development.
ลิงก์งานวิจัย
https://arxiv.org/abs/2307.07924v3
อ่านเพิ่มเติม
https://x.com/KevinAFischer/status/1702355125418045860
MAmmoTH: สร้างโมเดล Math Generalist ผ่านการปรับแต่งคำสั่งสอนแบบไฮบริด / MAmmoTH: Building Math Generalist Models through Hybrid Instruction Tuning
แนะนำงานวิจัย
- ชุดของโมเดลแมชชีนเลิร์นนิงโอเพนซอร์สที่ปรับแต่งมาสำหรับการแก้ปัญหาคณิตศาสตร์ทั่วไป โดยฝึกด้วยชุดข้อมูล instruction tuning ที่คัดสรรมาอย่างดี และทำผลงานได้ดีกว่าโมเดลโอเพนซอร์สที่มีอยู่เดิมในหลายชุดข้อมูลด้านการให้เหตุผลทางคณิตศาสตร์ #mathglm
> A series of open-source llms tailored for general math problem-solving; the models are trained on a curated instruction tuning dataset and outperform existing open-source models on several mathematical reasoning datasets.
บทคัดย่องานวิจัย
- ขอแนะนำ MAmmoTH ซึ่งเป็นชุดโมเดลภาษาขนาดใหญ่ (LLM) แบบโอเพนซอร์สที่ปรับแต่งมาโดยเฉพาะสำหรับการแก้ปัญหาคณิตศาสตร์ทั่วไป โดยโมเดล MAmmoTH ได้รับการฝึกบน MathInstruct ซึ่งเป็นชุดข้อมูล instruction tuning ที่คัดสรรอย่างพิถีพิถันของทีมวิจัย MathInstruct รวบรวมจากชุดข้อมูลคณิตศาสตร์ 13 ชุดพร้อมเหตุผลระดับกลาง โดยในจำนวนนี้ 6 ชุดมีเหตุผลที่ทีมผู้วิจัยคิวเรตขึ้นใหม่ โซลูชันนี้นำเสนอแนวทางไฮบริดที่เป็นเอกลักษณ์ระหว่าง chain-of-thought (CoT) และ program-of-thought (PoT) พร้อมครอบคลุมสาขาคณิตศาสตร์ที่หลากหลายอย่างกว้างขวาง การผสาน CoT และ PoT ไม่เพียงปลดล็อกศักยภาพของการใช้เครื่องมือ แต่ยังเปิดให้ใช้กระบวนการคิดที่แตกต่างกันตามปัญหาคณิตศาสตร์แต่ละประเภทอีกด้วย ด้วยเหตุนี้ ซีรีส์ MAmmoTH จึงเหนือกว่าโมเดลโอเพนซอร์สที่มีอยู่เดิมอย่างชัดเจนในชุดข้อมูลการให้เหตุผลทางคณิตศาสตร์ 9 ชุดในทุกขนาดโมเดล โดยมีความแม่นยำเพิ่มขึ้นเฉลี่ย 13% ถึง 29% ที่น่าทึ่งคือ โมเดล MAmmoTH-7B ทำได้ 35% บน MATH ซึ่งเป็นชุดข้อมูลระดับการแข่งขัน สูงกว่ารุ่นโอเพนซอร์ส 7B ที่ดีที่สุด (WizardMath) ถึง 25% และโมเดล MAmmoTH-34B ทำความแม่นยำได้ 46% บน MATH แซงผลลัพธ์ CoT ของ GPT-4 ด้วย งานวิจัยนี้ตอกย้ำความสำคัญของการครอบคลุมโจทย์ที่หลากหลายและการใช้เหตุผลแบบไฮบริดในการพัฒนาโมเดลคณิตศาสตร์อเนกประสงค์ที่เหนือกว่า
> เราขอแนะนำ MAmmoTH ซึ่งเป็นชุดโมเดลภาษาขนาดใหญ่ (LLM) แบบโอเพนซอร์สที่ปรับแต่งมาโดยเฉพาะสำหรับการแก้ปัญหาคณิตศาสตร์ทั่วไป โมเดล MAmmoTH ได้รับการฝึกบน MathInstruct ซึ่งเป็นชุดข้อมูล instruction tuning ที่เราคัดสรรอย่างพิถีพิถัน MathInstruct รวบรวมจากชุดข้อมูลคณิตศาสตร์ 13 ชุดพร้อมเหตุผลระดับกลาง โดยในจำนวนนี้ 6 ชุดมีเหตุผลที่เราคิวเรตขึ้นใหม่ มันนำเสนอแนวทางไฮบริดที่เป็นเอกลักษณ์ระหว่าง chain-of-thought (CoT) และ program-of-thought (PoT) และยังรับประกันการครอบคลุมอย่างกว้างขวางของสาขาคณิตศาสตร์ที่หลากหลาย การผสาน CoT และ PoT ไม่เพียงปลดล็อกศักยภาพของการใช้เครื่องมือ แต่ยังเปิดให้ใช้กระบวนการคิดที่แตกต่างกันสำหรับปัญหาคณิตศาสตร์ที่ต่างกันอีกด้วย ด้วยเหตุนี้ ซีรีส์ MAmmoTH จึงเหนือกว่าโมเดลโอเพนซอร์สที่มีอยู่เดิมอย่างมากในชุดข้อมูลการให้เหตุผลทางคณิตศาสตร์ 9 ชุดในทุกขนาดโมเดล โดยมีความแม่นยำเพิ่มขึ้นเฉลี่ยระหว่าง 13% ถึง 29% อย่างน่าทึ่ง โมเดล MAmmoTH-7B ของเราทำได้ 35% บน MATH (ชุดข้อมูลระดับการแข่งขัน) ซึ่งสูงกว่ารุ่นโอเพนซอร์ส 7B ที่ดีที่สุด (WizardMath) ถึง 25% และโมเดล MAmmoTH-34B ของเราทำความแม่นยำได้ 46% บน MATH ซึ่งแซงแม้กระทั่งผลลัพธ์ CoT ของ GPT-4 งานของเราชี้ให้เห็นถึงความสำคัญของการครอบคลุมปัญหาที่หลากหลายและการใช้เหตุผลแบบไฮบริดในการพัฒนาโมเดลคณิตศาสตร์อเนกประสงค์ที่เหนือกว่า
ลิงก์งานวิจัย
https://arxiv.org/abs/2309.05653
อ่านเพิ่มเติม
https://x.com/xiangyue96/status/1701710215442309323
ต้นฉบับ
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-461
ยังไม่มีความคิดเห็น