[2023/12/11 ~ 12/17] งานวิจัย ML เด่นประจำสัปดาห์ (Top ML Papers of the Week)
(discuss.pytorch.kr)ภาพรวม
-
เราได้ลองแปลอัตโนมัติบทความเกี่ยวกับงานวิจัย ML ที่ DAIR.AI เผยแพร่ทุกสัปดาห์
-
เมื่อดูงานวิจัยที่ถูกคัดเลือกในสัปดาห์นี้ จะเห็นได้ชัดว่างานวิจัยเกี่ยวกับ 'LLM(Large Language Models)' เป็นสัดส่วนหลัก โดยเฉพาะมีการวิเคราะห์การนำ LLM ไปใช้และการปรับปรุงประสิทธิภาพในหลากหลายหัวข้อ เช่น การค้นพบในสาขาคณิตศาสตร์ ปัญหาการทำให้ทั่วไป การประยุกต์ใช้ในวงการแพทย์ และวิธีการเรียนรู้ที่ก้าวข้ามข้อมูลจากมนุษย์
-
แนวโน้มนี้สะท้อนให้เห็นว่าความก้าวหน้าของ LLM ได้รับความสนใจอย่างมากในวงการปัญญาประดิษฐ์ตลอดช่วงไม่กี่ปีที่ผ่านมา โดยเฉพาะหลังการปรากฏตัวของโมเดลภาษาขนาดใหญ่ เช่น GPT-3 ของ OpenAI ความเป็นไปได้ที่โมเดลเหล่านี้จะถูกนำไปใช้ในหลากหลายสาขาก็ขยายตัวอย่างมาก สิ่งนี้ชี้ให้เห็นว่า LLM สามารถมีบทบาทสำคัญได้ไม่เพียงแค่ในการประมวลผลข้อความ แต่ยังรวมถึงการแก้ปัญหาที่ซับซ้อน และจากงานวิจัยในสัปดาห์นี้ก็ดูเหมือนว่าอิทธิพลของมันกำลังขยายไปถึงสาขาดั้งเดิมอย่างคณิตศาสตร์และการแพทย์ นอกจากนี้ แนวโน้มที่ให้ความสำคัญกับความโปร่งใสและความเปิดกว้างยังตอกย้ำความสำคัญของความน่าเชื่อถือและความร่วมมือทั้งในงานวิจัยและการประยุกต์ใช้
-
นอกจากนี้ งานอย่าง 'Weak-to-strong Generalization' และ 'Beyond Human Data for LLMs' ยังสะท้อนการศึกษาความสามารถด้านการทำให้ทั่วไปและระเบียบวิธีการเรียนรู้ของ LLM ซึ่งอาจมองได้ว่าเป็นความพยายามในการก้าวข้ามสภาพแวดล้อมการเรียนรู้ที่ยังมีข้อจำกัดของ LLM ในปัจจุบัน เพื่อพัฒนากลไกการเรียนรู้ที่ทรงพลังยิ่งขึ้น แนวโน้มนี้แสดงให้เห็นว่าการวิจัย LLM ไม่ได้มุ่งเพียงการเพิ่มประสิทธิภาพเท่านั้น แต่กำลังเดินหน้าไปในทิศทางที่จะยกระดับความสามารถในการทำให้ทั่วไปและประโยชน์ใช้สอยของโมเดลอย่างก้าวกระโดด
LLM สำหรับการค้นพบในสาขาวิทยาศาสตร์เชิงคณิตศาสตร์ / LLMs for Discoveries in Mathematical Sciences
แนะนำงานวิจัย
- ใช้ LLM เพื่อค้นหาแนวทางแก้ปัญหาใหม่ในคณิตศาสตร์และวิทยาการคอมพิวเตอร์ โดยเสนอ funsearch ที่ผสาน LLM ที่ผ่านการพรีเทรนเข้ากับตัวประเมินอย่างเป็นระบบ และทำซ้ำกระบวนการดังกล่าวเพื่อพัฒนาโปรแกรมที่ได้คะแนนต่ำให้กลายเป็นโปรแกรมที่ได้คะแนนสูงซึ่งค้นพบความรู้ใหม่ หนึ่งในผลลัพธ์สำคัญของงานนี้คือ การป้องกันผลหลอนของ LLM มีความสำคัญต่อการสร้างการค้นพบทางคณิตศาสตร์และการแก้ปัญหาในโลกจริงอื่น ๆ
Uses llms to search for new solutions in mathematics & computer science; proposes funsearch which combines a pre-trained llm with a systematic evaluator and iterates over them to evolve low-scoring programs into high-scoring ones discovering new knowledge; one of the key findings in this work is that safeguarding against llm hallucinations is important to produce mathematical discoveries and other real-world problems.
ลิงก์งานวิจัย
https://www.nature.com/articles/s41586-023-06924-6
อ่านเพิ่มเติม
https://x.com/GoogleDeepMind/status/1735332722208284797
การทำให้ทั่วไปจากอ่อนไปสู่แข็งแกร่ง / Weak-to-strong Generalization
แนะนำงานวิจัย
- ศึกษาว่าการกำกับดูแลโดยโมเดลที่อ่อนกว่าสามารถดึงความสามารถทั้งหมดของโมเดลที่แข็งแกร่งกว่าออกมาได้หรือไม่ และพบว่าเมื่อทำการ fine-tuning โมเดลพรีเทรนที่ทรงพลังอย่างตรงไปตรงมาบนเลเบลที่สร้างโดยโมเดลที่อ่อนกว่า โมเดลนั้นสามารถทำผลงานได้ดีกว่าผู้กำกับดูแลที่อ่อนกว่าด้วยซ้ำ อีกทั้งยังรายงานว่าเมื่อทำการ fine-tuning GPT-4 ด้วยผู้กำกับดูแลระดับ GPT-2 ก็สามารถกู้คืนประสิทธิภาพบนงาน NLP ให้ใกล้เคียงระดับ GPT-3.5 ได้
Studies whether weak model supervision can elicit the full capabilities of stronger models; finds that when naively fine-tuning strong pretrained models on weak model generated labels they can perform better than their weak supervisors; reports that finetuning gpt-4 with a gpt-2-level supervisor it’s possible to recover close to gpt-3.5-level performance on nlp tasks.
ลิงก์งานวิจัย
https://cdn.openai.com/papers/weak-to-strong-generalization.pdf
อ่านเพิ่มเติม
https://x.com/OpenAI/status/1735349718765715913
Audiobox
แนะนำงานวิจัย
- โมเดลแบบรวมศูนย์ที่อิงกับ flow-matching ซึ่งสามารถสร้างออดิโอได้หลากหลายโมดาลิตี โดยออกแบบพรอมป์ต์ทั้งแบบอิงคำอธิบายและแบบอิงตัวอย่างเพื่อเพิ่มความสามารถในการควบคุมและรวมกระบวนทัศน์การสร้างเสียงพูดกับเสียงทั่วไปเข้าด้วยกัน อีกทั้งยังปรับวัตถุประสงค์การ infilling แบบกำกับตนเองเพื่อให้พรีเทรนกับออดิโอไร้เลเบลจำนวนมากได้ ทำผลงานได้ดีในการสร้างเสียงพูดและเสียงทั่วไป และเปิดทางสู่วิธีใหม่ในการสร้างออดิโอด้วยสไตล์เสียงร้องและสไตล์อะคูสติกแบบใหม่
A unified model based on flow-matching capable of generating various audio modalities; designs description-based and example-based prompting to enhance controllability and unify speech and sound generation paradigms; adapts a self-supervised infilling objective to pre-train on large quantities of unlabeled audio; performs well on speech and sound generation and unlocks new methods for generating audio with novel vocal and acoustic styles.
ลิงก์งานวิจัย
https://ai.meta.com/research/publications/…
อ่านเพิ่มเติม
https://x.com/AIatMeta/status/1734257634008531453
โมเดลภาษาสำหรับคณิตศาสตร์: บทสำรวจ / Mathematical Language Models: A Survey
แนะนำงานวิจัย
- บทสำรวจความคืบหน้าของ LLM ในงานด้านคณิตศาสตร์ ครอบคลุมงานวิจัยและทรัพยากรเกี่ยวกับการวิจัย LLM รอบด้านเทคนิคการพรอมป์ต์และงานต่าง ๆ เช่น การแก้โจทย์ปัญหาคณิตศาสตร์แบบข้อความและการพิสูจน์ทฤษฎีบท
A survey on the progress of llms on mathematical tasks; covers papers and resources on llm research around prompting techniques and tasks such as math word problem-solving and theorem proving.
บทคัดย่อ
- ในช่วงไม่กี่ปีที่ผ่านมา มีความก้าวหน้าอย่างน่าทึ่งในการประยุกต์ใช้ Language Models (LMs) ซึ่งครอบคลุมทั้ง Pre-trained Language Models (PLMs) และ Large-scale Language Models (LLMs) ภายในโดเมนของคณิตศาสตร์ งานวิจัยนี้นำเสนอการสำรวจอย่างครอบคลุมเกี่ยวกับ mathematical LMs โดยจัดหมวดหมู่ความพยายามวิจัยที่สำคัญอย่างเป็นระบบจาก 2 มุมมองที่แตกต่างกัน ได้แก่ งานและระเบียบวิธี ผลการสำรวจเผยให้เห็นว่ามีการเสนอ mathematical LLMs จำนวนมาก ซึ่งสามารถแบ่งย่อยออกได้เป็นการเรียนรู้แบบ instruction learning, วิธีที่อิงเครื่องมือ, เทคนิค CoT พื้นฐาน และระเบียบวิธี CoT ขั้นสูง นอกจากนี้ การสำรวจนี้ยังได้รวบรวมชุดข้อมูลทางคณิตศาสตร์มากกว่า 60 ชุด ซึ่งรวมถึงชุดข้อมูลสำหรับการฝึก, ชุดข้อมูล benchmark และชุดข้อมูลเสริม เมื่อพิจารณาถึงความท้าทายหลักและทิศทางในอนาคตของ mathematical LMs งานสำรวจนี้จึงถือเป็นแหล่งข้อมูลอันทรงคุณค่าที่พร้อมจะช่วยขับเคลื่อนและสร้างแรงบันดาลใจให้เกิดนวัตกรรมในอนาคตแก่บรรดานักวิจัยที่มุ่งพัฒนาโดเมนนี้
> In recent years, there has been remarkable progress in leveraging Language Models (LMs), encompassing Pre-trained Language Models (PLMs) and Large-scale Language Models (LLMs), within the domain of mathematics. This paper conducts a comprehensive survey of mathematical LMs, systematically categorizing pivotal research endeavors from two distinct perspectives: tasks and methodologies. The landscape reveals a large number of proposed mathematical LLMs, which are further delineated into instruction learning, tool-based methods, fundamental CoT techniques, and advanced CoT methodologies. In addition, our survey entails the compilation of over 60 mathematical datasets, including training datasets, benchmark datasets, and augmented datasets. Addressing the primary challenges and delineating future trajectories within the field of mathematical LMs, this survey is positioned as a valuable resource, poised to facilitate and inspire future innovation among researchers invested in advancing this domain.
ลิงก์บทความวิจัย
https://arxiv.org/abs/2312.07622
อ่านเพิ่มเติม
https://x.com/omarsar0/status/1735323577392542084
LLM360: เส้นทางสู่ LLM โอเพนซอร์สที่โปร่งใสอย่างสมบูรณ์ / LLM360: Towards Fully Transparent Open-Source LLMs
แนะนำบทความวิจัย
- เสนอ LLM360 เพื่อสนับสนุนงานวิจัย AI แบบเปิดและร่วมมือกัน โดยทำให้กระบวนการฝึกแมชชีนเลิร์นนิงแบบ end-to-end มีความโปร่งใสและทำซ้ำได้ พร้อมเปิดตัวโมเดลแมชชีนเลิร์นนิงขนาด 7b พารามิเตอร์ที่ pre-train จากศูนย์ ได้แก่ Amber และ CrystalCoder รวมถึงโค้ดการฝึก ข้อมูล จุดตรวจสอบระหว่างทาง และการวิเคราะห์
> Proposes llm360 to support open and collaborative ai research by making the end-to-end llm training process transparent and reproducible; releases 7b parameter llms pre-trained from scratch, amber and crystalcoder, including their training code, data, intermediate checkpoints, and analyses.
บทคัดย่อ
- ช่วงหลังมานี้ การเพิ่มขึ้นอย่างรวดเร็วของโอเพนซอร์ส Large Language Models (LLMs) เช่น LLaMA, Falcon และ Mistral ได้มอบทางเลือกที่หลากหลายให้กับผู้ปฏิบัติงานและนักวิจัยด้าน AI อย่างไรก็ตาม LLM ส่วนใหญ่เปิดเผยเพียงอาร์ติแฟกต์บางส่วน เช่น น้ำหนักโมเดลสุดท้ายหรือโค้ดสำหรับการอนุมานผล และรายงานทางเทคนิคก็ยิ่งจำกัดขอบเขตไว้เพียงการเลือกออกแบบในระดับสูงและสถิติผิวเผินมากขึ้น การตัดสินใจเช่นนี้เป็นอุปสรรคต่อความก้าวหน้าในวงการ เพราะลดทอนความโปร่งใสของการฝึก LLM และบังคับให้แต่ละทีมต้องค้นพบรายละเอียดหลายอย่างในกระบวนการฝึกใหม่อีกครั้ง Unity ได้เปิดตัว LLM360 ซึ่งเป็นโครงการริเริ่มเพื่อทำให้ LLM เป็นโอเพนซอร์สอย่างสมบูรณ์ โดยสนับสนุนให้เผยแพร่โค้ดการฝึกและข้อมูลทั้งหมด, model checkpoints และผลลัพธ์ระหว่างทางสู่ชุมชน เป้าหมายของ LLM360 คือสนับสนุนงานวิจัย AI แบบเปิดและร่วมมือกัน โดยทำให้ทุกคนสามารถเห็นกระบวนการฝึก LLM แบบ end-to-end ได้อย่างโปร่งใสและทำซ้ำได้ ในฐานะก้าวแรกของ LLM360 ทาง Unity ได้เปิดเผย LLM ขนาด 7B พารามิเตอร์ 2 รุ่นที่ pre-train จากศูนย์ ได้แก่ Amber และ CrystalCoder พร้อมทั้งโค้ดการฝึก ข้อมูล จุดตรวจสอบระหว่างทาง และการวิเคราะห์ (ที่ https://www.llm360.ai) Unity มุ่งมั่นที่จะผลักดันขีดจำกัดของ LLM อย่างต่อเนื่องผ่านความพยายามแบบโอเพนซอร์สนี้ โดยขณะนี้กำลังพัฒนาโมเดลที่มีขนาดใหญ่กว่าและทรงพลังยิ่งขึ้น และจะเปิดตัวในอนาคต
> The recent surge in open-source Large Language Models (LLMs), such as LLaMA, Falcon, and Mistral, provides diverse options for AI practitioners and researchers. However, most LLMs have only released partial artifacts, such as the final model weights or inference code, and technical reports increasingly limit their scope to high-level design choices and surface statistics. These choices hinder progress in the field by degrading transparency into the training of LLMs and forcing teams to rediscover many details in the training process. We present LLM360, an initiative to fully open-source LLMs, which advocates for all training code and data, model checkpoints, and intermediate results to be made available to the community. The goal of LLM360 is to support open and collaborative AI research by making the end-to-end LLM training process transparent and reproducible by everyone. As a first step of LLM360, we release two 7B parameter LLMs pre-trained from scratch, Amber and CrystalCoder, including their training code, data, intermediate checkpoints, and analyses (at https://www.llm360.ai). We are committed to continually pushing the boundaries of LLMs through this open-source effort. More large-scale and stronger models are underway and will be released in the future.
ลิงก์บทความวิจัย
https://arxiv.org/abs/2312.06550
อ่านเพิ่มเติม
https://x.com/omarsar0/status/1734591071575744820
การสำรวจ Large Language Models ในวงการแพทย์: หลักการ การประยุกต์ใช้ และความท้าทาย / A Survey of Large Language Models in Medicine: Principles, Applications, and Challenges
แนะนำบทความวิจัย
- แบบสำรวจอย่างครอบคลุมเกี่ยวกับแมชชีนเลิร์นนิงในวงการแพทย์ (วิเคราะห์งานวิจัยมากกว่า 300 ฉบับ) ซึ่งครอบคลุมภาพรวมของหลักการ การประยุกต์ใช้ และความท้าทายที่แมชชีนเลิร์นนิงในวงการแพทย์กำลังเผชิญอยู่
> A comprehensive survey (analyzing 300+ papers) on llms in medicine; includes an overview of the principles, applications, and challenges faced by llms in medicine.
บทคัดย่อของงานวิจัย
- โมเดลภาษาขนาดใหญ่ (LLM) เช่น ChatGPT ได้รับความสนใจอย่างมากจากความสามารถอันน่าประทับใจในการทำความเข้าใจและสร้างภาษามนุษย์ ดังนั้น การประยุกต์ใช้ LLM ในวงการแพทย์เพื่อช่วยเหลือแพทย์และการดูแลผู้ป่วยจึงกำลังก้าวขึ้นมาเป็นทิศทางการวิจัยที่มีอนาคตทั้งในด้านปัญญาประดิษฐ์และเวชศาสตร์คลินิก เพื่อสะท้อนแนวโน้มนี้ แบบสำรวจฉบับนี้จึงนำเสนอภาพรวมอย่างครอบคลุมของหลักการ การประยุกต์ใช้ และความท้าทายที่ LLM ในวงการแพทย์กำลังเผชิญอยู่ โดยเฉพาะอย่างยิ่ง เราตั้งใจจะตอบคำถามต่อไปนี้: 1) LLM ทางการแพทย์สามารถสร้างขึ้นได้อย่างไร? 2) ประสิทธิภาพในงานปลายทางของ LLM ทางการแพทย์เป็นอย่างไร? 3) LLM ทางการแพทย์สามารถนำไปใช้ในเวชปฏิบัติจริงได้อย่างไร? 4) การใช้ LLM ทางการแพทย์ก่อให้เกิดความท้าทายอะไรบ้าง? และ 5) เราจะสร้างและใช้งาน LLM ทางการแพทย์ให้ดียิ่งขึ้นได้อย่างไร? โดยสรุป แบบสำรวจฉบับนี้มีเป้าหมายเพื่อมอบข้อมูลเชิงลึกเกี่ยวกับโอกาสและความท้าทายของ LLM ในวงการแพทย์ และทำหน้าที่เป็นแหล่งข้อมูลอันมีค่าสำหรับการสร้าง LLM ทางการแพทย์ที่ใช้งานได้จริงและมีประสิทธิภาพ รายการ practical guides เกี่ยวกับ LLM ทางการแพทย์ที่อัปเดตเป็นประจำสามารถดูได้ที่ https://github.com/AI-in-Health/MedLLMsPracticalGuide
> Large language models (LLMs), such as ChatGPT, have received substantial attention due to their impressive human language understanding and generation capabilities. Therefore, the application of LLMs in medicine to assist physicians and patient care emerges as a promising research direction in both artificial intelligence and clinical medicine. To reflect this trend, this survey provides a comprehensive overview of the principles, applications, and challenges faced by LLMs in medicine. Specifically, we aim to address the following questions: 1) How can medical LLMs be built? 2) What are the downstream performances of medical LLMs? 3) How can medical LLMs be utilized in real-world clinical practice? 4) What challenges arise from the use of medical LLMs? and 5) How can we better construct and utilize medical LLMs? As a result, this survey aims to provide insights into the opportunities and challenges of LLMs in medicine and serve as a valuable resource for constructing practical and effective medical LLMs. A regularly updated list of practical guides on medical LLMs can be found at https://github.com/AI-in-Health/MedLLMsPracticalGuide.
ลิงก์งานวิจัย
https://arxiv.org/abs/2311.05112
อ่านเพิ่มเติม
https://x.com/omarsar0/status/1734599425568231513
เหนือกว่าข้อมูลจากมนุษย์: ขยายการฝึกแบบเรียนรู้ด้วยตนเองสำหรับการแก้ปัญหาด้วย language models / Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models
แนะนำงานวิจัย
- เสนอแนวทางการเรียนรู้ด้วยตนเองผ่านฟีดแบ็กที่สามารถลดการพึ่งพาข้อมูลที่มนุษย์สร้างขึ้นได้อย่างมาก และปรับปรุงประสิทธิภาพของแมชชีนเลิร์นนิงในงานแก้ปัญหาด้วยการผสานข้อมูลที่โมเดลสร้างขึ้นเข้ากับฟังก์ชันรางวัล
> Proposes an approach for self-training with feedback that can substantially reduce dependence on human-generated data; the model-generated data combined with a reward function improves the performance of llms on problem-solving tasks.
บทคัดย่อของงานวิจัย
- การปรับจูนละเอียดโมเดลภาษา (LM) ด้วยข้อมูลที่มนุษย์สร้างขึ้นยังคงเป็นแนวปฏิบัติที่ใช้กันอย่างแพร่หลาย อย่างไรก็ตาม ประสิทธิภาพของโมเดลดังกล่าวมักถูกจำกัดด้วยปริมาณและความหลากหลายของข้อมูลมนุษย์คุณภาพสูง ในบทความนี้ ผู้วิจัยสำรวจว่าเราจะก้าวไปไกลกว่าข้อมูลจากมนุษย์ได้หรือไม่ในงานที่สามารถเข้าถึงฟีดแบ็กแบบสเกลาร์ได้ เช่น โจทย์คณิตศาสตร์ที่สามารถตรวจสอบความถูกต้องของคำตอบได้ เพื่อทำเช่นนั้น งานวิจัยนี้ศึกษาวิธีการเรียนรู้ด้วยตนเองอย่างง่ายที่อิงกับ expectation-maximization ซึ่งเรียกว่า ReST $^{EM}$ โดยมีขั้นตอนคือ (1) สร้างตัวอย่างจากโมเดลและกรองด้วยฟีดแบ็กแบบไบนารี (2) ปรับจูนละเอียดโมเดลด้วยตัวอย่างเหล่านี้ และ (3) ทำกระบวนการนี้ซ้ำสองสามรอบ จากการทดสอบกับ benchmark ด้านการให้เหตุผลคณิตศาสตร์ขั้นสูง MATH และ benchmark การเขียนโค้ด APPS โดยใช้โมเดล PaLM-2 ผู้วิจัยพบว่า ReST $^{EM}$ ขยายตัวได้ดีตามขนาดโมเดล และให้ผลเหนือกว่าการปรับจูนละเอียดด้วยข้อมูลมนุษย์เพียงอย่างเดียวอย่างชัดเจน โดยรวมแล้ว ผลการค้นพบนี้ชี้ให้เห็นว่าการเรียนรู้ด้วยตนเองผ่านฟีดแบ็กสามารถลดการพึ่งพาข้อมูลที่มนุษย์สร้างขึ้นได้อย่างมาก
> Fine-tuning language models(LMs) on human-generated data remains a prevalent practice. However, the performance of such models is often limited by the quantity and diversity of high-quality human data. In this paper, we explore whether we can go beyond human data on tasks where we have access to scalar feedback, for example, on math problems where one can verify correctness. To do so, we investigate a simple self-training method based on expectation-maximization, which we call ReST $^{EM}$, where we (1) generate samples from the model and filter them using binary feedback, (2) fine-tune the model on these samples, and (3) repeat this process a few times. Testing on advanced MATH reasoning and APPS coding benchmarks using PaLM-2 models, we find that ReST $^{EM}$ scales favorably with model size and significantly surpasses fine-tuning only on human data. Overall, our findings suggest self-training with feedback can substantially reduce dependence on human-generated data.
ลิงก์งานวิจัย
https://arxiv.org/abs/2312.06585
อ่านเพิ่มเติม
https://x.com/omarsar0/status/1734953578274386002
Gaussian-SLAM
แนะนำงานวิจัย
- วิธี neural RGBD SLAM ที่สามารถสร้างฉากจริงขึ้นใหม่ได้อย่างสมจริงระดับภาพถ่าย โดยไม่ลดทอนความเร็วและประสิทธิภาพ เป็นการขยายแนวทาง 3D Gaussian แบบดั้งเดิมสำหรับการแทนฉาก เพื่อก้าวข้ามข้อจำกัดของวิธีเดิม
> A neural rgbd slam method capable of photorealistically reconstructing real-world scenes without compromising speed and efficiency; extends classical 3d gaussians for scene representation to overcome the limitations of the previous methods.
ลิงก์งานวิจัย
https://vladimiryugay.github.io/gaussian_slam/
อ่านเพิ่มเติม
https://x.com/vlyug/status/1734683948440252480
Pearl: เอเจนต์การเรียนรู้เสริมแรงที่พร้อมใช้งานจริงในโปรดักชัน / Pearl: A Production-ready Reinforcement Learning Agent
แนะนำงานวิจัย
- ขอแนะนำซอฟต์แวร์แพ็กเกจเอเจนต์ AI สำหรับโปรดักชันแบบใหม่ ที่ช่วยให้นักวิจัยและผู้ปฏิบัติงานสามารถพัฒนาเอเจนต์ AI แบบ RL ที่ปรับตัวเข้ากับสภาพแวดล้อมซึ่งสังเกตได้อย่างจำกัด มีฟีดแบ็กเบาบาง และมีความสุ่มสูง
> Introduces a new production-ready rl agent software package that enables researchers and practitioners to develop rl ai agents that adapt to environments with limited observability, sparse feedback, and high stochasticity.
บทคัดย่องานวิจัย
- Reinforcement Learning (RL) มอบเฟรมเวิร์กอเนกประสงค์สำหรับการบรรลุเป้าหมายระยะยาว ความเป็นสากลนี้ทำให้เราสามารถทำให้ปัญหาที่ระบบอัจฉริยะในโลกจริงต้องเผชิญเป็นแบบจำลองได้อย่างกว้างขวาง เช่น การจัดการกับรางวัลที่ล่าช้า การรับมือกับการสังเกตได้เพียงบางส่วน การแก้ปัญหาความขัดแย้งระหว่างการสำรวจและการใช้ประโยชน์ การใช้ข้อมูลออฟไลน์เพื่อปรับปรุงประสิทธิภาพออนไลน์ และการรับประกันว่าข้อจำกัดด้านความปลอดภัยได้รับการปฏิบัติตาม แม้ว่าชุมชนวิจัย RL จะมีความก้าวหน้าอย่างมากในการรับมือกับปัญหาเหล่านี้ แต่ไลบรารี RL แบบโอเพนซอร์สที่มีอยู่มักมุ่งเน้นเพียงส่วนแคบ ๆ ของไปป์ไลน์โซลูชัน RL และปล่อยให้แง่มุมอื่น ๆ ถูกละเลยเป็นส่วนใหญ่ งานวิจัยนี้นำเสนอ Pearl ซึ่งเป็นซอฟต์แวร์แพ็กเกจเอเจนต์ RL ที่พร้อมใช้งานในโปรดักชัน ออกแบบมาอย่างชัดเจนเพื่อรองรับความท้าทายเหล่านี้ในลักษณะแบบโมดูลาร์ นอกจากจะนำเสนอผลเบนช์มาร์กเบื้องต้นแล้ว งานวิจัยนี้ยังยกตัวอย่างการนำ Pearl ไปใช้ในอุตสาหกรรมเพื่อแสดงให้เห็นถึงความพร้อมสำหรับการใช้งานจริงในโปรดักชัน Pearl เปิดซอร์สบน Github ที่ github.com/facebookresearch/pearl และเว็บไซต์ทางการอยู่ที่ pearlagent.github.io
> Reinforcement Learning (RL) offers a versatile framework for achieving long-term goals. Its generality allows us to formalize a wide range of problems that real-world intelligent systems encounter, such as dealing with delayed rewards, handling partial observability, addressing the exploration and exploitation dilemma, utilizing offline data to improve online performance, and ensuring safety constraints are met. Despite considerable progress made by the RL research community in addressing these issues, existing open-source RL libraries tend to focus on a narrow portion of the RL solution pipeline, leaving other aspects largely unattended. This paper introduces Pearl, a Production-ready RL agent software package explicitly designed to embrace these challenges in a modular fashion. In addition to presenting preliminary benchmark results, this paper highlights Pearl's industry adoptions to demonstrate its readiness for production usage. Pearl is open sourced on Github at github.com/facebookresearch/pearl and its official website is located at pearlagent.github.io.
ลิงก์งานวิจัย
https://arxiv.org/abs/2312.03814
อ่านเพิ่มเติม
https://x.com/ZheqingZhu/status/1732880717263352149
Quip / Quip
แนะนำงานวิจัย
- บีบอัดน้ำหนักโมเดลที่ผ่านการฝึกแล้วให้อยู่ในรูปแบบความละเอียดต่ำลงเพื่อลดความต้องการหน่วยความจำ โดยผสาน lattice codebooks เข้ากับการประมวลผล incoherence เพื่อสร้างโมเดล quantized 2 บิต และลดช่องว่างระหว่าง LLM แบบ quantized 2 บิตกับโมเดล 16 บิตที่ไม่ผ่านการ quantization ได้อย่างมาก
> Compresses trained model weights into a lower precision format to reduce memory requirements; the approach combines lattice codebooks with incoherence processing to create 2 bit quantized models; significantly closes the gap between 2 bit quantized llms and unquantized 16 bit models.
ลิงก์งานวิจัย
https://cornell-relaxml.github.io/quip-sharp/
อ่านเพิ่มเติม
https://x.com/tsengalb99/status/1733222467953422702
ต้นฉบับ
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-c22
ยังไม่มีความคิดเห็น