• เราได้ลองแปลบทความเกี่ยวกับงานวิจัย ML ที่ DAIR.AI เผยแพร่ทุกสัปดาห์โดยอัตโนมัติ

  • เมื่อดูงานวิจัยที่ได้รับการคัดเลือกในสัปดาห์นี้ จะเห็นได้ว่างานส่วนใหญ่มีแนวโน้มมุ่งเน้นไปที่โมเดลภาษาขนาดใหญ่ (LLMs) โดยเฉพาะ ซึ่งสรุปได้ว่าเป็นงานวิจัยเกี่ยวกับการสกัดแนวคิดจากโมเดลภาษาขนาดใหญ่ (Extracting Concepts from GPT-4), การเพิ่มประสิทธิภาพ (MatMul-free LLMs), การทำความเข้าใจกระบวนการคิดของโมเดล (Buffer of Thoughts), โครงสร้างเชิงเรขาคณิตของ LLMs (The Geometry of Concepts in LLMs) และการจัดแนวของโมเดลเหล่านี้ (Aligning LLMs with Demonstrated Feedback, Towards Scalable Automated Alignment of LLMs) หัวข้อเหล่านี้สะท้อนความสนใจในปัจจุบันของวงการปัญญาประดิษฐ์ที่กำลังสำรวจความเข้าใจ การปรับปรุง และความเป็นไปได้ในการประยุกต์ใช้ LLMs แม้จะไม่ได้ลงรายละเอียดของทุกงานวิจัย แต่เพียงแค่ดูจากชื่อเรื่องก็มากพอที่จะมองเห็นแนวโน้มของงานวิจัยล่าสุดได้

  • แนวโน้มเช่นนี้อาจอธิบายได้จากหลายเหตุผล ประการแรก หลังจากความสำเร็จของโมเดลภาษาขนาดใหญ่ เช่น GPT-4 ความสนใจต่อโมเดลประเภทนี้ในวงการวิจัย AI ก็เพิ่มขึ้นอย่างรวดเร็ว โมเดลเหล่านี้มีบทบาทสำคัญไม่เพียงในด้านการประมวลผลภาษาธรรมชาติ (NLP) เท่านั้น แต่ยังรวมถึงการบรรลุประสิทธิภาพระดับมนุษย์ในงานด้านความรู้ที่หลากหลายอีกด้วย ประการที่สอง ความเข้าใจและความก้าวหน้าของ LLMs เปิดโอกาสไปสู่การพัฒนาระบบ AI ที่สามารถทำงานที่ซับซ้อนและสร้างสรรค์ยิ่งขึ้นได้ สุดท้าย งานวิจัยเหล่านี้ยังอาจมีส่วนช่วยต่อความก้าวหน้าของเทคโนโลยีที่ทำให้เราเข้าใจและควบคุมพฤติกรรมของโมเดลได้ดีขึ้น ซึ่งเป็นสิ่งจำเป็นต่อการเสริมสร้างความปลอดภัยและการใช้งาน AI อย่างมีจริยธรรม ด้วยเหตุนี้ งานวิจัยที่ถูกเลือกในสัปดาห์นี้จึงสะท้อนถึงงานวิจัยและการทดลองที่กำลังเกิดขึ้นอยู่แนวหน้าของการพัฒนาเทคโนโลยี AI โดยเฉพาะโมเดลภาษาขนาดใหญ่


NLLB: ขยายการแปลด้วยเครื่องแบบโครงข่ายประสาทเทียมสู่ 200 ภาษา / Scaling neural machine translation to 200 languages

แนะนำงานวิจัย

เสนอโมเดลหลายภาษาขนาดใหญ่ที่ใช้ประโยชน์จากการถ่ายโอนการเรียนรู้ข้าม 200 ภาษา โดยอิงสถาปัตยกรรม mixture of experts แบบ sparse gate และฝึกด้วยข้อมูลผ่านแนวทางที่ออกแบบมาสำหรับภาษาที่มีทรัพยากรต่ำ พร้อมประเมินการแปล 40,000 รายการและทำให้คุณภาพการแปลดีขึ้นเฉลี่ย 44%

Proposes a massive multilingual model that leverages transfer learning across 200 languages; it’s based on a sparsely Gated Mixture of Experts architecture and trained on data via an approach tailored for low-resource languages; evaluates on 40K translations and achieves an average of 44% improvement in translation quality.

บทคัดย่อ(Abstract)

ความก้าวหน้าของเทคนิคโครงข่ายประสาทเทียมได้เปิดเส้นทางใหม่ให้กับการวิจัยด้านการแปลด้วยเครื่อง ปัจจุบัน ระบบการแปลด้วยเครื่องแบบโครงข่ายประสาทเทียม (NMT) สามารถใช้ประโยชน์จากความสามารถด้านหลายภาษาในระดับสูง และแม้แต่ทำ zero-shot translation ได้ จึงให้ผลลัพธ์ที่น่าจับตาทั้งในด้านความครอบคลุมของภาษาและคุณภาพ อย่างไรก็ตาม การขยาย NMT ที่มีคุณภาพจำเป็นต้องใช้ข้อมูลคู่ขนานสองภาษาปริมาณมหาศาล ซึ่งไม่ได้มีอย่างเท่าเทียมกันสำหรับภาษากว่า 7,000 ภาษาทั่วโลก การมุ่งเน้นยกระดับคุณภาพการแปลของกลุ่มภาษาทรัพยากรสูงเพียงไม่กี่ภาษา ย่อมแลกมาด้วยการลดความสนใจด้านวิจัยที่ควรส่งไปยังภาษาทรัพยากรต่ำ และอาจทำให้ความเหลื่อมล้ำทางดิจิทัลรุนแรงขึ้นในระยะยาว เพื่อทำลายรูปแบบนี้ เราขอแนะนำ No Language Left Behind (NLLB) ซึ่งเป็นโมเดลหลายภาษาขนาดใหญ่เพียงโมเดลเดียวที่ใช้การถ่ายโอนการเรียนรู้ระหว่างภาษา เราได้พัฒนาโมเดลการคำนวณแบบมีเงื่อนไขที่อิงบนสถาปัตยกรรม Sparsely Gated Mixture of Experts และฝึกโมเดลนี้ด้วยข้อมูลที่ได้มาจากเทคนิคการทำเหมืองข้อมูลแบบใหม่ซึ่งปรับให้เหมาะกับภาษาทรัพยากรต่ำ นอกจากนี้ เรายังได้ออกแบบการปรับปรุงทั้งด้านสถาปัตยกรรมและการฝึกหลายประการเพื่อรับมือกับ overfitting ระหว่างการฝึกบนงานนับพันรายการ เราประเมินประสิทธิภาพของโมเดลในทิศทางการแปลมากกว่า 40,000 แบบ โดยใช้เครื่องมือที่พัฒนาขึ้นเฉพาะสำหรับจุดประสงค์นี้ ได้แก่ benchmark อัตโนมัติ (FLORES-200), เมตริกการประเมินโดยมนุษย์ (XSTS) และตัวตรวจจับความเป็นพิษที่ครอบคลุมทุกภาษาในโมเดลของเรา เมื่อเทียบกับโมเดลล้ำสมัยก่อนหน้า โมเดลของเราทำให้คุณภาพการแปลดีขึ้นเฉลี่ย 44% ตามการวัดด้วย BLEU การสาธิตวิธีขยาย NMT ไปสู่ 200 ภาษา และการเปิดให้ใช้งานผลงานทั้งหมดจากความพยายามนี้ได้ฟรีสำหรับการใช้งานที่ไม่ใช่เชิงพาณิชย์ ถือเป็นการวางรากฐานสำคัญสำหรับการพัฒนาระบบแปลภาษาสากล

The development of neural techniques has opened up new avenues for research in machine translation. Today, neural machine translation (NMT) systems can leverage highly multilingual capacities and even perform zero-shot translation, delivering promising results in terms of language coverage and quality. However, scaling quality NMT requires large volumes of parallel bilingual data, which are not equally available for the 7,000+ languages in the world. Focusing on improving the translation qualities of a relatively small group of high-resource languages comes at the expense of directing research attention to low-resource languages, exacerbating digital inequities in the long run. To break this pattern, here we introduce No Language Left Behind—a single massively multilingual model that leverages transfer learning across languages. We developed a conditional computational model based on the Sparsely Gated Mixture of Experts architecture, which we trained on data obtained with new mining techniques tailored for low-resource languages. Furthermore, we devised multiple architectural and training improvements to counteract overfitting while training on thousands of tasks. We evaluated the performance of our model over 40,000 translation directions using tools created specifically for this purpose—an automatic benchmark (FLORES-200), a human evaluation metric (XSTS) and a toxicity detector that covers every language in our model. Compared with the previous state-of-the-art models, our model achieves an average of 44% improvement in translation quality as measured by BLEU. By demonstrating how to scale NMT to 200 languages and making all contributions in this effort freely available for non-commercial use, our work lays important groundwork for the development of a universal translation system.

ลิงก์งานวิจัย

https://www.nature.com/articles/s41586-024-07335-x

อ่านเพิ่มเติม

https://github.com/facebookresearch/fairseq/tree/nllb

https://x.com/AIatMeta/status/1798420492774432769


สกัดแนวคิดจาก GPT-4 / Extracting Concepts from GPT-4

แนะนำงานวิจัย

มีการเสนอวิธีใหม่ที่ขยายขนาดได้โดยอิงกับ sparse autoencoders เพื่อดึงแพตเทิร์นที่ตีความได้ราว 16 ล้านรายการจาก GPT-4 วิธีนี้แสดงให้เห็นถึงการสเกลที่คาดการณ์ได้และมีประสิทธิภาพมากกว่าเทคนิคก่อนหน้า
> Proposes a new scalable method based on sparse autoencoders to extract around 16 million interpretable patterns from GPT-4; the method demonstrates predictable scaling and is more efficient than previous techniques.

บทคัดย่อ

SAE (Sparse AutoEncoder, ออโตเอนโค้ดเดอร์แบบเบาบาง) เป็นแนวทางแบบไม่มีผู้สอนที่มีแนวโน้มสำหรับการดึงคุณลักษณะที่ตีความได้จากโมเดลภาษา โดยการสร้างแอ็กติเวชันกลับขึ้นมาจากชั้นคอขวดแบบเบาบาง เนื่องจากโมเดลภาษาเรียนรู้แนวคิดจำนวนมาก ออโตเอนโค้ดเดอร์จึงต้องมีขนาดใหญ่มากเพื่อกู้คืนคุณลักษณะที่เกี่ยวข้องทั้งหมด อย่างไรก็ตาม การศึกษาคุณสมบัติของการสเกลออโตเอนโค้ดเดอร์ทำได้ยาก เพราะต้องรักษาสมดุลระหว่างเป้าหมายด้านการสร้างกลับคืนและความเบาบาง รวมทั้งยังมีปัญหา dead latents อยู่ด้วย เราเสนอให้ใช้ k-sparse autoencoders [Makhzani and Frey, 2013] เพื่อควบคุมความเบาบางโดยตรง ทำให้การปรับแต่งง่ายขึ้นและปรับปรุงขอบเขตระหว่างการสร้างกลับคืนกับความเบาบาง นอกจากนี้ เรายังพบการปรับแก้ที่ทำให้แทบไม่เกิด dead latents แม้ในสเกลที่ใหญ่ที่สุดที่เราทดลอง ใช้เทคนิคเหล่านี้ เราพบกฎการสเกลที่ชัดเจนเมื่อพิจารณาจากขนาดออโตเอนโค้ดเดอร์และความเบาบาง เรายังแนะนำเมตริกใหม่หลายตัวเพื่อประเมินคุณภาพของคุณลักษณะ โดยอิงจากการกู้คืนคุณลักษณะที่ตั้งสมมติฐานไว้ ความสามารถในการอธิบายของรูปแบบแอ็กติเวชัน และความเบาบางของผลกระทบปลายน้ำ เมตริกเหล่านี้โดยทั่วไปดีขึ้นตามขนาดของออโตเอนโค้ดเดอร์ เพื่อแสดงให้เห็นถึงความสามารถในการขยายขนาดของแนวทางของเรา เราฝึกออโตเอนโค้ดเดอร์ที่มี latent 16 ล้านตัวบนแอ็กติเวชันของ GPT-4 ด้วยโทเคน 4 หมื่นล้านรายการ เราเผยแพร่โค้ด ออโตเอนโค้ดเดอร์สำหรับโมเดลโอเพนซอร์ส และวิชวลไลเซอร์ด้วย
> Sparse autoencoders provide a promising unsupervised approach for extracting interpretable features from a language model by reconstructing activations from a sparse bottleneck layer. Since language models learn many concepts, autoencoders need to be very large to recover all relevant features. However, studying the properties of autoencoder scaling is difficult due to the need to balance reconstruction and sparsity objectives and the presence of dead latents. We propose using k-sparse autoencoders [Makhzani and Frey, 2013] to directly control sparsity, simplifying tuning and improving the reconstruction-sparsity frontier. Additionally, we find modifications that result in few dead latents, even at the largest scales we tried. Using these techniques, we find clean scaling laws with respect to autoencoder size and sparsity. We also introduce several new metrics for evaluating feature quality based on the recovery of hypothesized features, the explainability of activation patterns, and the sparsity of downstream effects. These metrics all generally improve with autoencoder size. To demonstrate the scalability of our approach, we train a 16 million latent autoencoder on GPT-4 activations for 40 billion tokens. We release code and autoencoders for open-source models, as well as a visualizer.

ลิงก์งานวิจัยและบทความ

https://openai.com/index/extracting-concepts-from-gpt-4/

https://cdn.openai.com/papers/sparse-autoencoders.pdf

อ่านเพิ่มเติม

https://github.com/openai/sparse_autoencoder

https://openaipublic.blob.core.windows.net/sparse-autoencoder/…

https://x.com/OpenAI/status/1798762092528586945


Transformers คือ SSMs: โมเดลแบบทั่วไปและอัลกอริทึมที่มีประสิทธิภาพผ่าน Structured State Space Duality / Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality

แนะนำงานวิจัย

สถาปัตยกรรมใหม่ที่ผสาน state space models (SSMs) และ structured attention ใช้สถานะที่ใหญ่ขึ้น 8 เท่าและฝึกได้เร็วขึ้น 50% โดยชั้น state space duality แบบใหม่มีประสิทธิภาพและขยายขนาดได้ดีกว่าแนวทางที่ใช้ใน Mamba อีกทั้งยังปรับปรุงผลลัพธ์ในงานที่ต้องการความจุสถานะขนาดใหญ่
> A new architecture that combines state space models (SSMs) and structured attention; it uses 8x larger states and trains 50% faster; the new state space duality layer is more efficient and scalable compared to the approach used in Mamba; it also improves results on tasks that require large state capacity.

บทคัดย่อ(Abstract)

แม้ว่า Transformers จะเป็นสถาปัตยกรรมหลักที่อยู่เบื้องหลังความสำเร็จของดีปเลิร์นนิงในงาน language modeling แต่เมื่อไม่นานมานี้ได้มีการแสดงให้เห็นว่า state-space models (SSMs) อย่าง Mamba สามารถให้ประสิทธิภาพเทียบเท่าหรือดีกว่า Transformers ในสเกลเล็กถึงกลาง เราแสดงให้เห็นว่าตระกูลโมเดลเหล่านี้จริง ๆ แล้วมีความเกี่ยวข้องกันอย่างใกล้ชิด และพัฒนากรอบความเชื่อมโยงเชิงทฤษฎีที่หลากหลายระหว่าง SSMs และ attention แบบต่าง ๆ ซึ่งเชื่อมโยงกันผ่านการแยกองค์ประกอบหลายรูปแบบของ structured semiseparable matrices ที่ได้รับการศึกษาอย่างกว้างขวาง กรอบ state space duality (SSD) ของเราทำให้สามารถออกแบบสถาปัตยกรรมใหม่ (Mamba-2) ซึ่งมีชั้นแกนกลางเป็นการปรับปรุง selective SSM ของ Mamba ให้เร็วขึ้น 2-8 เท่า ขณะเดียวกันก็ยังคงแข่งขันกับ Transformers ได้ในงาน language modeling
> While Transformers have been the main architecture behind deep learning's success in language modeling, state-space models (SSMs) such as Mamba have recently been shown to match or outperform Transformers at small to medium scale. We show that these families of models are actually quite closely related, and develop a rich framework of theoretical connections between SSMs and variants of attention, connected through various decompositions of a well-studied class of structured semiseparable matrices. Our state space duality (SSD) framework allows us to design a new architecture (Mamba-2) whose core layer is an a refinement of Mamba's selective SSM that is 2-8X faster, while continuing to be competitive with Transformers on language modeling.

ลิงก์งานวิจัย

https://arxiv.org/abs/2405.21060

อ่านเพิ่มเติม

https://x.com/_albertgu/status/1797651223035904355


การสร้างแบบจำลองภาษาที่ขยายขนาดได้โดยไม่มีการคูณเมทริกซ์ (MatMul) / Scalable MatMul-free Language Modeling

แนะนำงานวิจัย

นำเสนอการทำงานที่ตัดการดำเนินการคูณเมทริกซ์ออกจาก LLM พร้อมคงประสิทธิภาพไว้ที่ระดับพารามิเตอร์หลักพันล้าน และระบุว่าเมื่อขนาดโมเดลใหญ่ขึ้น ช่องว่างด้านประสิทธิภาพระหว่าง Transformer แบบความแม่นยำเต็มรูปแบบกับโมเดลที่ไม่มี MatMul จะยิ่งแคบลง อีกทั้งเมื่อใช้เคอร์เนลที่ปรับแต่งแล้วระหว่างการอนุมาน การใช้หน่วยความจำจะลดลงมากกว่า 10 เท่า
> Proposes an implementation that eliminates matrix multiplication operations from LLMs while maintaining performance at billion-parameter scales; the performance between full precision Transformers and the MatMul-free models narrows as the model size increases; claims that by using an optimized kernel during inference, memory consumption is reduced by more than 10x.

บทคัดย่อของงานวิจัย (Abstract)

โดยทั่วไปแล้ว การคูณเมทริกซ์ (MatMul) เป็นสัดส่วนหลักของต้นทุนการคำนวณทั้งหมดใน large language models (LLMs) และต้นทุนนี้จะยิ่งเพิ่มขึ้นเมื่อ LLM ขยายไปสู่มิติของ embedding และความยาวคอนเท็กซ์ที่มากขึ้น งานวิจัยนี้แสดงให้เห็นว่าสามารถตัดการดำเนินการ MatMul ออกจาก LLM ได้ทั้งหมด โดยยังคงรักษาประสิทธิภาพที่แข็งแกร่งไว้ได้ในระดับพารามิเตอร์หลักพันล้าน ผลการทดลองแสดงให้เห็นว่าโมเดลแบบไม่มี MatMul ที่ผู้วิจัยเสนอสามารถทำประสิทธิภาพได้ทัดเทียมกับ Transformer รุ่นล้ำสมัย ซึ่งต้องใช้หน่วยความจำระหว่างการอนุมานมากกว่ามาก ที่ขนาดอย่างน้อยถึง 2.7B พารามิเตอร์ เมื่อตรวจสอบกฎการสเกล พบว่าช่องว่างด้านประสิทธิภาพระหว่างโมเดล MatMul-free กับ Transformer แบบความแม่นยำเต็มรูปแบบจะแคบลงเมื่อขนาดโมเดลเพิ่มขึ้น นอกจากนี้ยังมีการทำ implementation ที่มีประสิทธิภาพต่อ GPU ซึ่งช่วยลดการใช้หน่วยความจำระหว่างการฝึกได้สูงสุด 61% เมื่อเทียบกับ baseline ที่ยังไม่ได้ปรับแต่ง และเมื่อใช้ optimized kernel ระหว่างการอนุมาน การใช้หน่วยความจำของโมเดลสามารถลดลงได้มากกว่า 10 เท่าเมื่อเทียบกับโมเดลที่ยังไม่ได้ปรับแต่ง เพื่อวัดประสิทธิภาพของสถาปัตยกรรมนี้อย่างเหมาะสม ผู้วิจัยได้สร้างโซลูชันฮาร์ดแวร์แบบกำหนดเองบน FPGA ที่ใช้ประโยชน์จากการดำเนินการน้ำหนักเบาซึ่งไปไกลกว่าความสามารถของ GPU พวกเขาประมวลผลโมเดลระดับพารามิเตอร์หลักพันล้านได้ที่ 13W และมี throughput สูงกว่าระดับที่มนุษย์จะอ่านตามได้ ทำให้ LLM เข้าใกล้ประสิทธิภาพแบบสมองมากขึ้น งานนี้ไม่เพียงแสดงให้เห็นว่า LLM สามารถลดทอนได้มากเพียงใดโดยยังคงทำงานได้อย่างมีประสิทธิผล แต่ยังชี้ให้เห็นถึงประเภทของการดำเนินการที่ตัวเร่งความเร็วในอนาคตควรถูกปรับแต่งเพื่อรองรับการประมวลผล LLM น้ำหนักเบารุ่นถัดไปอีกด้วย สามารถดูโค้ด implementation ได้ที่ \url{https://github.com/ridgerchu/matmulfreellm}
> Matrix multiplication (MatMul) typically dominates the overall computational cost of large language models (LLMs). This cost only grows as LLMs scale to larger embedding dimensions and context lengths. In this work, we show that MatMul operations can be completely eliminated from LLMs while maintaining strong performance at billion-parameter scales. Our experiments show that our proposed MatMul-free models achieve performance on-par with state-of-the-art Transformers that require far more memory during inference at a scale up to at least 2.7B parameters. We investigate the scaling laws and find that the performance gap between our MatMul-free models and full precision Transformers narrows as the model size increases. We also provide a GPU-efficient implementation of this model which reduces memory usage by up to 61% over an unoptimized baseline during training. By utilizing an optimized kernel during inference, our model's memory consumption can be reduced by more than 10x compared to unoptimized models. To properly quantify the efficiency of our architecture, we build a custom hardware solution on an FPGA which exploits lightweight operations beyond what GPUs are capable of. We processed billion-parameter scale models at 13W beyond human readable throughput, moving LLMs closer to brain-like efficiency. This work not only shows how far LLMs can be stripped back while still performing effectively, but also points at the types of operations future accelerators should be optimized for in processing the next generation of lightweight LLMs. Our code implementation is available at \url{https://github.com/ridgerchu/matmulfreellm}.

ลิงก์งานวิจัย

https://arxiv.org/abs/2406.02528

อ่านเพิ่มเติม

https://github.com/ridgerchu/matmulfreellm

https://x.com/omarsar0/status/1798373841741185261


บัฟเฟอร์แห่งความคิด: การให้เหตุผลเสริมด้วยความคิดด้วย large language models / Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models

แนะนำงานวิจัย

นำเสนอแนวทางการให้เหตุผลเสริมด้วยความคิดเพื่อเพิ่มความแม่นยำ ประสิทธิภาพ และความทนทานของการให้เหตุผลบน LLM โดยอาศัย meta-buffer ที่บรรจุความคิดระดับสูง (เทมเพลตความคิด) ซึ่งกลั่นมาจากกระบวนการแก้ปัญหา จากนั้นจึงค้นหาเทมเพลตความคิดที่เกี่ยวข้องและทำให้เป็นรูปแบบโครงสร้างการให้เหตุผลเฉพาะงานสำหรับกระบวนการให้เหตุผลเสริมด้วยความคิด พร้อมแสดงประสิทธิภาพระดับ SOTA ใน 10 งานท้าทาย โดยใช้ต้นทุนเพียง 12% ของวิธี prompting แบบหลายคำถาม เช่น Tree-of-Thoughts
> Presents a thought-augmented reasoning approach to enhance the accuracy, efficiency, and robustness of LLM-based reasoning; it leverages a meta-buffer containing high-level thoughts (thought templates) distilled from problem-solving processes; the relevant thought template is then retrieved and instantiated with task-specific reasoning structures for the thought-augmented reasoning process; it demonstrates SOTA performance on 10 challenging tasks while requiring 12% of the cost of multi-query prompting methods like Tree-of-Thoughts.

บทคัดย่อของงานวิจัย (Abstract)

ขอแนะนำ Buffer of Thoughts (BoT) ซึ่งเป็นแนวทางการให้เหตุผลแบบเสริมความคิดรูปแบบใหม่ที่หลากหลาย เพื่อยกระดับความแม่นยำ ประสิทธิภาพ และความทนทานของโมเดลภาษาขนาดใหญ่ (LLM) โดยเฉพาะอย่างยิ่ง ผู้วิจัยเสนอ meta-buffer สำหรับเก็บชุดของความคิดระดับสูงที่มีประโยชน์ หรือก็คือ thought-template ซึ่งสกัดมาจากกระบวนการแก้ปัญหาในงานที่หลากหลาย จากนั้นสำหรับแต่ละปัญหา ระบบจะดึง thought-template ที่เกี่ยวข้องออกมาและปรับใช้ให้เป็นโครงสร้างการให้เหตุผลเฉพาะอย่างยืดหยุ่นเพื่อทำการให้เหตุผลอย่างมีประสิทธิภาพ นอกจากนี้ เพื่อรับประกันความสามารถในการขยายและความเสถียร ยังได้เสนอ buffer-manager สำหรับอัปเดต meta-buffer แบบไดนามิก ทำให้ความสามารถของ meta-buffer เพิ่มขึ้นเมื่อมีการแก้โจทย์มากขึ้น จากการทดลองอย่างกว้างขวางกับงานที่เน้นการให้เหตุผลเข้มข้น 10 งาน พบว่าสามารถปรับปรุงประสิทธิภาพได้อย่างมีนัยสำคัญเมื่อเทียบกับวิธี SOTA เดิม ได้แก่ 11% บน Game of 24, 20% บน Geometric Shapes และ 51% บน Checkmate-in-One การวิเคราะห์เพิ่มเติมแสดงให้เห็นว่า BoT มีความสามารถในการทำให้ทั่วไปและความทนทานของโมเดลที่ยอดเยี่ยม ขณะเดียวกันใช้ต้นทุนเฉลี่ยเพียง 12% ของวิธีการ prompt แบบหลายคำถาม (เช่น tree/graph of thoughts) ที่สำคัญ ผู้วิจัยพบว่า Llama3-8B+BoT มีศักยภาพที่จะเหนือกว่าโมเดล Llama3-70B โดยสามารถดูโครงการได้ที่ลิงก์ต่อไปนี้: https://github.com/YangLing0818/buffer-of-thought-llm
> We introduce Buffer of Thoughts (BoT), a novel and versatile thought-augmented reasoning approach for enhancing accuracy, efficiency and robustness of large language models (LLMs). Specifically, we propose meta-buffer to store a series of informative high-level thoughts, namely thought-template, distilled from the problem-solving processes across various tasks. Then for each problem, we retrieve a relevant thought-template and adaptively instantiate it with specific reasoning structures to conduct efficient reasoning. To guarantee the scalability and stability, we further propose buffer-manager to dynamically update the meta-buffer, thus enhancing the capacity of meta-buffer as more tasks are solved. We conduct extensive experiments on 10 challenging reasoning-intensive tasks, and achieve significant performance improvements over previous SOTA methods: 11% on Game of 24, 20% on Geometric Shapes and 51% on Checkmate-in-One. Further analysis demonstrate the superior generalization ability and model robustness of our BoT, while requiring only 12% of the cost of multi-query prompting methods (e.g., tree/graph of thoughts) on average. Notably, we find that our Llama3-8B+BoT has the potential to surpass Llama3-70B model. Our project is available at: https://github.com/YangLing0818/buffer-of-thought-llm

ลิงก์บทความวิจัย

https://arxiv.org/abs/2406.04271

อ่านเพิ่มเติม

https://github.com/YangLing0818/buffer-of-thought-llm

https://x.com/omarsar0/status/1799113545696567416


SaySelf: ฝึก LLM ให้แสดงความมั่นใจด้วยเหตุผลแบบสะท้อนตนเอง / SaySelf: Teaching LLMs to Express Confidence with Self-Reflective Rationales

แนะนำบทความวิจัย

เป็นเฟรมเวิร์กการฝึกที่สอนให้ LLM แสดงค่าประมาณความเชื่อมั่นแบบละเอียดที่แม่นยำยิ่งขึ้นและเหตุผลแบบสะท้อนตนเอง โดยทำ supervised finetuning บนชุดข้อมูลที่มีสรุปความแตกต่างระหว่างหลาย reasoning chain จากนั้นจึงใช้ reinforcement learning เพื่อปรับเทียบค่าประมาณความเชื่อมั่น ส่งเสริมให้ LLM สร้างการคาดการณ์ที่ถูกต้องและมีความเชื่อมั่นสูง พร้อมทั้งลงโทษการแสดงความมั่นใจเกินจริงในผลลัพธ์ที่ผิดพลาด
> A training framework to teach LLMs to express more accurate fine-grained confidence estimates and self-reflective rationales; it performs supervised finetuning on a dataset that contains summaries of the difference between multiple reasoning chains; reinforcement learning is then applied to calibrate confidence estimates, encouraging the LLM to produce accurate, high-confidence predictions and penalize overconfidence in erroneous outputs.

บทคัดย่อ (Abstract)

โมเดลภาษาขนาดใหญ่ (LLM) มักสร้างข้อมูลที่ไม่ถูกต้องหรือถูกแต่งขึ้น และโดยทั่วไปไม่ได้แสดงระดับความเชื่อมั่น ทำให้การนำไปใช้อย่างกว้างขวางมักมีข้อจำกัด งานก่อนหน้านี้พยายามดึงระดับความเชื่อมั่นจาก LLM ด้วยการพรอมป์โดยตรงหรือแบบ self-consistency หรือสร้างชุดข้อมูลเฉพาะสำหรับการทำ supervised fine-tuning อย่างไรก็ตาม วิธีที่อิงกับพรอมป์ให้ประสิทธิภาพด้อยกว่า ส่วนวิธีที่อิงกับการฝึกก็ยังจำกัดอยู่ที่การประเมินความเชื่อมั่นแบบทวิภาคีหรือแบบระดับกลุ่มที่ไม่แม่นยำ งานวิจัยนี้นำเสนอ SaySelf รุ่นก้าวหน้า ซึ่งเป็นกรอบการฝึกที่สอนให้ LLM แสดงค่าประมาณระดับความเชื่อมั่นแบบละเอียดที่แม่นยำยิ่งขึ้น นอกจากนี้ นอกเหนือจากคะแนนความเชื่อมั่นแล้ว SaySelf ยังเริ่มกระบวนการชี้นำให้ LLM สร้างเหตุผลสะท้อนตนเองที่ระบุช่องว่างในความรู้เชิงพารามิเตอร์ของตนอย่างชัดเจน และอธิบายความไม่แน่นอนของตนเองด้วย กระบวนการนี้ทำได้โดยใช้ LLM เพื่อสรุปความไม่แน่นอนในความรู้เฉพาะด้านผ่านภาษาธรรมชาติโดยอัตโนมัติ การสรุปดังกล่าวอิงจากการวิเคราะห์ความไม่สอดคล้องกันของสายโซ่การให้เหตุผลหลายชุดที่สุ่มตัวอย่างมา และนำข้อมูลที่ได้ไปใช้ในการทำ supervised fine-tuning นอกจากนี้ยังใช้การเรียนรู้แบบเสริมกำลังร่วมกับฟังก์ชันรางวัลที่ออกแบบอย่างพิถีพิถันเพื่อคาลิเบรตค่าประมาณความเชื่อมั่น กระตุ้นให้ LLM ให้การคาดการณ์ที่แม่นยำและมีความเชื่อมั่นสูง พร้อมทั้งลงโทษความมั่นใจเกินจริงในผลลัพธ์ที่ผิดพลาด ผลการทดลองทั้งบนชุดข้อมูลในโดเมนและนอกโดเมนแสดงให้เห็นว่า SaySelf มีประสิทธิภาพในการลดข้อผิดพลาดของการคาลิเบรตความเชื่อมั่นและคงประสิทธิภาพของงานไว้ได้ นอกจากนี้ยังแสดงให้เห็นว่าเหตุผลสะท้อนตนเองที่สร้างขึ้นนั้นสมเหตุสมผล และสามารถช่วยปรับคาลิเบรตได้เพิ่มเติม โค้ดเผยแพร่สู่สาธารณะที่ https://github.com/xu1868/SaySelf
> โมเดลภาษาขนาดใหญ่ (LLMs) มักสร้างข้อมูลที่ไม่ถูกต้องหรือแต่งขึ้น และโดยทั่วไปไม่สามารถบ่งชี้ระดับความเชื่อมั่นของตนได้ ซึ่งจำกัดการประยุกต์ใช้งานในวงกว้าง งานก่อนหน้านี้ดึงระดับความเชื่อมั่นจาก LLM ด้วยการพรอมป์โดยตรงหรือแบบ self-consistency หรือโดยการสร้างชุดข้อมูลเฉพาะสำหรับ supervised finetuning วิธีที่อิงกับพรอมป์มีประสิทธิภาพด้อยกว่า และวิธีที่อิงกับการฝึกก็จำกัดอยู่ที่การประมาณค่าความเชื่อมั่นแบบทวิภาคีหรือแบบระดับกลุ่มที่ไม่แม่นยำ ในงานนี้ เรานำเสนอ SaySelf รุ่นก้าวหน้า ซึ่งเป็นกรอบการฝึกที่สอนให้ LLM แสดงค่าประมาณความเชื่อมั่นแบบละเอียดที่แม่นยำยิ่งขึ้น นอกจากคะแนนความเชื่อมั่นแล้ว SaySelf ยังเริ่มกระบวนการชี้นำให้ LLM สร้างเหตุผลสะท้อนตนเองที่ระบุช่องว่างในความรู้เชิงพารามิเตอร์ของตนได้อย่างชัดเจนและอธิบายความไม่แน่นอนของตนเองได้ กระบวนการนี้ทำได้โดยใช้ LLM เพื่อสรุปความไม่แน่นอนในความรู้เฉพาะผ่านภาษาธรรมชาติโดยอัตโนมัติ การสรุปดังกล่าวอิงจากการวิเคราะห์ความไม่สอดคล้องกันในสายโซ่การให้เหตุผลหลายชุดที่สุ่มตัวอย่างมา และข้อมูลที่ได้จะถูกนำไปใช้สำหรับ supervised fine-tuning นอกจากนี้ เรายังใช้การเรียนรู้แบบเสริมกำลังร่วมกับฟังก์ชันรางวัลที่ออกแบบอย่างพิถีพิถันเพื่อคาลิเบรตค่าประมาณความเชื่อมั่น กระตุ้นให้ LLM ให้การคาดการณ์ที่แม่นยำและมีความเชื่อมั่นสูง และลงโทษความมั่นใจเกินจริงในผลลัพธ์ที่ผิดพลาด ผลการทดลองทั้งบนชุดข้อมูล in-distribution และ out-of-distribution แสดงให้เห็นถึงประสิทธิผลของ SaySelf ในการลดข้อผิดพลาดของการคาลิเบรตความเชื่อมั่นและรักษาประสิทธิภาพของงานไว้ได้ เราแสดงให้เห็นว่าเหตุผลสะท้อนตนเองที่สร้างขึ้นนั้นสมเหตุสมผล และยังช่วยปรับคาลิเบรตได้เพิ่มเติม โค้ดเปิดให้สาธารณะที่ https://github.com/xu1868/SaySelf.

ลิงก์งานวิจัย

https://arxiv.org/abs/2405.20974

อ่านเพิ่มเติม

https://github.com/xu1868/SaySelf

https://x.com/omarsar0/status/1797682549608833477


เรขาคณิตของแนวคิดเชิงหมวดหมู่และเชิงลำดับชั้นในโมเดลภาษาขนาดใหญ่ / The Geometry of Categorical and Hierarchical Concepts in Large Language Models

แนะนำงานวิจัย

ศึกษาว่าโครงสร้างเชิงเรขาคณิตของแนวคิดเชิงหมวดหมู่และความสัมพันธ์เชิงลำดับชั้นระหว่างแนวคิดเหล่านี้ถูกเข้ารหัสใน LLM อย่างไร และพบว่าแนวคิดเชิงหมวดหมู่แบบเรียบง่ายถูกแทนเป็น simplex โดย LLM ขณะที่แนวคิดที่ซับซ้อนถูกแทนเป็น polytope ที่ประกอบจาก direct sums ของ simplex ซึ่งสะท้อนโครงสร้างแบบลำดับชั้น
> ศึกษาเรขาคณิตของแนวคิดเชิงหมวดหมู่และวิธีที่ความสัมพันธ์เชิงลำดับชั้นระหว่างแนวคิดเหล่านี้ถูกเข้ารหัสใน LLMs; พบว่าแนวคิดเชิงหมวดหมู่แบบเรียบง่ายถูกแทนเป็น simplices โดย LLMs และแนวคิดที่ซับซ้อนถูกแทนเป็น polytopes ที่สร้างขึ้นจาก direct sums ของ simplices ซึ่งสะท้อนโครงสร้างแบบลำดับชั้น

บทคัดย่อ (Abstract)

การทำความเข้าใจว่าความหมายเชิงอรรถศาสตร์ถูกเข้ารหัสอย่างไรในปริภูมิการแทนค่าของโมเดลภาษาขนาดใหญ่เป็นปัญหาพื้นฐานของการตีความโมเดล งานวิจัยนี้ศึกษาคำถามพื้นฐานสองข้อในด้านนี้ ข้อแรก แนวคิดเชิงหมวดหมู่ เช่น {'สัตว์เลี้ยงลูกด้วยนม', 'นก', 'สัตว์เลื้อยคลาน', 'ปลา'} ถูกแทนค่าอย่างไร? ข้อที่สอง ความสัมพันธ์เชิงลำดับชั้นระหว่างแนวคิดถูกเข้ารหัสอย่างไร? ตัวอย่างเช่น ข้อเท็จจริงที่ว่า 'สุนัข' เป็นชนิดหนึ่งของ 'สัตว์เลี้ยงลูกด้วยนม' ถูกเข้ารหัสอย่างไร? เพื่อหาคำตอบสำหรับคำถามเหล่านี้ ผู้เขียนแสดงวิธีขยายสมมติฐานการแทนค่าเชิงเส้น โดยค้นพบโครงสร้างที่เรียบง่ายอย่างน่าทึ่งว่า แนวคิดเชิงหมวดหมู่แบบง่ายถูกแทนเป็น simplex แนวคิดที่เกี่ยวข้องกันแบบลำดับชั้นมีความตั้งฉากกันในความหมายที่นิยามไว้อย่างชัดเจน และด้วยเหตุนี้ แนวคิดที่ซับซ้อนจึงถูกแทนเป็น polytope ที่ประกอบขึ้นจาก direct sum ของ simplex ซึ่งสะท้อนโครงสร้างแบบลำดับชั้น ผลลัพธ์เชิงทฤษฎีเหล่านี้ได้รับการตรวจสอบกับโมเดลภาษาขนาดใหญ่ Gemma โดยประมาณค่าการแทนสำหรับแนวคิดที่เกี่ยวข้องกันแบบลำดับชั้น 957 แนวคิดโดยใช้ข้อมูลจาก WordNet
> Understanding how semantic meaning is encoded in the representation spaces of large language models is a fundamental problem in interpretability. In this paper, we study the two foundational questions in this area. First, how are categorical concepts, such as {'mammal', 'bird', 'reptile', 'fish'}, represented? Second, how are hierarchical relations between concepts encoded? For example, how is the fact that 'dog' is a kind of 'mammal' encoded? We show how to extend the linear representation hypothesis to answer these questions. We find a remarkably simple structure: simple categorical concepts are represented as simplices, hierarchically related concepts are orthogonal in a sense we make precise, and (in consequence) complex concepts are represented as polytopes constructed from direct sums of simplices, reflecting the hierarchical structure. We validate these theoretical results on the Gemma large language model, estimating representations for 957 hierarchically related concepts using data from WordNet.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2406.01506

อ่านเพิ่มเติม

https://x.com/omarsar0/status/1798010546522103898


แสดงให้ดู แทนที่จะบอก: ปรับโมเดลภาษาให้สอดคล้องกับฟีดแบ็กแบบสาธิต / Show, Don't Tell: Aligning Language Models with Demonstrated Feedback

แนะนำบทความวิจัย

งานนี้เสนอวิธีปรับ LLM ให้เข้ากับบริบทเฉพาะด้วยตัวอย่างสาธิตจำนวนน้อยมากเป็นฟีดแบ็ก ปรับเอาต์พุตของ LLM ให้สอดคล้องกับพฤติกรรมการสาธิตของผู้ใช้ และสามารถเรียนรู้การปรับสไตล์และงานอย่างละเอียดข้ามหลายโดเมนได้ โดยให้ประสิทธิภาพดีกว่า few-shot prompting, SFT และวิธี self-play บนเบนช์มาร์กที่ทดสอบ
> Proposes a method to align LLMs to a specific setting via a very small number of demonstrations as feedback; it aligns LLM outputs to a user’s demonstrated behaviors and can learn fine-grained style and task alignment across domains; outperforms few-shot prompting, SFT, and self-play methods on the tested benchmarks.

บทคัดย่อ(Abstract)

โมเดลภาษาถูกปรับให้เลียนแบบเสียงรวมหมู่ของคนจำนวนมาก จึงให้ผลลัพธ์ที่ไม่ได้สอดคล้องกับใครคนใดคนหนึ่งโดยเฉพาะ การบังคับทิศทาง LLM ให้ออกจากเอาต์พุตแบบทั่วไปสามารถทำได้ด้วย supervised finetuning หรือ RLHF แต่สำหรับงานเฉพาะกิจใหม่ ๆ นั้นต้องใช้ชุดข้อมูลขนาดใหญ่มากจนไม่คุ้มค่า ผู้เขียนจึงเสนอว่าเป็นไปได้ที่จะปรับ LLM ให้เข้ากับบริบทเฉพาะโดยใช้ตัวอย่างสาธิตจำนวนน้อยมาก ($<10$) เป็นฟีดแบ็ก วิธีของผู้เขียนที่ชื่อ Demonstration ITerated Task Optimization (DITTO) จะปรับเอาต์พุตของโมเดลภาษาให้สอดคล้องโดยตรงกับพฤติกรรมที่ผู้ใช้สาธิตไว้ DITTO ซึ่งพัฒนามาจากแนวคิดในการเรียนรู้แบบเลียนแบบออนไลน์ สามารถสร้างข้อมูลเปรียบเทียบออนไลน์ได้อย่างประหยัด โดยถือว่าการสาธิตของผู้ใช้เป็นสิ่งที่พึงประสงค์มากกว่าเอาต์พุตจาก LLM และเช็กพอยต์ระหว่างทางของมัน ผู้เขียนประเมินความสามารถของ DITTO ในการเรียนรู้การปรับสไตล์และงานอย่างละเอียดในหลายโดเมน เช่น ข่าว อีเมล และบล็อกโพสต์ นอกจากนี้ยังมีการศึกษากับผู้ใช้โดยขอให้ผู้เข้าร่วมจัดทำตัวอย่างสาธิตที่หลากหลาย ($N=16$) จากทั้งเบนช์มาร์กและผลการศึกษากับผู้ใช้ พบว่าอัตราการชนะของ DITTO สูงกว่าวิธี few-shot prompting, supervised fine-tuning และวิธี self-play อื่น ๆ โดยเฉลี่ย 19 จุดเปอร์เซ็นต์ ด้วยการใช้ตัวอย่างสาธิตเป็นฟีดแบ็กโดยตรง DITTO จึงนำเสนอวิธีใหม่สำหรับการปรับแต่ง LLM อย่างมีประสิทธิภาพ
> Language models are aligned to emulate the collective voice of many, resulting in outputs that align with no one in particular. Steering LLMs away from generic output is possible through supervised finetuning or RLHF, but requires prohibitively large datasets for new ad-hoc tasks. We argue that it is instead possible to align an LLM to a specific setting by leveraging a very small number ($<10$) of demonstrations as feedback. Our method, Demonstration ITerated Task Optimization (DITTO), directly aligns language model outputs to a user's demonstrated behaviors. Derived using ideas from online imitation learning, DITTO cheaply generates online comparison data by treating users' demonstrations as preferred over output from the LLM and its intermediate checkpoints. We evaluate DITTO's ability to learn fine-grained style and task alignment across domains such as news articles, emails, and blog posts. Additionally, we conduct a user study soliciting a range of demonstrations from participants ($N=16$). Across our benchmarks and user study, we find that win-rates for DITTO outperform few-shot prompting, supervised fine-tuning, and other self-play methods by an average of 19% points. By using demonstrations as feedback directly, DITTO offers a novel method for effective customization of LLMs.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2406.00888

อ่านเพิ่มเติม

https://x.com/arankomatsuzaki/status/1797833884463472653


สู่การปรับให้สอดคล้องของ LLM แบบอัตโนมัติที่ขยายขนาดได้: บทความสำรวจ / Towards Scalable Automated Alignment of LLMs: A Survey

แนะนำบทความวิจัย

ให้ภาพรวมของวิธีที่ใช้ในการจัดแนว LLM และสำรวจ 4 แนวทางต่อไปนี้: 1) การจัดแนวผ่านอคติเชิงอุปนัย 2) การจัดแนวผ่านการเลียนแบบพฤติกรรม 3) การจัดแนวผ่านฟีดแบ็กจากโมเดล 4) การจัดแนวผ่านฟีดแบ็กจากสภาพแวดล้อม
> Provides an overview of methods used for alignment of LLMs; explores the 4 following directions: 1) aligning through inductive bias, 2) aligning through behavior imitation, 3) aligning through model feedback, and 4) aligning through environment feedback.

บทคัดย่อของบทความ (Abstract)

การจัดแนวเป็นขั้นตอนที่สำคัญที่สุดในการสร้างโมเดลภาษาขนาดใหญ่ (LLM) ที่ตอบสนองความต้องการของมนุษย์ เมื่อ LLM พัฒนาอย่างรวดเร็วและค่อย ๆ ก้าวข้ามขีดความสามารถของมนุษย์ วิธีการจัดแนวแบบดั้งเดิมที่อาศัยการใส่คำกำกับโดยมนุษย์จึงยิ่งไม่สามารถรองรับความต้องการด้านการขยายขนาดได้มากขึ้นเรื่อย ๆ ดังนั้นจึงมีความจำเป็นอย่างเร่งด่วนในการสำรวจแหล่งสัญญาณการจัดแนวอัตโนมัติแบบใหม่และแนวทางเชิงเทคนิคต่าง ๆ ในบทความนี้ ผู้เขียนได้ทบทวนวิธีการจัดแนวอัตโนมัติที่เพิ่งเกิดขึ้นอย่างเป็นระบบ เพื่อสำรวจว่าจะบรรลุการจัดแนวอัตโนมัติที่มีประสิทธิภาพ ปรับขยายได้ และใช้งานได้จริงอย่างไร เมื่อความสามารถของ LLM สูงเกินกว่ามนุษย์ โดยเฉพาะอย่างยิ่ง ผู้เขียนจัดหมวดหมู่วิธีการจัดแนวอัตโนมัติที่มีอยู่เป็น 4 หมวดหลักตามแหล่งที่มาของสัญญาณการจัดแนว และอภิปรายสถานะปัจจุบันรวมถึงศักยภาพการพัฒนาของแต่ละหมวด นอกจากนี้ ยังสำรวจกลไกพื้นฐานที่ทำให้การจัดแนวอัตโนมัติเป็นไปได้ และอภิปรายปัจจัยสำคัญที่ทำให้เทคโนโลยีการจัดแนวอัตโนมัตินำไปใช้ได้จริงและมีประสิทธิผล จากบทบาทพื้นฐานของการจัดแนว
> Alignment is the most critical step in building large language models (LLMs) that meet human needs. With the rapid development of LLMs gradually surpassing human capabilities, traditional alignment methods based on human-annotation are increasingly unable to meet the scalability demands. Therefore, there is an urgent need to explore new sources of automated alignment signals and technical approaches. In this paper, we systematically review the recently emerging methods of automated alignment, attempting to explore how to achieve effective, scalable, automated alignment once the capabilities of LLMs exceed those of humans. Specifically, we categorize existing automated alignment methods into 4 major categories based on the sources of alignment signals and discuss the current status and potential development of each category. Additionally, we explore the underlying mechanisms that enable automated alignment and discuss the essential factors that make automated alignment technologies feasible and effective from the fundamental role of alignment.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2406.01252

อ่านเพิ่มเติม

https://x.com/omarsar0/status/1798014572663583165


AgentGym: พัฒนาเอเจนต์ที่อิงกับโมเดลภาษาขนาดใหญ่ข้ามสภาพแวดล้อมที่หลากหลาย / AgentGym: Evolving Large Language Model-based Agents across Diverse Environments

แนะนำบทความวิจัย

เฟรมเวิร์กใหม่ที่รองรับสภาพแวดล้อมและงานที่หลากหลายสำหรับการสำรวจเอเจนต์แบบกว้างขวาง เรียลไทม์ และพร้อมกัน ช่วยสร้างเอเจนต์ที่อิงกับ LLM ซึ่งมีความสามารถทั่วไปและพัฒนาตัวเองได้ พร้อมสำรวจศักยภาพที่ก้าวข้ามข้อมูลที่เคยเห็นมาก่อนในงานและสภาพแวดล้อมต่าง ๆ
> A new framework featuring various environments and tasks for broad, real-time, and concurrent agent exploration; builds a generally capable LLM-based agent with self-evolution abilities and explores its potential beyond previously seen data across tasks and environments.

บทคัดย่อของบทความ (Abstract)

การสร้างเอเจนต์แบบ generalist ที่สามารถจัดการงานได้หลากหลายและวิวัฒน์ตัวเองได้ในหลายสภาพแวดล้อมเป็นเป้าหมายระยะยาวของชุมชน AI โมเดลภาษาขนาดใหญ่ (LLM) ถูกมองว่าเป็นรากฐานที่มีศักยภาพสำหรับการสร้างเอเจนต์ลักษณะนี้ เนื่องจากมีความสามารถในการทำงานแบบทั่วไป แนวทางปัจจุบันมีอยู่สองแบบหลัก ๆ คือให้เอเจนต์ที่อิง LLM เลียนแบบ trajectory ที่ผู้เชี่ยวชาญให้มาแบบทีละขั้น ซึ่งต้องอาศัยการกำกับดูแลจากมนุษย์ ทำให้ขยายสเกลได้ยากและจำกัดการสำรวจสภาพแวดล้อม หรือปล่อยให้เอเจนต์สำรวจและเรียนรู้ในสภาพแวดล้อมที่แยกขาดจากกัน ส่งผลให้ได้เอเจนต์เฉพาะทางที่มีความสามารถในการทำให้เป็นทั่วไปอย่างจำกัด บทความนี้นำเสนอแรกเริ่มของการสร้างเอเจนต์บน LLM แบบอเนกประสงค์ที่มีความสามารถในการวิวัฒน์ตัวเอง เราระบุองค์ประกอบสำคัญ 3 ประการ ได้แก่ 1) สภาพแวดล้อมที่หลากหลายสำหรับการสำรวจและการเรียนรู้ของเอเจนต์ 2) ชุด trajectory สำหรับเสริมความสามารถพื้นฐานและความรู้ล่วงหน้าให้เอเจนต์ และ 3) วิธีการวิวัฒน์ที่มีประสิทธิภาพและขยายสเกลได้ ผู้วิจัยเสนอ AgentGym ซึ่งเป็นเฟรมเวิร์กใหม่ที่มีสภาพแวดล้อมและงานหลากหลายสำหรับการสำรวจของเอเจนต์ในวงกว้าง แบบเรียลไทม์ แบบรูปแบบเดียว และแบบทำพร้อมกัน AgentGym ยังมีฐานข้อมูลที่รวมคำสั่งแบบขยาย ชุด benchmark และ trajectory คุณภาพสูงข้ามหลายสภาพแวดล้อม นอกจากนี้ยังเสนอวิธีใหม่ชื่อ AgentEvol เพื่อศึกษาศักยภาพของการวิวัฒน์ตัวเองของเอเจนต์ให้ก้าวข้ามข้อมูลที่เคยเห็นมาก่อนในหลายงานและหลายสภาพแวดล้อม ผลการทดลองแสดงให้เห็นว่าเอเจนต์ที่ผ่านการวิวัฒน์สามารถทำผลลัพธ์ได้เทียบเคียงกับโมเดล SOTA เราเปิดตัวชุด AgentGym ซึ่งประกอบด้วยแพลตฟอร์ม ชุดข้อมูล benchmark checkpoint และการอิมพลีเมนต์อัลกอริทึม โดยสามารถดูชุด AgentGym ได้ที่ https://github.com/WooooDyy/AgentGym
> การสร้างเอเจนต์แบบ generalist ที่สามารถจัดการงานได้หลากหลายและวิวัฒน์ตัวเองได้ในหลายสภาพแวดล้อมเป็นเป้าหมายระยะยาวของชุมชน AI โมเดลภาษาขนาดใหญ่ (LLMs) ถูกมองว่าเป็นรากฐานที่มีศักยภาพสำหรับการสร้างเอเจนต์ลักษณะนี้ เนื่องจากมีความสามารถในการทำงานแบบทั่วไป แนวทางปัจจุบันมีอยู่สองแบบหลัก ๆ คือให้เอเจนต์ที่อิง LLM เลียนแบบ trajectory ที่ผู้เชี่ยวชาญให้มาแบบทีละขั้น ซึ่งต้องอาศัยการกำกับดูแลจากมนุษย์ ทำให้ขยายสเกลได้ยากและจำกัดการสำรวจสภาพแวดล้อม หรือปล่อยให้เอเจนต์สำรวจและเรียนรู้ในสภาพแวดล้อมที่แยกขาดจากกัน ส่งผลให้ได้เอเจนต์เฉพาะทางที่มีความสามารถในการทำให้เป็นทั่วไปอย่างจำกัด ในงานนี้ เราก้าวสู่ก้าวแรกของการสร้างเอเจนต์บน LLM ที่มีความสามารถทั่วไปและมีความสามารถในการวิวัฒน์ตัวเอง เราระบุองค์ประกอบหลัก 3 ประการคือ 1) สภาพแวดล้อมที่หลากหลายสำหรับการสำรวจและการเรียนรู้ของเอเจนต์ 2) ชุด trajectory เพื่อเสริมความสามารถพื้นฐานและความรู้เดิมให้เอเจนต์ และ 3) วิธีการวิวัฒน์ที่มีประสิทธิภาพและขยายสเกลได้ เราเสนอ AgentGym ซึ่งเป็นเฟรมเวิร์กใหม่ที่มีสภาพแวดล้อมและงานหลากหลายสำหรับการสำรวจของเอเจนต์ในวงกว้าง แบบเรียลไทม์ แบบรูปแบบเดียว และแบบทำพร้อมกัน AgentGym ยังมีฐานข้อมูลที่รวมคำสั่งแบบขยาย ชุด benchmark และ trajectory คุณภาพสูงข้ามหลายสภาพแวดล้อม จากนั้นเราเสนอวิธีใหม่ชื่อ AgentEvol เพื่อศึกษาศักยภาพของการวิวัฒน์ตัวเองของเอเจนต์ให้ก้าวข้ามข้อมูลที่เคยเห็นมาก่อนในหลายงานและหลายสภาพแวดล้อม ผลการทดลองแสดงให้เห็นว่าเอเจนต์ที่ผ่านการวิวัฒน์สามารถทำผลลัพธ์ได้เทียบเคียงกับโมเดล SOTA เราเปิดตัวชุด AgentGym ซึ่งรวมทั้งแพลตฟอร์ม ชุดข้อมูล benchmark checkpoints และการอิมพลีเมนต์อัลกอริทึม ชุด AgentGym สามารถดูได้ที่ https://github.com/WooooDyy/AgentGym.

ลิงก์บทความ

https://arxiv.org/abs/2406.04151

อ่านเพิ่มเติม

https://github.com/WooooDyy/AgentGym

https://x.com/arankomatsuzaki/status/1798904095669121443


ต้นฉบับ

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-90f


บทความนี้สรุปด้วยโมเดล GPT จึงอาจมีบางส่วนที่ไม่ถูกต้อง กรุณาอ้างอิงต้นฉบับด้านล่างประกอบด้วย! หากพบเนื้อหาที่แปลกหรือผิดพลาดระหว่างอ่าน รบกวนแจ้งในคอมเมนต์ด้วย 🤗

⚠️โฆษณา⚠️: บทความนี้ที่ 🔥ชุมชนผู้ใช้ PyTorch เกาหลี🇰🇷 สรุปไว้มีประโยชน์ไหม? หาก สมัครสมาชิก เราจะส่งบทความสำคัญให้ทางอีเมล💌! (ค่าเริ่มต้นคือ Weekly แต่ เปลี่ยนเป็น Daily ได้)

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น