[2024/01/29 ~ 02/04] งานวิจัย ML เด่นประจำสัปดาห์ (Top ML Papers of the Week)
(discuss.pytorch.kr)ภาพรวม
-
บทความนี้เป็นการแปลอัตโนมัติของบทความเกี่ยวกับงานวิจัย ML ที่ DAIR.AI เผยแพร่ทุกสัปดาห์
-
เมื่อพิจารณาแนวโน้มของงานวิจัยที่ได้รับคัดเลือกในสัปดาห์นี้ จะเห็นได้ว่างานวิจัยเกี่ยวกับโมเดลภาษาขนาดใหญ่ (Large Language Models, LLMs) และรูปแบบดัดแปลงของมันมีความโดดเด่นเป็นพิเศษ จากชื่องานวิจัยอย่าง "OLMo", "Advances in Multimodal LLMs", "Corrective RAG", "LLMs for Mathematical Reasoning", "Compression Algorithms for LLMs", "MoE-LLaVA", "Rephrasing the Web", "Redefining Retrieval in RAG", "Hallucination in LVLMs", "SliceGPT" ทำให้เห็นได้ว่ามีการวิจัยอย่างคึกคักที่มุ่งเน้นการยกระดับประสิทธิภาพของโมเดลภาษา การขยายการประยุกต์ใช้งาน และการเพิ่มประสิทธิภาพเชิงทรัพยากร
-
แนวโน้มการวิจัยเหล่านี้สามารถตีความได้ว่าเป็นผลสะท้อนจากความพยายามอย่างต่อเนื่องของทั้งแวดวงวิชาการและภาคอุตสาหกรรมในการก้าวข้ามข้อจำกัดของเทคโนโลยีประมวลผลภาษาและแก้ปัญหาที่ซับซ้อนยิ่งขึ้น ช่วงหลังมานี้ LLMs ไม่ได้จำกัดอยู่เพียงการประมวลผลข้อความแบบง่ายอีกต่อไป แต่ได้ขยายขอบเขตการใช้งานไปสู่หลายด้าน เช่น การให้เหตุผลทางคณิตศาสตร์ที่ซับซ้อน การประมวลผลข้อมูลหลายโมดัล ตลอดจนการค้นคืนและการจัดเรียบเรียงข้อมูลที่ละเอียดซับซ้อนยิ่งขึ้น นอกจากนี้ ด้วยขนาดและความซับซ้อนของโมเดลเหล่านี้ เทคโนโลยีอย่างการบีบอัดโมเดลจึงกลายเป็นองค์ประกอบสำคัญที่ช่วยให้สามารถนำโมเดลไป deploy และใช้งานในสภาพแวดล้อมจริงได้อย่างมีประสิทธิภาพมากขึ้น โดยเฉพาะในกรณีที่ต้องรันโมเดลขนาดใหญ่ด้วยทรัพยากรที่ค่อนข้างจำกัด เทคโนโลยีลักษณะนี้ยิ่งได้รับความสำคัญมากขึ้น
-
นอกจากนี้ งานวิจัยเกี่ยวกับ 'Multimodal LLMs' และ 'MoE-LLaVA' ยังสะท้อนถึงความก้าวหน้าในการผสานและประมวลผลข้อมูลหลายรูปแบบนอกเหนือจากข้อความ (เช่น ภาพ เสียง เป็นต้น) ซึ่งแสดงให้เห็นถึงความเป็นไปได้ที่ระบบปัญญาประดิษฐ์จะเข้าใจและใช้ประโยชน์จากข้อมูลในโลกจริงได้อย่างลุ่มลึกยิ่งขึ้น ส่วน 'Corrective RAG' และ 'Redefining Retrieval in RAG' สามารถมองได้ว่าเป็นความพยายามในการปรับปรุงกระบวนการให้เหตุผลของโมเดลและความแม่นยำของผลลัพธ์ เพื่อเพิ่มความสามารถในการอธิบายและความน่าเชื่อถือของโมเดล ขณะที่ 'Hallucination in LVLMs' และ 'Rephrasing the Web' เป็นตัวแทนของงานวิจัยที่มุ่งยกระดับคุณภาพของเนื้อหาที่โมเดลสร้างขึ้น แนวโน้มทั้งหมดนี้ถูกประเมินว่าเป็นสัญญาณที่บ่งบอกถึงการมาถึงของระบบปัญญาประดิษฐ์ที่ฉลาดและซับซ้อนยิ่งกว่าเดิมในอนาคตอันใกล้
OLMo: เร่งความก้าวหน้าของวิทยาศาสตร์ด้านโมเดลภาษา / OLMo: Accelerating the Science of Language Models
แนะนำงานวิจัย
- แนะนำ OLMo (open language model) ซึ่งเป็นโมเดลขนาด 7b พารามิเตอร์ที่มาพร้อมโค้ดการเทรนแบบเปิด ข้อมูลแบบเปิด น้ำหนักโมเดลทั้งหมด โค้ดประเมินผล และโค้ด fine-tuning โดยแสดงประสิทธิภาพที่แข็งแกร่งในงานสร้างเนื้อหาหลายประเภท และยังมีเวอร์ชันขนาดเล็กกว่าคือ olmo 1b ด้วย
Introduces open language model (olmo), a 7b parameter model; it includes open training code, open data, full model weights, evaluation code, and fine-tuning code; it shows strong performance on many generative tasks; there is also a smaller version of it, olmo 1b.
บทคัดย่อ (Abstract)
- โมเดลภาษา (LMs) ได้กลายเป็นสิ่งที่พบเห็นได้ทั่วไปทั้งในงานวิจัย NLP และผลิตภัณฑ์เชิงพาณิชย์ เมื่อความสำคัญทางธุรกิจของโมเดลภาษาเพิ่มสูงขึ้น โมเดลที่ทรงพลังที่สุดกลับถูกปิดกั้นไว้หลังอินเทอร์เฟซแบบ proprietary โดยที่รายละเอียดสำคัญเกี่ยวกับข้อมูลการเทรน สถาปัตยกรรม และกระบวนการพัฒนาไม่ได้ถูกเปิดเผย เมื่อพิจารณาถึงความสำคัญของรายละเอียดเหล่านี้ต่อการศึกษาทางวิทยาศาสตร์ของโมเดลดังกล่าว รวมถึงอคติและความเสี่ยงที่อาจเกิดขึ้น เราเชื่อว่าชุมชนนักวิจัยจำเป็นต้องเข้าถึง LMs ที่ทรงพลังและเปิดอย่างแท้จริงได้ เพื่อจุดประสงค์นี้ รายงานทางเทคนิคฉบับนี้อธิบายการเผยแพร่ครั้งแรกของ OLMo อย่างละเอียด ซึ่งเป็น Open Language Model ที่ล้ำสมัยและเปิดอย่างแท้จริง พร้อมทั้งเฟรมเวิร์กสำหรับสร้างและศึกษาวิทยาศาสตร์ของ language modeling ต่างจากความพยายามก่อนหน้านี้ส่วนใหญ่ที่เปิดเผยเพียงน้ำหนักโมเดลและโค้ด inference เท่านั้น การเผยแพร่ครั้งนี้เราเปิดทั้ง OLMo และเฟรมเวิร์กทั้งหมด รวมถึงข้อมูลการเทรน ตลอดจนโค้ดสำหรับการเทรนและการประเมินผล เราหวังว่าการเผยแพร่ครั้งนี้จะช่วยเสริมพลังและความแข็งแกร่งให้กับชุมชนนักวิจัยแบบเปิด และจุดประกายคลื่นลูกใหม่ของนวัตกรรม
Language models (LMs) have become ubiquitous in both NLP research and in commercial product offerings. As their commercial importance has surged, the most powerful models have become closed off, gated behind proprietary interfaces, with important details of their training data, architectures, and development undisclosed. Given the importance of these details in scientifically studying these models, including their biases and potential risks, we believe it is essential for the research community to have access to powerful, truly open LMs. To this end, this technical report details the first release of OLMo, a state-of-the-art, truly Open Language Model and its framework to build and study the science of language modeling. Unlike most prior efforts that have only released model weights and inference code, we release OLMo and the whole framework, including training data and training and evaluation code. We hope this release will empower and strengthen the open research community and inspire a new wave of innovation.
ลิงก์งานวิจัย
https://arxiv.org/abs/2402.00838
อ่านเพิ่มเติม
https://x.com/omarsar0/status/1753080417530318872
MM-LLM: ความก้าวหน้าล่าสุดของโมเดลภาษาขนาดใหญ่แบบหลายโมดัล / MM-LLMs: Recent Advances in MultiModal Large Language Models
แนะนำงานวิจัย
- เป็นงานสำรวจเชิงครอบคลุมที่อธิบายแนวทางการออกแบบสถาปัตยกรรมโมเดลและ training pipeline สำหรับ multimodal large language models
A comprehensive survey outlining design formulations for model architecture and training pipeline around multimodal large language models.
บทคัดย่อ (Abstract)
- ตลอดหนึ่งปีที่ผ่านมา โมเดลภาษาขนาดใหญ่แบบหลายโมดัล (MM-LLM) ได้พัฒนาไปอย่างมาก โดยเสริมความสามารถให้ LLM ที่มีอยู่แล้วรองรับอินพุตหรือเอาต์พุตแบบ MM ผ่านกลยุทธ์การฝึกที่คุ้มค่าด้านต้นทุน ผลลัพธ์คือโมเดลเหล่านี้ไม่เพียงรักษาความสามารถด้านการให้เหตุผลและการตัดสินใจที่เป็นจุดเด่นของ LLM เอาไว้ได้ แต่ยังรองรับงาน MM ที่หลากหลายมากขึ้นด้วย ในบทความนี้ ผู้เขียนนำเสนอแบบสำรวจที่ครอบคลุมเพื่อส่งเสริมการวิจัย MM-LLM ต่อไป โดยเริ่มจากอธิบายแนวทางการออกแบบทั่วไปสำหรับสถาปัตยกรรมโมเดลและไปป์ไลน์การฝึก จากนั้นจึงแนะนำ MM-LLM ที่มีอยู่แล้วจำนวน $26$ โมเดลโดยสังเขป ซึ่งแต่ละโมเดลมีลักษณะเฉพาะตามแนวทางที่ใช้ นอกจากนี้ยังทบทวนประสิทธิภาพของ MM-LLM บนเบนช์มาร์กหลัก และสรุปสูตรการฝึกสำคัญเพื่อเพิ่มศักยภาพของ MM-LLM สุดท้าย ผู้เขียนสำรวจทิศทางที่มีแนวโน้มสำหรับ MM-LLM พร้อมทั้งดูแลเว็บไซต์ที่ติดตามความเคลื่อนไหวล่าสุดในสาขานี้แบบเรียลไทม์ไปพร้อมกัน หวังว่าแบบสำรวจนี้จะช่วยขับเคลื่อนความก้าวหน้าอย่างต่อเนื่องของวงการ MM-LLM ได้
> In the past year, MultiModal Large Language Models (MM-LLMs) have undergone substantial advancements, augmenting off-the-shelf LLMs to support MM inputs or outputs via cost-effective training strategies. The resulting models not only preserve the inherent reasoning and decision-making capabilities of LLMs but also empower a diverse range of MM tasks. In this paper, we provide a comprehensive survey aimed at facilitating further research of MM-LLMs. Specifically, we first outline general design formulations for model architecture and training pipeline. Subsequently, we provide brief introductions of $26$ existing MM-LLMs, each characterized by its specific formulations. Additionally, we review the performance of MM-LLMs on mainstream benchmarks and summarize key training recipes to enhance the potency of MM-LLMs. Lastly, we explore promising directions for MM-LLMs while concurrently maintaining a real-time tracking website for the latest developments in the field. We hope that this survey contributes to the ongoing advancement of the MM-LLMs domain.
ลิงก์บทความ
https://arxiv.org/abs/2401.13601
อ่านเพิ่มเติม
https://x.com/omarsar0/status/1751705689964089616
CRAG: การสร้างแบบเสริมด้วยการค้นคืนเชิงแก้ไข / Corrective Retrieval Augmented Generation
แนะนำบทความ
- เสนอ Corrective Retrieval Augmented Generation (CRAG) เพื่อเพิ่มความแข็งแกร่งของการสร้างคำตอบในระบบ RAG โดยแนวคิดหลักคือเพิ่มองค์ประกอบการแก้ไขตัวเองให้กับตัวค้นคืน และปรับปรุงการใช้ประโยชน์จากเอกสารที่ค้นคืนมาเพื่อช่วยเสริมการสร้างคำตอบ ตัวประเมินการค้นคืนจะช่วยประเมินคุณภาพโดยรวมของเอกสารที่ค้นคืนได้เมื่อได้รับคิวรี และการใช้การค้นหาบนเว็บร่วมกับกระบวนการใช้ความรู้ที่ปรับให้เหมาะสมสามารถช่วยเพิ่มความสามารถในการแก้ไขตัวเองอัตโนมัติและการใช้เอกสารที่ค้นคืนมาได้อย่างมีประสิทธิภาพ
> Proposes corrective retrieval augmented generation (CRAG) to improve the robustness of generation in a rag system; the core idea is to implement a self-correct component for the retriever and improve the utilization of retrieved documents for augmenting generation; the retrieval evaluator helps to assess the overall quality of retrieved documents given a query; using web search and optimized knowledge utilization operations can improve automatic self-correction and efficient utilization of retrieved documents.
บทคัดย่อ(Abstract)
- โมเดลภาษาขนาดใหญ่ (LLM) ย่อมเกิดอาการหลอนได้อย่างหลีกเลี่ยงไม่ได้ เพราะไม่สามารถรับประกันความถูกต้องของข้อความที่สร้างขึ้นได้ด้วยความรู้เชิงพารามิเตอร์ที่โมเดลบรรจุไว้เพียงอย่างเดียว Retrieval-Augmented Generation (RAG) แม้จะเป็นวิธีที่ใช้งานได้จริงในการเสริม LLM แต่ก็พึ่งพาความเกี่ยวข้องของเอกสารที่ดึงมาอย่างมาก จึงทำให้เกิดความกังวลว่าโมเดลจะทำงานอย่างไรหากการดึงข้อมูลผิดพลาด เพื่อแก้ปัญหานี้ เราจึงเสนอ Corrective Retrieval Augmented Generation (CRAG) เพื่อปรับปรุงความทนทานของการสร้างข้อความ โดยเฉพาะอย่างยิ่ง มีการออกแบบตัวประเมินการดึงข้อมูลแบบน้ำหนักเบาเพื่อประเมินคุณภาพโดยรวมของเอกสารที่ดึงมาสำหรับคำค้น และส่งคืนระดับความเชื่อมั่นซึ่งสามารถใช้กระตุ้นการดำเนินการดึงความรู้ที่แตกต่างกันได้ เนื่องจากการดึงข้อมูลจากคลังข้อมูลแบบคงที่และมีข้อจำกัดอาจคืนเอกสารที่ยังไม่เหมาะสมที่สุดเท่านั้น การค้นหาเว็บขนาดใหญ่จึงถูกใช้เป็นส่วนขยายเพื่อเสริมผลลัพธ์การดึงข้อมูล นอกจากนี้ ยังมีการออกแบบอัลกอริทึม decompose-then-recompose สำหรับเอกสารที่ดึงมา เพื่อให้สามารถมุ่งเน้นไปที่ข้อมูลสำคัญอย่างเลือกสรรและกรองข้อมูลที่ไม่เกี่ยวข้องออกได้ CRAG เป็นแบบ plug-and-play และสามารถผสานเข้ากับแนวทางที่อิง RAG ได้หลากหลายอย่างไร้รอยต่อ ผลการทดลองบนชุดข้อมูล 4 ชุดที่ครอบคลุมงานสร้างข้อความทั้งแบบสั้นและแบบยาว แสดงให้เห็นว่า CRAG สามารถปรับปรุงประสิทธิภาพของแนวทางที่อิง RAG ได้อย่างมีนัยสำคัญ
> Large language models (LLMs) inevitably exhibit hallucinations since the accuracy of generated texts cannot be secured solely by the parametric knowledge they encapsulate. Although retrieval-augmented generation (RAG) is a practicable complement to LLMs, it relies heavily on the relevance of retrieved documents, raising concerns about how the model behaves if retrieval goes wrong. To this end, we propose the Corrective Retrieval Augmented Generation (CRAG) to improve the robustness of generation. Specifically, a lightweight retrieval evaluator is designed to assess the overall quality of retrieved documents for a query, returning a confidence degree based on which different knowledge retrieval actions can be triggered. Since retrieval from static and limited corpora can only return sub-optimal documents, large-scale web searches are utilized as an extension for augmenting the retrieval results. Besides, a decompose-then-recompose algorithm is designed for retrieved documents to selectively focus on key information and filter out irrelevant information in them. CRAG is plug-and-play and can be seamlessly coupled with various RAG-based approaches. Experiments on four datasets covering short- and long-form generation tasks show that CRAG can significantly improve the performance of RAG-based approaches.
ลิงก์บทความวิจัย
https://arxiv.org/abs/2401.15884
อ่านเพิ่มเติม
https://x.com/omarsar0/status/1752173216942944556
โมเดลภาษาขนาดใหญ่สำหรับการให้เหตุผลทางคณิตศาสตร์: ความก้าวหน้าและความท้าทาย / Large Language Models for Mathematical Reasoning: Progresses and Challenges
แนะนำบทความวิจัย
- นำเสนอภาพรวมของพัฒนาการงานวิจัยด้านแมชชีนเลิร์นนิงสำหรับการให้เหตุผลทางคณิตศาสตร์ และอภิปรายถึงความก้าวหน้า ความสามารถ ข้อจำกัด และการประยุกต์ใช้ เพื่อสร้างแรงบันดาลใจให้กับงานวิจัยต่อเนื่องด้านแมชชีนเลิร์นนิงสำหรับคณิตศาสตร์
> Introduces an overview of research developments in llms for mathematical reasoning; discusses advancements, capabilities, limitations, and applications to inspire ongoing research on llms for mathematics.
บทคัดย่อ (Abstract)
- การให้เหตุผลทางคณิตศาสตร์เป็นรากฐานสำคัญในการประเมินความสามารถด้านการรับรู้พื้นฐานของสติปัญญามนุษย์ ในช่วงที่ผ่านมา การพัฒนาโมเดลภาษาขนาดใหญ่ (LLM) ที่มุ่งสู่การแก้ปัญหาคณิตศาสตร์แบบอัตโนมัติเพิ่มขึ้นอย่างเห็นได้ชัด อย่างไรก็ตาม ภูมิทัศน์ของประเภทปัญหาคณิตศาสตร์นั้นกว้างใหญ่และหลากหลายมาก โดยมีการประเมินเทคนิคที่มุ่งเน้น LLM บนชุดข้อมูลและสภาพแวดล้อมที่หลากหลาย ความหลากหลายนี้ทำให้ยากต่อการแยกแยะทั้งความก้าวหน้าที่แท้จริงและอุปสรรคในสาขาที่กำลังเติบโตอย่างรวดเร็วนี้ งานสำรวจฉบับนี้พยายามครอบคลุม 4 มิติสำคัญ ได้แก่ i) การสำรวจอย่างครอบคลุมเกี่ยวกับปัญหาคณิตศาสตร์ประเภทต่าง ๆ และชุดข้อมูลที่เกี่ยวข้องที่มีการศึกษา ii) การตรวจสอบขอบเขตของเทคนิคที่มุ่งเน้น LLM ซึ่งถูกเสนอสำหรับการแก้ปัญหาคณิตศาสตร์ iii) ภาพรวมของปัจจัยและข้อกังวลที่ส่งผลต่อ LLM ในการแก้โจทย์คณิตศาสตร์ และ iv) การอธิบายความท้าทายที่ยังคงอยู่ในโดเมนนี้ เท่าที่เราทราบ งานสำรวจฉบับนี้ถือเป็นหนึ่งในงานตรวจสอบภูมิทัศน์ของ LLM ในขอบเขตคณิตศาสตร์อย่างกว้างขวางชุดแรก ๆ โดยมอบมุมมองแบบองค์รวมเกี่ยวกับสถานะปัจจุบัน ความสำเร็จ และความท้าทายในอนาคตของสาขาที่กำลังพัฒนาอย่างรวดเร็วนี้
> Mathematical reasoning serves as a cornerstone for assessing the fundamental cognitive capabilities of human intelligence. In recent times, there has been a notable surge in the development of Large Language Models (LLMs) geared towards the automated resolution of mathematical problems. However, the landscape of mathematical problem types is vast and varied, with LLM-oriented techniques undergoing evaluation across diverse datasets and settings. This diversity makes it challenging to discern the true advancements and obstacles within this burgeoning field. This survey endeavors to address four pivotal dimensions: i) a comprehensive exploration of the various mathematical problems and their corresponding datasets that have been investigated; ii) an examination of the spectrum of LLM-oriented techniques that have been proposed for mathematical problem-solving; iii) an overview of factors and concerns affecting LLMs in solving math; and iv) an elucidation of the persisting challenges within this domain. To the best of our knowledge, this survey stands as one of the first extensive examinations of the landscape of LLMs in the realm of mathematics, providing a holistic perspective on the current state, accomplishments, and future challenges in this rapidly evolving field.
ลิงก์บทความวิจัย
https://arxiv.org/abs/2402.00157
อ่านเพิ่มเติม
https://x.com/omarsar0/status/1753424518171738194
การสำรวจอย่างครอบคลุมเกี่ยวกับอัลกอริทึมการบีบอัดสำหรับโมเดลภาษา / A Comprehensive Survey of Compression Algorithms for Language Models
แนะนำงานวิจัย
- ครอบคลุมอัลกอริทึมการบีบอัด เช่น pruning, quantization, knowledge distillation, low-rank approximation, parameter sharing และการออกแบบสถาปัตยกรรมที่มีประสิทธิภาพ
> Covers compression algorithms like pruning, quantization, knowledge distillation, low-rank approximation, parameter sharing, and efficient architecture design.
บทคัดย่อ(Abstract)
- เราจะบีบอัดโมเดลภาษาอย่างไรโดยไม่ทำให้ความแม่นยำลดลง? จำนวนอัลกอริทึมการบีบอัดสำหรับโมเดลภาษากำลังเพิ่มขึ้นอย่างรวดเร็ว เพื่อให้ได้รับประโยชน์จากความก้าวหน้าอันโดดเด่นของโมเดลภาษาในช่วงหลัง โดยไม่ต้องเผชิญผลข้างเคียงจากขนาดอันมหึมาของโมเดลภาษา เช่น การปล่อยคาร์บอนที่เพิ่มขึ้นและค่าใช้จ่ายในการบำรุงรักษาที่สูง แม้อัลกอริทึมการบีบอัดจำนวนมากจะแสดงให้เห็นถึงความก้าวหน้าที่โดดเด่นในการบีบอัดโมเดลภาษา แต่ในทางกลับกัน จำนวนอัลกอริทึมที่มากเกินไปก็ทำให้ยากต่อการจับแนวโน้มใหม่ ๆ และระบุแนวคิดพื้นฐานที่อยู่เบื้องหลังอัลกอริทึมเหล่านั้น ในบทความนี้ เราได้สำรวจและสรุปอัลกอริทึมการบีบอัดที่หลากหลาย ซึ่งรวมถึง pruning, quantization, knowledge distillation, low-rank approximation, parameter sharing และการออกแบบสถาปัตยกรรมที่มีประสิทธิภาพ เราไม่เพียงสรุปแนวโน้มโดยรวมของอัลกอริทึมการบีบอัดที่หลากหลายเท่านั้น แต่ยังคัดเลือกอัลกอริทึมตัวแทนและวิเคราะห์เชิงลึกอีกด้วย เราอภิปรายถึงคุณค่าของอัลกอริทึมการบีบอัดแต่ละหมวดหมู่ และคุณสมบัติที่พึงประสงค์ของอัลกอริทึมการบีบอัดต้นทุนต่ำ ซึ่งกำลังมีอิทธิพลอย่างมากจากการเกิดขึ้นของ large language models สุดท้าย เราแนะนำหัวข้อวิจัยที่มีแนวโน้มในอนาคตโดยอิงจากผลการสำรวจของเรา
> How can we compress language models without sacrificing accuracy? The number of compression algorithms for language models is rapidly growing to benefit from remarkable advances of recent language models without side effects due to the gigantic size of language models, such as increased carbon emissions and expensive maintenance fees. While numerous compression algorithms have shown remarkable progress in compressing language models, it ironically becomes challenging to capture emerging trends and identify the fundamental concepts underlying them due to the excessive number of algorithms. In this paper, we survey and summarize diverse compression algorithms including pruning, quantization, knowledge distillation, low-rank approximation, parameter sharing, and efficient architecture design. We not only summarize the overall trend of diverse compression algorithms but also select representative algorithms and provide in-depth analyses of them. We discuss the value of each category of compression algorithms, and the desired properties of low-cost compression algorithms which have a significant impact due to the emergence of large language models. Finally, we introduce promising future research topics based on our survey results.
ลิงก์งานวิจัย
https://arxiv.org/abs/2401.15347
อ่านเพิ่มเติม
https://x.com/omarsar0/status/1752746770377974072
MoE-LLaVA: การผสานผู้เชี่ยวชาญสำหรับโมเดลวิชัน-ภาษาขนาดใหญ่ / MoE-LLaVA: Mixture of Experts for Large Vision-Language Models
แนะนำงานวิจัย
- วิธีการนี้ใช้การปรับแต่งแบบ mixture of experts สำหรับโมเดลวิชัน-ภาษาขนาดใหญ่ เพื่อสร้างโมเดลแบบ sparse ที่ลดจำนวนพารามิเตอร์ลงอย่างมากภายใต้ต้นทุนการคำนวณที่คงที่ อีกทั้งยังช่วยแก้ปัญหาประสิทธิภาพที่ลดลงซึ่งเกี่ยวข้องกับการเรียนรู้แบบหลายโมดัลและความเบาบางของโมเดลด้วย
> Employs mixture of experts tuning for large vision-language models which constructs a sparse model with a substantial reduction in parameters with a constant computational cost; this approach also helps to address performance degradation associated with multi-modal learning and model sparsity.
บทคัดย่อ(Abstract)
- สำหรับโมเดลวิชัน-ภาษาแบบขนาดใหญ่ (LVLM) การขยายขนาดโมเดลสามารถช่วยเพิ่มประสิทธิภาพได้อย่างมีประสิทธิผล อย่างไรก็ตาม เมื่อขยายจำนวนพารามิเตอร์ของโมเดล ต้นทุนในการฝึกและการอนุมานจะเพิ่มขึ้นอย่างมาก เนื่องจากพารามิเตอร์ทั้งหมดของโมเดลจะถูกเปิดใช้งานสำหรับทุกโทเคนในการคำนวณ งานวิจัยนี้จึงเสนอ MoE-tuning ซึ่งเป็นกลยุทธ์การฝึกแบบใหม่สำหรับ LVLM ที่สามารถสร้างโมเดลแบบ sparse ซึ่งมีจำนวนพารามิเตอร์มหาศาลแต่มีต้นทุนการคำนวณคงที่ และสามารถแก้ปัญหาประสิทธิภาพลดลงที่มักเกิดขึ้นกับการเรียนรู้แบบมัลติโหมดและความเป็น sparse ของโมเดลได้อย่างมีประสิทธิภาพ นอกจากนี้ยังนำเสนอเฟรมเวิร์ก MoE-LLaVA ซึ่งเป็นสถาปัตยกรรม sparse LVLM ที่อิงกับ MoE โดยเฟรมเวิร์กนี้จะเปิดใช้งานเฉพาะผู้เชี่ยวชาญ top-k ผ่าน router ระหว่างการใช้งานจริง และคงให้ผู้เชี่ยวชาญที่เหลืออยู่ในสถานะไม่ทำงาน การทดลองอย่างกว้างขวางของ Unity แสดงให้เห็นถึงความสามารถที่โดดเด่นของ MoE-LLaVA ในด้านความเข้าใจภาพ และศักยภาพในการลดอาการหลอนของผลลัพธ์จากโมเดล ที่น่าทึ่งคือ ด้วยพารามิเตอร์ที่ถูกเปิดใช้งานแบบ sparse เพียง 3 พันล้านตัว MoE-LLaVA แสดงประสิทธิภาพได้เทียบเคียงกับ LLaVA-1.5-7B บนชุดข้อมูลความเข้าใจภาพที่หลากหลาย และยังทำได้ดีกว่า LLaVA-1.5-13B บนเบนช์มาร์ก object hallucination อีกด้วย Unity ตั้งใจใช้ MoE-LLaVA เพื่อวาง baseline สำหรับ sparse LVLM และมอบอินไซต์ที่มีคุณค่าสำหรับงานวิจัยในอนาคตเพื่อพัฒนาระบบการเรียนรู้แบบมัลติโหมดที่มีประสิทธิภาพและประสิทธิผลยิ่งขึ้น โค้ดเผยแพร่ที่ \url{https://github.com/PKU-YuanGroup/MoE-LLaVA}
> For Large Vision-Language Models (LVLMs), scaling the model can effectively improve performance. However, expanding model parameters significantly increases the training and inferring costs, as all model parameters are activated for each token in the calculation. In this work, we propose a novel training strategy MoE-tuning for LVLMs, which can constructing a sparse model with an outrageous number of parameter but a constant computational cost, and effectively addresses the performance degradation typically associated with multi-modal learning and model sparsity. Furthermore, we present the MoE-LLaVA framework, a MoE-based sparse LVLM architecture. This framework uniquely activates only the top-k experts through routers during deployment, keeping the remaining experts inactive. Our extensive experiments highlight the excellent capabilities of MoE-LLaVA in visual understanding and its potential to reduce hallucinations in model outputs. Remarkably, with just 3 billion sparsely activated parameters, MoE-LLaVA demonstrates performance comparable to the LLaVA-1.5-7B on various visual understanding datasets and even surpasses the LLaVA-1.5-13B in object hallucination benchmarks. Through MoE-LLaVA, we aim to establish a baseline for sparse LVLMs and provide valuable insights for future research in developing more efficient and effective multi-modal learning systems. Code is released at \url{https://github.com/PKU-YuanGroup/MoE-LLaVA}.
ลิงก์บทความวิจัย
https://arxiv.org/abs/2401.15947
อ่านเพิ่มเติม
https://github.com/PKU-YuanGroup/MoE-LLaVA
https://x.com/LinBin46984/status/1753403875531375003
เขียนเว็บใหม่: สูตรสำหรับการสร้างแบบจำลองภาษาอย่างมีประสิทธิภาพทั้งด้านการคำนวณและข้อมูล / Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling
แนะนำงานวิจัย
- ใช้โมเดล instruction-tuned สำเร็จรูปที่ถูก prompt ให้ถอดความเอกสารเว็บให้อยู่ในสไตล์และรูปแบบเฉพาะ เช่น “เหมือน Wikipedia” หรือ “รูปแบบถาม-ตอบ” เพื่อพรีเทรน LLM ร่วมกันบนข้อมูลจริงและข้อความถอดความสังเคราะห์ ช่วยเร่งความเร็วการพรีเทรนได้สูงสุดประมาณ 3 เท่า ปรับปรุง perplexity และเพิ่มความแม่นยำของการตอบคำถามแบบ zero-shot ในหลายงาน
> Uses an off-the-shelf instruction-tuned model prompted to paraphrase web documents in specific styles and formats such as “like wikipedia” or “question-answer format” to jointly pre-train llms on real and synthetic rephrases; it speeds up pre-training by ~3x, improves perplexity, and improves zero-shot question answering accuracy on many tasks.
บทคัดย่อ(Abstract)
- โมเดลภาษาขนาดใหญ่มักถูกฝึกจากข้อมูลที่กวาดมาจากเว็บจำนวนมหาศาล ซึ่งโดยมากไม่มีโครงสร้าง มีสัญญาณรบกวนสูง และเรียบเรียงได้ไม่ดี ตามกฎการสเกลในปัจจุบัน การเรียนรู้จากข้อมูลลักษณะนี้ต้องใช้ทั้งทรัพยากรคอมพิวต์และข้อมูลจำนวนมาก ซึ่งจะเพิ่มขึ้นตามขนาดของโมเดลที่กำลังฝึก สิ่งนี้ทำได้ยากในทางปฏิบัติ ทั้งจากต้นทุนและระยะเวลามหาศาลของการ pre-training รวมถึงการขาดแคลนข้อมูลคุณภาพสูงบนเว็บที่กำลังใกล้เข้ามา งานวิจัยนี้จึงเสนอ Web Rephrase Augmented Pre-training ($\textbf{WRAP}$) ซึ่งใช้โมเดล instruction-tuned แบบสำเร็จรูปที่ถูกป้อนพรอมป์ให้ถอดความเอกสารบนเว็บในสไตล์เฉพาะ เช่น “เหมือน Wikipedia” หรือ “ในรูปแบบถาม-ตอบ” เพื่อทำ pre-train LLM ร่วมกันบนข้อมูลจริงและข้อมูลสังเคราะห์ที่ถอดความแล้ว ขั้นแรก ผู้วิจัยแสดงให้เห็นว่าการใช้ WRAP กับชุดข้อมูล C4 ซึ่งมีสัญญาณรบกวนตามธรรมชาติ ช่วยเร่งความเร็วการ pre-training ได้ $\sim3x$ ภายใต้งบประมาณคอมพิวต์สำหรับ pre-training เท่าเดิม มันช่วยปรับปรุง perplexity ได้มากกว่า 10% โดยเฉลี่ยในหลายชุดย่อยของ Pile และเพิ่มความแม่นยำในการตอบคำถามแบบ zero-shot ใน 13 งานได้มากกว่า 2% ขั้นที่สอง ผู้วิจัยศึกษาผลของสไตล์การถอดความต่อประสิทธิภาพของโมเดล ซึ่งให้ข้อสังเกตว่าการจัดองค์ประกอบของข้อมูลฝึกสามารถส่งผลต่อประสิทธิภาพของ LLM ในสถานการณ์ OOD ได้อย่างไร ผลลัพธ์ที่ดีขึ้นนี้อธิบายได้จากข้อเท็จจริงที่ว่าข้อมูลสังเคราะห์ที่ผ่านการถอดความมีประโยชน์มากกว่าการใช้ข้อมูลจริงเพียงอย่างเดียว เพราะ (i) มีความหลากหลายของสไตล์ที่สะท้อนรูปแบบการประเมิน downstream ได้ใกล้เคียง และ (ii) มี “คุณภาพ” สูงกว่าข้อมูลที่กวาดมาจากเว็บ
> Large language models are trained on massive scrapes of the web, which are often unstructured, noisy, and poorly phrased. Current scaling laws show that learning from such data requires an abundance of both compute and data, which grows with the size of the model being trained. This is infeasible both because of the large compute costs and duration associated with pre-training, and the impending scarcity of high-quality data on the web. In this work, we propose Web Rephrase Augmented Pre-training ($\textbf{WRAP}$) that uses an off-the-shelf instruction-tuned model prompted to paraphrase documents on the web in specific styles such as "like Wikipedia" or in "question-answer format" to jointly pre-train LLMs on real and synthetic rephrases. First, we show that using WRAP on the C4 dataset, which is naturally noisy, speeds up pre-training by $\sim3x$. At the same pre-training compute budget, it improves perplexity by more than 10% on average across different subsets of the Pile, and improves zero-shot question answer accuracy across 13 tasks by more than 2%. Second, we investigate the impact of the re-phrasing style on the performance of the model, offering insights into how the composition of the training data can impact the performance of LLMs in OOD settings. Our gains are attributed to the fact that re-phrased synthetic data has higher utility than just real data because it (i) incorporates style diversity that closely reflects downstream evaluation style, and (ii) has higher 'quality' than web-scraped data.
ลิงก์งานวิจัย
https://arxiv.org/abs/2401.16380
อ่านเพิ่มเติม
https://x.com/pratyushmaini/status/1752337225097076809
พลังของ Noise: นิยามใหม่ของ Retrieval สำหรับระบบ RAG / The Power of Noise: Redefining Retrieval for RAG Systems
แนะนำงานวิจัย
- งานวิจัยที่มุ่งเน้นองค์ประกอบที่จำเป็นต่อการปรับปรุงส่วน retrieval ของระบบ RAG โดยยืนยันว่าตำแหน่งของข้อมูลที่เกี่ยวข้องควรถูกวางไว้ใกล้กับคิวรี เพราะหากไม่เป็นเช่นนั้น โมเดลจะโฟกัสกับข้อมูลนั้นได้ยาก อีกทั้งยังพบอย่างน่าประหลาดใจว่าเอกสารที่เกี่ยวข้องไม่ได้ทำให้ประสิทธิภาพของระบบ RAG ดีขึ้นเสมอไป และที่น่าคาดไม่ถึงยิ่งกว่านั้นคือ เอกสารที่ไม่เกี่ยวข้องและมี noise มากก็สามารถช่วยเพิ่มความแม่นยำได้ หากถูกจัดวางอย่างเหมาะสม
> a study that focuses on the components needed to improve the retrieval component of a rag system; confirms that the position of relevant information should be placed near the query, the model will struggle to attend to the information if this is not the case; surprisingly, it finds that related documents don't necessarily lead to improved performance for the rag system; even more unexpectedly, irrelevant and noisy documents can help drive up accuracy if placed correctly.
บทคัดย่อ(Abstract)
- ระบบ Retrieval-Augmented Generation (RAG) ถือเป็นความก้าวหน้าครั้งสำคัญเหนือกว่า Large Language Model (LLM) แบบดั้งเดิม ระบบ RAG เพิ่มความสามารถในการสร้างเนื้อหาโดยผสานข้อมูลภายนอกที่ดึงมาผ่านขั้นตอน Information Retrieval (IR) จึงช่วยเอาชนะข้อจำกัดของ LLM มาตรฐานที่ถูกจำกัดด้วยความรู้จากการพรีเทรนและหน้าต่างบริบทที่มีจำกัด งานวิจัยส่วนใหญ่ในสาขานี้มุ่งเน้นไปที่ด้านการสร้างของ LLM ภายในระบบ RAG เป็นหลัก งานวิจัยนี้จึงเข้ามาเติมช่องว่างดังกล่าวด้วยการวิเคราะห์อิทธิพลขององค์ประกอบ IR ต่อระบบ RAG อย่างละเอียดและเชิงวิพากษ์ ในบทความนี้ ผู้วิจัยวิเคราะห์ว่าตัวดึงข้อมูลควรมีคุณลักษณะใดเพื่อให้การจัดรูปแบบพรอมป์ต์ของ RAG มีประสิทธิภาพ โดยมุ่งเน้นที่ประเภทของเอกสารที่ควรถูกดึงมา ประเมินปัจจัยต่าง ๆ เช่น ความเกี่ยวข้องของเอกสารกับพรอมป์ต์ ตำแหน่งของเอกสาร และจำนวนเอกสารที่รวมอยู่ในบริบท ผลลัพธ์เผยให้เห็นข้อมูลเชิงลึกที่น่าสนใจว่า ตรงกันข้ามกับสมมติฐานตั้งต้นที่ว่าเอกสารที่ไม่เกี่ยวข้องจะทำให้คุณภาพลดลง การใส่เอกสารที่ไม่เกี่ยวข้องกลับสามารถเพิ่มความแม่นยำได้อย่างไม่คาดคิดมากกว่า 30% ผลลัพธ์เหล่านี้ตอกย้ำถึงความจำเป็นในการพัฒนากลยุทธ์เฉพาะทางเพื่อผสานการค้นคืนข้อมูลเข้ากับโมเดลการสร้างภาษา และวางรากฐานสำหรับการวิจัยในอนาคตของสาขานี้
> Retrieval-Augmented Generation (RAG) systems represent a significant advancement over traditional Large Language Models (LLMs). RAG systems enhance their generation ability by incorporating external data retrieved through an Information Retrieval (IR) phase, overcoming the limitations of standard LLMs, which are restricted to their pre-trained knowledge and limited context window. Most research in this area has predominantly concentrated on the generative aspect of LLMs within RAG systems. Our study fills this gap by thoroughly and critically analyzing the influence of IR components on RAG systems. This paper analyzes which characteristics a retriever should possess for an effective RAG's prompt formulation, focusing on the type of documents that should be retrieved. We evaluate various elements, such as the relevance of the documents to the prompt, their position, and the number included in the context. Our findings reveal, among other insights, that including irrelevant documents can unexpectedly enhance performance by more than 30% in accuracy, contradicting our initial assumption of diminished quality. These results underscore the need for developing specialized strategies to integrate retrieval with language generation models, thereby laying the groundwork for future research in this field.
ลิงก์บทความ
https://arxiv.org/abs/2401.14887
อ่านเพิ่มเติม
https://x.com/omarsar0/status/1751803310267314509
บทความสำรวจเกี่ยวกับอาการหลอนของโมเดลวิชัน-ภาษาขนาดใหญ่ / A Survey on Hallucination in Large Vision-Language Models
แนะนำบทความ
- กล่าวถึงปัญหาอาการหลอนใน Large Vision-Language Model (LVLM) และเทคนิคในการบรรเทาอาการหลอน แนะนำวิธีประเมินและเบนช์มาร์กสำหรับอาการหลอนของ LVLM พร้อมทั้งให้เคล็ดลับและการวิเคราะห์ที่เป็นประโยชน์เกี่ยวกับสาเหตุของอาการหลอนใน LVLM และแนวทางที่อาจช่วยบรรเทาได้
> Discusses hallucination issues and techniques to mitigate hallucination in large vision-language models (lvlm); it introduces lvlm hallucination evaluation methods and benchmarks; provides tips and a good analysis of the causes of lvlm hallucinations and potential ways to mitigate them.
บทคัดย่อ(Abstract)
- ช่วงหลังมานี้ การพัฒนา Large Vision-Language Model (LVLM) ได้รับความสนใจเพิ่มขึ้นอย่างต่อเนื่องในแวดวง AI เนื่องจากมีศักยภาพในการนำไปใช้งานจริง อย่างไรก็ตาม “อาการหลอน” หรือกล่าวให้ชัดเจนยิ่งขึ้นคือความไม่สอดคล้องกันระหว่างเนื้อหาภาพที่เป็นข้อเท็จจริงกับข้อความที่สร้างขึ้นซึ่งสอดรับกัน กลายเป็นความท้าทายสำคัญต่อการใช้งาน LVLM งานสำรวจฉบับครอบคลุมนี้พยายามแยกวิเคราะห์อาการหลอนที่เกี่ยวข้องกับ LVLM เพื่อสร้างภาพรวมและเอื้อต่อการบรรเทาปัญหาในอนาคต การสำรวจเริ่มต้นจากการนิยามแนวคิดของอาการหลอนใน LVLM ให้ชัดเจน นำเสนอรูปแบบอาการหลอนที่หลากหลาย และชี้ให้เห็นความท้าทายเฉพาะตัวที่มีอยู่ในอาการหลอนของ LVLM จากนั้นจึงสรุปเบนช์มาร์กและระเบียบวิธีที่ออกแบบมาโดยเฉพาะสำหรับการประเมินอาการหลอนที่เป็นลักษณะเฉพาะของ LVLM นอกจากนี้ยังเจาะลึกไปที่การตรวจสอบสาเหตุรากของอาการหลอนเหล่านี้ โดยครอบคลุมข้อมูลเชิงลึกจากข้อมูลฝึกและองค์ประกอบของโมเดล อีกทั้งยังทบทวนวิธีการที่มีอยู่ในปัจจุบันสำหรับการบรรเทาอาการหลอนอย่างมีวิจารณญาณ สุดท้าย งานสำรวจนี้ปิดท้ายด้วยการอภิปรายคำถามที่ยังเปิดอยู่และทิศทางในอนาคตที่เกี่ยวข้องกับอาการหลอนภายใน LVLM
> Recent development of Large Vision-Language Models (LVLMs) has attracted growing attention within the AI landscape for its practical implementation potential. However, ``hallucination'', or more specifically, the misalignment between factual visual content and corresponding textual generation, poses a significant challenge of utilizing LVLMs. In this comprehensive survey, we dissect LVLM-related hallucinations in an attempt to establish an overview and facilitate future mitigation. Our scrutiny starts with a clarification of the concept of hallucinations in LVLMs, presenting a variety of hallucination symptoms and highlighting the unique challenges inherent in LVLM hallucinations. Subsequently, we outline the benchmarks and methodologies tailored specifically for evaluating hallucinations unique to LVLMs. Additionally, we delve into an investigation of the root causes of these hallucinations, encompassing insights from the training data and model components. We also critically review existing methods for mitigating hallucinations. The open questions and future directions pertaining to hallucinations within LVLMs are discussed to conclude this survey.
ลิงก์บทความ
https://arxiv.org/abs/2402.00253
อ่านเพิ่มเติม
https://x.com/omarsar0/status/1753449211931079101
SliceGPT: บีบอัดโมเดลภาษาขนาดใหญ่ด้วยการลบแถวและคอลัมน์ / SliceGPT: Compress Large Language Models by Deleting Rows and Columns
แนะนำงานวิจัย
- เป็นเทคนิคการบีบอัด LLM แบบใหม่ที่เสนอกรอบการทำ sparsification หลังการฝึก ซึ่งแทนที่เมทริกซ์น้ำหนักแต่ละตัวด้วยเมทริกซ์หนาแน่นที่เล็กลง ช่วยลดมิติของ embedding ในเครือข่าย และสามารถลบพารามิเตอร์ของโมเดล Llama2-70B และ Phi-2 ได้สูงสุด 20% โดยยังคงรักษาประสิทธิภาพ zero-shot ของโมเดลแบบหนาแน่นไว้ได้เกือบทั้งหมด
> A new llm compression technique that proposes a post-training sparsification scheme that replaces each weight matrix with a smaller dense matrix; helps reduce the embedding dimension of the network and can remove up to 20% of model parameters for llama2-70b and phi-2 models while retaining most of the zero-shot performance of the dense models.
บทคัดย่อ(Abstract)
- โมเดลภาษาขนาดใหญ่ได้กลายเป็นรากฐานสำคัญของการประมวลผลภาษาธรรมชาติ แต่การใช้งานนั้นมาพร้อมต้นทุนที่สูงมากทั้งในด้านทรัพยากรการคำนวณและหน่วยความจำ การทำ sparsification เป็นทางออกที่ช่วยบรรเทาข้อจำกัดด้านทรัพยากรเหล่านี้ได้ และงานวิจัยล่าสุดก็แสดงให้เห็นว่าโมเดลที่ผ่านการฝึกแล้วสามารถทำให้เป็น sparse แบบ post-hoc ได้ อย่างไรก็ตาม เทคนิคการทำให้เป็น sparse ที่มีอยู่เดิมเผชิญกับข้อท้าทาย เพราะต้องใช้โครงสร้างข้อมูลเพิ่มเติม และให้การเร่งความเร็วได้จำกัดบนฮาร์ดแวร์ปัจจุบัน งานวิจัยนี้นำเสนอ SliceGPT ซึ่งเป็นวิธีการทำ sparsification หลังการฝึกแบบใหม่ ที่แทนที่เมทริกซ์น้ำหนักแต่ละตัวด้วยเมทริกซ์ที่เล็กลงแต่ยังคงหนาแน่นอยู่ เพื่อลดมิติ embedding ของเครือข่าย จากการทดลองอย่างกว้างขวาง ผู้วิจัยแสดงให้เห็นว่า SliceGPT สามารถลบพารามิเตอร์ของโมเดลได้สูงสุด 25% (รวม embeddings) สำหรับโมเดล LLAMA2-70B, OPT 66B และ Phi-2 พร้อมยังคงรักษาประสิทธิภาพงาน zero-shot ของโมเดลแบบหนาแน่นไว้ที่ 99%, 99% และ 90% ตามลำดับ โมเดลที่ถูก slice แล้วสามารถรันบน GPU จำนวนน้อยลงและทำงานได้เร็วขึ้นโดยไม่ต้องมีการปรับแต่งโค้ดเพิ่มเติม: บน GPU สำหรับผู้บริโภคขนาด 24GB เราลดการคำนวณรวมสำหรับการอนุมานของ LLAMA2-70B เหลือ 64% ของโมเดลแบบหนาแน่น และบน GPU A100 ขนาด 40GB ลดลงเหลือ 66% เรานำเสนออินไซต์ใหม่เกี่ยวกับ computational invariance ในเครือข่าย transformer ซึ่งทำให้ SliceGPT เป็นไปได้ และหวังว่าจะช่วยจุดประกายและเปิดทางให้แนวทางใหม่ ๆ ในการลดความต้องการหน่วยความจำและการคำนวณสำหรับโมเดลที่ผ่านการ pre-train แล้ว โค้ดดูได้ที่ https://github.com/microsoft/TransformerCompression
> Large language models have become the cornerstone of natural language processing, but their use comes with substantial costs in terms of compute and memory resources. Sparsification provides a solution to alleviate these resource constraints, and recent works have shown that trained models can be sparsified post-hoc. Existing sparsification techniques face challenges as they need additional data structures and offer constrained speedup with current hardware. In this paper we present SliceGPT, a new post-training sparsification scheme which replaces each weight matrix with a smaller (dense) matrix, reducing the embedding dimension of the network. Through extensive experimentation, we show that SliceGPT can remove up to 25% of the model parameters (including embeddings) for LLAMA2-70B, OPT 66B and Phi-2 models while maintaining 99%, 99% and 90% zero-shot task performance of the dense model respectively. Our sliced models run on fewer GPUs and run faster without any additional code optimization: on 24GB consumer GPUs we reduce the total compute for inference on LLAMA2-70B to 64% of that of the dense model; on 40GB A100 GPUs we reduce it to 66%. We offer a new insight, computational invariance in transformer networks, which enables SliceGPT and we hope it will inspire and enable future avenues to reduce memory and computation demands for pre-trained models. Code is available at: https://github.com/microsoft/TransformerCompression
ลิงก์งานวิจัย
https://arxiv.org/abs/2401.15024v1
อ่านเพิ่มเติม
https://github.com/microsoft/TransformerCompression
https://x.com/_akhaliq/status/1751796334531592496
ต้นฉบับ
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-c5e
⚠️โฆษณา⚠️: บทความนี้ที่ ชุมชนผู้ใช้ PyTorch เกาหลี รวบรวมไว้มีประโยชน์หรือไม่? หาก สมัครเป็นสมาชิก เราจะส่งบทความสำคัญให้ทางอีเมล! (ค่าเริ่มต้นคือ Weekly แต่ เปลี่ยนเป็น Daily ได้)
ยังไม่มีความคิดเห็น