ภาพรวม

  • เราได้ลองแปลอัตโนมัติบทความเกี่ยวกับงานวิจัย ML ที่ DAIR.AI เผยแพร่ทุกสัปดาห์

  • งานวิจัยที่ส่งในสัปดาห์นี้มุ่งเน้นไปที่โมเดลภาษาขนาดใหญ่ (Large Language Models, LLMs) และการประเมินประสิทธิภาพของโมเดลเหล่านี้ โดยเฉพาะจากงานอย่าง 'Evaluating LLMs', 'LLMs for Chip Design', 'Efficient Context Window Extension of LLMs', และ 'Enhancing LLMs by Emotion Stimuli' ที่ทำให้เห็นว่ากำลังมีการอภิปรายถึงแนวทางการประยุกต์ใช้และการเพิ่มประสิทธิภาพ LLM ในหลากหลายรูปแบบ

  • แนวโน้มนี้สะท้อนให้เห็นว่าความสำคัญของ LLM ในแวดวงปัญญาประดิษฐ์ได้เพิ่มสูงขึ้นอย่างรวดเร็วในช่วงไม่กี่ปีที่ผ่านมา โดยเฉพาะเมื่อโมเดลชั้นนำอย่าง GPT series ของ OpenAI แสดงผลงานที่น่าประทับใจในงานประมวลผลภาษาธรรมชาติ (NLP) ที่หลากหลาย นักวิจัยจึงมุ่งความสนใจไปที่การพัฒนาโมเดลเหล่านี้ให้ก้าวหน้าขึ้น หรือการนำไปใช้กับปัญหาใหม่ ๆ ขณะเดียวกันก็มีความสนใจเพิ่มขึ้นต่อแนวทางการปรับปรุงประสิทธิภาพของโมเดล รวมถึงการใช้ปัจจัยอย่างอารมณ์หรือบริบทเชิงสถานการณ์เพื่อทำให้ข้อมูลนำเข้าและผลลัพธ์ของโมเดลมีความสมบูรณ์ยิ่งขึ้น

  • นอกจากนี้ งานอย่าง 'Next Generation AlphaFold' ยังชี้ให้เห็นว่า ในบริบทที่ไม่ใช่ LLM ก็มีความพยายามแสวงหาแนวทางที่พลิกโฉมด้วยการประยุกต์ใช้ระเบียบวิธีการเรียนรู้ของเครื่องกับสาขาเฉพาะทางอย่างชีววิทยาเชิงโครงสร้าง แนวโน้มการวิจัยเช่นนี้บ่งชี้ว่าเทคโนโลยี machine learning และ deep learning ไม่ได้ก้าวหน้าเพียงในเชิงทฤษฎีเท่านั้น แต่ยังกำลังพัฒนาไปเป็นแอปพลิเคชันที่เป็นรูปธรรมในหลายภาคส่วน เช่น อุตสาหกรรม วิทยาศาสตร์ และการแพทย์


ดีปเลิร์นนิงสำหรับการพยากรณ์อากาศรายวันจากข้อมูลสังเกตที่กระจัดกระจาย / Deep Learning for Day Forecasts from Sparse Observations

แนะนำงานวิจัย

  • โมเดลสภาพอากาศเชิงประสาทระดับล้ำสมัยที่ขยายทั้งช่วง lead time และตัวแปรที่โมเดลซึ่งอิงการสังเกตสามารถพยากรณ์ได้อย่างแม่นยำ โดยเรียนรู้จากทั้งเซนเซอร์ข้อมูลหนาแน่นและเซนเซอร์ข้อมูลเบาบาง และทำการพยากรณ์ล่วงหน้าได้สูงสุด 24 ชั่วโมงสำหรับปริมาณฝน ลม อุณหภูมิ และจุดน้ำค้าง

    A state-of-the-art neural weather model that extends both the lead time range and the variables that an observation-based model can predict well; learns from both dense and sparse data sensors and makes predictions up to 24 hours ahead for precipitation, wind, temperature, and dew point.

บทคัดย่อ

  • โครงข่ายประสาทเชิงลึกนำเสนอกรอบแนวคิดทางเลือกสำหรับการสร้างแบบจำลองสภาพอากาศ ความสามารถของโมเดลเชิงประสาทในการให้การพยากรณ์ได้ภายในเวลาไม่ถึงหนึ่งวินาทีเมื่อมีข้อมูลพร้อม และทำได้ด้วยความละเอียดเชิงเวลาและเชิงพื้นที่ที่สูงมาก ตลอดจนความสามารถในการเรียนรู้โดยตรงจากการสังเกตบรรยากาศ เป็นเพียงส่วนหนึ่งของข้อได้เปรียบเฉพาะตัวของโมเดลประเภทนี้เท่านั้น จนถึงปัจจุบัน โมเดลเชิงประสาทที่ฝึกด้วยการสังเกตบรรยากาศ ซึ่งเป็นข้อมูลที่มีความเที่ยงตรงสูงสุดและมีความหน่วงต่ำที่สุด ยังทำผลงานได้ดีเพียงสำหรับตัวแปรเดียวคือปริมาณฝน และมี lead time สูงสุด 12 ชั่วโมง เมื่อเทียบกับโมเดล Numerical Weather Prediction เชิงความน่าจะเป็นที่ล้ำสมัย ในบทความนี้ เรานำเสนอ MetNet-3 ซึ่งขยายอย่างมีนัยสำคัญทั้งช่วง lead time และประเภทของตัวแปรที่โมเดลเชิงประสาทซึ่งอิงการสังเกตสามารถพยากรณ์ได้ดี MetNet-3 เรียนรู้จากทั้งเซนเซอร์ข้อมูลหนาแน่นและเบาบาง และพยากรณ์ล่วงหน้าได้สูงสุด 24 ชั่วโมงสำหรับปริมาณฝน ลม อุณหภูมิ และจุดน้ำค้าง MetNet-3 แนะนำเทคนิค densification สำคัญที่ช่วยจับกระบวนการ data assimilation โดยนัย และสร้างการพยากรณ์ที่มีความหนาแน่นเชิงพื้นที่ แม้เครือข่ายจะถูกฝึกบนเป้าหมายที่เบาบางอย่างยิ่งก็ตาม MetNet-3 มีความละเอียดเชิงเวลาและเชิงพื้นที่สูงถึง 2 นาทีและ 1 กม. ตามลำดับ พร้อมทั้งมี operational latency ต่ำ เราพบว่า MetNet-3 สามารถทำผลงานเหนือกว่า NWP แบบสมาชิกเดี่ยวและหลายสมาชิกชั้นนำ เช่น HRRR และ ENS ในภูมิภาค CONUS สำหรับการพยากรณ์ล่วงหน้าสูงสุด 24 ชั่วโมง ซึ่งเป็นการสร้างหมุดหมายใหม่ด้านประสิทธิภาพสำหรับโมเดลโครงข่ายประสาทที่อิงการสังเกต MetNet-3 ถูกนำไปใช้งานจริงแล้ว และการพยากรณ์ของมันถูกให้บริการบน Google Search ร่วมกับโมเดลอื่น ๆ

    Deep neural networks offer an alternative paradigm for modeling weather conditions. The ability of neural models to make a prediction in less than a second once the data is available and to do so with very high temporal and spatial resolution, and the ability to learn directly from atmospheric observations, are just some of these models' unique advantages. Neural models trained using atmospheric observations, the highest fidelity and lowest latency data, have to date achieved good performance only up to twelve hours of lead time when compared with state-of-the-art probabilistic Numerical Weather Prediction models and only for the sole variable of precipitation. In this paper, we present MetNet-3 that extends significantly both the lead time range and the variables that an observation based neural model can predict well. MetNet-3 learns from both dense and sparse data sensors and makes predictions up to 24 hours ahead for precipitation, wind, temperature and dew point. MetNet-3 introduces a key densification technique that implicitly captures data assimilation and produces spatially dense forecasts in spite of the network training on extremely sparse targets. MetNet-3 has a high temporal and spatial resolution of, respectively, up to 2 minutes and 1 km as well as a low operational latency. We find that MetNet-3 is able to outperform the best single- and multi-member NWPs such as HRRR and ENS over the CONUS region for up to 24 hours ahead setting a new performance milestone for observation based neural models. MetNet-3 is operational and its forecasts are served in Google Search in conjunction with other models.

ลิงก์งานวิจัย

https://arxiv.org/abs/2306.06079

อ่านเพิ่มเติม

https://x.com/GoogleAI/status/1719774923294687636


การประเมินโมเดลภาษาขนาดใหญ่: งานสำรวจอย่างครอบคลุม / Evaluating Large Language Models: A Comprehensive Survey

แนะนำงานวิจัย

  • งานสำรวจอย่างครอบคลุม (มากกว่า 100 หน้า) เกี่ยวกับการประเมิน LLM โดยครอบคลุมการอภิปรายเกี่ยวกับประเภทการประเมินต่าง ๆ ชุดข้อมูล เทคนิค และอื่น ๆ #llm-survey #llm-evaluation

    A comprehensive survey (100+ pages) on evaluating llms, including discussions about the different types of evaluations, datasets, techniques, and more.

บทคัดย่อ

  • โมเดลภาษาขนาดใหญ่ (LLM) ได้แสดงความสามารถอันน่าทึ่งในงานที่หลากหลายอย่างกว้างขวาง ได้รับความสนใจอย่างมากและถูกนำไปใช้งานในแอปพลิเคชันปลายน้ำจำนวนมาก อย่างไรก็ตาม เช่นเดียวกับดาบสองคม LLM ก็มีความเสี่ยงแฝงอยู่เช่นกัน อาจเกิดการรั่วไหลของข้อมูลส่วนบุคคล หรือสร้างเนื้อหาที่ไม่เหมาะสม เป็นอันตราย หรือทำให้เข้าใจผิดได้ นอกจากนี้ ความก้าวหน้าอย่างรวดเร็วของ LLM ยังทำให้เกิดความกังวลเกี่ยวกับความเป็นไปได้ของการเกิดขึ้นของระบบอภิปัญญาโดยไม่มีมาตรการป้องกันที่เพียงพอ เพื่อใช้ประโยชน์จากศักยภาพของ LLM ได้อย่างมีประสิทธิภาพ พร้อมทั้งรับประกันการพัฒนาที่ปลอดภัยและเป็นประโยชน์ การประเมิน LLM อย่างเข้มงวดและครอบคลุมจึงเป็นสิ่งสำคัญอย่างยิ่ง แบบสำรวจนี้มุ่งนำเสนอมุมมองแบบรอบด้านเกี่ยวกับการประเมิน LLM เราแบ่งการประเมิน LLM ออกเป็นสามกลุ่มหลัก ได้แก่ การประเมินความรู้และความสามารถ การประเมินความสอดคล้อง และการประเมินความปลอดภัย นอกจากการทบทวนอย่างครอบคลุมเกี่ยวกับวิธีวิทยาการประเมินและเบนช์มาร์กในทั้งสามด้านนี้แล้ว ยังได้รวบรวมภาพรวมของการประเมินที่เกี่ยวข้องกับประสิทธิภาพของ LLM ในโดเมนเฉพาะทาง และอภิปรายถึงการสร้างแพลตฟอร์มการประเมินแบบครบวงจรที่ครอบคลุมการประเมิน LLM ในด้านความสามารถ ความสอดคล้อง ความปลอดภัย และการประยุกต์ใช้ เราหวังว่าภาพรวมที่ครอบคลุมนี้จะช่วยกระตุ้นงานวิจัยเกี่ยวกับการประเมิน LLM ให้มากยิ่งขึ้น และท้ายที่สุดทำให้การประเมินกลายเป็นรากฐานสำคัญในการชี้นำการพัฒนา LLM อย่างมีความรับผิดชอบ เราคาดหวังว่าสิ่งนี้จะช่วยผลักดันวิวัฒนาการของมันไปในทิศทางที่เพิ่มประโยชน์ต่อสังคมให้สูงสุด พร้อมลดความเสี่ยงที่อาจเกิดขึ้นให้เหลือน้อยที่สุด สามารถดูรายชื่อบทความที่เกี่ยวข้องซึ่งคัดสรรไว้ได้ที่ https://github.com/tjunlp-lab/Awesome-LLMs-Evaluation-Papers
    > Large language models (LLMs) have demonstrated remarkable capabilities across a broad spectrum of tasks. They have attracted significant attention and been deployed in numerous downstream applications. Nevertheless, akin to a double-edged sword, LLMs also present potential risks. They could suffer from private data leaks or yield inappropriate, harmful, or misleading content. Additionally, the rapid progress of LLMs raises concerns about the potential emergence of superintelligent systems without adequate safeguards. To effectively capitalize on LLM capacities as well as ensure their safe and beneficial development, it is critical to conduct a rigorous and comprehensive evaluation of LLMs. This survey endeavors to offer a panoramic perspective on the evaluation of LLMs. We categorize the evaluation of LLMs into three major groups: knowledge and capability evaluation, alignment evaluation and safety evaluation. In addition to the comprehensive review on the evaluation methodologies and benchmarks on these three aspects, we collate a compendium of evaluations pertaining to LLMs' performance in specialized domains, and discuss the construction of comprehensive evaluation platforms that cover LLM evaluations on capabilities, alignment, safety, and applicability. We hope that this comprehensive overview will stimulate further research interests in the evaluation of LLMs, with the ultimate goal of making evaluation serve as a cornerstone in guiding the responsible development of LLMs. We envision that this will channel their evolution into a direction that maximizes societal benefit while minimizing potential risks. A curated list of related papers has been publicly available at https://github.com/tjunlp-lab/Awesome-LLMs-Evaluation-Papers.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2310.19736

อ่านเพิ่มเติม

https://x.com/omarsar0/status/1719351676828602502


ศึกแห่งแบ็กโบน: การเปรียบเทียบโมเดลพรีเทรนขนาดใหญ่ข้ามงานคอมพิวเตอร์วิทัศน์ / Battle of the Backbones: A Large-Scale Comparison of Pretrained Models across Computer Vision Tasks

แนะนำบทความวิจัย

  • เฟรมเวิร์กเบนช์มาร์กขนาดใหญ่สำหรับชุดงานคอมพิวเตอร์วิทัศน์ที่หลากหลาย; แม้ว่า Vision Transformer (ViT) และการเรียนรู้แบบกำกับตนเอง (SSL) จะได้รับความนิยมเพิ่มขึ้นเรื่อย ๆ แต่พบว่าโครงข่ายประสาทคอนโวลูชันที่พรีเทรนแบบมีผู้สอนบนชุดฝึกขนาดใหญ่ให้ประสิทธิภาพดีที่สุดในงานส่วนใหญ่ #self-supervised #vision-transformer
    > A large benchmarking framework for a diverse suite of computer vision tasks; find that while vision transformers (vits) and self-supervised learning (ssl) are increasingly popular, convolutional neural networks pretrained in a supervised fashion on large training sets perform best on most tasks.

บทคัดย่อบทความวิจัย

  • ระบบคอมพิวเตอร์วิทัศน์ที่อิงโครงข่ายประสาทมักถูกสร้างบน backbone ซึ่งเป็นตัวสกัดคุณลักษณะที่ผ่านการพรีเทรนหรือถูกกำหนดค่าเริ่มต้นแบบสุ่ม เมื่อไม่กี่ปีก่อน ตัวเลือกมาตรฐานคือโครงข่ายประสาทแบบคอนโวลูชันที่ฝึกด้วย ImageNet อย่างไรก็ตาม ในช่วงหลังได้มี backbone จำนวนมากที่ผ่านการพรีเทรนด้วยอัลกอริทึมและชุดข้อมูลหลากหลายรูปแบบเกิดขึ้น แม้ว่าทางเลือกที่มากขึ้นนี้จะช่วยเพิ่มประสิทธิภาพให้ระบบหลายประเภท แต่ก็ทำให้ผู้ปฏิบัติงานตัดสินใจอย่างมีข้อมูลได้ยากว่าจะเลือก backbone ใด Battle of the Backbones (BoB) ช่วยให้การเลือกนี้ง่ายขึ้นด้วยการทำ benchmark ชุดโมเดลพรีเทรนที่หลากหลาย รวมถึง vision-language models โมเดลที่ฝึกด้วย self-supervised learning และ Stable Diffusion backbone ครอบคลุมงานคอมพิวเตอร์วิทัศน์หลายประเภท ตั้งแต่การจำแนกประเภท การตรวจจับวัตถุ ไปจนถึง OOD generalization และอื่น ๆ นอกจากนี้ BoB ยังชี้ให้เห็นทิศทางที่มีแนวโน้มสำหรับชุมชนนักวิจัยในการผลักดันคอมพิวเตอร์วิทัศน์ให้ก้าวหน้า โดยฉายภาพจุดแข็งและจุดอ่อนของแนวทางที่มีอยู่ผ่านการวิเคราะห์อย่างครอบคลุมจากการรันการฝึกมากกว่า 1,500 ครั้ง แม้ว่า vision transformers (ViTs) และ self-supervised learning (SSL) จะได้รับความนิยมมากขึ้นเรื่อย ๆ แต่เราพบว่าโครงข่ายประสาทแบบคอนโวลูชันที่พรีเทรนแบบมีผู้สอนบนชุดฝึกขนาดใหญ่ยังคงให้ผลลัพธ์ดีที่สุดในงานส่วนใหญ่เมื่อเทียบกับโมเดลที่เราพิจารณา นอกจากนี้ ในการเปรียบเทียบแบบ apples-to-apples บนสถาปัตยกรรมเดียวกันและชุดข้อมูลพรีเทรนที่มีขนาดใกล้เคียงกัน เราพบว่า SSL backbones มีความสามารถในการแข่งขันสูงมาก ซึ่งบ่งชี้ว่างานในอนาคตควรทำ SSL pretraining ด้วยสถาปัตยกรรมที่ก้าวหน้ากว่าและชุดข้อมูลพรีเทรนที่ใหญ่ขึ้น เราเผยแพร่ผลลัพธ์ดิบของการทดลองพร้อมโค้ดที่ช่วยให้นักวิจัยสามารถนำ backbone ของตนเองมาทดสอบได้ที่นี่(https://github.com/hsouri/Battle-of-the-Backbones)
    > Neural network based computer vision systems are typically built on a backbone, a pretrained or randomly initialized feature extractor. Several years ago, the default option was an ImageNet-trained convolutional neural network. However, the recent past has seen the emergence of countless backbones pretrained using various algorithms and datasets. While this abundance of choice has led to performance increases for a range of systems, it is difficult for practitioners to make informed decisions about which backbone to choose. Battle of the Backbones (BoB) makes this choice easier by benchmarking a diverse suite of pretrained models, including vision-language models, those trained via self-supervised learning, and the Stable Diffusion backbone, across a diverse set of computer vision tasks ranging from classification to object detection to OOD generalization and more. Furthermore, BoB sheds light on promising directions for the research community to advance computer vision by illuminating strengths and weakness of existing approaches through a comprehensive analysis conducted on more than 1500 training runs. While vision transformers (ViTs) and self-supervised learning (SSL) are increasingly popular, we find that convolutional neural networks pretrained in a supervised fashion on large training sets still perform best on most tasks among the models we consider. Moreover, in apples-to-apples comparisons on the same architectures and similarly sized pretraining datasets, we find that SSL backbones are highly competitive, indicating that future works should perform SSL pretraining with advanced architectures and larger pretraining datasets. We release the raw results of our experiments along with code that allows researchers to put their own backbones through the gauntlet here: https://github.com/hsouri/Battle-of-the-Backbones

ลิงก์บทความวิจัย

https://arxiv.org/abs/2310.19909

อ่านเพิ่มเติม

https://x.com/micahgoldblum/status/1719719308882801045


ChipNeMo: LLM ที่ปรับให้เข้ากับโดเมนสำหรับการออกแบบชิป / ChipNeMo: Domain-Adapted LLMs for Chip Design

แนะนำบทความวิจัย

  • เสนอการใช้ LLM สำหรับการออกแบบชิปในอุตสาหกรรมโดยอาศัยเทคนิค domain adaptation; ประเมินแอปพลิเคชันต่าง ๆ สำหรับการออกแบบชิป เช่น assistant chatbot, electronic design automation และ bug summarization; domain adaptation ช่วยเพิ่มประสิทธิภาพเหนือกว่าโมเดลเอนกประสงค์อย่างมีนัยสำคัญในงานออกแบบที่หลากหลาย; การใช้ domain-adapted LLM สำหรับ RAG ยังช่วยยกระดับคุณภาพของคำตอบเพิ่มเติมด้วย
    > Proposes using llms for industrial chip design by leveraging domain adaptation techniques; evaluates different applications for chip design such as assistant chatbot, electronic design automation, and bug summarization; domain adaptation significantly improves performance over general-purpose models on a variety of design tasks; using a domain-adapted llm for rag further improves answer quality.

บทคัดย่อบทความวิจัย

  • ChipNeMo มีเป้าหมายเพื่อสำรวจการประยุกต์ใช้ large language models (LLMs) สำหรับการออกแบบชิปในอุตสาหกรรม แทนที่จะนำ LLM เชิงพาณิชย์หรือโอเพนซอร์สที่มีอยู่มาใช้งานโดยตรง งานนี้เลือกใช้เทคนิคการปรับให้เข้ากับโดเมน เช่น tokenizer แบบกำหนดเอง, domain-adaptive continued pretraining, supervised fine-tuning (SFT) ด้วยคำสั่งเฉพาะโดเมน และโมเดล retrieval ที่ปรับให้เข้ากับโดเมน โดยประเมินวิธีเหล่านี้กับ 3 แอปพลิเคชัน LLM ที่คัดเลือกมาสำหรับการออกแบบชิป ได้แก่ แชตบอตผู้ช่วยวิศวกรรม การสร้างสคริปต์ EDA และการสรุปกับวิเคราะห์บั๊ก ผลลัพธ์แสดงให้เห็นว่าเทคนิคการปรับให้เข้ากับโดเมนเหล่านี้ช่วยยกระดับประสิทธิภาพของ LLM ได้อย่างมีนัยสำคัญเมื่อเทียบกับโมเดลฐานสำหรับงานทั่วไปในทั้ง 3 แอปพลิเคชันที่ประเมิน และยังช่วยลดขนาดโมเดลได้สูงสุด 5 เท่าโดยยังคงให้ประสิทธิภาพใกล้เคียงหรือดีกว่าในงานออกแบบหลากหลายประเภท นอกจากนี้ ผลการศึกษานี้ยังชี้ให้เห็นว่ายังมีพื้นที่ให้ปรับปรุงอีกระหว่างผลลัพธ์ปัจจุบันกับผลลัพธ์ในอุดมคติ ผู้วิจัยคาดว่าการศึกษาต่อเกี่ยวกับแนวทาง LLM ที่ปรับให้เข้ากับโดเมนจะช่วยลดช่องว่างนี้ได้ในอนาคต
    > ChipNeMo aims to explore the applications of large language models (LLMs) for industrial chip design. Instead of directly deploying off-the-shelf commercial or open-source LLMs, we instead adopt the following domain adaptation techniques: custom tokenizers, domain-adaptive continued pretraining, supervised fine-tuning (SFT) with domain-specific instructions, and domain-adapted retrieval models. We evaluate these methods on three selected LLM applications for chip design: an engineering assistant chatbot, EDA script generation, and bug summarization and analysis. Our results show that these domain adaptation techniques enable significant LLM performance improvements over general-purpose base models across the three evaluated applications, enabling up to 5x model size reduction with similar or better performance on a range of design tasks. Our findings also indicate that there's still room for improvement between our current results and ideal outcomes. We believe that further investigation of domain-adapted LLM approaches will help close this gap in the future.

ลิงก์งานวิจัย

https://arxiv.org/abs/2311.00176

อ่านเพิ่มเติม

https://x.com/omarsar0/status/1720066328961159387


YaRN: การขยาย context window ของ large language models อย่างมีประสิทธิภาพ / YaRN: Efficient Context Window Extension of Large Language Models

แนะนำงานวิจัย

  • เสนอวิธีที่มีประสิทธิภาพด้านการคำนวณสำหรับการขยาย context window ของ LLMs ให้เกินกว่าช่วงที่ใช้ในการ pretrain และทำการ extrapolate ให้เกินกว่าคอนเท็กซ์ที่มีจำกัดของชุดข้อมูล fine-tuning โดยสามารถทำซ้ำโมเดลได้ถึงความยาวคอนเท็กซ์สูงสุด 128k #yarn
    > Proposes a compute-efficient method for efficiently extending the context window of llms beyond what it was pretrained on; extrapolates beyond the limited context of a fine-tuning dataset and models have been reproduced up to 128k context length.

บทคัดย่องานวิจัย

  • Rotary Position Embeddings (RoPE) ได้รับการพิสูจน์แล้วว่าสามารถเข้ารหัสข้อมูลตำแหน่งในโมเดลภาษาที่อิงทรานส์ฟอร์เมอร์ได้อย่างมีประสิทธิภาพ อย่างไรก็ตาม โมเดลเหล่านี้ไม่สามารถทำให้เกิดการทั่วไปได้เมื่อเกินความยาวลำดับที่ใช้ฝึกมา งานนี้นำเสนอ YaRN (Yet another RoPE extensioN method) ในฐานะวิธีที่มีประสิทธิภาพด้านการคำนวณสำหรับขยาย context window ของโมเดลประเภทนี้ โดยต้องใช้โทเคนน้อยกว่าวิธีก่อนหน้าถึง 10 เท่า และใช้ขั้นตอนการฝึกน้อยลง 2.5 เท่า ด้วย YaRN ผู้วิจัยแสดงให้เห็นว่าโมเดล LLaMA สามารถใช้ประโยชน์และ extrapolate ไปยังความยาวคอนเท็กซ์ที่ยาวกว่าที่การ pre-training เดิมรองรับได้อย่างมีประสิทธิภาพ พร้อมทั้งยังทำผลงานเหนือกว่า state of the art เดิมในการขยาย context window อีกด้วย นอกจากนี้ YaRN ยังแสดงให้เห็นถึงความสามารถในการ extrapolate ให้เกินกว่าคอนเท็กซ์ที่จำกัดของชุดข้อมูล fine-tuning โมเดลที่ผ่านการ fine-tune ด้วย YaRN ถูกเผยแพร่ออนไลน์และมีการทำซ้ำได้ถึงความยาวคอนเท็กซ์ 128k ที่ https://github.com/jquesnelle/yarn
    > Rotary Position Embeddings (RoPE) have been shown to effectively encode positional information in transformer-based language models. However, these models fail to generalize past the sequence length they were trained on. We present YaRN (Yet another RoPE extensioN method), a compute-efficient method to extend the context window of such models, requiring 10x less tokens and 2.5x less training steps than previous methods. Using YaRN, we show that LLaMA models can effectively utilize and extrapolate to context lengths much longer than their original pre-training would allow, while also surpassing previous the state-of-the-art at context window extension. In addition, we demonstrate that YaRN exhibits the capability to extrapolate beyond the limited context of a fine-tuning dataset. The models fine-tuned using YaRN has been made available and reproduced online up to 128k context length at https://github.com/jquesnelle/yarn

ลิงก์งานวิจัย

https://arxiv.org/abs/2309.00071

อ่านเพิ่มเติม

https://x.com/theemozilla/status/1720107186850877662

https://discuss.pytorch.kr/t/yarn-rope-llm-10-2-5-context-window-128k/…


ชุดข้อมูลและโจทย์ Open DAC 2023 สำหรับการค้นหาสารดูดซับในการดักจับอากาศโดยตรง / The Open DAC 2023 Dataset and Challenges for Sorbent Discovery in Direct Air Capture

แนะนำงานวิจัย

  • แนะนำชุดข้อมูลที่ประกอบด้วยการคำนวณ density functional theory (DFT) มากกว่า 38 ล้านครั้ง สำหรับวัสดุ MOF มากกว่า 8,800 ชนิดที่มี CO2 และ/หรือ H2O ถูกดูดซับอยู่ ระบุคุณสมบัติสำหรับ DAC ได้โดยตรงจากชุดข้อมูล และยังฝึกโมเดล ML ล้ำสมัยด้วยชุดข้อมูลนี้เพื่อประมาณการคำนวณในระดับ DFT ซึ่งอาจกลายเป็นบรรทัดฐานสำคัญสำหรับความพยายามในอนาคตในการระบุ MOF สำหรับการใช้งานที่หลากหลายรวมถึง DAC
    > Introduces a dataset consisting of more than 38m density functional theory (dft) calculations on more than 8,800 mof materials containing adsorbed co2 and/or h2o; properties for dac are identified directly in the dataset; also trains state-of-the-art ml models with the dataset to approximate calculations at the dft level; can lead to important baseline for future efforts to identify mofs for a wide range of applications, including dac.

บทคัดย่อของงานวิจัย

  • เพื่อรับมือกับการเปลี่ยนแปลงสภาพภูมิอากาศของโลก เราจำเป็นต้องมีวิธีใหม่ในการกำจัดคาร์บอนไดออกไซด์อย่างเร่งด่วน Direct air capture (DAC) เป็นเทคโนโลยีเกิดใหม่สำหรับดักจับคาร์บอนไดออกไซด์จากอากาศโดยรอบโดยตรง Metal-organic frameworks (MOFs) ได้รับการศึกษาอย่างกว้างขวางในฐานะวัสดุดูดซับที่สามารถปรับแต่งได้สำหรับ DAC อย่างไรก็ตาม การค้นหา MOF sorbents ที่มีศักยภาพสำหรับ DAC เป็นเรื่องท้าทาย เนื่องจากมี chemical space ขนาดมหาศาลให้สำรวจ และจำเป็นต้องทำความเข้าใจวัสดุภายใต้เงื่อนไขของความชื้นและอุณหภูมิที่แตกต่างกัน Pure Storage ได้สำรวจแนวทางเชิงคำนวณที่อาศัยนวัตกรรมล่าสุดของ machine learning (ML) และนำเสนอชุดข้อมูลชื่อ Open DAC 2023 (ODAC23) ซึ่งประกอบด้วยการคำนวณ density functional theory (DFT) มากกว่า 38 ล้านครั้ง สำหรับวัสดุ MOF มากกว่า 8,800 ชนิดที่มี CO2 และ/หรือ H2O ถูกดูดซับอยู่ ODAC23 เป็นชุดข้อมูลการคำนวณการดูดซับของ MOF ในระดับความแม่นยำแบบ DFT ที่ใหญ่ที่สุดเท่าที่มีอยู่ในปัจจุบัน นอกจากใช้ตรวจสอบคุณสมบัติของโมเลกุลที่ถูกดูดซับแล้ว ชุดข้อมูลนี้ยังเป็นแหล่งข้อมูลที่อุดมไปด้วยรายละเอียดเกี่ยวกับ structural relaxation ของ MOF ซึ่งจะเป็นประโยชน์ในหลายบริบทนอกเหนือจากการใช้งานเฉพาะด้าน DAC อีกด้วย มีการระบุ MOF จำนวนมากที่มีคุณสมบัติน่าจับตาสำหรับ DAC ได้โดยตรงจาก ODAC23 นอกจากนี้ ยังได้ฝึกโมเดล machine learning ล้ำสมัยบนชุดข้อมูลนี้เพื่อประมาณการคำนวณในระดับ DFT ชุดข้อมูลโอเพนซอร์สนี้และโมเดล ML ชุดแรกของเราจะเป็นบรรทัดฐานสำคัญสำหรับความพยายามในอนาคตในการระบุ MOF สำหรับการใช้งานที่หลากหลาย รวมถึง DAC
    > New methods for carbon dioxide removal are urgently needed to combat global climate change. Direct air capture (DAC) is an emerging technology to capture carbon dioxide directly from ambient air. Metal-organic frameworks (MOFs) have been widely studied as potentially customizable adsorbents for DAC. However, discovering promising MOF sorbents for DAC is challenging because of the vast chemical space to explore and the need to understand materials as functions of humidity and temperature. We explore a computational approach benefiting from recent innovations in machine learning (ML) and present a dataset named Open DAC 2023 (ODAC23) consisting of more than 38M density functional theory (DFT) calculations on more than 8,800 MOF materials containing adsorbed CO2 and/or H2O. ODAC23 is by far the largest dataset of MOF adsorption calculations at the DFT level of accuracy currently available. In addition to probing properties of adsorbed molecules, the dataset is a rich source of information on structural relaxation of MOFs, which will be useful in many contexts beyond specific applications for DAC. A large number of MOFs with promising properties for DAC are identified directly in ODAC23. We also trained state-of-the-art ML models on this dataset to approximate calculations at the DFT level. This open-source dataset and our initial ML models will provide an important baseline for future efforts to identify MOFs for a wide range of applications, including DAC.

ลิงก์งานวิจัย

https://arxiv.org/abs/2311.00341

อ่านเพิ่มเติม

https://x.com/AIatMeta/status/1720143486505341128


กรอบงานแบบรวมศูนย์เพื่อบังคับใช้ ค้นพบ และส่งเสริมสมมาตรในแมชชีนเลิร์นนิง / A Unified Framework to Enforce, Discover, and Promote Symmetry in Machine Learning

แนะนำงานวิจัย

  • นำเสนอกรอบงานเชิงระเบียบวิธีแบบรวมศูนย์เพื่อบังคับใช้ ค้นพบ และส่งเสริมสมมาตรในแมชชีนเลิร์นนิง และยังอภิปรายด้วยว่าแนวคิดเหล่านี้สามารถนำไปประยุกต์ใช้กับโมเดล ML เช่น multilayer perceptrons และ basis function regression ได้อย่างไร
    > Presents a unified and methodological framework to enforce, discover, and promote symmetry in machine learning; also discusses how these ideas can be applied to ml models such as multilayer perceptions and basis function regression.

บทคัดย่อของงานวิจัย

  • สมมาตรมีอยู่ทั่วทั้งธรรมชาติ และกำลังมีบทบาทสำคัญมากขึ้นเรื่อย ๆ ในฟิสิกส์และแมชชีนเลิร์นนิง สมมาตรพื้นฐาน เช่น ความไม่แปรเปลี่ยนแบบปวงกาเร ช่วยให้เราสามารถคาดขยายกฎทางฟิสิกส์ที่ค้นพบในห้องปฏิบัติการบนโลกไปได้ไกลถึงสุดขอบเอกภพ เพื่อให้ได้ความสามารถในการคาดขยายเช่นนี้ในแอปพลิเคชันแมชชีนเลิร์นนิง สมมาตรจึงเป็นสิ่งจำเป็น ตัวอย่างเช่น ในการจำแนกภาพ ความไม่แปรเปลี่ยนต่อการเลื่อนตำแหน่งช่วยให้โมเดลที่มีพารามิเตอร์น้อยกว่า เช่น convolutional neural networks สามารถฝึกด้วยชุดข้อมูลที่เล็กกว่าและทำผลงานระดับล้ำสมัยได้ บทความนี้นำเสนอกรอบทฤษฎีและระเบียบวิธีแบบบูรณาการสำหรับการผนวกสมมาตรเข้าไปในโมเดลแมชชีนเลิร์นนิงในสามแนวทาง: 1. บังคับใช้สมมาตรที่ทราบอยู่แล้วระหว่างการฝึกโมเดล 2. ค้นหาสมมาตรที่ยังไม่ทราบของโมเดลหรือชุดข้อมูลที่กำหนด 3. ส่งเสริมสมมาตรระหว่างการฝึกโดยเรียนรู้โมเดลที่ทำลายสมมาตรภายในกลุ่มตัวเลือกที่ผู้ใช้ระบุ เมื่อมีหลักฐานเพียงพอในข้อมูล ทั้งสามแนวทางนี้ช่วยเสริมสร้างสมมาตรเมื่อฝึกโมเดลแมชชีนเลิร์นนิง ผู้เขียนแสดงให้เห็นว่างานเหล่านี้สามารถจัดวางอยู่ในกรอบคณิตศาสตร์ร่วมกัน โดยมี Lie derivative ที่เกี่ยวข้องกับการกระทำของ fiber-linear Lie group บน vector bundles เป็นวัตถุศูนย์กลาง งานนี้ขยายและรวมผลลัพธ์ที่มีอยู่หลายอย่างเข้าด้วยกัน โดยแสดงให้เห็นว่าการบังคับใช้และการค้นพบสมมาตรเป็นงานเชิงพีชคณิตเชิงเส้นที่เป็นคู่กันเมื่อพิจารณาจากโครงสร้างทวิภาคของ Lie derivative นอกจากนี้ ยังเสนอวิธีใหม่ในการส่งเสริมสมมาตรด้วยการแนะนำคลาสของฟังก์ชัน regularization แบบนูนที่อาศัย Lie derivative และการผ่อนคลายด้วย nuclear norm เพื่อกำหนดโทษต่อการละเมิดสมมาตรระหว่างการฝึกโมเดลแมชชีนเลิร์นนิง อีกทั้งยังอธิบายว่าแนวคิดเหล่านี้สามารถนำไปใช้กับโมเดลแมชชีนเลิร์นนิงได้หลากหลาย เช่น basis function regression, dynamical systems discovery, multilayer perceptrons และโครงข่ายประสาทที่ทำงานกับสนามเชิงพื้นที่อย่างภาพ
    > Symmetry is present throughout nature and continues to play an increasingly central role in physics and machine learning. Fundamental symmetries, such as Poincar'{e} invariance, allow physical laws discovered in laboratories on Earth to be extrapolated to the farthest reaches of the universe. Symmetry is essential to achieving this extrapolatory power in machine learning applications. For example, translation invariance in image classification allows models with fewer parameters, such as convolutional neural networks, to be trained on smaller data sets and achieve state-of-the-art performance. In this paper, we provide a unifying theoretical and methodological framework for incorporating symmetry into machine learning models in three ways: 1. enforcing known symmetry when training a model; 2. discovering unknown symmetries of a given model or data set; and 3. promoting symmetry during training by learning a model that breaks symmetries within a user-specified group of candidates when there is sufficient evidence in the data. We show that these tasks can be cast within a common mathematical framework whose central object is the Lie derivative associated with fiber-linear Lie group actions on vector bundles. We extend and unify several existing results by showing that enforcing and discovering symmetry are linear-algebraic tasks that are dual with respect to the bilinear structure of the Lie derivative. We also propose a novel way to promote symmetry by introducing a class of convex regularization functions based on the Lie derivative and nuclear norm relaxation to penalize symmetry breaking during training of machine learning models. We explain how these ideas can be applied to a wide range of machine learning models including basis function regression, dynamical systems discovery, multilayer perceptrons, and neural networks acting on spatial fields such as images.

ลิงก์งานวิจัย

https://arxiv.org/abs/2311.00212

อ่านเพิ่มเติม

https://x.com/eigensteve/status/1720115655050227911


AlphaFold รุ่นถัดไป / Next Generation AlphaFold

แนะนำงานวิจัย

  • รายงานความคืบหน้าของ AlphaFold รุ่นใหม่ที่ขยายขอบเขตการใช้งานได้อย่างมาก พร้อมแสดงความสามารถในการทำนายโครงสร้างร่วมของคอมเพล็กซ์ที่รวมทั้งโปรตีน กรดนิวคลีอิก โมเลกุลขนาดเล็ก ไอออน และหมู่ตกค้างที่มีการดัดแปลง และแสดงความแม่นยำที่สูงกว่าตัวทำนายเฉพาะทางสำหรับปฏิสัมพันธ์ระหว่างโปรตีนกับกรดนิวคลีอิก
    > Reports progress on a new iteration of alphafold that greatly expands its range of applicability; shows capabilities of joint structure prediction of complexes including proteins, nucleic acids, small molecules, ions, and modified residue; demonstrates greater accuracy on protein-nucleic acid interactions than specialists predictors.

ลิงก์งานวิจัย

https://storage.googleapis.com/deepmind-media/DeepMind.com/…

อ่านเพิ่มเติม

https://x.com/demishassabis/status/1719345831730368596


ทำความเข้าใจโมเดลภาษาขนาดใหญ่และเสริมประสิทธิภาพได้ด้วยสิ่งเร้าทางอารมณ์ / Large Language Models Understand and Can be Enhanced by Emotional Stimuli

แนะนำงานวิจัย

  • สำรวจความสามารถของ LLM ในการเข้าใจสิ่งเร้าทางอารมณ์ โดยทำการทดลองอัตโนมัติกับ 45 งานโดยใช้ LLM หลากหลายตัว เช่น Flan-T5-Large, Vicuna, Llama 2, BLOOM, ChatGPT และ GPT-4 งานเหล่านี้ครอบคลุมทั้งแอปพลิเคชันแบบกำหนดผลลัพธ์ตายตัวและแบบสร้างสรรค์ซึ่งสะท้อนสถานการณ์การประเมินอย่างครอบคลุม และผลการทดลองแสดงให้เห็นว่า LLM มีความเข้าใจด้านอารมณ์
    > Explores the ability of llms to understand emotional stimuli; conducts automatic experiments on 45 tasks using various llms, including flan-t5-large, vicuna, llama 2, bloom, chatgpt, and gpt-4; the tasks span deterministic and generative applications that represent comprehensive evaluation scenarios; experimental results show that llms have a grasp of emotional intelligence.

บทคัดย่อ

  • ความฉลาดทางอารมณ์ส่งผลอย่างมากต่อพฤติกรรมและปฏิสัมพันธ์ในชีวิตประจำวันของเรา แม้โมเดลภาษาขนาดใหญ่ (LLM) จะแสดงประสิทธิภาพที่น่าประทับใจในงานหลากหลายประเภท และถูกมองว่าเป็นอีกก้าวหนึ่งสู่ปัญญาประดิษฐ์ทั่วไป แต่ก็ยังไม่แน่ชัดว่า LLM สามารถเข้าใจสิ่งเร้าทางอารมณ์เชิงจิตวิทยาได้อย่างแท้จริงหรือไม่ การเข้าใจและตอบสนองต่อสัญญาณทางอารมณ์มอบข้อได้เปรียบที่ชัดเจนให้มนุษย์ในการแก้ปัญหา งานวิจัยนี้ก้าวสู่ขั้นแรกของการสำรวจความสามารถของโครงข่ายประสาทเทียมในการทำความเข้าใจสิ่งเร้าทางอารมณ์ โดยเริ่มจากการทำการทดลองอัตโนมัติใน 45 งานด้วย LLM หลากหลายรุ่น เช่น Flan-T5-Large, Vicuna, Llama 2, BLOOM, ChatGPT และ GPT-4 งานเหล่านี้ครอบคลุมทั้งแอปพลิเคชันแบบกำหนดแน่นอนและแบบสร้างข้อความ ซึ่งเป็นสถานการณ์ประเมินผลที่ครอบคลุม ผลการทดลองอัตโนมัติชี้ว่า LLM มีความเข้าใจด้านความฉลาดทางอารมณ์ และสามารถปรับปรุงประสิทธิภาพได้ด้วยพรอมป์ต์เชิงอารมณ์ (ซึ่งเรียกว่า "EmotionPrompt" โดยเป็นการผสานพรอมป์ต์ต้นฉบับกับสิ่งเร้าทางอารมณ์) เช่น ประสิทธิภาพสัมพัทธ์ดีขึ้น 8.00% ใน Instruction Induction และ 115% ใน BIG-Bench นอกจากงานแบบกำหนดแน่นอนที่ประเมินอัตโนมัติได้ด้วยตัวชี้วัดเดิมแล้ว ผู้วิจัยยังทำการศึกษากับมนุษย์โดยมีผู้เข้าร่วม 106 คน เพื่อประเมินคุณภาพของงานเชิงสร้างข้อความโดยใช้ทั้งพรอมป์ต์ปกติและพรอมป์ต์เชิงอารมณ์ ผลการศึกษากับมนุษย์แสดงให้เห็นว่า EmotionPrompt ช่วยยกระดับผลลัพธ์ของงานเชิงสร้างข้อความได้อย่างมีนัยสำคัญ (ดีขึ้นเฉลี่ย 10.9% ในตัวชี้วัดด้านประสิทธิภาพ ความจริงแท้ และความรับผิดชอบ) บทความนี้ยังอภิปรายเชิงลึกว่าทำไม EmotionPrompt จึงได้ผลกับ LLM และปัจจัยใดบ้างที่อาจส่งผลต่อประสิทธิภาพของมัน ผู้วิจัยมองว่า EmotionPrompt เปิดทางใหม่ในการสำรวจองค์ความรู้ข้ามสาขาสำหรับปฏิสัมพันธ์ระหว่างมนุษย์กับ LLM

    Emotional intelligence significantly impacts our daily behaviors and interactions. Although Large Language Models (LLMs) are increasingly viewed as a stride toward artificial general intelligence, exhibiting impressive performance in numerous tasks, it is still uncertain if LLMs can genuinely grasp psychological emotional stimuli. Understanding and responding to emotional cues gives humans a distinct advantage in problem-solving. In this paper, we take the first step towards exploring the ability of LLMs to understand emotional stimuli. To this end, we first conduct automatic experiments on 45 tasks using various LLMs, including Flan-T5-Large, Vicuna, Llama 2, BLOOM, ChatGPT, and GPT-4. Our tasks span deterministic and generative applications that represent comprehensive evaluation scenarios. Our automatic experiments show that LLMs have a grasp of emotional intelligence, and their performance can be improved with emotional prompts (which we call "EmotionPrompt" that combines the original prompt with emotional stimuli), e.g., 8.00% relative performance improvement in Instruction Induction and 115% in BIG-Bench. In addition to those deterministic tasks that can be automatically evaluated using existing metrics, we conducted a human study with 106 participants to assess the quality of generative tasks using both vanilla and emotional prompts. Our human study results demonstrate that EmotionPrompt significantly boosts the performance of generative tasks (10.9% average improvement in terms of performance, truthfulness, and responsibility metrics). We provide an in-depth discussion regarding why EmotionPrompt works for LLMs and the factors that may influence its performance. We posit that EmotionPrompt heralds a novel avenue for exploring interdisciplinary knowledge for human-LLMs interaction.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2307.11760

อ่านเพิ่มเติม

https://x.com/emollick/status/1720135672764285176


FP8-LM: การฝึกโมเดลภาษาขนาดใหญ่ด้วย FP8 / FP8-LM: Training FP8 Large Language Models

แนะนำบทความวิจัย

  • พบว่าเมื่อฝึก FP8 LLM ตัวแปรส่วนใหญ่ในการฝึก LLM เช่น gradient และสถานะของ optimizer สามารถใช้รูปแบบข้อมูลความละเอียดต่ำได้โดยไม่ทำให้ความแม่นยำของโมเดลลดลง และไม่จำเป็นต้องเปลี่ยน hyperparameter

    Finds that when training fp8 llms most variables, such as gradients and optimizer states, in llm training, can employ low-precision data formats without compromising model accuracy and requiring no changes to hyper-parameter.

บทคัดย่อบทความวิจัย

  • บทความนี้สำรวจรูปแบบข้อมูล FP8 แบบบิตต่ำเพื่อการฝึก large language models (LLM) อย่างมีประสิทธิภาพ โดยข้อค้นพบหลักคือ ตัวแปรส่วนใหญ่ในการฝึก LLM เช่น gradient และสถานะของ optimizer สามารถใช้รูปแบบข้อมูลความแม่นยำต่ำได้โดยไม่ทำให้ความแม่นยำของโมเดลลดลง และไม่จำเป็นต้องปรับ hyperparameter โดยเฉพาะ Unity ได้เสนอเฟรมเวิร์ก FP8 automatic mixed-precision แบบใหม่สำหรับการฝึก LLM เฟรมเวิร์กนี้มีการใช้ FP8 อยู่ 3 ระดับเพื่อทำให้การฝึกแบบ mixed-precision และ distributed parallel สำหรับ LLM ง่ายขึ้น โดยค่อย ๆ ผสานรวม gradient แบบ 8 บิต สถานะของ optimizer และการเรียนรู้แบบกระจายในลักษณะเป็นขั้นเป็นตอน ผลการทดลองแสดงให้เห็นว่า ระหว่างการฝึกโมเดล GPT-175B บนแพลตฟอร์ม GPU H100 เฟรมเวิร์กการฝึกแบบ FP8 mixed-precision ของ Unity ไม่เพียงลดการใช้หน่วยความจำจริงลงได้ถึง 42% แต่ยังทำงานได้เร็วกว่าเฟรมเวิร์ก BF16 ที่ใช้อย่างแพร่หลาย (เช่น Megatron-LM) ถึง 64% และยังเร็วกว่า Nvidia Transformer Engine อยู่ 17% ด้วย จึงช่วยลดต้นทุนการฝึกสำหรับ foundation model ขนาดใหญ่ได้อย่างมาก นอกจากนี้ วิธีการฝึกแบบ FP8 mixed-precision ของ Unity ยังมีความเป็นทั่วไปสูง สามารถนำไปใช้กับงานอื่นได้อย่างราบรื่น เช่น การปรับจูนคำสั่งของ LLM และ reinforcement learning from human feedback ช่วยประหยัดค่าใช้จ่ายในการ fine-tuning ได้อีกด้วย เฟรมเวิร์กการฝึกความแม่นยำต่ำ FP8 ของ Unity เปิดซอร์สแล้วที่ {https://github.com/Azure/MS-AMP}{aka.ms/MS.AMP}.
    > In this paper, we explore FP8 low-bit data formats for efficient training of large language models (LLMs). Our key insight is that most variables, such as gradients and optimizer states, in LLM training can employ low-precision data formats without compromising model accuracy and requiring no changes to hyper-parameters. Specifically, we propose a new FP8 automatic mixed-precision framework for training LLMs. This framework offers three levels of FP8 utilization to streamline mixed-precision and distributed parallel training for LLMs. It gradually incorporates 8-bit gradients, optimizer states, and distributed learning in an incremental manner. Experiment results show that, during the training of GPT-175B model on H100 GPU platform, our FP8 mixed-precision training framework not only achieved a remarkable 42% reduction in real memory usage but also ran 64% faster than the widely adopted BF16 framework (i.e., Megatron-LM), surpassing the speed of Nvidia Transformer Engine by 17%. This largely reduces the training costs for large foundation models. Furthermore, our FP8 mixed-precision training methodology is generic. It can be seamlessly applied to other tasks such as LLM instruction tuning and reinforcement learning with human feedback, offering savings in fine-tuning expenses. Our FP8 low-precision training framework is open-sourced at {https://github.com/Azure/MS-AMP}{aka.ms/MS.AMP}.

ลิงก์บทความ

https://arxiv.org/abs/2310.18313

อ่านเพิ่มเติม

https://x.com/arankomatsuzaki/status/1718813303223222765


ต้นฉบับ

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-2e0

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น