ภาพรวม

  • เราได้ทดลองแปลอัตโนมัติบทความเกี่ยวกับงานวิจัย ML ที่ DAIR.AI เผยแพร่ทุกสัปดาห์

  • เมื่อลองดูงานวิจัยที่ได้รับคัดเลือกในสัปดาห์นี้ จะเห็นว่ามีงานวิจัยจำนวนมากเกี่ยวกับโมเดล Transformer และโมเดลภาษาขนาดใหญ่ (Large Language Models, LLM)

  • จากชื่ออย่าง 'Simplifying Transformer Blocks', 'Understanding In-Context Learning Abilities in Transformers', 'S-LoRA' ดูเหมือนว่าจะมุ่งเน้นไปที่การทำความเข้าใจโครงสร้างและกลไกการเรียนรู้ของโมเดล Transformer ให้ลึกซึ้งยิ่งขึ้น

  • ส่วน 'Hallucination in LLMs', 'On the Road with GPT-4V(ision)', 'GPT4All' กล่าวถึงประสิทธิภาพและกรณีการประยุกต์ใช้ของโมเดลภาษาขนาดใหญ่ เช่น GPT จึงสะท้อนแนวโน้มที่เน้นความก้าวหน้าและการนำโมเดลภาษาขนาดใหญ่มาใช้งานอย่างชัดเจน


งานสำรวจเรื่องอาการหลอนของโมเดลภาษาขนาดใหญ่: หลักการ อนุกรมวิธาน ความท้าทาย และคำถามที่ยังเปิดอยู่ / A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions

แนะนำงานวิจัย

  • เป็นงานสำรวจอย่างครอบคลุมเกี่ยวกับอาการหลอนของ LLM (ยาวกว่า 50 หน้า) โดยให้ข้อมูลเกี่ยวกับหลักการ การจัดหมวดหมู่ ประเด็นท้าทาย และคำถามแบบเปิดที่เกี่ยวข้องกับปัญหาอาการหลอนของ LLM #survey-paper #hallucination
    > A comprehensive survey (50+ pages) on hallucination in llms; provides information about principles, taxonomy, challenges, and open questions related to the issue of hallucination in llms.

บทคัดย่องานวิจัย

  • การเกิดขึ้นของโมเดลภาษาขนาดใหญ่ (LLM) ถือเป็นความก้าวหน้าครั้งสำคัญของการประมวลผลภาษาธรรมชาติ (NLP) ซึ่งนำไปสู่พัฒนาการที่โดดเด่นด้านความเข้าใจและการสร้างข้อความ อย่างไรก็ตาม ควบคู่ไปกับความก้าวหน้านี้ LLM กลับมีแนวโน้มสำคัญในการสร้างอาการหลอน ทำให้เกิดเนื้อหาที่ไม่สอดคล้องกับข้อเท็จจริงในโลกจริงหรือข้อมูลที่ผู้ใช้ป้อนเข้ามา ปรากฏการณ์นี้สร้างความท้าทายอย่างมากต่อการนำไปใช้งานจริง และก่อให้เกิดความกังวลเกี่ยวกับความน่าเชื่อถือของ LLM ในสถานการณ์จริง จึงดึงดูดความสนใจที่เพิ่มขึ้นต่อการตรวจจับและบรรเทาอาการหลอนเหล่านี้ ในงานสำรวจนี้ เรามุ่งนำเสนอภาพรวมอย่างละเอียดและลึกซึ้งของความก้าวหน้าล่าสุดในสาขาอาการหลอนของ LLM เราเริ่มจากอนุกรมวิธานเชิงนวัตกรรมของอาการหลอนใน LLM จากนั้นเจาะลึกปัจจัยที่ก่อให้เกิดอาการหลอน ต่อมาเรานำเสนอภาพรวมอย่างครอบคลุมของวิธีการตรวจจับอาการหลอนและเบนช์มาร์ก นอกจากนี้ยังแนะนำแนวทางตัวแทนที่ออกแบบมาเพื่อลดอาการหลอนดังกล่าว สุดท้าย เราวิเคราะห์ความท้าทายที่สะท้อนข้อจำกัดในปัจจุบัน และตั้งคำถามที่ยังเปิดอยู่ เพื่อชี้แนวทางสำหรับการวิจัยอาการหลอนใน LLM ต่อไปในอนาคต
    > The emergence of large language models (LLMs) has marked a significant breakthrough in natural language processing (NLP), leading to remarkable advancements in text understanding and generation. Nevertheless, alongside these strides, LLMs exhibit a critical tendency to produce hallucinations, resulting in content that is inconsistent with real-world facts or user inputs. This phenomenon poses substantial challenges to their practical deployment and raises concerns over the reliability of LLMs in real-world scenarios, which attracts increasing attention to detect and mitigate these hallucinations. In this survey, we aim to provide a thorough and in-depth overview of recent advances in the field of LLM hallucinations. We begin with an innovative taxonomy of LLM hallucinations, then delve into the factors contributing to hallucinations. Subsequently, we present a comprehensive overview of hallucination detection methods and benchmarks. Additionally, representative approaches designed to mitigate hallucinations are introduced accordingly. Finally, we analyze the challenges that highlight the current limitations and formulate open questions, aiming to delineate pathways for future research on hallucinations in LLMs.

ลิงก์งานวิจัย

https://arxiv.org/abs/2311.05232

อ่านเพิ่มเติม

https://x.com/omarsar0/status/1722985251129966705


การทำให้บล็อก Transformer เรียบง่ายขึ้น / Simplifying Transformer Blocks

แนะนำงานวิจัย

  • ศึกษาการทำให้บล็อก Transformer เรียบง่ายขึ้น และพบว่าสามารถตัดองค์ประกอบของบล็อกออกได้หลายส่วนโดยไม่สูญเสียความเร็วในการฝึก โดยเมื่อใช้งานกับสถาปัตยกรรมที่หลากหลาย เช่น โมเดลแบบ autoregressive decoder-only และโมเดลแบบ BERT encoder-only บล็อกที่เรียบง่ายลงสามารถจำลองความเร็วการฝึกและประสิทธิภาพต่อการอัปเดตของ Transformer มาตรฐานได้ และยังอาจทำให้ได้ throughput ในการฝึกที่เร็วขึ้น 15% ด้วยพารามิเตอร์ที่น้อยลง (15%)
    > Explores simplifying the transformer block and finds that many block components can be removed with no loss of training speed; using different architectures like autoregressive decoder-only and bert encoder-only models, the simplified blocks emulate per-update training speed and performance of standard transformers, and even achieve 15% faster training throughput with fewer parameters (15%).

บทคัดย่องานวิจัย

  • สูตรการออกแบบที่เรียบง่ายสำหรับ Transformer แบบลึกคือการประกอบจากบล็อกพื้นฐานที่เหมือนกัน แต่บล็อก Transformer มาตรฐานนั้นห่างไกลจากคำว่าเรียบง่าย โดยสอดประสาน attention และบล็อกย่อย MLP เข้ากับ skip connection และเลเยอร์ normalization ในการจัดวางที่แม่นยำ ความซับซ้อนนี้นำไปสู่สถาปัตยกรรมที่เปราะบาง ซึ่งการเปลี่ยนแปลงที่ดูเล็กน้อยอาจทำให้ความเร็วในการฝึกลดลงอย่างมาก หรือทำให้โมเดลไม่สามารถฝึกได้ งานวิจัยนี้จึงตั้งคำถามว่า บล็อก Transformer มาตรฐานสามารถทำให้เรียบง่ายลงได้มากเพียงใด? โดยผสานทฤษฎีการแพร่กระจายสัญญาณเข้ากับการสังเกตเชิงประจักษ์ ผู้วิจัยเสนอแรงจูงใจสำหรับการปรับแก้ที่ช่วยให้สามารถตัดองค์ประกอบของบล็อกออกได้หลายส่วนโดยไม่สูญเสียความเร็วในการฝึก รวมถึง skip connection, projection หรือ value parameters, บล็อกย่อยแบบลำดับ และเลเยอร์ normalization จากการทดลองทั้งกับโมเดล autoregressive แบบ decoder-only และโมเดล BERT แบบ encoder-only พบว่า Transformer ที่เรียบง่ายขึ้นสามารถเลียนแบบความเร็วและประสิทธิภาพในการฝึกต่อหนึ่งอัปเดตของ Transformer มาตรฐานได้ ขณะเดียวกันยังมี throughput ในการฝึกเร็วขึ้น 15% และใช้พารามิเตอร์น้อยลง 15%

    > A simple design recipe for deep Transformers is to compose identical building blocks. But standard transformer blocks are far from simple, interweaving attention and MLP sub-blocks with skip connections & normalisation layers in precise arrangements. This complexity leads to brittle architectures, where seemingly minor changes can significantly reduce training speed, or render models untrainable. In this work, we ask to what extent the standard transformer block can be simplified? Combining signal propagation theory and empirical observations, we motivate modifications that allow many block components to be removed with no loss of training speed, including skip connections, projection or value parameters, sequential sub-blocks and normalisation layers. In experiments on both autoregressive decoder-only and BERT encoder-only models, our simplified transformers emulate the per-update training speed and performance of standard transformers, while enjoying 15% faster training throughput, and using 15% fewer parameters.

ลิงก์งานวิจัย

https://arxiv.org/abs/2311.01906

อ่านเพิ่มเติม

https://x.com/maksym_andr/status/1722235666724192688


การผสมข้อมูลพรีเทรนช่วยให้โมเดล Transformer มีความสามารถในการเลือกโมเดลแบบช่วงแคบ / Pretraining Data Mixtures Enable Narrow Model Selection Capabilities in Transformer Models

แนะนำงานวิจัย

  • ศึกษาว่า Transformer สามารถเชื่อมโยงการผสมข้อมูลพรีเทรนได้มีประสิทธิภาพเพียงใด เพื่อระบุและเรียนรู้งานใหม่ในบริบท ทั้งที่อยู่ภายในและภายนอกการกระจายของข้อมูลพรีเทรน; ในช่วงการตั้งค่าที่ศึกษา มีหลักฐานจำกัดว่าพฤติกรรมการเรียนรู้ในบริบทของโมเดลสามารถ generalize ออกไปไกลกว่าข้อมูลพรีเทรนได้
    > Investigates how effectively transformers can bridge between pretraining data mixture to identify and learn new tasks in-context which are both inside and outside the pretraining distribution; in the regimes studied, there is limited evidence that the models’ in-context learning behavior is capable of generalizing beyond their pretraining data.

บทคัดย่องานวิจัย

  • โมเดล Transformer โดยเฉพาะ large language model (LLM) มีความสามารถที่น่าทึ่งในการทำ in-context learning (ICL) กล่าวคือสามารถทำงานใหม่ได้เมื่อได้รับตัวอย่างอินพุต-เอาต์พุตที่ไม่เคยเห็นมาก่อน โดยไม่ต้องมีการฝึกโมเดลเพิ่มเติมอย่างชัดเจน งานนี้ศึกษาว่า Transformer สามารถเชื่อมโยงการผสมข้อมูลพรีเทรนของตน ซึ่งประกอบด้วยหลายตระกูลงานที่แตกต่างกัน ได้มีประสิทธิภาพเพียงใด เพื่อระบุและเรียนรู้งานใหม่ในบริบท ทั้งที่อยู่ภายในและภายนอกการกระจายของข้อมูลพรีเทรน โดยต่อยอดจากงานก่อนหน้า ผู้วิจัยตรวจสอบคำถามนี้ในสภาพแวดล้อมที่ควบคุมได้ โดยศึกษาโมเดล Transformer ที่ฝึกบนลำดับของคู่ $(x, f(x))$ แทนภาษาธรรมชาติ ผลการทดลองเชิงประจักษ์แสดงให้เห็นว่า Transformer แสดงความสามารถในการเลือกโมเดลแบบไม่มีผู้สอนที่เกือบเหมาะสมที่สุด โดยสามารถระบุตระกูลงานที่แตกต่างกันในบริบทได้ก่อน และเรียนรู้ภายในตระกูลงานนั้นในบริบทได้ เมื่อข้อมูลพรีเทรนมีการแทนตระกูลงานเหล่านั้นไว้อย่างเพียงพอ อย่างไรก็ตาม เมื่อได้รับงานหรือฟังก์ชันที่อยู่นอกโดเมนของข้อมูลพรีเทรน ผู้วิจัยพบรูปแบบความล้มเหลวหลายแบบของ Transformer และประสิทธิภาพการ generalize ที่ลดลง แม้ในงาน extrapolation อย่างง่าย เมื่อพิจารณารวมกัน ผลลัพธ์เหล่านี้ชี้ให้เห็นว่าความสามารถ ICL ที่น่าประทับใจของโมเดลลำดับขนาดใหญ่ อาจเชื่อมโยงอย่างใกล้ชิดกับความครอบคลุมของการผสมข้อมูลพรีเทรน มากกว่ากับ inductive biases ที่สร้างความสามารถในการ generalize ขั้นพื้นฐาน
    > Transformer models, notably large language models (LLMs), have the remarkable ability to perform in-context learning (ICL) -- to perform new tasks when prompted with unseen input-output examples without any explicit model training. In this work, we study how effectively transformers can bridge between their pretraining data mixture, comprised of multiple distinct task families, to identify and learn new tasks in-context which are both inside and outside the pretraining distribution. Building on previous work, we investigate this question in a controlled setting, where we study transformer models trained on sequences of $(x, f(x))$ pairs rather than natural language. Our empirical results show transformers demonstrate near-optimal unsupervised model selection capabilities, in their ability to first in-context identify different task families and in-context learn within them when the task families are well-represented in their pretraining data. However when presented with tasks or functions which are out-of-domain of their pretraining data, we demonstrate various failure modes of transformers and degradation of their generalization for even simple extrapolation tasks. Together our results highlight that the impressive ICL abilities of high-capacity sequence models may be more closely tied to the coverage of their pretraining data mixtures than inductive biases that create fundamental generalization capabilities.

ลิงก์งานวิจัย

https://arxiv.org/abs/2311.00871

อ่านเพิ่มเติม

https://x.com/abacaj/status/1721223737729581437


การสร้างดนตรีแบบเรียบง่ายและควบคุมได้ / Simple and Controllable Music Generation

แนะนำงานวิจัย

  • เป็น llm แบบทรานส์ฟอร์เมอร์สเตจเดียวที่ทำงานครอบคลุมหลายสตรีมของการแทนข้อมูลดนตรีแบบไม่ต่อเนื่องที่ถูกบีบอัด และสามารถสร้างตัวอย่างคุณภาพสูง (ทั้งโมโนและสเตอริโอ) พร้อมทั้งควบคุมตามคำอธิบายข้อความหรือคุณลักษณะของเมโลดีได้

    A single-stage transformer-based llm that operates over several streams of compressed discrete music representation; it can generate high-quality samples (mono and stereo) while conditioning on textual description or melodic features.

บทคัดย่องานวิจัย

  • งานนี้แก้โจทย์การสร้างดนตรีแบบมีเงื่อนไข โดยนำเสนอ MusicGen ซึ่งเป็น Language Model (LM) เดียวที่ทำงานบนหลายสตรีมของการแทนข้อมูลดนตรีแบบไม่ต่อเนื่องที่ถูกบีบอัด หรือก็คือโทเค็น แตกต่างจากงานก่อนหน้า MusicGen ประกอบด้วยทรานส์ฟอร์เมอร์ LM แบบสเตจเดียวร่วมกับแพตเทิร์นการ interleaving ของโทเค็นที่มีประสิทธิภาพ จึงไม่จำเป็นต้องทำ cascading หลายโมเดล เช่น แบบลำดับชั้นหรือการอัปแซมปลิง จากแนวทางนี้ ผู้วิจัยสาธิตให้เห็นว่า MusicGen สามารถสร้างตัวอย่างคุณภาพสูงได้ทั้งแบบโมโนและสเตอริโอ โดยมีการกำหนดเงื่อนไขจากคำอธิบายข้อความหรือคุณลักษณะของเมโลดี ทำให้ควบคุมผลลัพธ์ที่สร้างได้ดีขึ้น มีการประเมินเชิงประจักษ์อย่างครอบคลุม ทั้งการทดสอบอัตโนมัติและการศึกษากับมนุษย์ ซึ่งแสดงให้เห็นว่าแนวทางที่เสนอนั้นเหนือกว่า baseline ที่นำมาเปรียบเทียบใน benchmark มาตรฐานด้าน text-to-music ผ่านการศึกษาแบบ ablation ผู้วิจัยยังชี้ให้เห็นความสำคัญขององค์ประกอบแต่ละส่วนที่ประกอบเป็น MusicGen ตัวอย่างดนตรี โค้ด และโมเดลสามารถดูได้ที่ https://github.com/facebookresearch/audiocraft

    We tackle the task of conditional music generation. We introduce MusicGen, a single Language Model (LM) that operates over several streams of compressed discrete music representation, i.e., tokens. Unlike prior work, MusicGen is comprised of a single-stage transformer LM together with efficient token interleaving patterns, which eliminates the need for cascading several models, e.g., hierarchically or upsampling. Following this approach, we demonstrate how MusicGen can generate high-quality samples, both mono and stereo, while being conditioned on textual description or melodic features, allowing better controls over the generated output. We conduct extensive empirical evaluation, considering both automatic and human studies, showing the proposed approach is superior to the evaluated baselines on a standard text-to-music benchmark. Through ablation studies, we shed light over the importance of each of the components comprising MusicGen. Music samples, code, and models are available at https://github.com/facebookresearch/audiocraft

ลิงก์งานวิจัย

https://arxiv.org/abs/2306.05284

อ่านเพิ่มเติม

https://x.com/AIatMeta/status/1723043913638810025


การอัปเดตแบบสลับสำหรับโมเดลทรานส์ฟอร์เมอร์ที่มีประสิทธิภาพ / Alternating Updates for Efficient Transformers

แนะนำงานวิจัย

  • เป็นวิธีที่ทำให้สามารถใช้ประโยชน์จากการเพิ่มขนาดและความจุของโมเดลทรานส์ฟอร์เมอร์ได้โดยไม่เพิ่มต้นทุนการคำนวณ โดยทำงานกับซับบล็อกของการแทนข้อมูลที่ขยายขึ้นในแต่ละเลเยอร์ และใช้กลไกคาดการณ์และแก้ไขเพื่ออัปเดตบล็อกที่ไม่ได้ทำงาน ส่งผลให้สามารถขยายการแทนข้อมูลที่เรียนรู้ได้ ขณะที่เพิ่ม latency เพียงเล็กน้อยจนแทบมองข้ามได้

    A method that makes it possible to take advantage of increasing scale and capacity in transformer models without increasing the computational cost; achieved by working on a subblock of the widened representation at each layer and using a predict-and-correct mechanism to update the inactivated blocks; it widens the learn representation while only incurring a negligible increase in latency.

บทคัดย่องานวิจัย

  • เป็นที่ยอมรับกันดีอยู่แล้วว่าเมื่อเพิ่มสเกลของเครือข่าย transformer เชิงลึก คุณภาพและประสิทธิภาพก็จะดีขึ้นตามไปด้วย อย่างไรก็ตาม การเพิ่มสเกลเช่นนี้มักมาพร้อมกับต้นทุนการคำนวณและเวลาแฝงในการอนุมานที่เพิ่มขึ้นอย่างมาก Pure Storage นำเสนอ Alternating Updates (AltUp) ซึ่งเป็นวิธีที่นำไปใช้งานได้ง่ายในการเพิ่มความจุของโมเดลโดยไม่เพิ่มภาระการคำนวณ AltUp ช่วยให้สามารถขยาย learned representation หรือก็คือ token embedding ได้ โดยเพิ่มเวลาแฝงขึ้นเพียงเล็กน้อยจนแทบมองข้ามได้ AltUp ทำเช่นนี้โดยทำงานกับ subblock ของ representation ที่ถูกขยายในแต่ละเลเยอร์ และใช้กลไก predict-and-correct เพื่ออัปเดตบล็อกที่ถูกปิดใช้งานไว้ เรานำเสนอการต่อยอดของ AltUp เช่น ความสามารถในการประยุกต์ใช้กับมิติของลำดับ และสาธิตว่า AltUp สามารถทำงานเสริมกันกับแนวทางที่มีอยู่แล้ว เช่น Sparse Mixture-of-Experts models เพื่อให้ได้โมเดลที่มีประสิทธิภาพและมีความจุสูงยิ่งขึ้น การทดลองของเรากับโมเดล transformer มาตรฐานและงานด้านภาษาแสดงให้เห็นถึงประสิทธิผลที่สม่ำเสมอของ AltUp ในสถานการณ์ที่หลากหลาย โดยเฉพาะอย่างยิ่ง บนเบนช์มาร์ก SuperGLUE และ SQuAD, AltUp ให้ความเร็วเพิ่มขึ้นได้สูงสุด $87%$ เมื่อเทียบกับ dense baselines ที่ความแม่นยำเท่ากัน
    > It has been well established that increasing scale in deep transformer networks leads to improved quality and performance. However, this increase in scale often comes with prohibitive increases in compute cost and inference latency. We introduce Alternating Updates (AltUp), a simple-to-implement method to increase a model's capacity without the computational burden. AltUp enables the widening of the learned representation, i.e., the token embedding, while only incurring a negligible increase in latency. AltUp achieves this by working on a subblock of the widened representation at each layer and using a predict-and-correct mechanism to update the inactivated blocks. We present extensions of AltUp, such as its applicability to the sequence dimension, and demonstrate how AltUp can be synergistically combined with existing approaches, such as Sparse Mixture-of-Experts models, to obtain efficient models with even higher capacity. Our experiments on benchmark transformer models and language tasks demonstrate the consistent effectiveness of AltUp on a diverse set of scenarios. Notably, on SuperGLUE and SQuAD benchmarks, AltUp enables up to $87%$ speedup relative to the dense baselines at the same accuracy.

ลิงก์งานวิจัย

https://arxiv.org/abs/2301.13310

อ่านเพิ่มเติม

https://x.com/GoogleAI/status/1722004366201418132


ถอดความและตอบกลับ: ให้โมเดลภาษาขนาดใหญ่ตั้งคำถามที่ดีกว่าให้ตัวเอง / Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves

แนะนำงานวิจัย

  • เป็นวิธีการ prompt ที่มีประสิทธิภาพซึ่งใช้ LLM เพื่อถอดความและขยายคำถามที่มนุษย์ตั้งขึ้นเพื่อปรับปรุงประสิทธิภาพโดยรวม สามารถยกระดับประสิทธิภาพของโมเดลต่าง ๆ ได้ในงานที่หลากหลาย และยังสามารถผสานแนวทางนี้เข้ากับ chain-of-thought เพื่อเพิ่มประสิทธิภาพได้อีก
    > An effective prompting method that uses llms to rephrase and expand questions posed by humans to improve overall performance; it can improve the performance of different models across a wide range of tasks; the approach can be combined with chain-of-thought to improve performance further.

บทคัดย่องานวิจัย

  • ความเข้าใจผิดไม่ได้เกิดขึ้นเฉพาะในการสื่อสารระหว่างบุคคลเท่านั้น แต่ยังเกิดขึ้นได้ระหว่างมนุษย์กับโมเดลภาษาขนาดใหญ่ (LLM) ด้วย ความคลาดเคลื่อนดังกล่าวอาจทำให้ LLM ตีความคำถามที่ดูเหมือนไม่กำกวมไปในทางที่ไม่คาดคิด และให้คำตอบที่ผิดพลาดได้ แม้จะเป็นที่ยอมรับกันอย่างกว้างขวางว่าคุณภาพของพรอมป์ต์ เช่น คำถาม ส่งผลอย่างมากต่อคุณภาพของคำตอบที่ LLM ให้มา แต่วิธีการเชิงระบบในการสร้างคำถามที่ LLM เข้าใจได้ดียิ่งขึ้นยังพัฒนาได้ไม่มากนัก บทความนี้นำเสนอวิธีชื่อว่า Rephrase and Respond (RaR) ซึ่งทำให้ LLM สามารถปรับถ้อยคำและขยายคำถามที่มนุษย์ถาม แล้วให้คำตอบได้ภายในพรอมป์ต์เดียว แนวทางนี้เป็นวิธีพรอมป์ต์ที่เรียบง่ายแต่มีประสิทธิภาพในการปรับปรุงสมรรถนะ นอกจากนี้ยังมีการเสนอ RaR แบบ 2 ขั้นตอน โดยให้ LLM ตัวแรกทำหน้าที่ปรับถ้อยคำของคำถามก่อน จากนั้นจึงส่งทั้งคำถามเดิมและคำถามที่ปรับแล้วไปยัง LLM อีกตัวที่ทำหน้าที่ตอบ วิธีนี้ช่วยให้สามารถนำคำถามที่ถูกปรับถ้อยคำโดย LLM หนึ่งไปใช้กับอีก LLM หนึ่งได้อย่างมีประสิทธิภาพ ผลการทดลองแสดงให้เห็นว่าวิธีนี้ช่วยยกระดับสมรรถนะของหลายโมเดลได้อย่างมากในงานที่หลากหลาย อีกทั้งยังมีการเปรียบเทียบอย่างครอบคลุมระหว่าง RaR กับวิธี Chain-of-Thought (CoT) ที่ใช้กันอย่างแพร่หลาย ทั้งในเชิงทฤษฎีและเชิงประจักษ์ โดยแสดงให้เห็นว่า RaR เป็นแนวทางที่เสริมกับ CoT และสามารถนำมารวมกับ CoT เพื่อให้ได้ผลลัพธ์ที่ดียิ่งขึ้น งานวิจัยนี้ไม่เพียงช่วยเพิ่มประสิทธิภาพของ LLM ได้อย่างคุ้มค่าและได้ผล แต่ยังช่วยให้เห็นภาพเรื่องการประเมินความสามารถของ LLM อย่างเป็นธรรมด้วย สามารถดูข้อมูลและโค้ดได้ที่ https://github.com/uclaml/Rephrase-and-Respond
    > ความเข้าใจผิดไม่ได้เกิดขึ้นเฉพาะในการสื่อสารระหว่างบุคคลเท่านั้น แต่ยังเกิดขึ้นได้ระหว่างมนุษย์กับ Large Language Models (LLMs) ด้วย ความคลาดเคลื่อนดังกล่าวอาจทำให้ LLM ตีความคำถามที่ดูเหมือนไม่กำกวมไปในทางที่ไม่คาดคิด และให้คำตอบที่ผิดพลาดได้ แม้จะเป็นที่ยอมรับกันอย่างกว้างขวางว่าคุณภาพของพรอมป์ต์ เช่น คำถาม ส่งผลอย่างมากต่อคุณภาพของคำตอบที่ LLM ให้มา แต่วิธีการเชิงระบบในการสร้างคำถามที่ LLM เข้าใจได้ดียิ่งขึ้นยังพัฒนาได้ไม่มากนัก ในบทความนี้ เรานำเสนอวิธีชื่อ Rephrase and Respond (RaR) ซึ่งทำให้ LLM สามารถปรับถ้อยคำและขยายคำถามที่มนุษย์ถาม และให้คำตอบได้ภายในพรอมป์ต์เดียว แนวทางนี้เป็นวิธีพรอมป์ต์ที่เรียบง่ายแต่มีประสิทธิภาพในการปรับปรุงสมรรถนะ นอกจากนี้ เรายังเสนอ RaR แบบ 2 ขั้นตอน โดยให้ LLM ที่ทำหน้าที่ปรับถ้อยคำปรับคำถามก่อน แล้วส่งทั้งคำถามเดิมและคำถามที่ปรับแล้วไปยัง LLM อีกตัวที่ทำหน้าที่ตอบ วิธีนี้ช่วยให้สามารถนำคำถามที่ถูกปรับถ้อยคำโดย LLM หนึ่งไปใช้กับอีก LLM หนึ่งได้อย่างมีประสิทธิภาพ ผลการทดลองของเราแสดงให้เห็นว่าวิธีการนี้ช่วยยกระดับสมรรถนะของโมเดลต่าง ๆ ได้อย่างมีนัยสำคัญในงานหลากหลายประเภท นอกจากนี้ เรายังนำเสนอการเปรียบเทียบอย่างครอบคลุมระหว่าง RaR กับวิธี Chain-of-Thought (CoT) ที่ได้รับความนิยม ทั้งในเชิงทฤษฎีและเชิงประจักษ์ โดยแสดงให้เห็นว่า RaR เป็นแนวทางที่เสริมกับ CoT และสามารถนำมารวมกับ CoT เพื่อให้ได้ผลลัพธ์ที่ดียิ่งขึ้น งานของเราไม่เพียงช่วยเพิ่มประสิทธิภาพของ LLM ได้อย่างมีประสิทธิผลและคุ้มค่า แต่ยังช่วยชี้ให้เห็นถึงการประเมินความสามารถของ LLM อย่างเป็นธรรมด้วย ข้อมูลและโค้ดมีอยู่ที่ https://github.com/uclaml/Rephrase-and-Respond.

ลิงก์งานวิจัย

https://arxiv.org/abs/2311.04205

อ่านเพิ่มเติม

https://x.com/QuanquanGu/status/1722364144379396513


ขับเคลื่อนไปบนถนนร่วมกับ GPT-4V(ision): การสำรวจระยะแรกของโมเดลภาพ-ภาษาสำหรับการขับขี่อัตโนมัติ / On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving

แนะนำงานวิจัย

  • ประเมินอย่างครอบคลุมเกี่ยวกับ GPT-4V(ision) ซึ่งเป็นโมเดลภาพ-ภาษาล้ำสมัยล่าสุด และการประยุกต์ใช้กับการขับขี่อัตโนมัติ โดยโมเดลนี้แสดงสมรรถนะที่เหนือกว่าระบบขับขี่อัตโนมัติที่มีอยู่เดิมในด้านการทำความเข้าใจฉากและการให้เหตุผลเชิงเหตุและผล
    > ให้การประเมินอย่างครอบคลุมของโมเดลภาพ-ภาษาระดับล้ำสมัยล่าสุด gpt-4v(ision) และการประยุกต์ใช้กับการขับขี่อัตโนมัติ; โมเดลนี้แสดงสมรรถนะที่เหนือกว่าระบบอัตโนมัติที่มีอยู่เดิมในด้านการทำความเข้าใจฉากและการให้เหตุผลเชิงเหตุและผล

บทคัดย่องานวิจัย

  • การทำให้เทคโนโลยีขับขี่อัตโนมัติเกิดขึ้นจริงนั้นขึ้นอยู่กับการบูรณาการอย่างซับซ้อนของระบบการรับรู้ การตัดสินใจ และการควบคุม แนวทางแบบเดิมทั้งที่ขับเคลื่อนด้วยข้อมูลและอิงกฎต่างมีข้อจำกัดตรงที่ไม่สามารถเข้าใจความละเอียดอ่อนของสภาพแวดล้อมการขับขี่ที่ซับซ้อนและเจตนาของผู้ใช้ถนนรายอื่นได้ นี่เป็นคอขวดสำคัญ โดยเฉพาะในการพัฒนาการให้เหตุผลเชิงสามัญสำนึกและความเข้าใจฉากอย่างละเอียดอ่อนที่จำเป็นต่อการขับขี่อัตโนมัติที่ปลอดภัยและเชื่อถือได้ การมาถึงของ Visual Language Models (VLM) ได้เปิดพรมแดนใหม่ในการทำให้การขับขี่อัตโนมัติเต็มรูปแบบเป็นจริง รายงานฉบับนี้นำเสนอการประเมินอย่างละเอียดถี่ถ้วนของ VLM ล้ำสมัยล่าสุดและการประยุกต์ใช้ในสถานการณ์การขับขี่อัตโนมัติ โดยสำรวจความสามารถของโมเดลในการทำความเข้าใจและให้เหตุผลเกี่ยวกับฉากการขับขี่ เพื่อตัดสินใจ และท้ายที่สุดสามารถทำหน้าที่เสมือนคนขับได้ มีการทดสอบอย่างครอบคลุมตั้งแต่การรับรู้ฉากพื้นฐานไปจนถึงการให้เหตุผลเชิงเหตุและผลที่ซับซ้อน และการตัดสินใจแบบเรียลไทม์ภายใต้เงื่อนไขที่หลากหลาย ผลการทดสอบพบว่า 'ชื่อโมเดล' แสดงประสิทธิภาพที่เหนือกว่าระบบขับขี่อัตโนมัติเดิมในด้านความเข้าใจฉากและการให้เหตุผลเชิงเหตุและผล ซึ่งแสดงให้เห็นถึงศักยภาพในการรับมือกับสถานการณ์นอกขอบเขตการใช้งานจริง การจดจำเจตนา และการตัดสินใจอย่างมีข้อมูลในบริบทการขับขี่จริง อย่างไรก็ตาม ยังมีความท้าทายอยู่ โดยเฉพาะในงานด้านการแยกแยะทิศทาง การรู้จำสัญญาณไฟจราจร การยึดโยงภาพกับความหมาย และการให้เหตุผลเชิงพื้นที่ ข้อจำกัดเหล่านี้ตอกย้ำถึงความจำเป็นของการวิจัยและพัฒนาเพิ่มเติม ปัจจุบันโครงการนี้เปิดให้ผู้สนใจเข้าถึงและนำไปใช้ได้บน GitHub: URL{https://github.com/PJLab-ADG/GPT4V-AD-Exploration}
    > The pursuit of autonomous driving technology hinges on the sophisticated integration of perception, decision-making, and control systems. Traditional approaches, both data-driven and rule-based, have been hindered by their inability to grasp the nuance of complex driving environments and the intentions of other road users. This has been a significant bottleneck, particularly in the development of common sense reasoning and nuanced scene understanding necessary for safe and reliable autonomous driving. The advent of Visual Language Models (VLM) represents a novel frontier in realizing fully autonomous vehicle driving. This report provides an exhaustive evaluation of the latest state-of-the-art VLM, \modelnamefull, and its application in autonomous driving scenarios. We explore the model's abilities to understand and reason about driving scenes, make decisions, and ultimately act in the capacity of a driver. Our comprehensive tests span from basic scene recognition to complex causal reasoning and real-time decision-making under varying conditions. Our findings reveal that \modelname demonstrates superior performance in scene understanding and causal reasoning compared to existing autonomous systems. It showcases the potential to handle out-of-distribution scenarios, recognize intentions, and make informed decisions in real driving contexts. However, challenges remain, particularly in direction discernment, traffic light recognition, vision grounding, and spatial reasoning tasks. These limitations underscore the need for further research and development. Project is now available on GitHub for interested parties to access and utilize: \url{https://github.com/PJLab-ADG/GPT4V-AD-Exploration}

ลิงก์งานวิจัย

https://arxiv.org/abs/2311.05332

อ่านเพิ่มเติม

https://x.com/arankomatsuzaki/status/1722795897359139057


GPT4All: ระบบนิเวศของโมเดลภาษาบีบอัดแบบโอเพนซอร์ส / GPT4All: An Ecosystem of Open Source Compressed Language Models

แนะนำงานวิจัย

  • สรุปรายละเอียดทางเทคนิคของตระกูลโมเดล GPT4All พร้อมกับคลังเก็บโอเพนซอร์สที่มีเป้าหมายเพื่อทำให้การเข้าถึง LLM เป็นประชาธิปไตยมากขึ้น
    > Outlines technical details of the gpt4all model family along with the open-source repository that aims to democratize access to llms.

บทคัดย่องานวิจัย

  • เมื่อไม่นานมานี้ โมเดลภาษาขนาดใหญ่ (LLM) ได้บรรลุประสิทธิภาพระดับมนุษย์ในเบนช์มาร์กด้านวิชาชีพและวิชาการที่หลากหลาย อย่างไรก็ตาม การเข้าถึงโมเดลเหล่านี้ยังตามหลังความสามารถของมันอยู่ LLM ล้ำสมัยจำเป็นต้องใช้โครงสร้างพื้นฐานที่มีค่าใช้จ่ายสูง เข้าถึงได้เฉพาะผ่านเว็บอินเทอร์เฟซที่มีการจำกัดอัตรา จำกัดตามภูมิภาค และมีการเซ็นเซอร์ อีกทั้งยังขาดโค้ดและรายงานทางเทคนิคที่เปิดเผยต่อสาธารณะ บทความนี้เล่าเรื่องของ GPT4All ซึ่งเป็นคลังเก็บโอเพนซอร์สยอดนิยมที่มุ่งทำให้การเข้าถึง LLM เป็นประชาธิปไตยมากขึ้น นอกจากนี้ยังสรุปรายละเอียดทางเทคนิคของตระกูลโมเดล GPT4All ดั้งเดิม ตลอดจนวิวัฒนาการของโครงการ GPT4All จากโมเดลเดี่ยวไปสู่ระบบนิเวศโอเพนซอร์สเต็มรูปแบบ เราหวังว่างานวิจัยชิ้นนี้จะทำหน้าที่ทั้งเป็นภาพรวมทางเทคนิคของโมเดล GPT4All ดั้งเดิม และเป็นกรณีศึกษาว่าระบบนิเวศโอเพนซอร์ส GPT4All เติบโตต่อมาอย่างไร
    > Large language models (LLMs) have recently achieved human-level performance on a range of professional and academic benchmarks. The accessibility of these models has lagged behind their performance. State-of-the-art LLMs require costly infrastructure; are only accessible via rate-limited, geo-locked, and censored web interfaces; and lack publicly available code and technical reports. In this paper, we tell the story of GPT4All, a popular open source repository that aims to democratize access to LLMs. We outline the technical details of the original GPT4All model family, as well as the evolution of the GPT4All project from a single model into a fully fledged open source ecosystem. It is our hope that this paper acts as both a technical overview of the original GPT4All models as well as a case study on the subsequent growth of the GPT4All open source ecosystem.

ลิงก์งานวิจัย

https://arxiv.org/abs/2311.04931

อ่านเพิ่มเติม

https://x.com/_akhaliq/status/1722833378590793915


S-LoRA: ให้บริการ LoRA adapters พร้อมกันนับพันรายการ / S-LoRA: Serving Thousands of Concurrent LoRA Adapters

แนะนำงานวิจัย

  • เป็นแนวทางที่ทำให้การให้บริการ LoRA adapter จำนวนมากทำได้แบบขยายขนาดได้ โดยเก็บ adapter ทั้งหมดไว้ในหน่วยความจำหลัก และดึง adapter ของคำขอที่กำลังรันอยู่เข้าสู่หน่วยความจำ GPU พร้อมใช้กลยุทธ์ tensor parallelism แบบใหม่และ custom CUDA kernel ที่ปรับแต่งมาอย่างมากสำหรับการทำ heterogeneous batching ของการคำนวณ LoRA ทำให้เพิ่ม throughput ได้ 4 เท่าเมื่อเทียบกับโซลูชันอื่น และเพิ่มจำนวน adapter ที่ให้บริการได้ขึ้นอีกหลายลำดับขั้น
    > An approach that enables the scalable serving of many lora adapters; it stores all adapters in main memory and fetches adapters of currently running queries to the gpu memory; employs novel tensor parallelism strategy and highly optimized custom cuda kernels for heterogenous batching of lora computation; improves throughput by 4x, when compared to other solutions, and increases the number of served adapters by several orders of magnitude.

บทคัดย่องานวิจัย

  • โดยทั่วไปการนำ large language model ไปใช้งานจะยึดตามแนวทาง "pretrain-then-finetune" วิธีปรับจูนแบบใช้พารามิเตอร์อย่างมีประสิทธิภาพอย่าง Low-Rank Adaptation (LoRA) มักถูกใช้เพื่อปรับ base model ให้รองรับงานจำนวนมาก ส่งผลให้เกิดชุดของ LoRA adapter จำนวนมากที่แตกแขนงมาจาก base model เดียว เราพบว่าแนวทางนี้เปิดโอกาสอย่างมากต่อการทำ batched inference ระหว่างการให้บริการ เพื่อใช้ประโยชน์จากโอกาสนี้ เราจึงนำเสนอ S-LoRA ซึ่งเป็นระบบที่ออกแบบมาสำหรับการให้บริการ LoRA adapter จำนวนมากแบบขยายขนาดได้ S-LoRA เก็บ adapter ทั้งหมดไว้ในหน่วยความจำหลัก และดึง adapter ที่ถูกใช้โดยคำขอที่กำลังรันอยู่เข้าสู่หน่วยความจำ GPU เพื่อใช้หน่วยความจำ GPU อย่างมีประสิทธิภาพและลด fragmentation นั้น S-LoRA เสนอแนวคิด Unified Paging โดย Unified Paging ใช้ unified memory pool เพื่อจัดการทั้งน้ำหนักของ adapter แบบไดนามิกที่มี rank ต่างกัน และเทนเซอร์ KV cache ที่มีความยาวลำดับแตกต่างกัน นอกจากนี้ S-LoRA ยังใช้กลยุทธ์ tensor parallelism แบบใหม่และ custom CUDA kernel ที่ปรับแต่งมาอย่างมากเพื่อรองรับ heterogeneous batching ของการคำนวณ LoRA เมื่อรวมคุณสมบัติเหล่านี้เข้าด้วยกัน S-LoRA สามารถให้บริการ LoRA adapter ได้หลายพันตัวบน GPU เดียวหรือข้ามหลาย GPU โดยมี overhead ต่ำ เมื่อเทียบกับไลบรารีล้ำสมัยอย่าง HuggingFace PEFT และ vLLM (ที่รองรับการให้บริการ LoRA แบบพื้นฐาน) S-LoRA สามารถปรับปรุง throughput ได้สูงสุด 4 เท่า และเพิ่มจำนวน adapter ที่ให้บริการได้ขึ้นอีกหลายลำดับขั้น ส่งผลให้ S-LoRA ทำให้การให้บริการโมเดลที่ผ่านการ fine-tune เฉพาะงานจำนวนมากทำได้แบบขยายขนาด และเปิดโอกาสสู่บริการ fine-tuning แบบปรับแต่งเฉพาะขนาดใหญ่ โดยสามารถดูโค้ดได้ที่ https://github.com/S-LoRA/S-LoRA
    > The "pretrain-then-finetune" paradigm is commonly adopted in the deployment of large language models. Low-Rank Adaptation (LoRA), a parameter-efficient fine-tuning method, is often employed to adapt a base model to a multitude of tasks, resulting in a substantial collection of LoRA adapters derived from one base model. We observe that this paradigm presents significant opportunities for batched inference during serving. To capitalize on these opportunities, we present S-LoRA, a system designed for the scalable serving of many LoRA adapters. S-LoRA stores all adapters in the main memory and fetches the adapters used by the currently running queries to the GPU memory. To efficiently use the GPU memory and reduce fragmentation, S-LoRA proposes Unified Paging. Unified Paging uses a unified memory pool to manage dynamic adapter weights with different ranks and KV cache tensors with varying sequence lengths. Additionally, S-LoRA employs a novel tensor parallelism strategy and highly optimized custom CUDA kernels for heterogeneous batching of LoRA computation. Collectively, these features enable S-LoRA to serve thousands of LoRA adapters on a single GPU or across multiple GPUs with a small overhead. Compared to state-of-the-art libraries such as HuggingFace PEFT and vLLM (with naive support of LoRA serving), S-LoRA can improve the throughput by up to 4 times and increase the number of served adapters by several orders of magnitude. As a result, S-LoRA enables scalable serving of many task-specific fine-tuned models and offers the potential for large-scale customized fine-tuning services. The code is available at https://github.com/S-LoRA/S-LoRA

ลิงก์งานวิจัย

https://arxiv.org/abs/2311.03285v2

อ่านเพิ่มเติม

https://x.com/ai_database/status/1722190708797592013


FreshLLM: รีเฟรช large language model ด้วยการเสริม search engine / FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation

แนะนำงานวิจัย

  • เสนอ FreshQA ซึ่งเป็น dynamic QA benchmark สำหรับทดสอบความเป็นข้อเท็จจริงของข้อความที่ LLM สร้างขึ้น เสนอ FreshPrompt ซึ่งเป็นวิธี few-shot prompting แบบเรียบง่ายที่ช่วยยกระดับประสิทธิภาพของ LLM บน FreshQA อย่างมากด้วยการผสานข้อมูลล่าสุดที่เกี่ยวข้องซึ่งดึงมาจาก search engine เข้าไปในพรอมป์ต์ และค้นพบว่าการสั่งให้ LLM สร้างคำตอบที่กระชับและตรงประเด็นช่วยลด hallucination ได้ดีกว่าการกระตุ้นให้ตอบแบบยืดยาว
    > Proposes a dynamic qa benchmark (freshqa) to test the factuality of llm-generated text; proposes freshprompt, a simple few-shot prompting method that substantially boosts the performance of an llm on freshqa by incorporating relevant and up-to-date information retrieved from a search engine into the prompt; finds that instructing the llm to generate concise and direct answers helps reduce hallucination compared to encouraging more verbose answers.

บทคัดย่องานวิจัย

  • โมเดลภาษาขนาดใหญ่ (LLM) ส่วนใหญ่ถูกฝึกเพียงครั้งเดียวและไม่ได้รับการอัปเดตอีก จึงขาดความสามารถในการปรับตัวอย่างยืดหยุ่นต่อโลกที่เปลี่ยนแปลงอยู่ตลอดเวลา งานวิจัยนี้ศึกษารายละเอียดเกี่ยวกับความถูกต้องตามข้อเท็จจริงของข้อความที่สร้างโดย LLM ในบริบทของการตอบคำถามที่ทดสอบความรู้เกี่ยวกับโลกปัจจุบัน โดยเฉพาะอย่างยิ่ง ผู้วิจัยได้แนะนำ FreshQA ซึ่งเป็นเบนช์มาร์ก QA แบบไดนามิกใหม่ที่ครอบคลุมคำถามและคำตอบหลากหลายประเภท รวมถึงคำถามที่ต้องอาศัยความรู้โลกที่เปลี่ยนแปลงอย่างรวดเร็ว ตลอดจนคำถามที่มีสมมติฐานผิดและต้องถูกหักล้าง มีการทำเบนช์มาร์กทั้ง LLM แบบปิดและโอเพนซอร์สหลากหลายรุ่นภายใต้กระบวนการประเมินสองโหมด ซึ่งช่วยให้วัดได้ทั้งความถูกต้องและอัตราการหลอนข้อมูล ผ่านการประเมินโดยมนุษย์ที่มีการตัดสินมากกว่า 50,000 รายการ งานวิจัยนี้เผยให้เห็นข้อจำกัดของโมเดลเหล่านี้และแสดงให้เห็นว่ายังมีพื้นที่ให้ปรับปรุงอีกมาก ตัวอย่างเช่น พบว่าโมเดลทั้งหมด ไม่ว่าจะมีขนาดเท่าใด ต่างก็มีปัญหากับคำถามที่เกี่ยวข้องกับความรู้ที่เปลี่ยนแปลงรวดเร็วและคำถามที่มีสมมติฐานผิด จากผลลัพธ์เหล่านี้ ผู้วิจัยจึงนำเสนอ FreshPrompt ซึ่งเป็นวิธี few-shot prompting แบบเรียบง่ายที่ช่วยยกระดับประสิทธิภาพของ LLM บน FreshQA ได้อย่างมาก โดยผสานข้อมูลล่าสุดที่เกี่ยวข้องซึ่งดึงมาจากเสิร์ชเอนจินเข้าไปในพรอมป์ต์ ผลการทดลองแสดงให้เห็นว่า FreshPrompt มีประสิทธิภาพเหนือกว่าวิธี prompting ที่เสริมด้วยเสิร์ชเอนจินแบบคู่แข่ง เช่น Self-Ask (Press et al., 2022) รวมถึงระบบเชิงพาณิชย์อย่าง Perplexity.AI การวิเคราะห์เพิ่มเติมของ FreshPrompt ยังพบว่า ทั้งจำนวนหลักฐานที่ดึงมาและลำดับของหลักฐานเหล่านั้นมีบทบาทสำคัญต่อความถูกต้องของคำตอบที่ LLM สร้างขึ้น นอกจากนี้ การสั่งให้ LLM สร้างคำตอบที่กระชับและตรงประเด็นยังช่วยลดการหลอนข้อมูลได้ดีกว่าการกระตุ้นให้ตอบแบบยืดยาว เพื่อเอื้อต่องานวิจัยในอนาคต ผู้วิจัยได้เผยแพร่ FreshQA ที่ github.com/freshllms/freshqa และให้คำมั่นว่าจะอัปเดตอย่างสม่ำเสมอ
    > โมเดลภาษาขนาดใหญ่ (LLMs) ส่วนใหญ่ถูกฝึกเพียงครั้งเดียวและไม่เคยได้รับการอัปเดต ดังนั้นจึงขาดความสามารถในการปรับตัวแบบไดนามิกต่อโลกที่เปลี่ยนแปลงอยู่เสมอของเรา ในงานนี้ เราศึกษาอย่างละเอียดเกี่ยวกับความถูกต้องตามข้อเท็จจริงของข้อความที่ LLM สร้างขึ้นในบริบทของการตอบคำถามที่ทดสอบความรู้เกี่ยวกับโลกปัจจุบัน โดยเฉพาะอย่างยิ่ง เราแนะนำ FreshQA ซึ่งเป็นเบนช์มาร์ก QA แบบไดนามิกใหม่ที่ครอบคลุมประเภทของคำถามและคำตอบที่หลากหลาย รวมถึงคำถามที่ต้องใช้ความรู้โลกที่เปลี่ยนแปลงอย่างรวดเร็ว ตลอดจนคำถามที่มีสมมติฐานผิดซึ่งจำเป็นต้องถูกหักล้าง เราทำเบนช์มาร์ก LLM ทั้งแบบปิดและโอเพนซอร์สที่หลากหลายภายใต้กระบวนการประเมินสองโหมด ซึ่งทำให้เราสามารถวัดได้ทั้งความถูกต้องและการหลอนข้อมูล ผ่านการประเมินโดยมนุษย์ที่มีการตัดสินมากกว่า 50K ครั้ง เราได้ชี้ให้เห็นข้อจำกัดของโมเดลเหล่านี้และแสดงให้เห็นว่ายังมีช่องว่างให้ปรับปรุงอีกมาก ตัวอย่างเช่น โมเดลทั้งหมด (ไม่ขึ้นกับขนาดของโมเดล) มีปัญหากับคำถามที่เกี่ยวข้องกับความรู้ที่เปลี่ยนแปลงรวดเร็วและสมมติฐานผิด จากผลลัพธ์เหล่านี้ เรานำเสนอ FreshPrompt ซึ่งเป็นวิธี few-shot prompting แบบเรียบง่ายที่ช่วยเพิ่มประสิทธิภาพของ LLM บน FreshQA ได้อย่างมาก ด้วยการนำข้อมูลที่เกี่ยวข้องและเป็นปัจจุบันซึ่งดึงมาจากเสิร์ชเอนจินมาผนวกไว้ในพรอมป์ต์ ผลการทดลองของเราแสดงให้เห็นว่า FreshPrompt มีประสิทธิภาพเหนือกว่าทั้งวิธี prompting ที่เสริมด้วยเสิร์ชเอนจินของคู่แข่ง เช่น Self-Ask (Press et al., 2022) ตลอดจนระบบเชิงพาณิชย์อย่าง Perplexity.AI การวิเคราะห์ FreshPrompt เพิ่มเติมเผยให้เห็นว่าทั้งจำนวนหลักฐานที่ดึงมาและลำดับของหลักฐานเหล่านั้นมีบทบาทสำคัญในการส่งผลต่อความถูกต้องของคำตอบที่ LLM สร้างขึ้น นอกจากนี้ การสั่งให้ LLM สร้างคำตอบที่กระชับและตรงไปตรงมายังช่วยลดการหลอนข้อมูลได้ เมื่อเทียบกับการกระตุ้นให้สร้างคำตอบที่ยืดยาวกว่า เพื่ออำนวยความสะดวกต่อการทำงานในอนาคต เราเผยแพร่ FreshQA ที่ github.com/freshllms/freshqa และให้คำมั่นว่าจะอัปเดตเป็นระยะอย่างสม่ำเสมอ

ลิงก์บทความวิจัย

https://arxiv.org/abs/2310.03214

อ่านเพิ่มเติม

https://x.com/_akhaliq/status/1710108355157487635


ต้นฉบับ

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-fc8

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น