[2023/11/13 ~ 11/19] งานวิจัย ML เด่นประจำสัปดาห์ (Top ML Papers of the Week)
(discuss.pytorch.kr)ภาพรวม
-
เราได้ทดลองแปลบทความเกี่ยวกับงานวิจัย ML ที่ DAIR.AI เผยแพร่ทุกสัปดาห์แบบอัตโนมัติ
-
ในสัปดาห์นี้ งานวิจัยส่วนใหญ่เน้นไปที่การปรับปรุงและขยายขีดความสามารถของ LLM (Large Language Models) หรือโมเดลภาษาขนาดใหญ่ โดยมีทั้งงานเกี่ยวกับการทำงานของ LLM อย่างคุ้มค่า การนำไปใช้เพื่อการค้นพบทางวิทยาศาสตร์ และโมเดลภาษาสำหรับการสร้างโค้ดที่ใช้งานได้จริง นอกจากนี้ยังดูเหมือนว่ากำลังมีแนวโน้มของงานวิจัยที่มุ่งเพิ่มความเที่ยงตรงต่อข้อเท็จจริงของโมเดลเหล่านี้มากขึ้นด้วย
-
โมเดลภาษา โดยเฉพาะ LLM กำลังได้รับความสนใจอย่างมากในสาขาการประมวลผลภาษาธรรมชาติ (NLP) ซึ่งน่าจะเป็นเพราะโมเดลเหล่านี้สามารถจัดการงานด้านภาษาที่ซับซ้อนและหลากหลายได้คล้ายมนุษย์มากขึ้น โมเดลลักษณะนี้สามารถประยุกต์ใช้ได้ในหลายด้าน เช่น การเลียนแบบกระบวนการคิดอย่างเป็นระบบ (Contrastive CoT Prompting) หรือการยกระดับระบบอัตโนมัติในการพัฒนาโค้ด (A Survey on Language Models for Code) ขณะเดียวกัน วิธีการเพื่อพัฒนา LLM ให้ก้าวหน้ายิ่งขึ้น เช่น การเสริมการค้นคืนข้อมูลด้วยการกรองบริบทอย่างแม่นยำ (Learning to Filter Context for RAG) หรือการวิจัยในแนวทางที่ไม่หลอกลวงผู้ใช้ (LLMs can Deceive Users) ก็เป็นแนวโน้มการวิจัยที่สำคัญเช่นกัน
Emu วิดีโอ และ Emu Edit / Emu Video and Emu Edit
แนะนำงานวิจัย
- นำเสนอโมเดลใหม่สำหรับการตัดต่อภาพแบบควบคุมได้และการสร้างวิดีโอจากข้อความ โดยอาศัย diffusion models; Emu Video สามารถสร้างวิดีโอคุณภาพสูงได้จากอินพุตแบบข้อความล้วน แบบภาพล้วน หรือแบบผสมข้อความกับภาพ; Emu Edit ช่วยให้สามารถแก้ไขแบบอิสระได้ผ่านคำสั่งข้อความ
Present new models for controlled image editing and text-to-video generation based on diffusion models; emu video can generate high-quality video by using text-only, image-only, or combined text and image inputs; emu edit enables free-form editing through text instructions.
ลิงก์งานวิจัย
อ่านเพิ่มเติม
https://x.com/AIatMeta/status/1725184026154349007
##CoN(Chain-of-Note): เพิ่มความทนทานของโมเดลภาษาที่เสริมด้วยการค้นคืนข้อมูล / Chain-of-Note: Enhancing Robustness in Retrieval-Augmented Language Models
แนะนำงานวิจัย
- แนวทางในการเพิ่มความทนทานและความน่าเชื่อถือของ retrieval-augmented language models เมื่อต้องเผชิญกับเอกสารที่มีสัญญาณรบกวนสูง ไม่เกี่ยวข้อง และเมื่อต้องรับมือกับสถานการณ์ที่ไม่รู้จัก; CoN สร้างบันทึกการอ่านแบบลำดับสำหรับเอกสารที่ค้นคืนมา เพื่อประเมินความเกี่ยวข้องกับคำถามที่กำหนด และผสานข้อมูลนี้เพื่อสรุปเป็นคำตอบสุดท้าย; CoN มีประสิทธิภาพเหนือกว่า retrieval-augmented language models มาตรฐานอย่างชัดเจน และทำคะแนน EM ดีขึ้นเฉลี่ย +7.9 เมื่อใช้เอกสารค้นคืนที่มีแต่สัญญาณรบกวนทั้งหมด และเพิ่มอัตราการปฏิเสธได้ +10.5 สำหรับคำถามเรียลไทม์ที่อยู่นอกขอบเขตความรู้จากการพรีเทรน
An approach to improve the robustness and reliability of retrieval-augmented language models in facing noisy, irrelevant documents and in handling unknown scenarios; con generates sequential reading notes for the retrieved documents, enabling an evaluation of their relevance to the given question and integrating this information to formulate the final answer; con significantly outperforms standard retrieval-augmented language models and achieves an average improvement of +7.9 in em score given entirely noisy retrieved documents and +10.5 in rejection rates for real-time questions that fall outside the pre-training knowledge scope.
บทคัดย่อ
- โมเดลภาษาที่เสริมด้วยการค้นคืนข้อมูล (RALM) ถือเป็นความก้าวหน้าครั้งสำคัญของความสามารถของโมเดลภาษาขนาดใหญ่ โดยเฉพาะในด้านการลดการหลอนข้อเท็จจริงด้วยการใช้แหล่งความรู้ภายนอก อย่างไรก็ตาม ความน่าเชื่อถือของข้อมูลที่ค้นคืนมาไม่ได้รับการรับประกันเสมอไป การค้นคืนข้อมูลที่ไม่เกี่ยวข้องอาจนำไปสู่คำตอบที่ผิดพลาด และยังอาจทำให้โมเดลมองข้ามความรู้ที่มีอยู่ภายในตัวเอง แม้ว่าจะมีข้อมูลเพียงพอสำหรับตอบคำถามนั้นก็ตาม นอกจากนี้ RALM แบบมาตรฐานมักประสบปัญหาในการประเมินว่าตนมีความรู้เพียงพอหรือไม่ ทั้งจากความรู้ภายในและความรู้ที่ค้นคืนมา เพื่อให้คำตอบที่ถูกต้อง ในสถานการณ์ที่ความรู้ไม่เพียงพอ ระบบเหล่านี้ควรตอบว่า "ไม่ทราบ" เมื่อตอบไม่ได้ เพื่อรับมือกับความท้าทายเหล่านี้ จึงได้มีการเสนอ CoN (Chain-of-Noting) ซึ่งเป็นแนวทางใหม่ที่มุ่งปรับปรุงความทนทานของ RALM เมื่อต้องเผชิญกับเอกสารที่มีสัญญาณรบกวนสูงหรือไม่เกี่ยวข้อง และเมื่อต้องจัดการกับกรณีที่ไม่ทราบคำตอบ แนวคิดหลักของ CoN คือการสร้างบันทึกการอ่านแบบลำดับต่อเนื่องสำหรับเอกสารที่ค้นคืนมา เพื่อประเมินความเกี่ยวข้องกับคำถามที่กำหนดอย่างละเอียด และนำข้อมูลนี้มาผสานเพื่อสร้างคำตอบสุดท้าย โดยใช้ ChatGPT สร้างข้อมูลฝึกสำหรับ CoN จากนั้นจึงฝึกบนโมเดล LLaMa-2 7B ผลการทดลองบนเบนช์มาร์ก QA แบบ open-domain 4 ชุด แสดงให้เห็นว่า RALM ที่ติดตั้ง CoN มีประสิทธิภาพเหนือกว่า RALM มาตรฐานอย่างชัดเจน โดยเฉพาะ CoN ช่วยเพิ่มคะแนน EM เฉลี่ย +7.9 คะแนนเมื่อเอกสารที่ค้นคืนมาเป็นสัญญาณรบกวนทั้งหมด และเพิ่มอัตราการปฏิเสธเฉลี่ย +10.5 คะแนนสำหรับคำถามแบบเรียลไทม์ที่อยู่นอกขอบเขตความรู้จากการพรีเทรน
Retrieval-augmented language models (RALMs) represent a substantial advancement in the capabilities of large language models, notably in reducing factual hallucination by leveraging external knowledge sources. However, the reliability of the retrieved information is not always guaranteed. The retrieval of irrelevant data can lead to misguided responses, and potentially causing the model to overlook its inherent knowledge, even when it possesses adequate information to address the query. Moreover, standard RALMs often struggle to assess whether they possess adequate knowledge, both intrinsic and retrieved, to provide an accurate answer. In situations where knowledge is lacking, these systems should ideally respond with "unknown" when the answer is unattainable. In response to these challenges, we introduces Chain-of-Noting (CoN), a novel approach aimed at improving the robustness of RALMs in facing noisy, irrelevant documents and in handling unknown scenarios. The core idea of CoN is to generate sequential reading notes for retrieved documents, enabling a thorough evaluation of their relevance to the given question and integrating this information to formulate the final answer. We employed ChatGPT to create training data for CoN, which was subsequently trained on an LLaMa-2 7B model. Our experiments across four open-domain QA benchmarks show that RALMs equipped with CoN significantly outperform standard RALMs. Notably, CoN achieves an average improvement of +7.9 in EM score given entirely noisy retrieved documents and +10.5 in rejection rates for real-time questions that fall outside the pre-training knowledge scope.
ลิงก์งานวิจัย
https://arxiv.org/abs/2311.09210
อ่านเพิ่มเติม
https://x.com/omarsar0/status/1725181141693472959
ผลกระทบของโมเดลภาษาขนาดใหญ่ต่อการค้นพบทางวิทยาศาสตร์: การศึกษาเบื้องต้นโดยใช้ GPT-4 / The Impact of Large Language Models on Scientific Discovery: a Preliminary Study using GPT-4
แนะนำงานวิจัย
- สำรวจผลกระทบของโมเดลภาษาขนาดใหญ่ โดยเฉพาะ GPT-4 ในหลากหลายสาขาวิทยาศาสตร์ เช่น การค้นพบยา ชีววิทยา และเคมีเชิงคำนวณ พร้อมประเมินความเข้าใจของ GPT-4 ต่อแนวคิดทางวิทยาศาสตร์ที่ซับซ้อน ความสามารถในการแก้ปัญหา และศักยภาพในการผลักดันความก้าวหน้าของงานวิจัยวิทยาศาสตร์ ผ่านการประเมินกรณีศึกษาโดยผู้เชี่ยวชาญและการทดสอบเบนช์มาร์ก
Explores the impact of large language models, particularly gpt-4, across various scientific fields including drug discovery, biology, and computational chemistry; assesses gpt-4's understanding of complex scientific concepts, its problem-solving capabilities, and its potential to advance scientific research through expert-driven case assessments and benchmark testing.
บทคัดย่อของงานวิจัย
- ในช่วงไม่กี่ปีที่ผ่านมา ความก้าวหน้าแบบก้าวกระโดดของการประมวลผลภาษาธรรมชาติได้นำไปสู่การเกิดขึ้นของโมเดลภาษาขนาดใหญ่ (LLM) ที่ทรงพลัง ซึ่งได้แสดงความสามารถอันน่าทึ่งในขอบเขตที่กว้างขวาง ทั้งการทำความเข้าใจ การสร้าง และการแปลภาษาธรรมชาติ ตลอดจนงานที่ก้าวข้ามการประมวลผลภาษาไปอีกด้วย รายงานนี้เจาะลึกประสิทธิภาพของ LLM ในบริบทของการค้นพบทางวิทยาศาสตร์ โดยมุ่งเน้นที่ GPT-4 ซึ่งเป็นโมเดลภาษาล้ำสมัย เราได้ทำการศึกษาอย่างครอบคลุมในหลากหลายสาขาวิทยาศาสตร์ เช่น การค้นพบยา ชีววิทยา เคมีเชิงคำนวณ (ทฤษฎีฟังก์ชันความหนาแน่น (DFT) และพลวัตระดับโมเลกุล (MD)) การออกแบบวัสดุ และสมการเชิงอนุพันธ์ย่อย (PDE) การประเมิน GPT-4 กับโจทย์ทางวิทยาศาสตร์มีความสำคัญอย่างยิ่งต่อการค้นหาศักยภาพของมันในหลากหลายสาขาวิจัย การตรวจสอบความเชี่ยวชาญเฉพาะโดเมน การเร่งความก้าวหน้าทางวิทยาศาสตร์ การเพิ่มประสิทธิภาพการจัดสรรทรัพยากร การชี้นำการพัฒนาโมเดลในอนาคต และการส่งเสริมการวิจัยแบบสหวิทยาการ ระเบียบวิธีการสำรวจของเราประกอบด้วยการประเมินกรณีศึกษาโดยผู้เชี่ยวชาญเป็นหลัก ซึ่งให้ข้อมูลเชิงคุณภาพเกี่ยวกับความเข้าใจของโมเดลต่อแนวคิดและความสัมพันธ์ทางวิทยาศาสตร์ที่ซับซ้อน และการทดสอบ benchmark เป็นครั้งคราว ซึ่งประเมินเชิงปริมาณถึงความสามารถของโมเดลในการแก้ปัญหาเฉพาะโดเมนที่นิยามไว้อย่างชัดเจน ผลการสำรวจเบื้องต้นบ่งชี้ว่า GPT-4 แสดงศักยภาพที่น่าจับตามองสำหรับการประยุกต์ใช้ทางวิทยาศาสตร์ที่หลากหลาย โดยแสดงให้เห็นถึงความเหมาะสมในการจัดการงานแก้ปัญหาที่ซับซ้อนและงานบูรณาการความรู้ โดยภาพรวม เราประเมินฐานความรู้ของ GPT-4 ความเข้าใจทางวิทยาศาสตร์ ความสามารถในการคำนวณเชิงตัวเลขทางวิทยาศาสตร์ และความสามารถด้านการพยากรณ์ทางวิทยาศาสตร์ในหลายมิติ
In recent years, groundbreaking advancements in natural language processing have culminated in the emergence of powerful large language models (LLMs), which have showcased remarkable capabilities across a vast array of domains, including the understanding, generation, and translation of natural language, and even tasks that extend beyond language processing. In this report, we delve into the performance of LLMs within the context of scientific discovery, focusing on GPT-4, the state-of-the-art language model. Our investigation spans a diverse range of scientific areas encompassing drug discovery, biology, computational chemistry (density functional theory (DFT) and molecular dynamics (MD)), materials design, and partial differential equations (PDE). Evaluating GPT-4 on scientific tasks is crucial for uncovering its potential across various research domains, validating its domain-specific expertise, accelerating scientific progress, optimizing resource allocation, guiding future model development, and fostering interdisciplinary research. Our exploration methodology primarily consists of expert-driven case assessments, which offer qualitative insights into the model's comprehension of intricate scientific concepts and relationships, and occasionally benchmark testing, which quantitatively evaluates the model's capacity to solve well-defined domain-specific problems. Our preliminary exploration indicates that GPT-4 exhibits promising potential for a variety of scientific applications, demonstrating its aptitude for handling complex problem-solving and knowledge integration tasks. Broadly speaking, we evaluate GPT-4's knowledge base, scientific understanding, scientific numerical calculation abilities, and various scientific prediction capabilities.
ลิงก์งานวิจัย
https://arxiv.org/abs/2311.07361
อ่านเพิ่มเติม
https://x.com/omarsar0/status/1724465107046940893
ปรับจูนละเอียดโมเดลภาษาให้สอดคล้องกับความเป็นข้อเท็จจริง / Fine-tuning Language Models for Factuality
แนะนำงานวิจัย
- ปรับจูนละเอียดโมเดลภาษาให้สอดคล้องกับความเป็นข้อเท็จจริงได้โดยไม่ต้องใช้การติดป้ายกำกับโดยมนุษย์ โดยเรียนรู้จากการจัดอันดับความชอบด้านความเป็นข้อเท็จจริงที่สร้างขึ้นโดยอัตโนมัติ มุ่งเป้าไปที่การสร้างข้อความแบบปลายเปิด และช่วยเพิ่มความเป็นข้อเท็จจริงของ Llama-2 ในหัวข้อที่กันไว้สำหรับการทดสอบได้อย่างมีนัยสำคัญเมื่อเทียบกับ RLHF หรือกลยุทธ์การถอดรหัสที่มุ่งเน้นความเป็นข้อเท็จจริง
Fine-tunes language model for factuality without requiring human labeling; it learns from automatically generated factuality preference rankings and targets open-ended generation settings; it significantly improves the factuality of llama-2 on held-out topics compared with rlhf or decoding strategies targeted at factuality.
บทคัดย่อ
- ด้วยความลื่นไหลและความสร้างสรรค์ของโมเดลภาษาขนาดใหญ่ (LLM) ที่ผ่านการพรีเทรน ทำให้โมเดลภาษาถูกใช้อย่างแพร่หลาย และบางครั้งก็ถูกใช้แทนเสิร์ชเอนจินแบบดั้งเดิมด้วย อย่างไรก็ตาม โมเดลภาษามักมีแนวโน้มจะสร้างข้อความที่ฟังน่าเชื่อถือแต่ไม่ตรงกับข้อเท็จจริง ซึ่งมักเรียกว่า 'ภาพหลอน' ข้อผิดพลาดเหล่านี้อาจเผยแพร่ข้อมูลผิดโดยไม่ตั้งใจ หรือทำให้ความเข้าใจผิดฝังแน่นยิ่งขึ้น นอกจากนี้ การตรวจสอบข้อเท็จจริงของคำตอบจากโมเดลด้วยแรงงานคนยังเป็นกระบวนการที่ใช้เวลามาก จึงมีต้นทุนสูงในการจัดทำป้ายกำกับความถูกต้องตามข้อเท็จจริงโดยมนุษย์ งานนี้จึงทำการไฟน์จูนโมเดลภาษาให้มีความสอดคล้องกับข้อเท็จจริงมากขึ้น โดยไม่ต้องใช้การติดป้ายกำกับจากมนุษย์ และมุ่งไปยังการตั้งค่าการสร้างข้อความแบบปลายเปิดมากกว่างานก่อนหน้า เพื่อทำเช่นนั้น ผู้วิจัยใช้ประโยชน์จากนวัตกรรมสำคัญสองประการล่าสุดใน NLP ประการแรก งานวิจัยล่าสุดหลายชิ้นได้เสนอวิธีตัดสินความถูกต้องตามข้อเท็จจริงของข้อความแบบปลายเปิด โดยวัดความสอดคล้องกับฐานความรู้ภายนอก หรือเพียงใช้คะแนนความเชื่อมั่นของโมเดลขนาดใหญ่ ประการที่สอง อัลกอริทึม direct preference optimization ช่วยให้สามารถไฟน์จูนโมเดลภาษาโดยตรงกับเป้าหมายที่นอกเหนือจากการเลียนแบบแบบมีผู้สอน โดยใช้ลำดับความชอบของคำตอบที่เป็นไปได้ของโมเดล ผู้วิจัยแสดงให้เห็นว่า การเรียนรู้จากลำดับความชอบด้านความถูกต้องตามข้อเท็จจริงที่สร้างขึ้นโดยอัตโนมัติ ไม่ว่าจะผ่านระบบค้นคืนข้อมูลที่มีอยู่เดิมหรือแนวทางแบบไม่ต้องค้นคืนข้อมูลแบบใหม่ของพวกเขา ช่วยเพิ่มความถูกต้องตามข้อเท็จจริงของ Llama-2 (สัดส่วนของข้ออ้างที่สร้างขึ้นแล้วถูกต้อง) บนหัวข้อที่กันไว้ทดสอบได้อย่างมีนัยสำคัญ เมื่อเทียบกับ RLHF หรือกลยุทธ์การถอดรหัสที่มุ่งเน้นความถูกต้องตามข้อเท็จจริง ที่ขนาด 7B เมื่อเทียบกับ Llama-2-chat พบว่าอัตราข้อผิดพลาดด้านข้อเท็จจริงลดลง 58% และ 40% ตามลำดับ ในการสร้างชีวประวัติและการตอบคำถามทางการแพทย์
The fluency and creativity of large pre-trained language models (LLMs) have led to their widespread use, sometimes even as a replacement for traditional search engines. Yet language models are prone to making convincing but factually inaccurate claims, often referred to as 'hallucinations.' These errors can inadvertently spread misinformation or harmfully perpetuate misconceptions. Further, manual fact-checking of model responses is a time-consuming process, making human factuality labels expensive to acquire. In this work, we fine-tune language models to be more factual, without human labeling and targeting more open-ended generation settings than past work. We leverage two key recent innovations in NLP to do so. First, several recent works have proposed methods for judging the factuality of open-ended text by measuring consistency with an external knowledge base or simply a large model's confidence scores. Second, the direct preference optimization algorithm enables straightforward fine-tuning of language models on objectives other than supervised imitation, using a preference ranking over possible model responses. We show that learning from automatically generated factuality preference rankings, generated either through existing retrieval systems or our novel retrieval-free approach, significantly improves the factuality (percent of generated claims that are correct) of Llama-2 on held-out topics compared with RLHF or decoding strategies targeted at factuality. At 7B scale, compared to Llama-2-chat, we observe 58% and 40% reduction in factual error rate when generating biographies and answering medical questions, respectively.
ลิงก์บทความวิจัย
https://arxiv.org/abs/2311.08401
อ่านเพิ่มเติม
https://x.com/arankomatsuzaki/status/1724613041155608951
Contrastive Chain-of-Thought Prompting / พรอมป์ต์ CoT แบบเปรียบต่าง
แนะนำงานวิจัย
- เสนอวิธี chain of thought แบบเปรียบต่างเพื่อยกระดับการให้เหตุผลของโมเดลภาษา แนวทางนี้ให้ทั้งตัวอย่างการให้เหตุผลที่ถูกต้องและไม่ถูกต้อง เพื่อชี้นำให้โมเดลคิดเป็นลำดับขั้นพร้อมลดความผิดพลาดในการให้เหตุผล นอกจากนี้ยังเสนอวิธีอัตโนมัติในการสร้างตัวอย่างแบบเปรียบต่าง และแสดงให้เห็นว่าดีกว่า CoT prompting แบบเดิม
Proposes a contrastive chain of thought method to enhance language model reasoning; the approach provides both valid and invalid reasoning demonstrations, to guide the model to reason step-by-step while reducing reasoning mistakes; also proposes an automatic method to construct contrastive demonstrations and demonstrates improvements over cot prompting.
บทคัดย่อบทความวิจัย
- แม้ chain of thought จะประสบความสำเร็จในการยกระดับความสามารถด้านการให้เหตุผลของโมเดลภาษา แต่กระบวนการพื้นฐานที่อยู่เบื้องหลังยังคงไม่เป็นที่เข้าใจอย่างชัดเจน แม้ว่าการให้เหตุผลที่สมเหตุสมผลในเชิงตรรกะจะดูเป็นองค์ประกอบสำคัญโดยเนื้อแท้ของ chain of thought แต่ผลงานก่อนหน้ากลับเผยอย่างน่าประหลาดใจว่า การใช้ตัวอย่างสาธิตที่ไม่ถูกต้องแทนก็แทบไม่ส่งผลมากนัก นอกจากนี้ chain of thought แบบเดิมยังไม่ได้บอกโมเดลภาษาว่าควรหลีกเลี่ยงข้อผิดพลาดใด จึงอาจนำไปสู่ความผิดพลาดมากขึ้นได้ ด้วยเหตุนี้ โดยได้แรงบันดาลใจจากการที่มนุษย์สามารถเรียนรู้จากทั้งตัวอย่างเชิงบวกและเชิงลบ เราจึงเสนอ contrastive chain of thought เพื่อเสริมความสามารถด้านการให้เหตุผลของโมเดลภาษา เมื่อเทียบกับ chain of thought แบบเดิม วิธีของเรานำเสนอทั้งตัวอย่างการให้เหตุผลที่ถูกต้องและไม่ถูกต้อง เพื่อชี้นำให้โมเดลให้เหตุผลแบบเป็นขั้นตอนพร้อมลดความผิดพลาดในการให้เหตุผล เพื่อปรับปรุงความสามารถในการทำให้เป็นนามธรรม เราได้แนะนำวิธีอัตโนมัติสำหรับสร้างตัวอย่างสาธิตเชิงเปรียบต่าง การทดลองของเราบน reasoning benchmarks แสดงให้เห็นว่า contrastive chain of thought สามารถทำหน้าที่เป็นการปรับปรุงทั่วไปของ chain-of-thought prompting ได้
Despite the success of chain of thought in enhancing language model reasoning, the underlying process remains less well understood. Although logically sound reasoning appears inherently crucial for chain of thought, prior studies surprisingly reveal minimal impact when using invalid demonstrations instead. Furthermore, the conventional chain of thought does not inform language models on what mistakes to avoid, which potentially leads to more errors. Hence, inspired by how humans can learn from both positive and negative examples, we propose contrastive chain of thought to enhance language model reasoning. Compared to the conventional chain of thought, our approach provides both valid and invalid reasoning demonstrations, to guide the model to reason step-by-step while reducing reasoning mistakes. To improve generalization, we introduce an automatic method to construct contrastive demonstrations. Our experiments on reasoning benchmarks demonstrate that contrastive chain of thought can serve as a general enhancement of chain-of-thought prompting.
ลิงก์งานวิจัย
https://arxiv.org/abs/2311.09277
อ่านเพิ่มเติม
https://x.com/arankomatsuzaki/status/1725340150819905723
งานวิจัยสำรวจเกี่ยวกับโมเดลภาษาสำหรับโค้ด / A Survey on Language Models for Code
แนะนำงานวิจัย
- ให้ภาพรวมของ LLM สำหรับโค้ด โดยครอบคลุมการทบทวนโมเดลมากกว่า 50 โมเดล งานประเมินมากกว่า 30 งาน และงานที่เกี่ยวข้องมากกว่า 500 ชิ้น
Provides an overview of llms for code, including a review of 50+ models, 30+ evaluation tasks, and 500 related works.
บทคัดย่อ
- งานนี้ทบทวนความก้าวหน้าล่าสุดของการประมวลผลโค้ดด้วย language models อย่างเป็นระบบ โดยครอบคลุมมากกว่า 50 โมเดล งานประเมินมากกว่า 30 งาน และงานที่เกี่ยวข้องมากกว่า 500 ชิ้น เราแบ่งโมเดลสำหรับการประมวลผลโค้ดออกเป็นโมเดลภาษาทั่วไปที่มีตระกูล GPT เป็นตัวแทน และโมเดลเฉพาะทางที่ผ่านการ pretrain บนโค้ดโดยเฉพาะ ซึ่งมักมีวัตถุประสงค์ที่ออกแบบมาเฉพาะ เราอภิปรายถึงความสัมพันธ์และความแตกต่างระหว่างโมเดลเหล่านี้ และเน้นให้เห็นการเปลี่ยนผ่านทางประวัติศาสตร์ของการทำ code modeling จาก statistical models และ RNN ไปสู่ pretrained Transformers และ LLMs ซึ่งเป็นเส้นทางเดียวกับที่ NLP เคยผ่านมา นอกจากนี้ เรายังอภิปรายฟีเจอร์เฉพาะของโค้ด เช่น AST, CFG และ unit tests รวมถึงการประยุกต์ใช้ในการฝึก code language models และระบุความท้าทายสำคัญกับทิศทางในอนาคตที่เป็นไปได้ในโดเมนนี้ แบบสำรวจนี้จะยังคงเปิดและอัปเดตต่อเนื่องบน GitHub repository ที่ https://github.com/codefuse-ai/Awesome-Code-LLM
In this work we systematically review the recent advancements in code processing with language models, covering 50+ models, 30+ evaluation tasks, and 500 related works. We break down code processing models into general language models represented by the GPT family and specialized models that are specifically pretrained on code, often with tailored objectives. We discuss the relations and differences between these models, and highlight the historical transition of code modeling from statistical models and RNNs to pretrained Transformers and LLMs, which is exactly the same course that had been taken by NLP. We also discuss code-specific features such as AST, CFG, and unit tests, along with their application in training code language models, and identify key challenges and potential future directions in this domain. We keep the survey open and updated on github repository at https://github.com/codefuse-ai/Awesome-Code-LLM.
ลิงก์งานวิจัย
https://arxiv.org/abs/2311.07989v1
อ่านเพิ่มเติม
https://x.com/omarsar0/status/1725637165256761553
JARVIS-1: เอเจนต์มัลติทาสก์แบบโอเพนเวิลด์พร้อมโมเดลภาษามัลติโหมดที่เสริมหน่วยความจำ / JARVIS-1: Open-World Multi-task Agents with Memory-Augmented Multimodal Language Models
แนะนำงานวิจัย
- เอเจนต์โอเพนเวิลด์ที่สามารถรับรู้ข้อมูลนำเข้าหลายรูปแบบ ทั้งการสังเกตภาพและคำสั่งจากมนุษย์ สร้างแผนที่ซับซ้อน และทำการควบคุมเชิงปฏิบัติการได้ภายในโลก Minecraft แบบโอเพนเวิลด์ โดยแสดงประสิทธิภาพเกือบสมบูรณ์แบบในงานมากกว่า 200 งานในโลก Minecraft และทำอัตราความสำเร็จ 12.5% ในงานระยะยาว diamond pickaxe ซึ่งดีกว่าสถิติก่อนหน้าถึง 5 เท่า
An open-world agent that can perceive multimodal input (visual observations and human instructions), generate sophisticated plans, and perform embodied control, within the open-world minecraft universe; exhibits near-perfect performances across over 200 tasks in minecraft universe; achieves a completion rate of 12.5% in the long-horizon diamond pickaxe task, which is a 5x increase compared to previous records.
บทคัดย่อ
- การบรรลุการวางแผนและการควบคุมแบบมนุษย์ด้วยการสังเกตแบบหลายโมดัลในโลกเปิดถือเป็นหมุดหมายสำคัญสำหรับเอเจนต์แบบ generalist ที่ใช้งานได้จริงยิ่งขึ้น แนวทางที่มีอยู่สามารถจัดการงานระยะยาวบางประเภทในโลกเปิดได้ อย่างไรก็ตาม ยังเผชิญความยากลำบากอยู่ เนื่องจากจำนวนงานในโลกเปิดสามารถเพิ่มขึ้นได้อย่างไร้ขีดจำกัด และยังขาดความสามารถในการค่อย ๆ เพิ่มอัตราความสำเร็จของงานเมื่อเวลาในเกมดำเนินไป Unity แนะนำ JARVIS-1 เอเจนต์โลกเปิดที่สามารถรับรู้ข้อมูลนำเข้าแบบหลายโมดัล เช่น การสังเกตด้วยภาพและคำสั่งจากมนุษย์ สร้างแผนที่ซับซ้อน และดำเนินการควบคุมที่ถูกนำไปใช้จริงได้ ภายในจักรวาล Minecraft แบบโลกเปิดที่ทั้งได้รับความนิยมและท้าทาย โดยเฉพาะอย่างยิ่ง Unity พัฒนา JARVIS-1 บนพื้นฐานของโมเดลภาษาหลายโมดัลที่ผ่านการพรีเทรน ซึ่งแมปการสังเกตด้วยภาพและคำสั่งข้อความไปเป็นแผน จากนั้นแผนดังกล่าวจะถูกส่งต่อไปยังคอนโทรลเลอร์ที่กำหนดตามเงื่อนไขของเป้าหมาย Unity ยังติดตั้งหน่วยความจำหลายโมดัลให้กับ JARVIS-1 เพื่อให้สามารถวางแผนโดยใช้ทั้งความรู้จากการพรีเทรนและประสบการณ์เอาตัวรอดจริงภายในเกม ผลการทดลองของ Unity แสดงให้เห็นว่า JARVIS-1 มีประสิทธิภาพเกือบสมบูรณ์แบบในงานที่หลากหลายกว่า 200 งานบน Minecraft Universe Benchmark ตั้งแต่ระดับเริ่มต้นถึงระดับกลาง JARVIS-1 ทำอัตราความสำเร็จได้ 12.5% ในงาน diamond pickaxe แบบ long-horizon ซึ่งเป็นการปรับปรุงที่ดีขึ้นอย่างมาก สูงสุดถึง 5 เท่าเมื่อเทียบกับสถิติก่อนหน้า นอกจากนี้ ยังแสดงให้เห็นว่าด้วยหน่วยความจำหลายโมดัล JARVIS-1 สามารถ $\textit{พัฒนาตนเอง}$ ได้ตามกระบวนทัศน์การเรียนรู้ตลอดชีวิต ซึ่งจุดประกายไปสู่สติปัญญาที่ทั่วไปมากขึ้นและความเป็นอิสระที่ดีขึ้น ดูหน้าโปรเจกต์ได้ที่ https://craftjarvis-jarvis1.github.io
Achieving human-like planning and control with multimodal observations in an open world is a key milestone for more functional generalist agents. Existing approaches can handle certain long-horizon tasks in an open world. However, they still struggle when the number of open-world tasks could potentially be infinite and lack the capability to progressively enhance task completion as game time progresses. We introduce JARVIS-1, an open-world agent that can perceive multimodal input (visual observations and human instructions), generate sophisticated plans, and perform embodied control, all within the popular yet challenging open-world Minecraft universe. Specifically, we develop JARVIS-1 on top of pre-trained multimodal language models, which map visual observations and textual instructions to plans. The plans will be ultimately dispatched to the goal-conditioned controllers. We outfit JARVIS-1 with a multimodal memory, which facilitates planning using both pre-trained knowledge and its actual game survival experiences. In our experiments, JARVIS-1 exhibits nearly perfect performances across over 200 varying tasks from the Minecraft Universe Benchmark, ranging from entry to intermediate levels. JARVIS-1 has achieved a completion rate of 12.5% in the long-horizon diamond pickaxe task. This represents a significant increase up to 5 times compared to previous records. Furthermore, we show that JARVIS-1 is able to $\textit{self-improve}$ following a life-long learning paradigm thanks to multimodal memory, sparking a more general intelligence and improved autonomy. The project page is available at https://craftjarvis-jarvis1.github.io.
ลิงก์บทความวิจัย
https://arxiv.org/abs/2311.05997
อ่านเพิ่มเติม
https://x.com/arankomatsuzaki/status/1723882043514470629
FILCO: วิธีการเรียนรู้เพื่อกรองคอนเท็กซ์สำหรับ Retrieval-Augmented Generation / Learning to Filter Context for Retrieval-Augmented Generation
แนะนำงานวิจัย
- เสนอวิธีปรับปรุงคุณภาพของบริบทที่ส่งให้ตัวสร้างด้วยสองขั้นตอน: 1) ระบุคอนเท็กซ์ที่มีประโยชน์โดยอิงแนวทางเชิงศัพท์และเชิงทฤษฎีสารสนเทศ และ 2) ฝึกโมเดลกรองคอนเท็กซ์ที่สามารถกรองคอนเท็กซ์ที่ดึงค้นมาได้ในช่วงอนุมาน ซึ่งให้ประสิทธิภาพเหนือกว่าแนวทางเดิมในงานถามตอบเชิงสกัด (QA), QA แบบหลายฮอปที่ซับซ้อนและแบบ long-form, การตรวจสอบข้อเท็จจริง และงานสร้างบทสนทนา
Proposes a method that improves the quality of the context provided to the generator via two steps: 1) identifying useful context based on lexical and information-theoretic approaches, and 2) training context filtering models that can filter retrieved contexts at inference; outperforms existing approaches on extractive question answering (qa), complex multi-hop and long-form qa, fact verification, and dialog generation tasks.
บทคัดย่อของงานวิจัย
- การดึงความรู้ที่เกี่ยวข้องขึ้นมาค้นหาแบบทันทีพิสูจน์แล้วว่าเป็นองค์ประกอบสำคัญของระบบที่เชื่อถือได้สำหรับงานอย่างการตอบคำถามแบบ open-domain และการตรวจสอบข้อเท็จจริง อย่างไรก็ตาม เนื่องจากระบบค้นคืนข้อมูลไม่ได้สมบูรณ์แบบ โมเดลสร้างข้อความจึงจำเป็นต้องสร้างผลลัพธ์จากข้อความตอนที่เกี่ยวข้องเพียงบางส่วนหรือไม่เกี่ยวข้องเลยได้ ซึ่งอาจทำให้พึ่งพาบริบทมากเกินไปหรือน้อยเกินไป และก่อให้เกิดปัญหาอย่าง hallucination ในผลลัพธ์ที่สร้างขึ้น เพื่อบรรเทาปัญหาเหล่านี้ จึงเสนอ FILCO ซึ่งเป็นวิธีปรับปรุงคุณภาพของบริบทที่ส่งให้ตัวสร้างโดย (1) ระบุบริบทที่มีประโยชน์ด้วยแนวทางเชิงคำศัพท์และทฤษฎีสารสนเทศ และ (2) ฝึกโมเดลกรองบริบทที่สามารถกรองบริบทที่ค้นคืนมาได้ในช่วงทดสอบ ผลการทดลองบนงานที่ใช้ความรู้เข้มข้น 6 งานด้วย FLAN-T5 และ LLaMa2 แสดงให้เห็นว่าวิธีนี้มีประสิทธิภาพเหนือกว่าแนวทางเดิมในงานตอบคำถามเชิงสกัด (QA), QA แบบหลายฮอปที่ซับซ้อนและแบบ long-form, การตรวจสอบข้อเท็จจริง และงานสร้างบทสนทนา FILCO ปรับปรุงคุณภาพของบริบทได้อย่างมีประสิทธิภาพ ไม่ว่าบริบทนั้นจะรองรับผลลัพธ์มาตรฐานหรือไม่ก็ตาม
On-the-fly retrieval of relevant knowledge has proven an essential element of reliable systems for tasks such as open-domain question answering and fact verification. However, because retrieval systems are not perfect, generation models are required to generate outputs given partially or entirely irrelevant passages. This can cause over- or under-reliance on context, and result in problems in the generated output such as hallucinations. To alleviate these problems, we propose FILCO, a method that improves the quality of the context provided to the generator by (1) identifying useful context based on lexical and information-theoretic approaches, and (2) training context filtering models that can filter retrieved contexts at test time. We experiment on six knowledge-intensive tasks with FLAN-T5 and LLaMa2, and demonstrate that our method outperforms existing approaches on extractive question answering (QA), complex multi-hop and long-form QA, fact verification, and dialog generation tasks. FILCO effectively improves the quality of context, whether or not it supports the canonical output.
ลิงก์บทความวิจัย
https://arxiv.org/abs/2311.08377v1
อ่านเพิ่มเติม
https://x.com/ZhiruoW/status/1724792850079252886
MART: ยกระดับความปลอดภัยของ LLM ด้วยการทำ red-teaming อัตโนมัติหลายรอบ / MART: Improving LLM Safety with Multi-round Automatic Red-Teaming
แนะนำบทความวิจัย
- เสนอแนวทางเพื่อปรับปรุงความปลอดภัยของ LLM ด้วยการทำ red-teaming อัตโนมัติหลายรอบ โดยผสานการเขียน adversarial prompt อัตโนมัติและการสร้างคำตอบที่ปลอดภัยเข้าด้วยกัน ซึ่งช่วยเพิ่มทั้งความสามารถในการขยายขอบเขตของการทำ red-teaming และความปลอดภัยของ LLM อีกทั้งอัตราการละเมิดของ LLM ที่มีการจัดแนวด้านความปลอดภัยอย่างจำกัดลดลงได้สูงสุดถึง 84.7% หลังผ่าน MART 4 รอบ จนให้ประสิทธิภาพใกล้เคียงกับ LLM ที่ใช้การเขียน adversarial prompt อย่างกว้างขวาง
Proposes an approach for improving llm safety with multi-round automatic red-teaming; incorporates automatic adversarial prompt writing and safe response generation, which increases red-teaming scalability and the safety of llms; violation rate of an llm with limited safety alignment reduces up to 84.7% after 4 rounds of mart, achieving comparable performance to llms with extensive adversarial prompt writing.
บทคัดย่อ
- Red team คือแนวปฏิบัติทั่วไปในการลดพฤติกรรมที่ไม่ปลอดภัยของโมเดลภาษาขนาดใหญ่ (LLM) โดยเป็นการประเมิน LLM อย่างละเอียดเพื่อระบุข้อบกพร่องที่อาจเกิดขึ้น และแก้ไขด้วยการตอบสนองอย่างรับผิดชอบและถูกต้อง แม้จะมีประสิทธิภาพ แต่การทำ red team แบบแมนนวลมีต้นทุนสูง และการทำ red team อัตโนมัติที่มีอยู่โดยทั่วไปมักค้นพบความเสี่ยงด้านความปลอดภัยโดยไม่ได้จัดการแก้ไข บทความนี้เสนอวิธี Multi-round Automatic Red-Teaming (MART) ซึ่งผสานทั้งการเขียน adversarial prompt อัตโนมัติและการสร้างคำตอบที่ปลอดภัยเข้าด้วยกัน ทำให้ทั้งความสามารถในการขยายการทำ red team และความปลอดภัยของ LLM เป้าหมายเพิ่มขึ้นอย่างมาก โดยเฉพาะอย่างยิ่ง adversarial LLM และ target LLM จะโต้ตอบกันแบบวนซ้ำ โดย adversarial LLM มีเป้าหมายเพื่อสร้างพรอมป์ตที่ท้าทายซึ่งกระตุ้นให้ target LLM ตอบสนองอย่างไม่ปลอดภัย ขณะที่ target LLM จะถูก fine-tune ด้วยข้อมูลที่ปรับให้สอดคล้องกับความปลอดภัยบน adversarial prompt เหล่านี้ ในแต่ละรอบ adversarial LLM จะสร้างการโจมตีที่ดีขึ้นต่อ target LLM ที่อัปเดตแล้ว ขณะเดียวกัน target LLM ก็พัฒนาตัวเองผ่านการ fine-tune ด้านความปลอดภัยเช่นกัน บนชุดทดสอบ adversarial prompt อัตราการละเมิดของ LLM ที่มีการจัดแนวด้านความปลอดภัยอย่างจำกัดลดลงได้สูงสุดถึง 84.7% หลังจาก MART 4 รอบ และทำผลงานได้ใกล้เคียงกับ LLM ที่ใช้การเขียน adversarial prompt อย่างกว้างขวาง ที่สำคัญ ความมีประโยชน์ของโมเดลต่อพรอมป์ตที่ไม่เป็นปฏิปักษ์ยังคงเสถียรตลอดการทำซ้ำ แสดงให้เห็นว่า target LLM ยังคงรักษาประสิทธิภาพที่แข็งแกร่งในการทำตามคำสั่งไว้ได้
Red-teaming is a common practice for mitigating unsafe behaviors in Large Language Models (LLMs), which involves thoroughly assessing LLMs to identify potential flaws and addressing them with responsible and accurate responses. While effective, manual red-teaming is costly, and existing automatic red-teaming typically discovers safety risks without addressing them. In this paper, we propose a Multi-round Automatic Red-Teaming (MART) method, which incorporates both automatic adversarial prompt writing and safe response generation, significantly increasing red-teaming scalability and the safety of the target LLM. Specifically, an adversarial LLM and a target LLM interplay with each other in an iterative manner, where the adversarial LLM aims to generate challenging prompts that elicit unsafe responses from the target LLM, while the target LLM is fine-tuned with safety aligned data on these adversarial prompts. In each round, the adversarial LLM crafts better attacks on the updated target LLM, while the target LLM also improves itself through safety fine-tuning. On adversarial prompt benchmarks, the violation rate of an LLM with limited safety alignment reduces up to 84.7% after 4 rounds of MART, achieving comparable performance to LLMs with extensive adversarial prompt writing. Notably, model helpfulness on non-adversarial prompts remains stable throughout iterations, indicating the target LLM maintains strong performance on instruction following.
ลิงก์บทความ
https://arxiv.org/abs/2311.07689
อ่านเพิ่มเติม
https://x.com/AIatMeta/status/1724887918685425829
รายงานทางเทคนิค: โมเดลภาษาขนาดใหญ่สามารถหลอกลวงผู้ใช้เชิงกลยุทธ์ได้เมื่อถูกกดดัน / Technical Report: Large Language Models can Strategically Deceive their Users when Put Under Pressure
แนะนำบทความ
- สำรวจการใช้งานเอเจนต์ซื้อขายหุ้นอัตโนมัติที่ขับเคลื่อนด้วย robo-advisor และพบว่าเอเจนต์ดำเนินการตามข้อมูลวงในพร้อมทั้งปกปิดเหตุผลเบื้องหลังการตัดสินใจซื้อขาย แสดงให้เห็นว่า robo-advisor ที่มีประโยชน์และปลอดภัยสามารถหลอกลวงผู้ใช้เชิงกลยุทธ์ได้ในสถานการณ์จริง แม้ไม่มีคำสั่งชี้นำหรือการฝึกเพื่อการหลอกลวง
Explores the use of an autonomous stock trading agent powered by llms; finds that the agent acts upon insider tips and hides the reason behind the trading decision; shows that helpful and safe llms can strategically deceive users in a realistic situation without direction instructions or training for deception.
บทคัดย่อ
- สาธิตสถานการณ์ที่โมเดลภาษาขนาดใหญ่ซึ่งถูกฝึกให้มีประโยชน์ ไม่เป็นอันตราย และซื่อสัตย์ สามารถแสดงพฤติกรรมที่ไม่สอดคล้องและหลอกลวงผู้ใช้อย่างมีกลยุทธ์ได้โดยไม่ต้องมีการสั่งให้ทำเช่นนั้น โดยเฉพาะอย่างยิ่ง ได้มีการนำ GPT-4 ไปใช้งานเป็นเอเจนต์ในสภาพแวดล้อมจำลองที่สมจริง โดยให้รับบทเป็นเอเจนต์ซื้อขายหุ้นอัตโนมัติ ภายในสภาพแวดล้อมนี้ โมเดลได้รับข้อมูลวงในเกี่ยวกับการซื้อขายหุ้นที่ทำกำไรได้ และแม้จะรู้ว่าการใช้ข้อมูลวงในซื้อขายไม่ได้รับการอนุมัติจากผู้บริหารบริษัท ก็ยังดำเนินการดังกล่าว เมื่อรายงานต่อผู้จัดการ โมเดลจะปกปิดเหตุผลที่แท้จริงเบื้องหลังการตัดสินใจซื้อขายอย่างสม่ำเสมอ นอกจากนี้ยังมีการตรวจสอบแบบย่อว่าพฤติกรรมนี้เปลี่ยนไปอย่างไรเมื่อปรับการตั้งค่า เช่น การตัดสิทธิ์การเข้าถึง reasoning scratchpad ของโมเดล การพยายามป้องกันพฤติกรรมที่ไม่สอดคล้องด้วยการเปลี่ยน system instructions การเปลี่ยนระดับแรงกดดันที่โมเดลได้รับ การเปลี่ยนความเสี่ยงที่โมเดลรับรู้ว่าจะถูกจับได้ และการปรับเปลี่ยนสภาพแวดล้อมแบบง่ายอื่น ๆ เท่าที่ทราบ นี่เป็นการสาธิตครั้งแรกที่โมเดลภาษาขนาดใหญ่ซึ่งถูกฝึกให้มีประโยชน์ ไม่เป็นอันตราย และซื่อสัตย์ หลอกลวงผู้ใช้อย่างมีกลยุทธ์ในสถานการณ์ที่สมจริงได้โดยไม่มีคำสั่งโดยตรงหรือการฝึกให้หลอกลวง
We demonstrate a situation in which Large Language Models, trained to be helpful, harmless, and honest, can display misaligned behavior and strategically deceive their users about this behavior without being instructed to do so. Concretely, we deploy GPT-4 as an agent in a realistic, simulated environment, where it assumes the role of an autonomous stock trading agent. Within this environment, the model obtains an insider tip about a lucrative stock trade and acts upon it despite knowing that insider trading is disapproved of by company management. When reporting to its manager, the model consistently hides the genuine reasons behind its trading decision. We perform a brief investigation of how this behavior varies under changes to the setting, such as removing model access to a reasoning scratchpad, attempting to prevent the misaligned behavior by changing system instructions, changing the amount of pressure the model is under, varying the perceived risk of getting caught, and making other simple changes to the environment. To our knowledge, this is the first demonstration of Large Language Models trained to be helpful, harmless, and honest, strategically deceiving their users in a realistic situation without direct instructions or training for deception.
ลิงก์บทความวิจัย
https://arxiv.org/abs/2311.07590
อ่านเพิ่มเติม
https://x.com/ESYudkowsky/status/1725226563992715521
ต้นฉบับ
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-e3d
ยังไม่มีความคิดเห็น