ภาพรวม

  • เราได้ทดลองแปลอัตโนมัติบทความเกี่ยวกับงานวิจัย ML ที่ DAIR.AI เผยแพร่ทุกสัปดาห์

  • จากการพิจารณางานวิจัยที่นำเสนอในสัปดาห์นี้ พบว่ามีงานวิจัยจำนวนมากเกี่ยวกับโมเดลภาษา (Language Models, LLM) ที่จัดการกับบริบทยาว (Long Context) โดยเฉพาะงานอย่าง 'LLMs Represent Space and Time', 'Retrieval meets Long Context LLMs', 'StreamingLLM', 'The Dawn of LLMs', และ 'Training LLMs with Pause Tokens' ที่ส่องให้เห็นแง่มุมต่าง ๆ ของ LLM

  • เทรนด์นี้เป็นตัวอย่างชัดเจนที่แสดงให้เห็นว่าความสำคัญของโมเดลภาษาในแมชชีนเลิร์นนิงและดีปเลิร์นนิงยังคงเพิ่มขึ้นอย่างต่อเนื่อง LLM เป็นเทคโนโลยีที่เรียนรู้จากข้อมูลภาษาปริมาณมหาศาล ทำให้สามารถยกระดับประสิทธิภาพโดยรวมในงานทำความเข้าใจภาษาหลากหลายรูปแบบ เช่น การสร้างประโยค การแปลภาษา และการตรวจแก้คำสะกด อย่างไรก็ตาม การจัดการกับบริบทระยะยาวยังคงมีความยากอยู่มาก และดูเหมือนว่ากำลังมีการนำเสนอแนวทางที่หลากหลายเพื่อแก้ปัญหานี้

  • นอกจากนี้ งานวิจัยอย่าง 'Neural Developmental Programs', 'Recursively Self-Improving Code Generation' และ 'Retrieval-Augmented Dual Instruction Tuning' ยังสำรวจหัวข้ออย่างการเรียนรู้ด้วยตนเองของ AI การสร้างโค้ด และ instruction tuning ซึ่งสะท้อนว่ากำลังมีระเบียบวิธีใหม่ ๆ เกิดขึ้นในวงการ AI และคาดว่างานวิจัยเหล่านี้จะมีบทบาทสำคัญอย่างมากในการยกระดับความสามารถในการเรียนรู้ด้วยตนเองและการปรับตัวของเทคโนโลยี AI

  • ดังนั้น เทรนด์ของงานวิจัยในสัปดาห์นี้จึงอาจกล่าวได้ว่าแสดงให้เห็นทิศทางการวิจัยใหม่ ๆ ในด้านการจัดการบริบทยาวของโมเดลภาษา รวมถึงการเรียนรู้ด้วยตนเองของ AI และการสร้างโค้ด


โมเดลภาษาที่แทนความสัมพันธ์ของพื้นที่และเวลา / Language Models Represent Space and Time

แนะนำงานวิจัย

  • ค้นพบว่าโมเดลภาษาสามารถเรียนรู้การแทนค่าเชิงเส้นของพื้นที่และเวลาได้ในหลายสเกล และการแทนค่าเหล่านี้มีความทนทานต่อการชักนำด้วยรูปแบบที่เปลี่ยนไป รวมทั้งถูกรวมเป็นหนึ่งเดียวข้ามประเภทของเอนทิตีที่หลากหลาย พร้อมทั้งยืนยันว่าโมเดลภาษาเรียนรู้ความรู้เชิงโครงสร้างพื้นฐานอย่างพื้นที่และเวลา โดยเสนอว่าโมเดลภาษาไม่ได้เรียนรู้เพียงสถิติแบบผิวเผิน แต่เรียนรู้ world model ตามความหมายตรงตัว #llm #llama2
    > Discovers that llms learn linear representations of space and time across multiple scales; the representations are robust to prompt variations and unified across different entity types; demonstrate that llms acquire fundamental structured knowledge such as space and time, claiming that language models learn beyond superficial statistics, but literal world models.

บทคัดย่อ

  • ความสามารถของโมเดลภาษาขนาดใหญ่ (LLM) ได้จุดประกายให้เกิดการถกเถียงว่า ระบบเหล่านี้เรียนรู้เพียงคลังสถิติแบบผิวเผินจำนวนมหาศาล หรือเรียนรู้แบบจำลองที่สอดคล้องกันของกระบวนการกำเนิดข้อมูล หรือก็คือ world model กันแน่ เราพบหลักฐานที่สนับสนุนอย่างหลังจากการวิเคราะห์การแทนค่าที่เรียนรู้ได้ของชุดข้อมูลเชิงพื้นที่ 3 ชุด (สถานที่ทั่วโลก สหรัฐอเมริกา และนิวยอร์กซิตี) และชุดข้อมูลเชิงเวลา 3 ชุด (บุคคลสำคัญทางประวัติศาสตร์ งานศิลปะ และพาดหัวข่าว) ในตระกูลโมเดล Llama-2 ผลลัพธ์พบว่า LLM เรียนรู้การแทนค่าเชิงเส้นของพื้นที่และเวลาได้ในหลายสเกล การแทนค่าเหล่านี้มีความทนทานต่อความแปรผันของพรอมป์ต และถูกรวมเป็นหนึ่งเดียวข้ามประเภทเอนทิตีที่ต่างกัน (เช่น เมืองและสถานที่สำคัญ) นอกจากนี้ เรายังระบุ "space neurons" และ "time neurons" เฉพาะตัวที่เข้ารหัสพิกัดเชิงพื้นที่และเชิงเวลาได้อย่างน่าเชื่อถือ การวิเคราะห์ของเราแสดงให้เห็นว่า LLM สมัยใหม่ได้เรียนรู้ความรู้เชิงโครงสร้างเกี่ยวกับมิติพื้นฐานอย่างพื้นที่และเวลา ซึ่งสนับสนุนมุมมองที่ว่าโมเดลเหล่านี้ไม่ได้เรียนรู้เพียงสถิติแบบผิวเผิน แต่เรียนรู้ world model ตามความหมายตรงตัว
    > The capabilities of large language models (LLMs) have sparked debate over whether such systems just learn an enormous collection of superficial statistics or a coherent model of the data generating process -- a world model. We find evidence for the latter by analyzing the learned representations of three spatial datasets (world, US, NYC places) and three temporal datasets (historical figures, artworks, news headlines) in the Llama-2 family of models. We discover that LLMs learn linear representations of space and time across multiple scales. These representations are robust to prompting variations and unified across different entity types (e.g. cities and landmarks). In addition, we identify individual space neurons'' and time neurons'' that reliably encode spatial and temporal coordinates. Our analysis demonstrates that modern LLMs acquire structured knowledge about fundamental dimensions such as space and time, supporting the view that they learn not merely superficial statistics, but literal world models.

ลิงก์งานวิจัย

https://arxiv.org/abs/2310.02207

อ่านเพิ่มเติม

https://x.com/wesg52/status/1709551516577902782


เมื่อการค้นคืนมาพบกับโมเดลภาษาขนาดใหญ่ที่มีบริบทยาว / Retrieval meets Long Context Large Language Models

แนะนำงานวิจัย

  • เปรียบเทียบ retrieval augmentation กับหน้าต่างบริบทยาวสำหรับงาน downstream เพื่อตรวจสอบว่าสามารถรวมสองแนวทางนี้เข้าด้วยกันเพื่อดึงข้อดีของทั้งสองฝั่งได้หรือไม่ โดย LLM ที่มีหน้าต่างบริบท 4K และใช้ RAG แบบง่ายสามารถให้ประสิทธิภาพใกล้เคียงกับ LLM ที่ fine-tune แล้วซึ่งมีบริบท 16K ขณะเดียวกัน retrieval ยังช่วยยกระดับประสิทธิภาพของ LLM ได้อย่างมีนัยสำคัญโดยไม่ขึ้นกับขนาดหน้าต่างบริบทที่ขยายออกไป และ retrieval-augmented llama2-70b ที่มีหน้าต่างบริบท 32K ยังทำผลงานเหนือกว่า gpt-3.5-turbo-16k ในงานบริบทยาว 7 งาน รวมถึงการตอบคำถามและการสรุปแบบอิงคิวรี #llama #llama2-7b-32k-context #llama2-long #100k-context-window #streamingllm
    > Compares retrieval augmentation and long-context windows for downstream tasks to investigate if the methods can be combined to get the best of both worlds; an llm with a 4k context window using simple rag can achieve comparable performance to a fine-tuned llm with 16k context; retrieval can significantly improve the performance of llms regardless of their extended context window sizes; a retrieval-augmented llama2-70b with a 32k context window outperforms gpt-3.5-turbo-16k on seven long context tasks including question answering and query-based summarization.

บทคัดย่อ

  • แม้ว่าการขยาย context window ของ large language model (LLM) จะได้รับความนิยมมากขึ้นในช่วงหลัง แต่โซลูชันที่เสริม LLM ด้วยการค้นคืนข้อมูลนั้นมีมาหลายปีแล้ว คำถามตามธรรมชาติคือ i) ระหว่าง retrieval augmentation กับ context window แบบยาว อะไรเหมาะกับงานปลายทางมากกว่ากัน? ii) สามารถผสานทั้งสองวิธีเพื่อให้ได้ข้อดีของทั้งคู่หรือไม่? งานวิจัยนี้ตอบคำถามดังกล่าวด้วยการศึกษาทั้งสองแนวทางโดยใช้ LLM ที่ผ่านการ pretrain รุ่นล่าสุด 2 รุ่น ได้แก่ 43B GPT แบบ proprietary และ LLaMA2-70B สิ่งที่น่าประหลาดใจคือพบว่า LLM ที่มี context window 4K และใช้ retrieval augmentation แบบง่ายระหว่างการสร้าง สามารถทำผลงานได้ใกล้เคียงกับ LLM ที่ผ่านการ fine-tune และมี context window 16K ผ่าน positional interpolation บนงาน long-context โดยใช้การคำนวณน้อยกว่ามาก ที่สำคัญยิ่งกว่านั้นคือได้แสดงให้เห็นว่าการค้นคืนข้อมูลสามารถปรับปรุงประสิทธิภาพของ LLM ได้อย่างมีนัยสำคัญ ไม่ว่าขนาด context window ที่ขยายแล้วจะเป็นเท่าใดก็ตาม โมเดลที่ดีที่สุดคือ retrieval-augmented LLaMA2-70B ที่มี context window 32K ซึ่งทำผลงานเหนือกว่า GPT-3.5-turbo-16k และ Davinci003 ในด้านคะแนนเฉลี่ยบนงาน long-context 7 งาน รวมถึงการตอบคำถามและการสรุปแบบอิงคิวรี อีกทั้งยังทำได้ดีกว่า baseline ที่ไม่ใช้ retrieval อย่าง LLaMA2-70B-32k อยู่พอสมควร พร้อมทั้งสร้างผลลัพธ์ได้เร็วกว่าอย่างมาก งานวิจัยนี้มอบอินไซต์ทั่วไปเพื่อช่วยให้ผู้ปฏิบัติงานตัดสินใจเลือกระหว่าง retrieval augmentation กับการขยายบริบทยาวของ LLM
    > Extending the context window of large language models (LLMs) is getting popular recently, while the solution of augmenting LLMs with retrieval has existed for years. The natural questions are: i) Retrieval-augmentation versus long context window, which one is better for downstream tasks? ii) Can both methods be combined to get the best of both worlds? In this work, we answer these questions by studying both solutions using two state-of-the-art pretrained LLMs, i.e., a proprietary 43B GPT and LLaMA2-70B. Perhaps surprisingly, we find that LLM with 4K context window using simple retrieval-augmentation at generation can achieve comparable performance to finetuned LLM with 16K context window via positional interpolation on long context tasks, while taking much less computation. More importantly, we demonstrate that retrieval can significantly improve the performance of LLMs regardless of their extended context window sizes. Our best model, retrieval-augmented LLaMA2-70B with 32K context window, outperforms GPT-3.5-turbo-16k and Davinci003 in terms of average score on seven long context tasks including question answering and query-based summarization. It also outperforms its non-retrieval LLaMA2-70B-32k baseline by a margin, while being much faster at generation. Our study provides general insights on the choice of retrieval-augmentation versus long context extension of LLM for practitioners.

ลิงก์งานวิจัย

https://arxiv.org/abs/2310.03025

อ่านเพิ่มเติม

https://x.com/omarsar0/status/1709749178199318545


Efficient Streaming Language Models with Attention Sinks / โมเดลภาษาสตรีมมิงที่มีประสิทธิภาพด้วย Attention Sinks

แนะนำงานวิจัย

  • เฟรมเวิร์กที่ทำให้เกิด streaming LLMs ที่มีประสิทธิภาพด้วย attention sinks ซึ่งเป็นปรากฏการณ์ที่สถานะ kv ของโทเคนเริ่มต้นช่วยกู้คืนประสิทธิภาพของ window attention ได้เป็นอย่างมาก; การเกิดขึ้นของ attention sink มาจากคะแนน attention ที่สูงต่อโทเคนเริ่มต้น; แนวทางนี้ทำให้ llms ที่ฝึกด้วย attention window ความยาวจำกัด สามารถทำให้ทั่วไปไปยังความยาวลำดับแบบไม่สิ้นสุดได้โดยไม่ต้อง fine-tune เพิ่มเติมใด ๆ #streamingllm
    > A framework that enables efficient streaming llms with attention sinks, a phenomenon where the kv states of initial tokens will largely recover the performance of window attention; the emergence of the attention sink is due to strong attention scores towards the initial tokens; this approach enables llms trained with finite length attention windows to generalize to infinite sequence length without any additional fine-tuning.

บทคัดย่อผลงานวิจัย

  • การนำโมเดลภาษาขนาดใหญ่ (LLM) ไปใช้งานในแอปพลิเคชันแบบสตรีมมิง เช่น บทสนทนาหลายรอบที่คาดว่าจะมีการโต้ตอบยาวนาน เป็นสิ่งจำเป็นอย่างเร่งด่วน แต่มีความท้าทายหลักอยู่สองประการ ประการแรก ในขั้นตอนการถอดรหัส การแคชสถานะ Key และ Value (KV) ของโทเค็นก่อนหน้ากินหน่วยความจำอย่างมาก ประการที่สอง LLM ที่ใช้งานกันอย่างแพร่หลายไม่สามารถทำให้ทั่วไปกับข้อความที่ยาวกว่าความยาวลำดับที่ใช้ฝึกได้ Window attention ซึ่งแคชเฉพาะ KV ล่าสุดเท่านั้น เป็นแนวทางที่ดูเป็นธรรมชาติ แต่พบว่าจะล้มเหลวเมื่อความยาวข้อความเกินขนาดแคช เราสังเกตเห็นปรากฏการณ์ที่น่าสนใจคือ attention sink ซึ่งการคง KV ของโทเค็นเริ่มต้นไว้จะช่วยกู้คืนประสิทธิภาพของ window attention ได้อย่างมาก ในบทความนี้ ผู้เขียนเริ่มจากแสดงให้เห็นว่าการเกิดขึ้นของ attention sink นั้นเกิดจากคะแนน attention ที่สูงต่อโทเค็นเริ่มต้นในฐานะ “sink” แม้ว่าจะไม่ได้มีความสำคัญในเชิงความหมายก็ตาม จากการวิเคราะห์ข้างต้น จึงได้เสนอ StreamingLLM ซึ่งเป็นเฟรมเวิร์กที่มีประสิทธิภาพที่ทำให้ LLM ซึ่งฝึกด้วยหน้าต่าง attention ความยาวจำกัด สามารถทำให้ทั่วไปไปสู่ความยาวลำดับแบบไม่สิ้นสุดได้โดยไม่ต้อง fine-tuning ใด ๆ ผู้เขียนแสดงให้เห็นว่า StreamingLLM ช่วยให้ Llama-2, MPT, Falcon และ Pythia ทำ language modeling ได้อย่างเสถียรและมีประสิทธิภาพที่ระดับสูงสุดมากกว่า 4 ล้านโทเค็น นอกจากนี้ยังพบว่าการเพิ่ม placeholder token ระหว่างการ pre-training เพื่อใช้เป็น attention sink โดยเฉพาะ สามารถปรับปรุงการนำไปใช้งานแบบสตรีมมิงได้ดียิ่งขึ้น ในการตั้งค่าแบบสตรีมมิง StreamingLLM ทำงานได้เร็วกว่า baseline แบบ sliding window recomputation สูงสุด 22.2 เท่า โดยสามารถดูโค้ดและชุดข้อมูลได้ที่ https://github.com/mit-han-lab/streaming-llm
    > Deploying Large Language Models (LLMs) in streaming applications such as multi-round dialogue, where long interactions are expected, is urgently needed but poses two major challenges. Firstly, during the decoding stage, caching previous tokens' Key and Value states (KV) consumes extensive memory. Secondly, popular LLMs cannot generalize to longer texts than the training sequence length. Window attention, where only the most recent KVs are cached, is a natural approach -- but we show that it fails when the text length surpasses the cache size. We observe an interesting phenomenon, namely attention sink, that keeping the KV of initial tokens will largely recover the performance of window attention. In this paper, we first demonstrate that the emergence of attention sink is due to the strong attention scores towards initial tokens as a ``sink'' even if they are not semantically important. Based on the above analysis, we introduce StreamingLLM, an efficient framework that enables LLMs trained with a finite length attention window to generalize to infinite sequence lengths without any fine-tuning. We show that StreamingLLM can enable Llama-2, MPT, Falcon, and Pythia to perform stable and efficient language modeling with up to 4 million tokens and more. In addition, we discover that adding a placeholder token as a dedicated attention sink during pre-training can further improve streaming deployment. In streaming settings, StreamingLLM outperforms the sliding window recomputation baseline by up to 22.2x speedup. Code and datasets are provided at https://github.com/mit-han-lab/streaming-llm.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2309.17453

อ่านเพิ่มเติม

https://x.com/Guangxuan_Xiao/status/1708943505731801325

https://discuss.pytorch.kr/t/…


สู่การประกอบตัวเองของโครงข่ายประสาทเทียมผ่านโปรแกรมพัฒนาการของระบบประสาท / Towards Self-Assembling Artificial Neural Networks through Neural Developmental Programs

แนะนำบทความวิจัย

  • เสนอให้ใช้โครงข่ายประสาทที่ประกอบตัวเองผ่านกระบวนการพัฒนาที่สะท้อนคุณลักษณะของการพัฒนาตัวอ่อนในสิ่งมีชีวิตชีวภาพ (เรียกว่า neural developmental programs) และแสดงให้เห็นถึงความเป็นไปได้ของแนวทางนี้ในปัญหาการควบคุมแบบต่อเนื่องและโทโพโลยีที่เติบโตได้
    > Proposes to use neural networks that self-assemble through a developmental process that mirrors properties of embryonic development in biological organisms (referred to as neural developmental programs); shows the feasibility of the approach in continuous control problems and growing topologies.

บทคัดย่อบทความวิจัย

  • ระบบประสาทชีวภาพถูกสร้างขึ้นด้วยวิธีที่แตกต่างอย่างพื้นฐานจากโครงข่ายประสาทเทียมในปัจจุบัน แม้ว่า deep learning จะให้ผลลัพธ์ที่น่าประทับใจในหลากหลายโดเมน แต่การออกแบบสถาปัตยกรรมประสาทที่มีประสิทธิภาพสูงมักต้องใช้ความพยายามด้านวิศวกรรมอย่างมาก ตรงกันข้าม ระบบประสาทชีวภาพเติบโตผ่านกระบวนการจัดระเบียบตนเองแบบพลวัต งานวิจัยนี้ก้าวแรกไปสู่โครงข่ายประสาทที่เติบโตผ่านกระบวนการพัฒนาซึ่งสะท้อนคุณสมบัติสำคัญของการพัฒนาตัวอ่อนในสิ่งมีชีวิต กระบวนการเติบโตนี้ถูกกำกับโดยโครงข่ายประสาทอีกตัวหนึ่งที่เราเรียกว่า Neural Developmental Program (NDP) ซึ่งทำงานผ่านการสื่อสารเฉพาะในระดับท้องถิ่นเท่านั้น เราศึกษาบทบาทของการเติบโตของโครงข่ายประสาทบนแมชชีนเลิร์นนิงเบนช์มาร์กหลายแบบ และวิธีการเพิ่มประสิทธิภาพหลายประเภท (evolutionary training, online RL, offline RL และ supervised learning) นอกจากนี้ยังชี้ให้เห็นทิศทางและโอกาสของงานวิจัยในอนาคตที่เกิดขึ้นได้จากการใช้การจัดระเบียบตนเองในการขับเคลื่อนการเติบโตของโครงข่ายประสาท
    > Biological nervous systems are created in a fundamentally different way than current artificial neural networks. Despite its impressive results in a variety of different domains, deep learning often requires considerable engineering effort to design high-performing neural architectures. By contrast, biological nervous systems are grown through a dynamic self-organizing process. In this paper, we take initial steps toward neural networks that grow through a developmental process that mirrors key properties of embryonic development in biological organisms. The growth process is guided by another neural network, which we call a Neural Developmental Program (NDP) and which operates through local communication alone. We investigate the role of neural growth on different machine learning benchmarks and different optimization methods (evolutionary training, online RL, offline RL, and supervised learning). Additionally, we highlight future research directions and opportunities enabled by having self-organization driving the growth of neural networks.

ลิงก์งานวิจัย

https://arxiv.org/abs/2307.08197

อ่านเพิ่มเติม

https://x.com/risi1979/status/1708888992224362742


รุ่งอรุณของ LMM: การสำรวจเบื้องต้นด้วย GPT-4V(ision) / The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)

แนะนำงานวิจัย

  • เพื่อทำความเข้าใจ large multimodal models (LMM) ให้ลึกซึ้งยิ่งขึ้น งานนี้วิเคราะห์ gpt-4v อย่างครอบคลุม โดยมุ่งเน้นการ probing gpt-4v ในสถานการณ์การใช้งานที่หลากหลาย และยกตัวอย่างตั้งแต่ความสามารถด้านโค้ดร่วมกับ vision ไปจนถึง retrieval-augmented LMM #multimodal #gpt-4v
    > A comprehensive analysis of gpt-4v to deepen the understanding of large multimodal models (lmms); it focuses on probing gpt-4v across various application scenarios; provides examples ranging from code capabilities with vision to retrieval-augmented lmms.

บทคัดย่อ

  • large multimodal models (LMM) ขยาย large language models (LLM) ด้วยความสามารถหลายประสาทสัมผัส เช่น ความเข้าใจภาพ เพื่อบรรลุปัญญาทั่วไปที่แข็งแกร่งยิ่งขึ้น ในบทความนี้ ผู้วิจัยวิเคราะห์โมเดลล่าสุด GPT-4V(ision) เพื่อทำความเข้าใจ LMM ให้ลึกซึ้งขึ้น การวิเคราะห์นี้มุ่งเน้นไปที่งานที่น่าสนใจซึ่ง GPT-4V สามารถทำได้ โดยมีตัวอย่างทดสอบสำหรับ probing คุณภาพและความเป็น generality ของความสามารถของ GPT-4V อินพุตและโหมดการทำงานที่รองรับ ตลอดจนวิธี prompt โมเดลอย่างมีประสิทธิภาพ ในแนวทางการสำรวจ GPT-4V นี้ ผู้วิจัยได้คัดสรรและจัดระเบียบชุดตัวอย่างเชิงคุณภาพที่ออกแบบอย่างรอบคอบ ครอบคลุมหลากหลายโดเมนและงาน ข้อสังเกตจากตัวอย่างเหล่านี้แสดงให้เห็นว่า ความสามารถอันไม่เคยมีมาก่อนของ GPT-4V ในการประมวลผลอินพุตหลายโมดัลที่สลับแทรกกันได้อย่างอิสระ ประกอบกับความเป็น generality ของความสามารถของมัน ทำให้ GPT-4V เป็นระบบมัลติโมดัลแบบ generalist ที่ทรงพลัง นอกจากนี้ ความสามารถเฉพาะของ GPT-4V ในการเข้าใจ visual markers ที่วาดลงบนภาพอินพุต ยังอาจก่อให้เกิดวิธีปฏิสัมพันธ์ระหว่างมนุษย์กับคอมพิวเตอร์รูปแบบใหม่ เช่น visual referring prompting รายงานฉบับนี้ปิดท้ายด้วยการอภิปรายเชิงลึกเกี่ยวกับสถานการณ์การประยุกต์ใช้ที่กำลังก่อตัวขึ้น และทิศทางการวิจัยในอนาคตสำหรับระบบที่อิงกับ GPT-4V ผู้วิจัยหวังว่าการสำรวจเบื้องต้นนี้จะสร้างแรงบันดาลใจให้กับงานวิจัยในอนาคตเกี่ยวกับการกำหนดโจทย์มัลติโมดัลยุคถัดไป วิธีใหม่ ๆ ในการนำ LMM ไปใช้และพัฒนาเพื่อแก้ปัญหาในโลกจริง และการทำความเข้าใจ foundation models แบบมัลติโมดัลให้ดียิ่งขึ้น
    > Large multimodal models (LMMs) extend large language models (LLMs) with multi-sensory skills, such as visual understanding, to achieve stronger generic intelligence. In this paper, we analyze the latest model, GPT-4V(ision), to deepen the understanding of LMMs. The analysis focuses on the intriguing tasks that GPT-4V can perform, containing test samples to probe the quality and genericity of GPT-4V's capabilities, its supported inputs and working modes, and the effective ways to prompt the model. In our approach to exploring GPT-4V, we curate and organize a collection of carefully designed qualitative samples spanning a variety of domains and tasks. Observations from these samples demonstrate that GPT-4V's unprecedented ability in processing arbitrarily interleaved multimodal inputs and the genericity of its capabilities together make GPT-4V a powerful multimodal generalist system. Furthermore, GPT-4V's unique capability of understanding visual markers drawn on input images can give rise to new human-computer interaction methods such as visual referring prompting. We conclude the report with in-depth discussions on the emerging application scenarios and the future research directions for GPT-4V-based systems. We hope that this preliminary exploration will inspire future research on the next-generation multimodal task formulation, new ways to exploit and enhance LMMs to solve real-world problems, and gaining better understanding of multimodal foundation models.

ลิงก์งานวิจัย

https://arxiv.org/abs/2309.17421

อ่านเพิ่มเติม

https://x.com/omarsar0/status/1708860551110041871

https://discuss.pytorch.kr/t/gn-chatgpt/2543


คิดก่อนพูด: ฝึก Language Model ด้วยโทเคนหยุดชั่วคราว / Think before you speak: Training Language Models With Pause Tokens

แนะนำงานวิจัย

  • ใช้โทเคน <pause> ที่เรียนรู้ได้เพื่อทำการฝึกและอนุมานกับ LLMs ช่วยชะลอการสร้างคำตอบของโมเดล และช่วยให้ได้ประสิทธิภาพที่ดีขึ้นในงานความเข้าใจทั่วไป เช่น การตอบคำถามเชิงสามัญสำนึกและการแก้โจทย์คณิตศาสตร์แบบข้อความ ผลการทดลองแสดงให้เห็นว่าประโยชน์นี้จะเกิดขึ้นก็ต่อเมื่อมีการใส่ความหน่วงทั้งในช่วง pretraining ที่เกี่ยวข้องและการ fine-tuning ปลายทาง #pause-for-thought

    Performs training and inference on llms with a learnable <pause> token which helps to delay the model's answer generation and attain performance gains on general understanding tasks of commonsense qa and math word problem-solving; experiments show that this is only beneficial provided that the delay is introduced in both pertaining and downstream fine-tuning.

บทคัดย่อ

  • Language model สร้างคำตอบโดยการสร้างลำดับของโทเคนต่อเนื่องกันทันที โดยโทเคนลำดับที่ $(K+1)^{th}$ เป็นผลลัพธ์จากการจัดการ hidden vectors จำนวน $K$ ตัวต่อเลเยอร์ หนึ่งเวกเตอร์ต่อหนึ่งโทเคนก่อนหน้า แล้วถ้าแทนที่จะเป็นเช่นนั้น เราปล่อยให้โมเดลจัดการ hidden vectors จำนวน $K+10$ ตัวก่อนที่จะส่งออกโทเคนลำดับที่ $(K+1)^{th}$ จะเป็นอย่างไร? เราทำให้แนวคิดนี้ใช้งานได้จริงด้วยการฝึกและอนุมานบน language model โดยใช้โทเคน $\textit{pause}$ ที่เรียนรู้ได้ ซึ่งเป็นลำดับของโทเคนที่ถูกต่อท้ายเข้าไปใน input prefix จากนั้นเราจะหน่วงการดึงเอาต์พุตของโมเดลออกมาจนกว่าจะเห็นโทเคนหยุดตัวสุดท้าย ทำให้โมเดลสามารถประมวลผลเพิ่มเติมก่อนตัดสินใจให้คำตอบ เราประเมิน $\textit{pause-training}$ เชิงประจักษ์บนโมเดลแบบ decoder-only ขนาด 1B และ 130M พารามิเตอร์ที่ผ่าน causal pretraining บน C4 และบนงานปลายทางที่ครอบคลุมการให้เหตุผล การตอบคำถาม ความเข้าใจทั่วไป และการระลึกข้อเท็จจริง ผลค้นพบหลักของเราคือ ความหน่วงในช่วง inference ให้ผลดีขึ้นเมื่อโมเดลถูกทั้ง pre-train และ fine-tune พร้อมความหน่วง สำหรับโมเดล 1B เราพบการปรับปรุงใน 8 จาก 9 งาน โดยเด่นที่สุดคือคะแนน $EM\ score\ 18%$ ในงาน QA ของ SQuAD, $CommonSenseQA\ 8%$, และความแม่นยำ $1%$ ในงานให้เหตุผลของ GSM8k งานของเราตั้งคำถามวิจัยในอนาคตทั้งเชิงแนวคิดและเชิงปฏิบัติหลากหลายประเด็น เพื่อทำให้การทำนายโทเคนถัดไปแบบหน่วงเวลากลายเป็นกระบวนทัศน์ใหม่ที่ประยุกต์ใช้ได้อย่างกว้างขวาง

    Language models generate responses by producing a series of tokens in immediate succession: the $(K+1)^{th}$ token is an outcome of manipulating $K$ hidden vectors per layer, one vector per preceding token. What if instead we were to let the model manipulate say, $K+10$ hidden vectors, before it outputs the $(K+1)^{th}$ token? We operationalize this idea by performing training and inference on language models with a (learnable) $\textit{pause}$ token, a sequence of which is appended to the input prefix. We then delay extracting the model's outputs until the last pause token is seen, thereby allowing the model to process extra computation before committing to an answer. We empirically evaluate $\textit{pause-training}$ on decoder-only models of 1B and 130M parameters with causal pretraining on C4, and on downstream tasks covering reasoning, question-answering, general understanding and fact recall. Our main finding is that inference-time delays show gains when the model is both pre-trained and finetuned with delays. For the 1B model, we witness gains on 8 of 9 tasks, most prominently, a gain of $18%$ EM score on the QA task of SQuAD, $8%$ on CommonSenseQA and $1%$ accuracy on the reasoning task of GSM8k. Our work raises a range of conceptual and practical future research questions on making delayed next-token prediction a widely applicable new paradigm.

ลิงก์งานวิจัย

https://arxiv.org/abs/2310.02226

อ่านเพิ่มเติม

https://x.com/omarsar0/status/1709573238123122959


เครื่องมือเพิ่มประสิทธิภาพที่เรียนรู้ด้วยตนเอง (STOP): การสร้างโค้ดที่ปรับปรุงตัวเองแบบเรียกซ้ำ / Self-Taught Optimizer (STOP): Recursively Self-Improving Code Generation

แนะนำงานวิจัย

  • เสนอการใช้โปรแกรม scaffolding ที่ฝัง language model เพื่อปรับปรุงตัวเองแบบเรียกซ้ำ โดยตัวปรับปรุงตั้งต้นจะปรับปรุงโปรแกรมอินพุตที่คืนคำตอบที่ดีที่สุดก่อน จากนั้นจึงได้รับมอบหมายเพิ่มเติมให้ปรับปรุงตัวเองต่อไป และแสดงให้เห็นว่าโมเดล gpt-4 สามารถเขียนโค้ดที่เรียกตัวเองเพื่อปรับปรุงตัวเองได้ #self-training-survey-paper

    Proposes the use of a language model-infused scaffolding program to recursively improve itself; a seed improver first improves an input program that returns the best solution which is then further tasked to improve itself; shows that the gpt-4 models can write code that can call itself to improve itself.

บทคัดย่อ

  • ความก้าวหน้าล่าสุดบางประการของระบบ AI (เช่น Tree-of-Thoughts และ Program-Aided Language Models) แก้ปัญหาโดยใช้โปรแกรม "scaffolding" ที่จัดโครงสร้างการเรียกใช้โมเดลภาษาหลายครั้งเพื่อสร้างผลลัพธ์ที่ดีกว่า โปรแกรม scaffolding เขียนด้วยภาษาโปรแกรมอย่าง Python ในงานนี้ ผู้วิจัยใช้โปรแกรม scaffolding ที่ผสานโมเดลภาษาเพื่อปรับปรุงตัวเอง เริ่มจาก "improver" ตั้งต้นที่ปรับปรุงโปรแกรมอินพุตตามฟังก์ชันอรรถประโยชน์ที่กำหนด โดยสอบถามโมเดลภาษาหลายครั้งและคืนคำตอบที่ดีที่สุด จากนั้นจึงให้ seed improver นี้ปรับปรุงตัวเอง ต่อเนื่องไปยังชุดงาน downstream ขนาดเล็ก ผลลัพธ์คือ improver ที่ได้รับการปรับปรุงแล้วสามารถสร้างโปรแกรมที่มีประสิทธิภาพดีกว่า seed improver อย่างมีนัยสำคัญ หลังจากนั้น ผู้วิจัยวิเคราะห์กลยุทธ์การปรับปรุงตนเองที่หลากหลายซึ่งโมเดลภาษาเสนอขึ้น รวมถึง beam search, genetic algorithms และ simulated annealing เนื่องจากตัวโมเดลภาษาเองไม่ได้ถูกเปลี่ยนแปลง นี่จึงยังไม่ใช่ recursive self-improvement แบบเต็มรูปแบบ ถึงกระนั้น มันก็แสดงให้เห็นว่าโมเดลภาษาสมัยใหม่อย่าง GPT-4 ในการทดลอง proof-of-concept สามารถเขียนโค้ดที่เรียกใช้ตัวเองเพื่อปรับปรุงตัวเองได้ ผู้วิจัยยังพิจารณาอย่างวิพากษ์ถึงข้อกังวลเกี่ยวกับการพัฒนาเทคโนโลยีที่ปรับปรุงตนเอง และประเมินความถี่ที่โค้ดที่สร้างขึ้นสามารถหลบเลี่ยง sandbox ได้
    > Several recent advances in AI systems (e.g., Tree-of-Thoughts and Program-Aided Language Models) solve problems by providing a "scaffolding" program that structures multiple calls to language models to generate better outputs. A scaffolding program is written in a programming language such as Python. In this work, we use a language-model-infused scaffolding program to improve itself. We start with a seed "improver" that improves an input program according to a given utility function by querying a language model several times and returning the best solution. We then run this seed improver to improve itself. Across a small set of downstream tasks, the resulting improved improver generates programs with significantly better performance than its seed improver. Afterward, we analyze the variety of self-improvement strategies proposed by the language model, including beam search, genetic algorithms, and simulated annealing. Since the language models themselves are not altered, this is not full recursive self-improvement. Nonetheless, it demonstrates that a modern language model, GPT-4 in our proof-of-concept experiments, is capable of writing code that can call itself to improve itself. We critically consider concerns around the development of self-improving technologies and evaluate the frequency with which the generated code bypasses a sandbox.

ลิงก์งานวิจัย

https://arxiv.org/abs/2310.02304

อ่านเพิ่มเติม

https://x.com/ericzelikman/status/1709721771937587541


RA-DIT: การจูนคำสั่งแบบคู่เสริมด้วยการค้นคืน / RA-DIT: Retrieval-Augmented Dual Instruction Tuning

แนะนำงานวิจัย

  • เสนอวิธี fine-tuning แบบ lightweight เพื่อเพิ่มความสามารถด้าน retrieval ให้กับโมเดลภาษาขนาดใหญ่ โดยเป็นแนวทาง 2 ขั้นตอน: 1) อัปเดตโมเดลที่ผ่านการ pretrain มาแล้วให้ใช้ข้อมูลที่ค้นคืนมาได้ดีขึ้น และ 2) อัปเดต retriever ให้คืนผลลัพธ์ที่เกี่ยวข้องมากขึ้น ผลลัพธ์แสดงให้เห็นว่าการ fine-tuning บนงานที่ต้องใช้ทั้งการใช้ประโยชน์จากความรู้และการรับรู้บริบท ทำให้แต่ละขั้นตอนช่วยเพิ่มผลลัพธ์ได้เพิ่มเติม โมเดลขนาด 65b ทำผลลัพธ์ล้ำสมัยบนเบนช์มาร์ก zero-shot และ few-shot ที่เน้นความรู้หลากหลายชุด และมีประสิทธิภาพดีกว่าแนวทาง retrieval-augmented language ที่มีอยู่เดิมสูงสุด +8.9% ใน zero-shot และ +1.4% ใน 5-shot #rag #instruct-tuning
    > Proposes a lightweight fine-tuning method to retrofit llms with retrieval capabilities; it involves a 2-step approach: 1) updates a pretrained lm to better use the retrieved information 2) updates the retriever to return more relevant results, as preferred by the lm results show that fine-tuning over tasks that require both knowledge utilization and contextual awareness, each stage leads to additional gains; a 65b model achieves state-of-the-art results on a range of knowledge-intensive zero- and few-shot learning benchmarks; it outperforms existing retrieval-augmented language approaches by up to +8.9% in zero-shot and +1.4% in 5-shot.

บทคัดย่อ

  • โมเดลภาษาแบบเสริมการค้นคืน (RALM) ช่วยเพิ่มประสิทธิภาพด้วยการเข้าถึงองค์ความรู้แบบ long-tail และความรู้ล่าสุดจากคลังข้อมูลภายนอก แต่สร้างได้ยาก แนวทางที่มีอยู่เดิมต้องอาศัยการปรับแต่งเฉพาะด้านการค้นคืนในขั้น pre-training ของ LM ซึ่งมีต้นทุนสูง หรือใช้การผสานคลังข้อมูลเข้าไปภายหลังซึ่งทำให้ประสิทธิภาพไม่เหมาะสมที่สุด เราขอแนะนำ Retrieval-Augmented Dual Instruction Tuning (RA-DIT) ซึ่งเป็นวิธีการ fine-tuning แบบน้ำหนักเบาที่เป็นทางเลือกที่สาม ด้วยการดัดแปลง LLM ใด ๆ ให้มีความสามารถด้านการค้นคืน วิธีการของเราทำงานเป็นสองขั้นตอนของการ fine-tuning ที่แยกจากกัน: (1) ขั้นแรกอัปเดต LM ที่ผ่าน pre-training มาแล้วให้ใช้ข้อมูลที่ค้นคืนมาได้ดีขึ้น และ (2) อีกขั้นอัปเดตตัวค้นคืนให้ส่งคืนผลลัพธ์ที่เกี่ยวข้องมากขึ้นตามที่ LM ต้องการ ด้วยการ fine-tuning บนงานที่ต้องอาศัยทั้งการใช้ความรู้และการรับรู้บริบท เราแสดงให้เห็นว่าแต่ละขั้นช่วยเพิ่มประสิทธิภาพอย่างมีนัยสำคัญ และเมื่อใช้ทั้งสองขั้นร่วมกันก็ได้ผลลัพธ์ที่ดีขึ้นเพิ่มเติม โมเดลที่ดีที่สุดของเรา RA-DIT 65B ทำผลงานระดับล้ำสมัยบนชุดทดสอบ zero-shot และ few-shot ที่เน้นการใช้ความรู้หลากหลายชุด โดยมีประสิทธิภาพเหนือกว่าแนวทาง RALM แบบ in-context ที่มีอยู่เดิมอย่างชัดเจน โดยเฉลี่ยสูงสุด +8.9% ในการตั้งค่า 0-shot และ +1.4% ในการตั้งค่า 5-shot
    > Retrieval-augmented language models (RALMs) improve performance by accessing long-tail and up-to-date knowledge from external data stores, but are challenging to build. Existing approaches require either expensive retrieval-specific modifications to LM pre-training or use post-hoc integration of the data store that leads to suboptimal performance. We introduce Retrieval-Augmented Dual Instruction Tuning (RA-DIT), a lightweight fine-tuning methodology that provides a third option by retrofitting any LLM with retrieval capabilities. Our approach operates in two distinct fine-tuning steps: (1) one updates a pre-trained LM to better use retrieved information, while (2) the other updates the retriever to return more relevant results, as preferred by the LM. By fine-tuning over tasks that require both knowledge utilization and contextual awareness, we demonstrate that each stage yields significant performance improvements, and using both leads to additional gains. Our best model, RA-DIT 65B, achieves state-of-the-art performance across a range of knowledge-intensive zero- and few-shot learning benchmarks, significantly outperforming existing in-context RALM approaches by up to +8.9% in 0-shot setting and +1.4% in 5-shot setting on average.

ลิงก์งานวิจัย

https://arxiv.org/abs/2310.01352

อ่านเพิ่มเติม

https://x.com/omarsar0/status/1709204756013490494


Kosmos-G: การสร้างภาพให้สอดคล้องกับบริบทด้วยมัลติโหมดโมเดลภาษาขนาดใหญ่ / Kosmos-G: Generating Images in Context with Multimodal Large Language Models

แนะนำงานวิจัย

  • เป็นโมเดลที่สร้างภาพแบบ zero-shot ความเที่ยงตรงสูงจากอินพุต vision-language แบบทั่วไปที่ครอบคลุมหลายภาพ ขยายการสร้างภาพแบบอิงตัวแบบหลักในลักษณะ zero-shot ไปสู่สถานการณ์ที่มีหลายเอนทิตี และสามารถแทนที่ CLIP เพื่อปลดล็อกการประยุกต์ใช้งานใหม่ร่วมกับเทคนิค U-Net อื่น ๆ เช่น ControlNet และ LoRA ได้ #multimodal
    > A model that performs high-fidelity zero-shot image generation from generalized vision-language input that spans multiple images; extends zero-shot subject-driven image generation to multi-entity scenarios; allows the replacement of clip, unlocking new applications with other u-net techniques such as controlnet and lora.

บทคัดย่องานวิจัย

  • ช่วงหลังมานี้ เทคโนโลยีการสร้างภาพจากข้อความ (T2I) และจากวิชัน-ภาษาเป็นภาพ (VL2I) ก้าวหน้าอย่างมาก อย่างไรก็ตาม การสร้างภาพจากอินพุต vision-language แบบทั่วไป โดยเฉพาะกรณีที่เกี่ยวข้องกับหลายภาพนั้น ยังเป็นประเด็นที่ได้รับการศึกษาไม่มากนัก งานวิจัยนี้นำเสนอ Kosmos-G ซึ่งเป็นโมเดลที่ใช้ประโยชน์จากความสามารถด้านการรับรู้ขั้นสูงของ Multimodal Large Language Models (MLLMs) เพื่อรับมือกับโจทย์ดังกล่าว แนวทางของเราจัดแนว output space ของ MLLM ให้สอดคล้องกับ CLIP โดยใช้ modality ข้อความเป็น anchor และทำ compositional instruction tuning บนข้อมูลที่คัดสรรมา Kosmos-G แสดงความสามารถโดดเด่นในการสร้างแบบอิงตัวแบบหลักหลายเอนทิตีในลักษณะ zero-shot ที่สำคัญ score distillation instruction tuning ไม่ต้องมีการแก้ไข image decoder แต่อย่างใด ทำให้สามารถแทนที่ CLIP ได้อย่างราบรื่น และผสานเข้ากับเทคนิค U-Net จำนวนมากได้อย่างง่ายดาย ตั้งแต่การควบคุมแบบละเอียดไปจนถึง image decoder variants แบบปรับให้เหมาะเฉพาะบุคคล เรามองว่า Kosmos-G เป็นความพยายามเริ่มต้นสู่เป้าหมายของ “image as a foreign language in image generation”
    > Recent advancements in text-to-image (T2I) and vision-language-to-image (VL2I) generation have made significant strides. However, the generation from generalized vision-language inputs, especially involving multiple images, remains under-explored. This paper presents Kosmos-G, a model that leverages the advanced perception capabilities of Multimodal Large Language Models (MLLMs) to tackle the aforementioned challenge. Our approach aligns the output space of MLLM with CLIP using the textual modality as an anchor and performs compositional instruction tuning on curated data. Kosmos-G demonstrates a unique capability of zero-shot multi-entity subject-driven generation. Notably, the score distillation instruction tuning requires no modifications to the image decoder. This allows for a seamless substitution of CLIP and effortless integration with a myriad of U-Net techniques ranging from fine-grained controls to personalized image decoder variants. We posit Kosmos-G as an initial attempt towards the goal of "image as a foreign language in image generation."

ลิงก์งานวิจัย

https://arxiv.org/abs/2310.02992

อ่านเพิ่มเติม

https://x.com/omarsar0/status/1709934741158510625


โมเดลภาษาขนาดใหญ่ในฐานะผู้ให้เหตุผลเชิงอุปมา / Large Language Models as Analogical Reasoners

แนะนำงานวิจัย

  • แนวทางนี้แตกต่างจาก chain-of-thought ตรงที่ไม่ต้องใช้ตัวอย่างที่มีการติดป้ายกำกับสำหรับกระบวนการให้เหตุผล และเป็นแนวทางการพรอมป์แบบใหม่ที่ได้แรงบันดาลใจจากการให้เหตุผลเชิงอุปมา เพื่อชี้นำให้สร้างตัวอย่างหรือความรู้ที่เกี่ยวข้องขึ้นมาเองในบริบท #llm-reasoning #chain-of-thought
    > A new prompting approach to automatically guide the reasoning process of llms; the approach is different from chain-of-thought in that it doesn’t require labeled exemplars of the reasoning process; the approach is inspired by analogical reasoning and prompts lms to self-generate relevant exemplars or knowledge in the context.

บทคัดย่อของงานวิจัย

  • การพรอมป์แบบ chain-of-thought (CoT) สำหรับ language model แสดงประสิทธิภาพที่น่าประทับใจในงานด้านการให้เหตุผลหลากหลายประเภท แต่โดยทั่วไปจำเป็นต้องมีตัวอย่างที่ติดป้ายกำกับของกระบวนการให้เหตุผล งานวิจัยนี้นำเสนอแนวทางการพรอมป์แบบใหม่ชื่อว่า Analogical Prompting ซึ่งออกแบบมาเพื่อชี้นำกระบวนการให้เหตุผลของ large language model โดยอัตโนมัติ แนวทางนี้ได้แรงบันดาลใจจากการให้เหตุผลเชิงอุปมา ซึ่งเป็นกระบวนการทางการรับรู้ที่มนุษย์ดึงประสบการณ์ในอดีตที่เกี่ยวข้องมาใช้เพื่อแก้ปัญหาใหม่ โดยจะพรอมป์ให้ language model สร้างตัวอย่างหรือความรู้ที่เกี่ยวข้องในบริบทขึ้นมาเองก่อน จากนั้นจึงค่อยดำเนินการแก้ปัญหาที่กำหนด วิธีนี้มีข้อดีหลายประการ ได้แก่ ไม่จำเป็นต้องติดป้ายกำกับหรือดึงค้นตัวอย่าง จึงให้ทั้งความทั่วไปและความสะดวก อีกทั้งยังสามารถปรับตัวอย่างและความรู้ที่สร้างขึ้นให้เหมาะกับแต่ละปัญหาได้ จึงมีความยืดหยุ่น ผลการทดลองแสดงให้เห็นว่าแนวทางนี้มีประสิทธิภาพเหนือกว่า 0-shot CoT และ manual few-shot CoT ในงานให้เหตุผลที่หลากหลาย รวมถึงการแก้ปัญหาคณิตศาสตร์ใน GSM8K และ MATH การสร้างโค้ดใน Codeforces และงานให้เหตุผลอื่น ๆ ใน BIG-Bench
    > Chain-of-thought (CoT) prompting for language models demonstrates impressive performance across reasoning tasks, but typically needs labeled exemplars of the reasoning process. In this work, we introduce a new prompting approach, Analogical Prompting, designed to automatically guide the reasoning process of large language models. Inspired by analogical reasoning, a cognitive process in which humans draw from relevant past experiences to tackle new problems, our approach prompts language models to self-generate relevant exemplars or knowledge in the context, before proceeding to solve the given problem. This method presents several advantages: it obviates the need for labeling or retrieving exemplars, offering generality and convenience; it can also tailor the generated exemplars and knowledge to each problem, offering adaptability. Experimental results show that our approach outperforms 0-shot CoT and manual few-shot CoT in a variety of reasoning tasks, including math problem solving in GSM8K and MATH, code generation in Codeforces, and other reasoning tasks in BIG-Bench.

ลิงก์งานวิจัย

https://arxiv.org/abs/2310.01714

อ่านเพิ่มเติม

https://x.com/michiyasunaga/status/1709582150025240854

ต้นฉบับ

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-9d9

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น