[2025/01/13 ~ 01/19] งานวิจัย ML เด่นประจำสัปดาห์ (Top ML Papers of the Week)
(discuss.pytorch.kr)-
เราได้ทดลองแปลอัตโนมัติบทความเกี่ยวกับงานวิจัย ML ที่ DAIR.AI เผยแพร่ทุกสัปดาห์
-
แนวโน้มที่โดดเด่นของงานวิจัยที่ถูกคัดเลือกในสัปดาห์นี้คือ การวิจัยเกี่ยวกับโมเดลภาษาขนาดใหญ่ (LLM, Large Language Models) และ AI แบบมัลติโหมดมีความคึกคักอย่างมาก ตัวอย่างเช่น งานอย่าง "Self-Adaptive LLMs", "Foundations of LLMs", "Enhancing RAG", "VideoRAG" ล้วนกล่าวถึงหัวข้อที่เกี่ยวข้องกับ LLM และการเรียนรู้แบบมัลติโหมด นอกจากนี้ งานอย่าง "Imagine while Reasoning in Space" และ "OmniThink" ก็สำรวจแนวทางแบบมัลติโหมดที่พยายามแก้ปัญหาซับซ้อนด้วยการใช้ข้อมูลหลากหลายรูปแบบ
-
แนวโน้มนี้สะท้อนให้เห็นว่า ภายในชุมชนวิจัย AI ในปัจจุบัน ความสำคัญของโมเดลภาษาและความพยายามที่จะบรรลุความเข้าใจที่ครอบคลุมมากขึ้นผ่านการผสานข้อมูลหลากหลายประเภทกำลังเพิ่มขึ้น LLM กำลังเป็นผู้นำแนวหน้าในด้านการประมวลผลภาษาธรรมชาติ (NLP) และดูเหมือนว่ากำลังเกิดการรับรู้ร่วมกันมากขึ้นว่า การพัฒนาเทคโนโลยีเหล่านี้ให้ก้าวหน้ายิ่งขึ้นจำเป็นต้องอาศัยแนวทางแบบบูรณาการที่ใช้ข้อมูลมัลติโหมด โดยเฉพาะอย่างยิ่ง AI แบบมัลติโหมดมีบทบาทสำคัญในการแก้ปัญหาที่ซับซ้อนยิ่งขึ้น ด้วยการผสานความเข้าใจจากภาพเข้ากับความเข้าใจจากภาษาธรรมชาติ
-
โดยสรุป งานวิจัยในสัปดาห์นี้แสดงให้เห็นว่า ศูนย์กลางของการวิจัย AI กำลังมุ่งไปที่โมเดลภาษาขนาดใหญ่และการเรียนรู้แบบมัลติโหมด สิ่งนี้ชี้ให้เห็นว่า AI ไม่ได้หยุดอยู่แค่การประมวลผลข้อความเท่านั้น แต่กำลังก้าวไปในทิศทางที่จะทำให้สามารถแก้ปัญหาได้อย่างชาญฉลาดและซับซ้อนยิ่งขึ้นผ่านการผสานเข้ากับข้อมูลเชิงภาพ ดังนั้นจึงคาดว่างานวิจัยเหล่านี้จะส่งอิทธิพลอย่างมากต่อการพัฒนาเทคโนโลยี AI ในอนาคต
$\text{Transformer}^2$: LLM ปรับตัวได้ด้วยตนเอง / $\text{Transformer}^2$: Self-adaptive LLMs
แนะนำงานวิจัย
ขอแนะนำ $\text{Transformer}^2$ ซึ่งเป็นเฟรมเวิร์กการปรับตัวด้วยตนเองแบบใหม่ที่ปรับ LLM ให้เข้ากับงานที่ไม่เคยเห็นมาก่อนแบบเรียลไทม์ ด้วยการปรับเฉพาะองค์ประกอบเอกฐานของเมทริกซ์น้ำหนักอย่างคัดเลือก โดยสร้างขึ้นจาก 2 ขั้นตอนหลัก ได้แก่ 1) ระบบ dispatch ที่วิเคราะห์และระบุคุณสมบัติของงานที่เข้ามา และ 2) ขั้นตอนที่ผสานเวกเตอร์ "expert" ซึ่งฝึกด้วย reinforcement learning เพื่อสร้างพฤติกรรมเฉพาะงาน โดยผู้วิจัยอ้างว่ามีประสิทธิภาพมากกว่า LoRA ด้วยจำนวนพารามิเตอร์ที่น้อยกว่า และสามารถทำงานได้กับสถาปัตยกรรม LLM ที่หลากหลาย
Introduces $\text{Transformer}^2$, a novel self-adaptation framework that adapts LLMs for unseen tasks in real-time by selectively adjusting singular components of their weight matrices; it’s built with two key phases: 1) a dispatch system that analyzes and identifies the properties of the incoming task, and 2) a step that combines "expert" vectors (trained via reinforcement learning) to create task-specific behaviors; claims to be more efficient than LoRA with fewer parameters and can works across different LLM architectures.
บทคัดย่อ(Abstract)
LLM แบบปรับตัวด้วยตนเองมีเป้าหมายเพื่อแก้ปัญหาที่เกิดจากวิธี fine-tuning แบบดั้งเดิม ซึ่งมักใช้การคำนวณสูงและมีความเป็นสแตติกในการรองรับงานที่หลากหลาย ที่นี่ผู้วิจัยนำเสนอ $\text{Transformer}^2$ ซึ่งเป็นเฟรมเวิร์กการปรับตัวด้วยตนเองแบบใหม่ที่ปรับ LLM ให้เข้ากับงานที่ไม่เคยเห็นมาก่อนแบบเรียลไทม์ โดยปรับเพียงองค์ประกอบเอกฐานของเมทริกซ์น้ำหนักอย่างคัดเลือก ระหว่างการอนุมาน $\text{Transformer}^2$ ใช้กลไกแบบ 2 พาส โดยเริ่มจากระบบ dispatch ระบุคุณสมบัติของงาน จากนั้นจึงผสมเวกเตอร์ 'expert' เฉพาะงานที่ฝึกด้วย reinforcement learning แบบไดนามิก เพื่อให้ได้พฤติกรรมที่ตรงเป้าหมายสำหรับพรอมป์ต์ที่เข้ามา วิธีนี้มีประสิทธิภาพเหนือกว่าแนวทางที่ใช้กันแพร่หลายอย่าง LoRA โดยใช้พารามิเตอร์น้อยกว่าและมีประสิทธิภาพสูงกว่า $\text{Transformer}^2$ แสดงให้เห็นถึงความยืดหยุ่นในการประยุกต์ใช้กับสถาปัตยกรรม LLM และโมดาลิตีที่แตกต่างกัน รวมถึงงาน vision-language ด้วย $\text{Transformer}^2$ ถือเป็นก้าวกระโดดสำคัญ โดยนำเสนอโซลูชันที่ขยายขนาดได้และมีประสิทธิภาพสำหรับการเพิ่มความสามารถในการปรับตัวและประสิทธิภาพเฉพาะงานของ LLM ปูทางไปสู่ระบบ AI ที่มีความเป็นพลวัตและจัดระเบียบตัวเองได้อย่างแท้จริง
Self-adaptive large language models (LLMs) aim to solve the challenges posed by traditional fine-tuning methods, which are often computationally intensive and static in their ability to handle diverse tasks. We introduce $\text{Transformer}^2$, a novel self-adaptation framework that adapts LLMs for unseen tasks in real-time by selectively adjusting only the singular components of their weight matrices. During inference, $\text{Transformer}^2$ employs a two-pass mechanism: first, a dispatch system identifies the task properties, and then task-specific "expert" vectors, trained using reinforcement learning, are dynamically mixed to obtain targeted behavior for the incoming prompt. Our method outperforms ubiquitous approaches such as LoRA, with fewer parameters and greater efficiency. $\text{Transformer}^2$ demonstrates versatility across different LLM architectures and modalities, including vision-language tasks. $\text{Transformer}^2$ represents a significant leap forward, offering a scalable, efficient solution for enhancing the adaptability and task-specific performance of LLMs, paving the way for truly dynamic, self-organizing AI systems.
ลิงก์งานวิจัย
https://arxiv.org/abs/2501.06252
อ่านเพิ่มเติม
https://discuss.pytorch.kr/t/…
https://x.com/hardmaru/status/1879331049383334187
MiniMax-01: ฟาวน์เดชันโมเดลที่ขยายขนาดได้รวดเร็วราวสายฟ้า / MiniMax-01: Scaling Foundation Models with Lightning Attention
แนะนำงานวิจัย
เปิดตัวซีรีส์โมเดลใหม่ที่ผสาน Mixture-of-Experts โดยมีโมเดลที่ประกอบด้วยผู้เชี่ยวชาญ 32 รายและพารามิเตอร์ 456 พันล้านตัว และมีการเปิดใช้งาน 45.9 พันล้านพารามิเตอร์ต่อโทเค็น โดยอ้างว่ามีประสิทธิภาพทัดเทียมโมเดลล้ำสมัยอย่าง GPT-4o และ Claude-3.5-Sonnet พร้อมทั้งให้ context window ที่ยาวกว่า 20-32 เท่า สามารถรองรับได้สูงสุด 4 ล้านโทเค็น อีกทั้งยังผสาน linear attention กับการใช้ฮาร์ดแวร์ที่ปรับแต่งมาอย่างเหมาะสมเพื่อเพิ่มประสิทธิภาพและความสามารถในการขยายขนาดของ LLM และยังมีโมเดลวิชันชื่อ MiniMax-VL-01 ที่สร้างขึ้นผ่านการฝึกต่อเนื่องด้วยโทเค็น vision-language จำนวน 51.2 พันล้านโทเค็น
Introduces a new series of models that integrate Mixture-of-Experts; introduces a model with 32 experts and 456B parameters, and 45.9B are activated for each token; claims match the performance of state-of-the-art models like GPT-4o and Claude-3.5-Sonnet while offering a 20-32x longer context window; it can handle context windows of up to 4 million tokens; it integrates linear attention with optimized hardware utilization which enhances the efficiency and scalability of the LLM; there is also a vision model called MiniMax-VL-01 built through continued training with 512 billion vision-language tokens.
บทคัดย่อ(Abstract)
เราแนะนำซีรีส์ MiniMax-01 ซึ่งประกอบด้วย MiniMax-Text-01 และ MiniMax-VL-01 ที่มีความสามารถเทียบเคียงโมเดลระดับแนวหน้า พร้อมทั้งโดดเด่นในการประมวลผลบริบทยาวเป็นพิเศษ แกนหลักอยู่ที่ lightning attention และการขยายขนาดอย่างมีประสิทธิภาพ เพื่อเพิ่มขีดความสามารถในการคำนวณให้สูงสุด เราผสานเข้ากับ Mixture of Experts (MoE) สร้างเป็นโมเดลที่มีผู้เชี่ยวชาญ 32 ราย และพารามิเตอร์รวม 456 พันล้านตัว โดยในจำนวนนี้จะมี 45.9 พันล้านตัวที่ถูกเปิดใช้งานสำหรับแต่ละโทเค็น เราพัฒนากลยุทธ์การทำงานแบบขนานที่ปรับแต่งแล้วและเทคนิคการซ้อนทับระหว่างการคำนวณกับการสื่อสารที่มีประสิทธิภาพสูงสำหรับ MoE และ lightning attention แนวทางนี้ทำให้เราสามารถฝึกและทำ inference กับโมเดลที่มีพารามิเตอร์ระดับหลายแสนล้านตัวได้อย่างมีประสิทธิภาพ บนบริบทที่กินความยาวระดับหลายล้านโทเค็น context window ของ MiniMax-Text-01 สามารถขยายได้ถึง 1 ล้านโทเค็นระหว่างการฝึก และ extrapolate ไปถึง 4 ล้านโทเค็นในช่วง inference ด้วยต้นทุนที่เอื้อมถึงได้ โมเดล vision-language ของเรา MiniMax-VL-01 ถูกสร้างขึ้นผ่านการฝึกต่อเนื่องด้วยโทเค็น vision-language จำนวน 512 พันล้านโทเค็น ผลการทดลองทั้งบน benchmark มาตรฐานและ benchmark ภายในแสดงให้เห็นว่าโมเดลของเรามีประสิทธิภาพทัดเทียมโมเดลล้ำสมัยอย่าง GPT-4o และ Claude-3.5-Sonnet พร้อมมอบ context window ที่ยาวกว่าถึง 20-32 เท่า เราเปิดตัว MiniMax-01 สู่สาธารณะที่ https://github.com/MiniMax-AI
We introduce MiniMax-01 series, including MiniMax-Text-01 and MiniMax-VL-01, which are comparable to top-tier models while offering superior capabilities in processing longer contexts. The core lies in lightning attention and its efficient scaling. To maximize computational capacity, we integrate it with Mixture of Experts (MoE), creating a model with 32 experts and 456 billion total parameters, of which 45.9 billion are activated for each token. We develop an optimized parallel strategy and highly efficient computation-communication overlap techniques for MoE and lightning attention. This approach enables us to conduct efficient training and inference on models with hundreds of billions of parameters across contexts spanning millions of tokens. The context window of MiniMax-Text-01 can reach up to 1 million tokens during training and extrapolate to 4 million tokens during inference at an affordable cost. Our vision-language model, MiniMax-VL-01 is built through continued training with 512 billion vision-language tokens. Experiments on both standard and in-house benchmarks show that our models match the performance of state-of-the-art models like GPT-4o and Claude-3.5-Sonnet while offering 20-32 times longer context window. We publicly release MiniMax-01 at https://github.com/MiniMax-AI.
ลิงก์บทความ
https://arxiv.org/abs/2501.08313
อ่านเพิ่มเติม
https://x.com/omarsar0/status/1879572512075587872
VideoRAG: การสร้างแบบเสริมการดึงค้นเหนือคลังวิดีโอ / VideoRAG: Retrieval-Augmented Generation over Video Corpus
แนะนำบทความ
เป็นเฟรมเวิร์กที่ยกระดับ RAG ด้วยการใช้คอนเทนต์วิดีโอเป็นแหล่งความรู้ภายนอก โดยแตกต่างจากแนวทาง RAG เดิมที่เน้นข้อความหรือภาพเป็นหลัก VideoRAG จะดึงวิดีโอที่เกี่ยวข้องแบบไดนามิกตามคำค้น และนำทั้งองค์ประกอบเชิงภาพและข้อความมาผสานเข้ากับกระบวนการสร้างผลลัพธ์ เฟรมเวิร์กนี้ใช้ Large Video Language Models (LVLMs) เพื่อประมวลผลคอนเทนต์วิดีโอโดยตรง ทำให้จับพลวัตตามเวลา รายละเอียดเชิงพื้นที่ และสัญญาณหลายรูปแบบที่สื่อแบบคงที่มักถ่ายทอดไม่ได้ ได้อย่างมีประสิทธิภาพมากขึ้น สำหรับวิดีโอที่ไม่มีคำอธิบายเป็นข้อความ ผู้วิจัยเสนอให้ใช้ automatic speech recognition เพื่อสร้างทรานสคริปต์ เพื่อให้สามารถใช้ประโยชน์จากทั้งข้อมูลภาพและข้อความได้
A framework that enhances RAG by leveraging video content as an external knowledge source; unlike existing RAG approaches that primarily focus on text or images, VideoRAG dynamically retrieves relevant videos based on queries and incorporates both their visual and textual elements into the generation process; the framework utilizes Large Video Language Models (LVLMs) to process video content directly, enabling more effective capture of temporal dynamics, spatial details, and multimodal cues that static modalities often fail to convey; for videos lacking textual descriptions, they propose using automatic speech recognition to generate transcripts, ensuring both visual and textual modalities can be leveraged.
บทคัดย่อ(Abstract)
Retrieval-Augmented Generation (RAG) เป็นกลยุทธ์ที่ทรงพลังในการแก้ปัญหาที่โมเดลฐานสร้างผลลัพธ์ที่ไม่ตรงกับข้อเท็จจริง โดยค้นคืนความรู้ภายนอกที่เกี่ยวข้องกับคำค้นและผนวกเข้าไปในกระบวนการสร้าง อย่างไรก็ตาม แนวทาง RAG ที่มีอยู่เดิมมุ่งเน้นไปที่ข้อมูลข้อความเป็นหลัก และแม้บางแนวทางที่พัฒนาขึ้นล่าสุดจะเริ่มพิจารณารูปภาพแล้ว แต่ก็มักมองข้ามวิดีโอ ซึ่งเป็นแหล่งความรู้แบบมัลติโหมดที่อุดมสมบูรณ์และสามารถถ่ายทอดเหตุการณ์ กระบวนการ และรายละเอียดเชิงบริบทได้อย่างมีประสิทธิภาพมากกว่าสื่อรูปแบบอื่น งานวิจัยล่าสุดบางส่วนได้สำรวจวิธีผนวกรวมวิดีโอเข้ากับกระบวนการสร้างคำตอบ แต่ก็มักกำหนดวิดีโอที่เกี่ยวข้องกับคำค้นไว้ล่วงหน้าโดยไม่ค้นคืนตามคำค้น หรือไม่ก็แปลงวิดีโอเป็นคำอธิบายข้อความโดยไม่ได้ใช้ประโยชน์จากความเป็นมัลติโหมดอันหลากหลายของวิดีโอ เพื่อแก้ปัญหาเหล่านี้ จึงมีการนำเสนอ VideoRAG ซึ่งเป็นเฟรมเวิร์กใหม่ที่ไม่เพียงค้นคืนวิดีโอที่เกี่ยวข้องแบบไดนามิกตามความสัมพันธ์กับคำค้นเท่านั้น แต่ยังใช้ทั้งข้อมูลภาพและข้อมูลข้อความของวิดีโอในการสร้างผลลัพธ์อีกด้วย นอกจากนี้ เพื่อให้ใช้งานได้จริง วิธีการนี้ยังอาศัยความก้าวหน้าล่าสุดของ Large Video Language Models (LVLMs) ซึ่งทำให้สามารถประมวลผลเนื้อหาวิดีโอโดยตรงเพื่อสร้างตัวแทนสำหรับการค้นคืน และผสานวิดีโอที่ค้นคืนได้เข้ากับคำค้นอย่างไร้รอยต่อ เราได้ยืนยันประสิทธิภาพของ VideoRAG ผ่านการทดลอง และแสดงให้เห็นว่ามีความเหนือกว่าวิธีฐานที่เกี่ยวข้อง
Retrieval-Augmented Generation (RAG) is a powerful strategy to address the issue of generating factually incorrect outputs in foundation models by retrieving external knowledge relevant to queries and incorporating it into their generation process. However, existing RAG approaches have primarily focused on textual information, with some recent advancements beginning to consider images, and they largely overlook videos, a rich source of multimodal knowledge capable of representing events, processes, and contextual details more effectively than any other modality. While a few recent studies explore the integration of videos in the response generation process, they either predefine query-associated videos without retrieving them according to queries, or convert videos into the textual descriptions without harnessing their multimodal richness. To tackle these, we introduce VideoRAG, a novel framework that not only dynamically retrieves relevant videos based on their relevance with queries but also utilizes both visual and textual information of videos in the output generation. Further, to operationalize this, our method revolves around the recent advance of Large Video Language Models (LVLMs), which enable the direct processing of video content to represent it for retrieval and seamless integration of the retrieved videos jointly with queries. We experimentally validate the effectiveness of VideoRAG, showcasing that it is superior to relevant baselines.
ลิงก์บทความวิจัย
https://arxiv.org/abs/2501.05874
อ่านเพิ่มเติม
https://x.com/omarsar0/status/1878827350315659421
Titans: เรียนรู้การจดจำในช่วงเวลาทดสอบ / Titans: Learning to Memorize at Test Time
แนะนำงานวิจัย
มีการแนะนำโมดูลความจำระยะยาวเชิงประสาทเพื่อจดจำบริบทในอดีต และช่วยให้ attention สามารถโฟกัสกับบริบทปัจจุบันได้พร้อมกับใช้ข้อมูลระยะยาวจากอดีต โมดูลความจำเชิงประสาทนี้ทำหน้าที่เป็นความจำระยะยาวที่คงอยู่มากกว่าการใช้ attention เพียงอย่างเดียว (ซึ่งถือว่าเป็นระยะสั้นกว่า) และ Titan ซึ่งสร้างขึ้นบนพื้นฐานของความจำเชิงประสาท แสดงผลลัพธ์ที่ดีในงาน language modeling, common-sense reasoning, genomics และ time series
Introduces a neural long-term memory module to memorize historical context and help attention to attend to the current context while utilizing long past information; the neural memory module acts as a long-term, more persistent memory than just using attention alone (considered more short-term); Titan, which is based on neural memory, shows good results in language modeling, common-sense reasoning, genomics, and time series tasks.
บทคัดย่อ(Abstract)
มีการวิจัยอย่างกว้างขวางมานานกว่าทศวรรษเกี่ยวกับการใช้งาน recurrent models และ attention อย่างมีประสิทธิภาพ โดย recurrent models มีเป้าหมายเพื่อบีบอัดข้อมูลลงในหน่วยความจำขนาดคงที่ (เรียกว่า hidden state) ขณะที่ attention ช่วยให้สามารถพิจารณาหน้าต่างบริบททั้งหมด และจับความสัมพันธ์โดยตรงของโทเค็นทุกตัวได้ อย่างไรก็ตาม การสร้างแบบจำลองความสัมพันธ์ได้แม่นยำขึ้นนี้ต้องแลกมากับต้นทุนเชิงกำลังสอง และทำให้โมเดลถูกจำกัดอยู่กับบริบทความยาวคงที่ เรานำเสนอโมดูล neural long-term memory แบบใหม่ที่เรียนรู้การจดจำบริบทในอดีต และช่วยให้ attention สามารถโฟกัสกับบริบทปัจจุบันพร้อมใช้ประโยชน์จากข้อมูลในอดีตที่ยาวนานได้ เราแสดงให้เห็นว่า neural memory นี้มีข้อดีคือสามารถฝึกแบบ parallel ได้อย่างรวดเร็ว ขณะเดียวกันก็ยังคงรักษาความเร็วในการอนุมานไว้ได้ จากมุมมองของหน่วยความจำ เราเสนอว่า attention ซึ่งมีบริบทจำกัดแต่สร้างแบบจำลองความสัมพันธ์ได้แม่นยำ ทำหน้าที่เป็นความจำระยะสั้น ขณะที่ neural memory ซึ่งสามารถจดจำข้อมูลได้ ทำหน้าที่เป็นความจำระยะยาวที่คงอยู่มากกว่า จากสองโมดูลนี้ เราแนะนำสถาปัตยกรรมตระกูลใหม่ชื่อ Titans และนำเสนอ 3 รูปแบบย่อยเพื่ออธิบายวิธีผสานหน่วยความจำเข้ากับสถาปัตยกรรมนี้อย่างมีประสิทธิภาพ ผลการทดลองด้าน language modeling, common-sense reasoning, genomics และงาน time series แสดงให้เห็นว่า Titans มีประสิทธิภาพเหนือกว่า Transformers และ linear recurrent models สมัยใหม่ล่าสุด นอกจากนี้ยังสามารถขยายไปยังขนาดหน้าต่างบริบทที่ใหญ่กว่า 2M ได้อย่างมีประสิทธิภาพ พร้อมความแม่นยำที่สูงกว่าในงาน needle-in-haystack เมื่อเทียบกับ baseline
Over more than a decade there has been an extensive research effort on how to effectively utilize recurrent models and attention. While recurrent models aim to compress the data into a fixed-size memory (called hidden state), attention allows attending to the entire context window, capturing the direct dependencies of all tokens. This more accurate modeling of dependencies, however, comes with a quadratic cost, limiting the model to a fixed-length context. We present a new neural long-term memory module that learns to memorize historical context and helps attention to attend to the current context while utilizing long past information. We show that this neural memory has the advantage of fast parallelizable training while maintaining a fast inference. From a memory perspective, we argue that attention due to its limited context but accurate dependency modeling performs as a short-term memory, while neural memory due to its ability to memorize the data, acts as a long-term, more persistent, memory. Based on these two modules, we introduce a new family of architectures, called Titans, and present three variants to address how one can effectively incorporate memory into this architecture. Our experimental results on language modeling, common-sense reasoning, genomics, and time series tasks show that Titans are more effective than Transformers and recent modern linear recurrent models. They further can effectively scale to larger than 2M context window size with higher accuracy in needle-in-haystack tasks compared to baselines.
ลิงก์บทความวิจัย
https://arxiv.org/abs/2501.00663
อ่านเพิ่มเติม
https://x.com/omarsar0/status/1879896681010921742
รากฐานของโมเดลภาษาขนาดใหญ่ / Foundations of Large Language Models
แนะนำบทความวิจัย
แบบสำรวจใหม่เกี่ยวกับรากฐานของ LLM ที่ครอบคลุมหัวข้อต่าง ๆ เช่น pre-training, prompting และวิธีการ alignment
New survey on the foundations of LLMs covering areas such as pre-training, prompting, and alignment methods.
บทคัดย่อ(Abstract)
หนังสือเล่มนี้ว่าด้วยโมเดลภาษาขนาดใหญ่ ดังที่ชื่อระบุไว้ หนังสือเล่มนี้มุ่งเน้นที่แนวคิดพื้นฐานเป็นหลัก มากกว่าจะครอบคลุมเทคโนโลยีล้ำสมัยทั้งหมดอย่างครบถ้วน หนังสือแบ่งออกเป็น 4 บทหลัก โดยแต่ละบทจะสำรวจประเด็นสำคัญ ได้แก่ pre-training, generative models, เทคนิคการ prompt และวิธีการ alignment หนังสือเล่มนี้เขียนขึ้นสำหรับนักศึกษามหาวิทยาลัย ผู้เชี่ยวชาญ และผู้ปฏิบัติงานในด้านการประมวลผลภาษาธรรมชาติและสาขาที่เกี่ยวข้อง และสามารถใช้เป็นเอกสารอ้างอิงสำหรับทุกคนที่สนใจโมเดลภาษาขนาดใหญ่
This is a book about large language models. As indicated by the title, it primarily focuses on foundational concepts rather than comprehensive coverage of all cutting-edge technologies. The book is structured into four main chapters, each exploring a key area: pre-training, generative models, prompting techniques, and alignment methods. It is intended for college students, professionals, and practitioners in natural language processing and related fields, and can serve as a reference for anyone interested in large language models.
ลิงก์บทความวิจัย
https://arxiv.org/abs/2501.09223
อ่านเพิ่มเติม
https://discuss.pytorch.kr/t/pdf-231p-feat-arxiv/5895
https://x.com/omarsar0/status/1880284477445767586
OmniThink: ขยายขอบเขตความรู้ในการเขียนของเครื่องผ่านการคิด / OmniThink: Expanding Knowledge Boundaries in Machine Writing through Thinking
แนะนำบทความวิจัย
เฟรมเวิร์กใหม่ที่จำลองกระบวนการขยายและสะท้อนคิดแบบวนซ้ำคล้ายมนุษย์ สร้างขึ้นเพื่อจำลองพฤติกรรมทางการรับรู้ของผู้เรียนขณะต่อยอดความรู้ เมื่อเทียบกับ RAG และการสวมบทบาท OmniThink สามารถขยายขอบเขตความรู้ผ่านการสะท้อนคิดและการสำรวจอย่างต่อเนื่อง จึงเหมาะอย่างยิ่งสำหรับกรณีใช้งานที่ต้องการการสร้างเนื้อหาแบบยาว
A new framework that emulates a human-like process of iterative expansion and reflection; it's built to simulate the cognitive behavior of learners as they deepen their knowledge; compared to RAG and role-playing, OmniThink can expand knowledge boundaries through continuous reflection and exploration; this makes it ideal for use cases that require long-form generation.
บทคัดย่อ(Abstract)
การเขียนเชิงกลด้วยโมเดลภาษาขนาดใหญ่มักพึ่งพา retrieval-augmented generation อย่างไรก็ตาม แนวทางเหล่านี้ยังคงถูกจำกัดอยู่ภายในขอบเขตที่กำหนดไว้ล่วงหน้าของโมเดล ทำให้การสร้างคอนเทนต์ที่มีข้อมูลเข้มข้นทำได้จำกัด โดยเฉพาะอย่างยิ่ง ข้อมูลที่ดึงมาแบบพื้นฐานมักขาดความลึก ขาดประโยชน์ใช้สอย และมีความซ้ำซ้อน ซึ่งส่งผลเสียต่อคุณภาพของบทความที่สร้างขึ้น นำไปสู่ผลลัพธ์ที่ตื้นเขิน ซ้ำเดิม และขาดความเป็นต้นฉบับ เพื่อแก้ปัญหาเหล่านี้ จึงมีการเสนอ OmniThink ซึ่งเป็นเฟรมเวิร์กการเขียนอัตโนมัติที่จำลองกระบวนการขยายความคิดและทบทวนสะท้อนแบบวนซ้ำคล้ายมนุษย์ แนวคิดหลักของ OmniThink คือการจำลองพฤติกรรมการรับรู้ของผู้เรียนขณะที่ค่อย ๆ ทำความรู้เกี่ยวกับหัวข้อให้ลึกซึ้งยิ่งขึ้น ผลการทดลองแสดงให้เห็นว่า OmniThink ช่วยเพิ่มความหนาแน่นของความรู้ในเอกสารที่สร้างขึ้น โดยไม่ลดทอนตัวชี้วัดอย่างความสอดคล้องและความลึก การประเมินโดยมนุษย์และข้อเสนอแนะจากผู้เชี่ยวชาญยังยิ่งตอกย้ำศักยภาพของ OmniThink ในการรับมือกับความท้าทายในโลกจริงของการสร้างบทความแบบ long-form
การเขียนเชิงกลด้วยโมเดลภาษาขนาดใหญ่มักพึ่งพา retrieval-augmented generation อย่างไรก็ตาม แนวทางเหล่านี้ยังคงถูกจำกัดอยู่ภายในขอบเขตที่กำหนดไว้ล่วงหน้าของโมเดล ทำให้การสร้างคอนเทนต์ที่มีข้อมูลเข้มข้นทำได้จำกัด โดยเฉพาะอย่างยิ่ง ข้อมูลที่ดึงมาแบบพื้นฐานมักขาดความลึก ขาดประโยชน์ใช้สอย และมีความซ้ำซ้อน ซึ่งส่งผลเสียต่อคุณภาพของบทความที่สร้างขึ้น นำไปสู่ผลลัพธ์ที่ตื้นเขิน ซ้ำเดิม และขาดความเป็นต้นฉบับ เพื่อแก้ปัญหาเหล่านี้ เราเสนอ OmniThink ซึ่งเป็นเฟรมเวิร์กการเขียนอัตโนมัติที่จำลองกระบวนการขยายความคิดและทบทวนสะท้อนแบบวนซ้ำคล้ายมนุษย์ แนวคิดหลักเบื้องหลัง OmniThink คือการจำลองพฤติกรรมการรับรู้ของผู้เรียนขณะที่ค่อย ๆ ทำความรู้เกี่ยวกับหัวข้อให้ลึกซึ้งขึ้นอย่างต่อเนื่อง ผลการทดลองแสดงให้เห็นว่า OmniThink ช่วยเพิ่มความหนาแน่นของความรู้ในบทความที่สร้างขึ้น โดยไม่กระทบต่อตัวชี้วัดอย่างความสอดคล้องและความลึก การประเมินโดยมนุษย์และข้อเสนอแนะจากผู้เชี่ยวชาญยังชี้ให้เห็นเพิ่มเติมถึงศักยภาพของ OmniThink ในการรับมือกับความท้าทายในโลกจริงของการสร้างบทความแบบ long-form
ลิงก์งานวิจัย
https://arxiv.org/abs/2501.09751
อ่านเพิ่มเติม
https://x.com/omarsar0/status/1880275861401923619
ยกระดับ Retrieval-Augmented Generation: การศึกษาวิจัยแนวปฏิบัติที่ดีที่สุด / Enhancing Retrieval-Augmented Generation: A Study of Best Practices
แนะนำงานวิจัย
สำรวจองค์ประกอบและวิธีการที่ช่วยปรับปรุงระบบ RAG อย่างเป็นระบบ เช่น กลยุทธ์การค้นคืนข้อมูล การขยายคำค้น contrastive in-context learning การออกแบบพรอมป์ต์ และการแบ่ง chunk
สำรวจองค์ประกอบและวิธีการที่ช่วยปรับปรุงระบบ RAG อย่างเป็นระบบ เช่น retrieval strategies, query expansion, contrastive in-context learning, prompt design และ chunking
บทคัดย่อ(Abstract)
ระบบ Retrieval-Augmented Generation (RAG) ได้แสดงให้เห็นถึงความก้าวหน้าอย่างน่าทึ่งในช่วงหลัง โดยผสานกลไกการค้นคืนข้อมูลเข้ากับโมเดลภาษาเพื่อเพิ่มความสามารถในการสร้างคำตอบที่แม่นยำและสอดคล้องกับบริบทมากขึ้น อย่างไรก็ตาม อิทธิพลขององค์ประกอบและการตั้งค่าต่าง ๆ ภายในระบบ RAG ยังไม่ได้รับการสำรวจอย่างเพียงพอ ความเข้าใจอย่างครอบคลุมต่อองค์ประกอบเหล่านี้เป็นสิ่งจำเป็นสำหรับการปรับแต่งระบบ RAG ให้เหมาะกับงานค้นคืนข้อมูลที่ซับซ้อน และเพื่อให้มั่นใจถึงประสิทธิภาพสูงสุดในแอปพลิเคชันที่หลากหลาย ในงานวิจัยนี้ เราได้พัฒนาการออกแบบระบบ RAG ขั้นสูงหลายรูปแบบที่ผสาน query expansion, กลยุทธ์การค้นคืนข้อมูลแบบใหม่หลายชนิด และ Contrastive In-Context Learning RAG แบบใหม่ การศึกษาของเราตรวจสอบปัจจัยสำคัญอย่างเป็นระบบ ซึ่งรวมถึงขนาดของโมเดลภาษา การออกแบบพรอมป์ต์ ขนาด chunk ของเอกสาร ขนาดของ knowledge base ระยะก้าวของการค้นคืนข้อมูล เทคนิค query expansion knowledge base สำหรับ Contrastive In-Context Learning, multilingual knowledge bases และ Focus Mode ที่ค้นคืนบริบทที่เกี่ยวข้องในระดับประโยค ผ่านการทดลองอย่างกว้างขวาง เรานำเสนอการวิเคราะห์โดยละเอียดว่าปัจจัยเหล่านี้ส่งผลต่อคุณภาพของคำตอบอย่างไร ข้อค้นพบของเรามอบอินไซต์ที่นำไปใช้ได้จริงสำหรับการพัฒนาระบบ RAG โดยรักษาสมดุลระหว่างความอุดมสมบูรณ์ของบริบทและประสิทธิภาพของกระบวนการค้นคืน-การสร้าง และปูทางสู่เฟรมเวิร์ก RAG ที่ปรับตัวได้ดีและมีประสิทธิภาพสูงยิ่งขึ้นในสถานการณ์จริงที่หลากหลาย โค้ดและรายละเอียดการติดตั้งใช้งานของเราเปิดเผยต่อสาธารณะแล้ว
ระบบ Retrieval-Augmented Generation (RAG) ได้แสดงความก้าวหน้าอย่างโดดเด่นเมื่อไม่นานมานี้ ด้วยการผสานกลไกการค้นคืนข้อมูลเข้ากับโมเดลภาษา ซึ่งช่วยเพิ่มความสามารถในการสร้างคำตอบที่แม่นยำและสอดคล้องกับบริบทมากขึ้น อย่างไรก็ตาม อิทธิพลขององค์ประกอบและการตั้งค่าต่าง ๆ ภายในระบบ RAG ยังไม่ได้รับการสำรวจอย่างเพียงพอ ความเข้าใจอย่างครอบคลุมเกี่ยวกับองค์ประกอบเหล่านี้เป็นสิ่งจำเป็นสำหรับการปรับแต่งระบบ RAG ให้เข้ากับงานค้นคืนข้อมูลที่ซับซ้อน และเพื่อรับประกันประสิทธิภาพสูงสุดในแอปพลิเคชันที่หลากหลาย ในบทความนี้ เราพัฒนาการออกแบบระบบ RAG ขั้นสูงหลายรูปแบบที่ผสาน query expansion, กลยุทธ์การค้นคืนข้อมูลรูปแบบใหม่หลากหลายแบบ และ Contrastive In-Context Learning RAG รูปแบบใหม่ การศึกษาของเราตรวจสอบปัจจัยสำคัญอย่างเป็นระบบ ได้แก่ ขนาดของโมเดลภาษา การออกแบบพรอมป์ต์ ขนาด chunk ของเอกสาร ขนาดของ knowledge base ระยะก้าวของการค้นคืนข้อมูล เทคนิค query expansion knowledge bases สำหรับ Contrastive In-Context Learning, multilingual knowledge bases และ Focus Mode ที่ค้นคืนบริบทที่เกี่ยวข้องในระดับประโยค ผ่านการทดลองอย่างกว้างขวาง เรานำเสนอการวิเคราะห์อย่างละเอียดว่าปัจจัยเหล่านี้ส่งผลต่อคุณภาพของคำตอบอย่างไร ข้อค้นพบของเรามอบอินไซต์ที่นำไปใช้ได้จริงสำหรับการพัฒนาระบบ RAG โดยสร้างสมดุลระหว่างความอุดมสมบูรณ์ของบริบทและประสิทธิภาพของการค้นคืน-การสร้าง ซึ่งจะช่วยปูทางไปสู่เฟรมเวิร์ก RAG ที่ปรับตัวได้มากขึ้นและมีประสิทธิภาพสูงในสถานการณ์จริงที่หลากหลาย โค้ดและรายละเอียดการติดตั้งใช้งานของเราเปิดเผยต่อสาธารณะแล้ว
ลิงก์งานวิจัย
https://arxiv.org/abs/2501.07391
อ่านเพิ่มเติม
https://x.com/omarsar0/status/1879178916021318029
AutoCBT: เฟรมเวิร์กมัลติเอเจนต์อัตโนมัติสำหรับการบำบัดพฤติกรรมทางความคิดในการให้คำปรึกษาทางจิตวิทยา / AutoCBT: An Autonomous Multi-agent Framework for Cognitive Behavioral Therapy in Psychological Counseling
แนะนำงานวิจัย
งานนี้นำเสนอ AutoCBT ซึ่งเป็นเฟรมเวิร์กมัลติเอเจนต์สำหรับการบำบัดพฤติกรรมทางความคิด โดยเสนอเฟรมเวิร์กมัลติเอเจนต์แบบทั่วไปที่สร้างคำตอบคุณภาพสูงสำหรับสถานการณ์การให้คำปรึกษาทางจิตวิทยาแบบเทิร์นเดียว ใช้การผสานระหว่างการกำหนดเส้นทางแบบไดนามิก หน่วยความจำ และกลไกกำกับดูแลเพื่อเพิ่มความสามารถในการทำงานอัตโนมัติของแต่ละเอเจนต์ ผลการทดลองแสดงให้เห็นว่า AutoCBT สามารถให้บริการให้คำปรึกษาทางจิตวิทยาอัตโนมัติที่มีคุณภาพสูง และ AutoCBT ยังช่วยปรับปรุงคุณภาพของบทสนทนาเมื่อเทียบกับเฟรมเวิร์กการให้คำปรึกษาแบบอิงพรอมป์ต์ล้วนอื่น ๆ
Proposes a multi-agent framework, AutoCBT, for Cognitive Behavioral Therapy; the work proposes a general multi-agent framework that generates high-quality responses for single-turn psychological consultation scenarios; it uses a combination of dynamic routing, memory, and supervisory mechanisms to enhance the autonomous ability of each agent; experimental results show that AutoCBT can provide higher-quality automated psychological counseling services; AutoCBT improves dialogue quality compared to other purely prompt-based counseling frameworks.
บทคัดย่อ(Abstract)
แม้ว่าการให้คำปรึกษาทางจิตวิทยาแบบพบหน้ากันตามเดิมยังคงเป็นทางเลือกเฉพาะกลุ่มที่มักถูกเลือกโดยผู้ที่มีปัญหาทางจิตใจ แต่การให้คำปรึกษาอัตโนมัติแบบออนไลน์ก็เป็นทางออกที่มีศักยภาพสำหรับผู้ที่ลังเลจะขอความช่วยเหลือเพราะความรู้สึกอับอาย การบำบัดพฤติกรรมทางความคิด (CBT) เป็นแนวทางที่สำคัญและถูกใช้อย่างแพร่หลายในการให้คำปรึกษาทางจิตวิทยา การมาถึงของโมเดลภาษาขนาดใหญ่ (LLM) และเทคโนโลยีเอเจนต์ทำให้การวินิจฉัยและการบำบัด CBT แบบอัตโนมัติเป็นไปได้ อย่างไรก็ตาม ระบบ CBT ที่อิง LLM ในปัจจุบันใช้เอเจนต์ที่มีโครงสร้างตายตัว ทำให้ความสามารถในการปรับเหมาะด้วยตนเองมีข้อจำกัด หรือไม่ก็ให้คำแนะนำที่กลวงและไม่เป็นประโยชน์เนื่องจากรูปแบบการตอบที่ซ้ำซ้อน ในงานนี้ ผู้วิจัยใช้โมเดลการให้คำปรึกษาแบบรอบเดียวลักษณะคล้าย Quora และโมเดลการให้คำปรึกษาแบบรอบเดียวของ YiXinLi เพื่อสร้างเฟรมเวิร์กเอเจนต์ทั่วไปที่สามารถสร้างคำตอบคุณภาพสูงสำหรับสถานการณ์การให้คำปรึกษาทางจิตวิทยาแบบเทิร์นเดียว โดยใช้ชุดข้อมูลสองภาษาเพื่อประเมินคุณภาพของการให้คำปรึกษาแบบคำตอบเดียวที่สร้างโดยแต่ละเฟรมเวิร์ก จากนั้นจึงผสานกลไกการกำหนดเส้นทางแบบไดนามิกและกลไกกำกับดูแลที่ได้แรงบันดาลใจจากการให้คำปรึกษาทางจิตวิทยาในโลกจริง เพื่อสร้างเฟรมเวิร์กมัลติเอเจนต์อัตโนมัติที่มุ่งเน้น CBT และแสดงให้เห็นถึงความสามารถในการประยุกต์ใช้โดยทั่วไป ผลการทดลองชี้ว่า AutoCBT สามารถให้บริการให้คำปรึกษาทางจิตวิทยาอัตโนมัติที่มีคุณภาพสูงกว่าเดิม
Traditional in-person psychological counseling remains primarily niche, often chosen by individuals with psychological issues, while online automated counseling offers a potential solution for those hesitant to seek help due to feelings of shame. Cognitive Behavioral Therapy (CBT) is an essential and widely used approach in psychological counseling. The advent of large language models (LLMs) and agent technology enables automatic CBT diagnosis and treatment. However, current LLM-based CBT systems use agents with a fixed structure, limiting their self-optimization capabilities, or providing hollow, unhelpful suggestions due to redundant response patterns. In this work, we utilize Quora-like and YiXinLi single-round consultation models to build a general agent framework that generates high-quality responses for single-turn psychological consultation scenarios. We use a bilingual dataset to evaluate the quality of single-response consultations generated by each framework. Then, we incorporate dynamic routing and supervisory mechanisms inspired by real psychological counseling to construct a CBT-oriented autonomous multi-agent framework, demonstrating its general applicability. Experimental results indicate that AutoCBT can provide higher-quality automated psychological counseling services.
ลิงก์งานวิจัย
https://arxiv.org/abs/2501.09426
อ่านเพิ่มเติม
https://x.com/omarsar0/status/1880283025595867631
ลองจินตนาการขณะให้เหตุผลในอวกาศ: การทำให้ความคิดมองเห็นได้แบบมัลติโหมด / Imagine while Reasoning in Space: Multimodal Visualization-of-Thought
แนะนำงานวิจัย
งานนี้แนะนำ MVoT (Multimodal Visualization-of-Thought) ซึ่งเป็นเฟรมเวิร์กการให้เหตุผลแบบใหม่ที่ช่วยให้โมเดล AI “คิด” ได้ทั้งในรูปแบบข้อความและภาพ โดยยกระดับการพรอมป์ต์แบบ Chain-of-Thought แบบเดิมด้วยการให้โมเดลสร้างภาพแทนของขั้นตอนการให้เหตุผลควบคู่ไปกับคำอธิบายเป็นข้อความ เฟรมเวิร์กนี้ถูกนำไปใช้งานใน Chameleon-7B ซึ่งเป็นโมเดลภาษามัลติโหมด และยังเสนอ “token discrepancy loss” เพื่อปรับปรุงคุณภาพของภาพที่สร้างขึ้น โดยให้ประสิทธิภาพเหนือกว่าแนวทางเดิมอย่างมาก โดยเฉพาะในสถานการณ์ที่ซับซ้อน และทำความแม่นยำได้มากกว่า 90% ในงานแก้เขาวงกตและงานติดตั้งเครื่องพิมพ์
Introduces MVoT (Multimodal Visualization-of-Thought), a new reasoning framework that enables AI models to "think" in both text and images; MVoT enhances the traditional Chain-of-Thought prompting by allowing models to generate visual representations of their reasoning steps alongside text explanations; the framework is implemented in Chameleon-7B, a multimodal language model, and introduces a "token discrepancy loss" to improve the quality of generated visualizations; MVoT significantly outperforms traditional approaches, especially in complex scenarios; MVoT achieves over 90% accuracy on maze and printer installation tasks.
บทคัดย่อ(Abstract)
พรอมป์ต Chain-of-Thought (CoT) ได้รับการพิสูจน์แล้วว่ามีประสิทธิภาพสูงในการยกระดับการให้เหตุผลที่ซับซ้อนใน Large Language Models (LLMs) และ Multimodal Large Language Models (MLLMs) แต่ยังคงมีข้อจำกัดกับงานให้เหตุผลเชิงพื้นที่ที่ซับซ้อน อย่างไรก็ตาม การรับรู้ของมนุษย์ไม่ได้จำกัดอยู่แค่ภาษาเท่านั้น แต่ขยายไปสู่ความสามารถอันน่าทึ่งในการคิดได้ทั้งผ่านคำพูดและภาพ จากกลไกนี้ เราจึงเสนอกรอบการให้เหตุผลแบบใหม่ชื่อ Multimodal Visualization-of-Thought (MVoT) ซึ่งทำให้เกิดการคิดเชิงภาพใน MLLMs ด้วยการสร้างภาพแสดงร่องรอยการให้เหตุผล เพื่อให้ได้ภาพที่มีคุณภาพสูง เราได้นำ token discrepancy loss มาใช้กับ autoregressive MLLMs นวัตกรรมนี้ช่วยปรับปรุงทั้งความสอดคล้องของภาพและความเที่ยงตรงได้อย่างมีนัยสำคัญ เราตรวจสอบแนวทางนี้ผ่านงานให้เหตุผลเชิงพื้นที่แบบพลวัตหลายงาน ผลการทดลองเผยว่า MVoT แสดงประสิทธิภาพที่แข่งขันได้ในหลายงาน นอกจากนี้ยังแสดงให้เห็นถึงการปรับปรุงที่แข็งแกร่งและเชื่อถือได้ในสถานการณ์ที่ท้าทายที่สุดซึ่ง CoT ล้มเหลว ท้ายที่สุด MVoT ได้เปิดความเป็นไปได้ใหม่สำหรับงานให้เหตุผลที่ซับซ้อน ซึ่งการคิดเชิงภาพสามารถเข้ามาเสริมการให้เหตุผลด้วยภาษาได้อย่างมีประสิทธิภาพ
Chain-of-Thought (CoT) prompting has proven highly effective for enhancing complex reasoning in Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs). Yet, it struggles in complex spatial reasoning tasks. Nonetheless, human cognition extends beyond language alone, enabling the remarkable capability to think in both words and images. Inspired by this mechanism, we propose a new reasoning paradigm, Multimodal Visualization-of-Thought (MVoT). It enables visual thinking in MLLMs by generating image visualizations of their reasoning traces. To ensure high-quality visualization, we introduce token discrepancy loss into autoregressive MLLMs. This innovation significantly improves both visual coherence and fidelity. We validate this approach through several dynamic spatial reasoning tasks. Experimental results reveal that MVoT demonstrates competitive performance across tasks. Moreover, it exhibits robust and reliable improvements in the most challenging scenarios where CoT fails. Ultimately, MVoT establishes new possibilities for complex reasoning tasks where visual thinking can effectively complement verbal reasoning.
ลิงก์บทความวิจัย
https://arxiv.org/abs/2501.07542
อ่านเพิ่มเติม
https://x.com/omarsar0/status/1879181711982129420
ChemAgent: ไลบรารีที่อัปเดตตัวเองได้ใน Large Language Models ช่วยยกระดับการให้เหตุผลทางเคมี / ChemAgent: Self-updating Library in Large Language Models Improves Chemical Reasoning
แนะนำบทความวิจัย
นำเสนอเฟรมเวิร์กใหม่ที่ออกแบบมาเพื่อปรับปรุงประสิทธิภาพของ LLMs ในการให้เหตุผลทางเคมีผ่านไลบรารีแบบไดนามิกที่อัปเดตตัวเองได้ โดยไลบรารีนี้ถูกสร้างขึ้นจากการแยกงานทางเคมีออกเป็นงานย่อยและรวบรวมเป็นคอลเลกชันที่มีโครงสร้างเพื่อใช้อ้างอิงกับคำถามในอนาคต เมื่อระบบได้รับปัญหาใหม่ ก็จะนำข้อมูลที่เกี่ยวข้องจากไลบรารีกลับมาลองใหม่และปรับปรุง เพื่อให้สามารถแยกงานได้อย่างมีประสิทธิภาพมากขึ้น และเมื่อมีงานย่อยและวิธีแก้ใหม่เกิดขึ้นและผ่านการตรวจสอบแล้ว ไลบรารีก็จะอัปเดตแบบไดนามิก ผลการทดลองบน SciBench แสดงให้เห็นว่า ChemAgent ทำได้ดีกว่าวิธีเดิมอย่างชัดเจน โดยให้ประสิทธิภาพเพิ่มขึ้นสูงสุด 46% (GPT-4)
Presents a new framework designed to improve the performance of LLMs on chemical reasoning through a dynamic, self-updating library; the library is developed by decomposing chemical tasks into sub-tasks and compiling them into a structured collection that can be referenced for future queries; when the system is given a new problem, it retries and refines relevant information from the library to enable more effective task decomposition; the library is dynamically updated with new sub-tasks and solutions as they are encountered and validated; experiments on SciBench demonstrate that ChemAgent achieves performance gains of up to 46% (GPT-4), significantly outperforming existing methods.
บทคัดย่อ (Abstract)
การให้เหตุผลทางเคมีโดยทั่วไปเกี่ยวข้องกับกระบวนการหลายขั้นตอนที่ซับซ้อนและต้องการการคำนวณที่แม่นยำ โดยข้อผิดพลาดเพียงเล็กน้อยก็อาจนำไปสู่ความล้มเหลวต่อเนื่องเป็นลูกโซ่ได้ นอกจากนี้ โมเดลภาษาขนาดใหญ่ (LLM) ยังประสบความยากลำบากเมื่อต้องจัดการงานให้เหตุผลทางเคมี ไม่ว่าจะเป็นการจัดการสูตรเฉพาะทาง การดำเนินขั้นตอนการให้เหตุผลอย่างถูกต้อง และการผสานโค้ดได้อย่างมีประสิทธิภาพ เพื่อแก้ปัญหาเหล่านี้ Unity ได้นำเสนอ ChemAgent ซึ่งเป็นเฟรมเวิร์กใหม่ที่ออกแบบมาเพื่อปรับปรุงประสิทธิภาพของ LLM ผ่านไลบรารีแบบไดนามิกที่อัปเดตตัวเองได้ ไลบรารีนี้ถูกพัฒนาขึ้นโดยการแยกงานทางเคมีออกเป็นงานย่อย และรวบรวมงานย่อยเหล่านี้เป็นชุดข้อมูลที่มีโครงสร้างซึ่งสามารถใช้อ้างอิงสำหรับคำถามในอนาคตได้ จากนั้นเมื่อมีปัญหาใหม่เข้ามา ChemAgent จะดึงและปรับแต่งข้อมูลที่เกี่ยวข้องจากไลบรารี ซึ่งเรียกว่า memory เพื่อช่วยให้การแยกงานและการสร้างคำตอบมีประสิทธิภาพ วิธีการนี้ออกแบบ memory สามประเภทและองค์ประกอบการให้เหตุผลที่เสริมด้วยไลบรารี ทำให้ LLM สามารถพัฒนาขึ้นตามกาลเวลาผ่านประสบการณ์ ผลการทดลองบนชุดข้อมูลการให้เหตุผลทางเคมี 4 ชุดจาก SciBench แสดงให้เห็นว่า ChemAgent เพิ่มประสิทธิภาพได้สูงสุดถึง 46% (GPT-4) และเหนือกว่าวิธีการเดิมอย่างชัดเจน ผลลัพธ์เหล่านี้ชี้ให้เห็นถึงศักยภาพอย่างมากสำหรับการประยุกต์ใช้ในอนาคต รวมถึงงานอย่างการค้นพบยาและวิทยาศาสตร์วัสดุ ดูรายละเอียดเพิ่มเติมได้ที่ https://github.com/gersteinlab/chemagent
การให้เหตุผลทางเคมีมักเกี่ยวข้องกับกระบวนการหลายขั้นตอนที่ซับซ้อนซึ่งต้องอาศัยการคำนวณที่แม่นยำ โดยข้อผิดพลาดเพียงเล็กน้อยก็อาจนำไปสู่ความล้มเหลวต่อเนื่องเป็นลูกโซ่ได้ นอกจากนี้ โมเดลภาษาขนาดใหญ่ (LLM) ยังประสบความยากลำบากในการจัดการสูตรเฉพาะโดเมน การดำเนินขั้นตอนการให้เหตุผลอย่างถูกต้อง และการผสานโค้ดอย่างมีประสิทธิภาพเมื่อต้องรับมือกับงานให้เหตุผลทางเคมี เพื่อรับมือกับความท้าทายเหล่านี้ เราขอนำเสนอ ChemAgent ซึ่งเป็นเฟรมเวิร์กใหม่ที่ออกแบบมาเพื่อปรับปรุงประสิทธิภาพของ LLM ผ่านไลบรารีแบบไดนามิกที่อัปเดตตัวเองได้ ไลบรารีนี้ถูกพัฒนาขึ้นโดยการแยกงานทางเคมีออกเป็นงานย่อย และรวบรวมงานย่อยเหล่านี้เป็นคอลเลกชันที่มีโครงสร้างซึ่งสามารถใช้อ้างอิงสำหรับคำถามในอนาคตได้ จากนั้นเมื่อเผชิญกับปัญหาใหม่ ChemAgent จะดึงและปรับแต่งข้อมูลที่เกี่ยวข้องจากไลบรารี ซึ่งเราเรียกว่า memory เพื่อช่วยให้การแยกงานอย่างมีประสิทธิภาพและการสร้างคำตอบเป็นไปได้ วิธีการของเราออกแบบ memory สามประเภทและองค์ประกอบการให้เหตุผลที่เสริมด้วยไลบรารี ทำให้ LLM สามารถพัฒนาขึ้นได้ตามเวลาโดยอาศัยประสบการณ์ ผลการทดลองบนชุดข้อมูลการให้เหตุผลทางเคมี 4 ชุดจาก SciBench แสดงให้เห็นว่า ChemAgent เพิ่มประสิทธิภาพได้สูงสุดถึง 46% (GPT-4) และมีผลลัพธ์เหนือกว่าวิธีการเดิมอย่างมีนัยสำคัญ ผลการค้นพบของเราชี้ให้เห็นถึงศักยภาพอย่างมากสำหรับการประยุกต์ใช้ในอนาคต รวมถึงงานอย่างการค้นพบยาและวิทยาศาสตร์วัสดุ โค้ดของเราดูได้ที่ https://github.com/gersteinlab/chemagent
ลิงก์บทความวิจัย
https://arxiv.org/abs/2501.06590
อ่านเพิ่มเติม
https://github.com/gersteinlab/chemagent
https://x.com/omarsar0/status/1879188983705747754
ต้นฉบับ
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-adb
- บทความนี้สรุปด้วยโมเดล GPT จึงอาจมีส่วนที่ไม่ถูกต้อง โปรดดูต้นฉบับด้านล่างประกอบด้วย! หากระหว่างอ่านพบเนื้อหาที่แปลกหรือผิดพลาด รบกวนแจ้งในคอมเมนต์ด้วยนะครับ!* 🤗
⚠️โฆษณา⚠️: บทความนี้ที่ 🔥กลุ่มผู้ใช้ PyTorch เกาหลี🇰🇷 สรุปไว้มีประโยชน์ไหม? หาก สมัครสมาชิก เราจะส่งบทความสำคัญให้ทางอีเมล💌! (ค่าเริ่มต้นคือ Weekly แต่ เปลี่ยนเป็น Daily ได้)
ยังไม่มีความคิดเห็น