[2023/09/04 ~ 09/10] งานวิจัย ML เด่นประจำสัปดาห์ (Top ML Papers of the Week)
(discuss.pytorch.kr)ภาพรวม
เราได้ลองแปลอัตโนมัติบทความเกี่ยวกับงานวิจัย ML ที่ DAIR.AI เผยแพร่ทุกสัปดาห์
งานวิจัยในสัปดาห์นี้ส่วนใหญ่เป็นงานด้านเทคโนโลยีปัญญาประดิษฐ์ที่เน้น Transformer และ Reinforcement Learning
Transformer ในฐานะ Support Vector Machine / Transformers as Support Vector Machines
แนะนำงานวิจัย
- งานวิจัยนี้ค้นพบว่าเรขาคณิตเชิงการปรับเหมาะของ self-attention ใน Transformer มีความเชื่อมโยงกับปัญหา hard-margin SVM และยังพบว่าการใช้ gradient descent โดยไม่ทำ early stopping นำไปสู่ implicit regularization และการลู่เข้าของ self-attention ซึ่งมีศักยภาพในการช่วยให้เข้าใจ language model ได้ลึกซึ้งยิ่งขึ้น
> Finds that the optimization geometry of self-attention in transformers exhibits a connection to hard-margin svm problems; also finds that gradient descent applied without early-stopping leads to implicit regularization and convergence of self-attention; this work has the potential to deepen the understanding of language models.
บทคัดย่อ
- นับตั้งแต่เปิดตัวใน "Attention Is All You Need" สถาปัตยกรรม Transformer ได้ขับเคลื่อนความก้าวหน้าครั้งสำคัญของ NLP มาโดยตลอด ชั้น attention ภายใน Transformer รับลำดับของโทเค็นอินพุต $X$ และทำให้โทเค็นเหล่านั้นมีปฏิสัมพันธ์กันผ่านความคล้ายคลึงกันแบบเป็นคู่ที่คำนวณเป็น softmax $(XQK^\top X^\top)$ โดยที่ $(K,Q)$ คือพารามิเตอร์ key-query ที่สามารถเรียนรู้ได้ ในงานนี้ เราสร้างความเท่าเทียมกันเชิงรูปแบบระหว่างเรขาคณิตเชิงการปรับเหมาะของ self-attention กับปัญหา hard-margin SVM ที่แยกโทเค็นอินพุตที่เหมาะสมที่สุดออกจากโทเค็นที่ไม่เหมาะสม โดยใช้เงื่อนไขข้อจำกัดเชิงเส้นกับ outer-product ของคู่โทเค็น Formalism นี้ทำให้เราสามารถอธิบาย implicit bias ของ Transformer ชั้นเดียวที่ถูกปรับด้วย gradient descent ได้: (1) การปรับชั้น attention ภายใต้ regularization ที่ลดลงจนเป็นศูนย์ โดยพารามิเตอร์แบบ $(K,Q)$ จะลู่เข้าในเชิงทิศทางไปยังคำตอบของ SVM ที่ทำให้ nuclear norm ของพารามิเตอร์รวม $W=KQ^\top$ ต่ำที่สุด ในทางกลับกัน หากกำหนดพารามิเตอร์โดยตรงด้วย $W$ จะเป็นการทำให้ objective แบบ Frobenius norm ต่ำที่สุด เราอธิบายลักษณะของการลู่เข้านี้ พร้อมชี้ให้เห็นว่ามันอาจเกิดไปสู่ทิศทางที่เหมาะสมที่สุดเฉพาะที่ ไม่ใช่ระดับโลก (2) เพื่อเสริมประเด็นนี้ เราพิสูจน์การลู่เข้าเชิงทิศทางทั้งแบบเฉพาะที่/แบบระดับโลกของ gradient descent ภายใต้เงื่อนไขเชิงเรขาคณิตที่เหมาะสม ที่สำคัญ เราแสดงให้เห็นว่า over-parameterization ช่วยเร่งการลู่เข้าแบบระดับโลก โดยรับประกันความเป็นไปได้ของปัญหา SVM และรับประกัน landscape การปรับเหมาะที่เอื้ออำนวยซึ่งไม่มี stationary point (3) แม้ว่าทฤษฎีของเราจะใช้ได้เป็นหลักกับ linear prediction head แต่เรายังเสนอความเท่าเทียมกับ SVM ในรูปแบบทั่วไปยิ่งขึ้น ซึ่งสามารถทำนาย implicit bias เมื่อใช้ nonlinear head ได้ ผลลัพธ์ของเรานำไปใช้ได้กับชุดข้อมูลใด ๆ และได้ตรวจสอบความถูกต้องผ่านการทดลองแล้ว นอกจากนี้ เรายังนำเสนอคำถามเปิดและทิศทางการวิจัยอีกหลายประเด็น เราเชื่อว่าผลการวิจัยเหล่านี้ช่วยสร้างแรงบันดาลใจให้ตีความ Transformer ว่าเป็นลำดับชั้นของ SVM ที่ทำหน้าที่แยกและคัดเลือกโทเค็นที่เหมาะสมที่สุด
> Since its inception in "Attention Is All You Need", transformer architecture has led to revolutionary advancements in NLP. The attention layer within the transformer admits a sequence of input tokens $X$ and makes them interact through pairwise similarities computed as softmax $(XQK^\top X^\top)$ , where $(K,Q)$ are the trainable key-query parameters. In this work, we establish a formal equivalence between the optimization geometry of self-attention and a hard-margin SVM problem that separates optimal input tokens from non-optimal tokens using linear constraints on the outer-products of token pairs. This formalism allows us to characterize the implicit bias of 1-layer transformers optimized with gradient descent: (1) Optimizing the attention layer with vanishing regularization, parameterized by $(K,Q)$, converges in direction to an SVM solution minimizing the nuclear norm of the combined parameter $W=KQ^\top$. Instead, directly parameterizing by $W$ minimizes a Frobenius norm objective. We characterize this convergence, highlighting that it can occur toward locally-optimal directions rather than global ones. (2) Complementing this, we prove the local/global directional convergence of gradient descent under suitable geometric conditions. Importantly, we show that over-parameterization catalyzes global convergence by ensuring the feasibility of the SVM problem and by guaranteeing a benign optimization landscape devoid of stationary points. (3) While our theory applies primarily to linear prediction heads, we propose a more general SVM equivalence that predicts the implicit bias with nonlinear heads. Our findings are applicable to arbitrary datasets and their validity is verified via experiments. We also introduce several open problems and research directions. We believe these findings inspire the interpretation of transformers as a hierarchy of SVMs that separates and selects optimal tokens.
ลิงก์งานวิจัย
https://arxiv.org/abs/2308.16898
RLAIF: ขยาย Reinforcement Learning from Human Feedback ไปสู่ AI Feedback / RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback
แนะนำงานวิจัย
- งานนี้ทดสอบว่า RLAIF เป็นทางเลือกที่เหมาะสมสำหรับ RLHF หรือไม่ โดยเปรียบเทียบประสิทธิภาพของฟีดแบ็กจากมนุษย์กับจาก AI ใช้เทคนิคหลายแบบเพื่อสร้าง AI labels และทำการศึกษาด้าน scaling เพื่อรายงานการตั้งค่าที่เหมาะสมที่สุดสำหรับการสร้าง preference ที่สอดคล้องกัน ผลลัพธ์สำคัญคือ ในงานสรุปความ มนุษย์ผู้ประเมินชอบผลลัพธ์ที่สร้างโดยทั้ง RLAIF และ RLHF มากกว่าโมเดล SFT พื้นฐานในประมาณ 70% ของกรณี #rlhf
> Tests whether rlaif is a suitable alternative to rlhf by comparing the efficacy of human vs. ai feedback; uses different techniques to generate ai labels and conduct scaling studies to report optimal settings for generating aligned preferences; the main finding is that on the task of summarization, human evaluators prefer generations from both rlaif and rlhf over a baseline sft model in ∼70% of cases.
บทคัดย่อ
- Reinforcement learning from human feedback (RLHF) มีประสิทธิภาพในการปรับ large language models (LLMs) ให้สอดคล้องกับความชอบของมนุษย์ แต่การรวบรวม preference labels จากมนุษย์ที่มีคุณภาพสูงเป็นคอขวดสำคัญ เราได้ทำการเปรียบเทียบแบบเผชิญหน้ากันโดยตรงระหว่าง RLHF กับ RL from AI Feedback (RLAIF) ซึ่งเป็นเทคนิคที่ใช้ LLM สำเร็จรูปมาติดป้ายกำกับความชอบแทนมนุษย์ และพบว่าทั้งสองให้การปรับปรุงที่ใกล้เคียงกัน ในงานสรุปความ มนุษย์ผู้ประเมินชอบผลลัพธ์ที่สร้างโดยทั้ง RLAIF และ RLHF มากกว่าโมเดล supervised fine-tuned พื้นฐานในประมาณ 70% ของกรณี นอกจากนี้ เมื่อให้ประเมินสรุประหว่าง RLAIF กับ RLHF มนุษย์ก็ชอบทั้งสองแบบในอัตราที่เท่ากัน ผลลัพธ์เหล่านี้ชี้ว่า RLAIF สามารถให้ประสิทธิภาพระดับมนุษย์ได้ และอาจเป็นทางออกต่อข้อจำกัดด้านการขยายขนาดของ RLHF
> Reinforcement learning from human feedback (RLHF) is effective at aligning large language models (LLMs) to human preferences, but gathering high quality human preference labels is a key bottleneck. We conduct a head-to-head comparison of RLHF vs. RL from AI Feedback (RLAIF) - a technique where preferences are labeled by an off-the-shelf LLM in lieu of humans, and we find that they result in similar improvements. On the task of summarization, human evaluators prefer generations from both RLAIF and RLHF over a baseline supervised fine-tuned model in ~70% of cases. Furthermore, when asked to rate RLAIF vs. RLHF summaries, humans prefer both at equal rates. These results suggest that RLAIF can yield human-level performance, offering a potential solution to the scalability limitations of RLHF.
ลิงก์บทความวิจัย
https://arxiv.org/abs/2309.00267
อ่านเพิ่มเติม
https://twitter.com/omarsar0/status/1699102486928265530
GPT ที่แก้โจทย์คณิตศาสตร์ได้โดยไม่ต้องใช้เครื่องคิดเลข / GPT Can Solve Mathematical Problems Without a Calculator
แนะนำงานวิจัย
- แสดงให้เห็นว่า หากมีข้อมูลฝึกเพียงพอ language model ขนาด 2b สามารถทำการคำนวณเลขคณิตหลายขั้นตอนได้อย่างแม่นยำ 100% โดยไม่มี data leakage และเมื่อ fine-tune จาก GLM-10b บนชุดข้อมูลที่มีการคำนวณเลขคณิตหลายขั้นเพิ่มเติมและโจทย์คณิตศาสตร์แบบละเอียด ก็สามารถแข่งขันกับ GPT-4 บนชุดทดสอบโจทย์คณิตศาสตร์ภาษาจีน 5,000 ตัวอย่างได้ #mathematical-reasoning #wizardmath
> Shows that with sufficient training data, a 2b language model can perform multi-digit arithmetic operations with 100% accuracy and without data leakage; it’s also competitive with gpt-4 on 5k samples chinese math problem test set when fine-tuned from glm-10b on a dataset containing additional multi-step arithmetic operations and detailed math problems.
บทคัดย่อ
- งานวิจัยก่อนหน้านี้มักตั้งสมมติฐานว่าโดยทั่วไป large language models ไม่สามารถทำการคำนวณเลขคณิตได้อย่างแม่นยำหากไม่ใช้เครื่องมืออย่างเครื่องคิดเลข โดยเฉพาะการคูณที่มากกว่า 8 หลัก และการคำนวณที่เกี่ยวข้องกับทศนิยมและเศษส่วน บทความนี้มีเป้าหมายที่จะท้าทายความเข้าใจผิดดังกล่าว หากมีข้อมูลฝึกเพียงพอ language model ที่มีพารามิเตอร์ 2 พันล้านตัวสามารถทำการคำนวณเลขคณิตหลายหลักได้อย่างแม่นยำเกือบ 100% โดยไม่มี data leakage ซึ่งเหนือกว่า GPT-4 อย่างมาก (ที่มีความแม่นยำในการคูณหลายหลักเพียง 4.3%) เรายังแสดงให้เห็นว่า MathGLM ของเรา ซึ่ง fine-tune จาก GLM-10B บนชุดข้อมูลที่มีการคำนวณเลขคณิตหลายขั้นเพิ่มเติมและโจทย์คณิตศาสตร์ที่อธิบายด้วยข้อความ สามารถทำผลงานได้ใกล้เคียงกับ GPT-4 บนชุดทดสอบโจทย์คณิตศาสตร์ภาษาจีนจำนวน 5,000 ตัวอย่าง
> Previous studies have typically assumed that large language models are unable to accurately perform arithmetic operations, particularly multiplication of >8 digits, and operations involving decimals and fractions, without the use of calculator tools. This paper aims to challenge this misconception. With sufficient training data, a 2 billion-parameter language model can accurately perform multi-digit arithmetic operations with almost 100% accuracy without data leakage, significantly surpassing GPT-4 (whose multi-digit multiplication accuracy is only 4.3%). We also demonstrate that our MathGLM, fine-tuned from GLM-10B on a dataset with additional multi-step arithmetic operations and math problems described in text, achieves similar performance to GPT-4 on a 5,000-samples Chinese math problem test set.
ลิงก์บทความวิจัย
https://arxiv.org/abs/2309.03241
อ่านเพิ่มเติม
https://twitter.com/_akhaliq/status/1699951105927512399
Large Language Models ในฐานะตัวทำ optimization / Large Language Models as Optimizers
แนะนำงานวิจัย
- แนวทางที่อธิบายปัญหา optimization ด้วยภาษาธรรมชาติ จากนั้นสั่งให้ LLM สร้างวิธีแก้ใหม่แบบวนซ้ำโดยอิงจากปัญหาที่กำหนดและวิธีแก้ที่พบก่อนหน้า ในแต่ละขั้นของ optimization เป้าหมายคือสร้าง prompt ใหม่ที่เพิ่มความแม่นยำในการทดสอบโดยอิงจาก trajectory ของ prompt ที่สร้างมาก่อนหน้านี้ และ prompt ที่ผ่านการ optimization แล้วมีประสิทธิภาพเหนือกว่า prompt ที่มนุษย์ออกแบบบน GSM8K และ Big-Bench Hard โดยบางครั้งดีกว่ามากกว่า 50% #optimizing
> An approach where the optimization problem is described in natural language; an llm is then instructed to iteratively generate new solutions based on the defined problem and previously found solutions; at each optimization step, the goal is to generate new prompts that increase test accuracy based on the trajectory of previously generated prompts; the optimized prompts outperform human-designed prompts on gsm8k and big-bench hard, sometimes by over 50%
บทคัดย่อ
- การเพิ่มประสิทธิภาพมีอยู่ทุกหนทุกแห่ง แม้อัลกอริทึมที่อาศัยอนุพันธ์จะเป็นเครื่องมือทรงพลังสำหรับปัญหาหลากหลายประเภท แต่การไม่มี gradient ทำให้เกิดความท้าทายในแอปพลิเคชันจริงจำนวนมาก งานวิจัยนี้เสนอ OPRO (Optimization by PROmpting) ซึ่งเป็นแนวทางที่เรียบง่ายและมีประสิทธิภาพในการใช้ large language models (LLMs) เป็นตัวเพิ่มประสิทธิภาพ โดยอธิบายงาน optimization ด้วยภาษาธรรมชาติ ในแต่ละขั้นของการ optimization นั้น LLM จะสร้างคำตอบใหม่จากพรอมป์ต์ที่มีคำตอบที่สร้างไว้ก่อนหน้าและค่าของคำตอบเหล่านั้น จากนั้นคำตอบใหม่จะถูกประเมินและเพิ่มเข้าไปในพรอมป์ต์สำหรับขั้น optimization ถัดไป ผู้วิจัยเริ่มสาธิต OPRO กับ linear regression และปัญหา traveling salesman จากนั้นจึงขยับไปสู่การเพิ่มประสิทธิภาพพรอมป์ต์ ซึ่งมีเป้าหมายเพื่อค้นหาคำสั่งที่ทำให้ความแม่นยำของงานสูงสุด ผ่าน LLM หลากหลายตัว งานนี้แสดงให้เห็นว่าพรอมป์ต์ที่ดีที่สุดซึ่งถูกเพิ่มประสิทธิภาพด้วย OPRO มีประสิทธิภาพเหนือกว่าพรอมป์ต์ที่มนุษย์ออกแบบเองได้สูงสุด 8% บน GSM8K และสูงสุด 50% บนงาน Big-Bench Hard
Optimization is ubiquitous. While derivative-based algorithms have been powerful tools for various problems, the absence of gradient imposes challenges on many real-world applications. In this work, we propose Optimization by PROmpting (OPRO), a simple and effective approach to leverage large language models (LLMs) as optimizers, where the optimization task is described in natural language. In each optimization step, the LLM generates new solutions from the prompt that contains previously generated solutions with their values, then the new solutions are evaluated and added to the prompt for the next optimization step. We first showcase OPRO on linear regression and traveling salesman problems, then move on to prompt optimization where the goal is to find instructions that maximize the task accuracy. With a variety of LLMs, we demonstrate that the best prompts optimized by OPRO outperform human-designed prompts by up to 8% on GSM8K, and by up to 50% on Big-Bench Hard tasks.
ลิงก์งานวิจัย
https://arxiv.org/abs/2309.03409
อ่านเพิ่มเติม
https://twitter.com/omarsar0/status/1700249035456598391
ImageBind-LLM: การปรับจูน instruction แบบหลายโมดาลิตี / ImageBind-LLM: Multi-modality Instruction Tuning
แนะนำงานวิจัย
- นำเสนอ imagebind-llm ซึ่งเป็นวิธีปรับจูน instruction แบบหลายโมดาลิตีของ llm ผ่าน ImageBind โมเดลนี้สามารถตอบสนองต่อ instruction จากโมดาลิตีที่หลากหลาย เช่น เสียง 3D point clouds และวิดีโอ พร้อมทั้งคงคุณภาพการสร้างภาษาระดับสูงไว้ได้ โดยทำได้ผ่านการจัดแนว visual encoder ของ ImageBind เข้ากับ llm ด้วย bind network ที่เรียนรู้ได้ #imagebind
Presents imagebind-llm, a multimodality instruction tuning method of llms via imagebind; this model can respond to instructions of diverse modalities such as audio, 3d point clouds, and video, including high language generation quality; this is achieved by aligning imagebind’s visual encoder with an llm via learnable bind network.
บทคัดย่อ
- ขอแนะนำ ImageBind-LLM ซึ่งเป็นวิธี instruction tuning แบบหลายโมดาลิตีสำหรับโมเดลภาษาขนาดใหญ่ (LLM) ผ่าน ImageBind งานก่อนหน้านี้ส่วนใหญ่มุ่งเน้นที่ instruction tuning สำหรับภาษาและภาพเป็นหลัก ขณะที่ ImageBind-LLM สามารถรองรับเงื่อนไขแบบหลายโมดาลิตีได้ ทั้งเสียง 3D point cloud วิดีโอ และการดำเนินการใน embedding space โดยอาศัยเพียงการฝึก alignment ระหว่างภาพกับข้อความเท่านั้น ระหว่างการฝึก มีการใช้ bind network ที่เรียนรู้ได้เพื่อจัดแนว embedding space ระหว่าง LLaMA กับ image encoder ของ ImageBind จากนั้นจึงนำฟีเจอร์ภาพที่ bind network แปลงแล้วไปเพิ่มเข้ากับ word token ในทุกเลเยอร์ของ LLaMA และค่อย ๆ ใส่คำสั่งเชิงภาพผ่านกลไก gating ที่ไม่ต้องใช้ attention และเริ่มต้นค่าเป็นศูนย์ ด้วย joint embedding ของ ImageBind การฝึกภาพ-ข้อความแบบง่ายก็ทำให้โมเดลแสดงความสามารถในการทำตามคำสั่งแบบหลายโมดาลิตีได้อย่างยอดเยี่ยม ระหว่างการอนุมาน อินพุตหลายโมดาลิตีจะถูกป้อนเข้า encoder ของ ImageBind ที่สอดคล้องกัน และประมวลผลด้วย visual cache model ที่เสนอขึ้นเพื่อเพิ่มประสิทธิภาพ cross-modal embedding ต่อไป cache model ที่ไม่ต้องฝึกนี้จะค้นคืนจากฟีเจอร์ภาพ 3 ล้านรายการที่สกัดโดย ImageBind ซึ่งช่วยลดความไม่สอดคล้องของโมดาลิตีระหว่างการฝึกกับการอนุมานได้อย่างมีประสิทธิภาพ โดยเฉพาะอย่างยิ่ง ด้วยแนวทางนี้ ImageBind-LLM สามารถตอบสนองต่อคำสั่งในรูปแบบที่หลากหลายและแสดงคุณภาพการสร้างภาษาที่โดดเด่น โค้ดเผยแพร่ที่ https://github.com/OpenGVLab/LLaMA-Adapter
> เรานำเสนอ ImageBind-LLM ซึ่งเป็นวิธี instruction tuning แบบหลายโมดาลิตีของ large language models (LLMs) ผ่าน ImageBind งานที่มีอยู่เดิมมักมุ่งเน้นที่การทำ instruction tuning สำหรับภาษาและภาพเป็นหลัก ต่างจากนั้น ImageBind-LLM ของเราสามารถตอบสนองต่อเงื่อนไขแบบหลายโมดาลิตีได้ รวมถึงเสียง 3D point clouds วิดีโอ และการคำนวณเชิงเลขคณิตใน embedding space ของสิ่งเหล่านี้ โดยใช้เพียงการฝึก alignment ระหว่างภาพและข้อความเท่านั้น ระหว่างการฝึก เราใช้ bind network ที่เรียนรู้ได้เพื่อจัดแนว embedding space ระหว่าง LLaMA กับ image encoder ของ ImageBind จากนั้น ฟีเจอร์ภาพที่ถูกแปลงโดย bind network จะถูกเพิ่มเข้าไปใน word tokens ของทุกเลเยอร์ใน LLaMA ซึ่งค่อย ๆ ฉีดคำสั่งเชิงภาพผ่านกลไก gating ที่ไม่ต้องใช้ attention และมีการกำหนดค่าเริ่มต้นเป็นศูนย์ ด้วยความช่วยเหลือจาก joint embedding ของ ImageBind การฝึกภาพ-ข้อความแบบง่ายทำให้โมเดลของเราแสดงความสามารถที่เหนือชั้นในการทำตามคำสั่งแบบหลายโมดาลิตี ระหว่างการอนุมาน อินพุตหลายโมดาลิตีจะถูกป้อนเข้าสู่ ImageBind encoders ที่เกี่ยวข้อง และประมวลผลด้วย visual cache model ที่เสนอขึ้นเพื่อปรับปรุง cross-modal embedding เพิ่มเติม cache model ที่ไม่ต้องฝึกนี้ดึงข้อมูลจากฟีเจอร์ภาพ 3 ล้านรายการที่สกัดจาก ImageBind ซึ่งช่วยบรรเทาความคลาดเคลื่อนของโมดาลิตีระหว่างการฝึกและการอนุมานได้อย่างมีประสิทธิภาพ ที่สำคัญ ด้วยแนวทางของเรา ImageBind-LLM สามารถตอบสนองต่อคำสั่งจากโมดาลิตีที่หลากหลาย และแสดงคุณภาพการสร้างภาษาที่โดดเด่น โค้ดเผยแพร่ที่ https://github.com/OpenGVLab/LLaMA-Adapter
ลิงก์บทความวิจัย
https://arxiv.org/abs/2309.03905
อ่านเพิ่มเติม
https://twitter.com/arankomatsuzaki/status/1699947731333345750
การอธิบาย grokking ผ่านประสิทธิภาพของวงจร / Explaining grokking through circuit efficiency
แนะนำบทความวิจัย
- มุ่งอธิบายพฤติกรรม grokking ในโครงข่ายประสาทเทียม โดยเฉพาะอย่างยิ่งได้ทำนายและแสดงให้เห็นพฤติกรรมใหม่สองแบบ แบบแรกคือ ungrokking ซึ่งโมเดลเปลี่ยนจากการทำ generalization ได้สมบูรณ์ไปเป็นการท่องจำ เมื่อฝึกต่อบนชุดข้อมูลที่มีขนาดเล็กกว่าค่าวิกฤต และแบบที่สองคือ semi-grokking ซึ่งโครงข่ายแสดงการเปลี่ยนผ่านคล้าย grokking เมื่อฝึกโครงข่ายที่สุ่มค่าเริ่มต้นบนขนาดชุดข้อมูลวิกฤต #grokking
> มีเป้าหมายเพื่ออธิบายพฤติกรรม grokking ในโครงข่ายประสาทเทียม โดยเฉพาะอย่างยิ่ง งานนี้คาดการณ์และแสดงพฤติกรรมใหม่สองแบบ: แบบแรกคือ ungrokking ซึ่งโมเดลเปลี่ยนจากการทำ generalization ได้อย่างสมบูรณ์ไปเป็นการท่องจำเมื่อถูกฝึกต่อบนชุดข้อมูลที่เล็กกว่าค่าวิกฤต และแบบที่สองคือ semi-grokking ซึ่งโครงข่ายแสดงการเปลี่ยนผ่านลักษณะคล้าย grokking เมื่อฝึกโครงข่ายที่ถูกสุ่มค่าเริ่มต้นบนขนาดชุดข้อมูลวิกฤต
บทคัดย่อบทความวิจัย
- หนึ่งในปริศนาที่น่าประหลาดใจที่สุดของการทำให้โครงข่ายประสาทเทียม generalize ได้คือ
grokking: โครงข่ายที่มีความแม่นยำบนชุดฝึกสมบูรณ์แบบแต่ generalize ได้ไม่ดี จะเปลี่ยนไปสู่การ generalize ได้อย่างสมบูรณ์แบบเมื่อฝึกต่อไปอีก เราเสนอว่า grokking เกิดขึ้นเมื่อโจทย์หนึ่งยอมรับได้ทั้งวิธีแก้แบบ generalize และแบบท่องจำ โดยวิธีแก้แบบ generalize เรียนรู้ช้ากว่าแต่มีประสิทธิภาพมากกว่า และสร้าง logits ที่ใหญ่กว่าภายใต้ parameter norm เดียวกัน เราตั้งสมมติฐานว่า memorising circuits จะไร้ประสิทธิภาพมากขึ้นเมื่อชุดข้อมูลฝึกมีขนาดใหญ่ขึ้น แต่ generalising circuits จะไม่เป็นเช่นนั้น ซึ่งชี้ว่ามีขนาดชุดข้อมูลวิกฤตที่ทำให้การท่องจำและการ generalize มีประสิทธิภาพเท่ากัน เราได้ตั้งและยืนยันคำทำนายใหม่ 4 ข้อเกี่ยวกับ grokking ซึ่งเป็นหลักฐานสำคัญที่สนับสนุนคำอธิบายของเรา ที่น่าทึ่งที่สุดคือ เราแสดงให้เห็นพฤติกรรมใหม่และน่าประหลาดใจ 2 แบบ ได้แก่ ungrokking ซึ่งโครงข่ายถดถอยจากความแม่นยำการทดสอบที่สมบูรณ์แบบไปสู่ระดับต่ำ และ semi-grokking ซึ่งโครงข่ายแสดงการ generalize ที่ล่าช้าไปสู่ความแม่นยำการทดสอบเพียงบางส่วน แทนที่จะสมบูรณ์แบบ
> One of the most surprising puzzles in neural network generalisation is grokking: a network with perfect training accuracy but poor generalisation will, upon further training, transition to perfect generalisation. We propose that grokking occurs when the task admits a generalising solution and a memorising solution, where the generalising solution is slower to learn but more efficient, producing larger logits with the same parameter norm. We hypothesise that memorising circuits become more inefficient with larger training datasets while generalising circuits do not, suggesting there is a critical dataset size at which memorisation and generalisation are equally efficient. We make and confirm four novel predictions about grokking, providing significant evidence in favour of our explanation. Most strikingly, we demonstrate two novel and surprising behaviours: ungrokking, in which a network regresses from perfect to low test accuracy, and semi-grokking, in which a network shows delayed generalisation to partial rather than perfect test accuracy.
ลิงก์บทความวิจัย
https://arxiv.org/abs/2309.02390
อ่านเพิ่มเติม
https://twitter.com/VikrantVarma_/status/1699823229307699305
การหลอกลวงของ AI: การสำรวจกรณีตัวอย่าง ความเสี่ยง และแนวทางแก้ไขที่เป็นไปได้ / AI Deception: A Survey of Examples, Risks, and Potential Solutions
แนะนำบทความวิจัย
- นำเสนอการสำรวจกรณีเชิงประจักษ์ของการหลอกลวงโดยปัญญาประดิษฐ์ #survey paper
> Provides a survey of empirical examples of ai deception.
บทคัดย่อ
- บทความนี้โต้แย้งว่าระบบปัญญาประดิษฐ์ในปัจจุบันหลายประเภทได้เรียนรู้วิธีหลอกลวงมนุษย์แล้ว เรานิยามการหลอกลวงว่าเป็นการชักนำให้เกิดความเชื่อที่ผิดอย่างเป็นระบบ เพื่อมุ่งไปสู่ผลลัพธ์บางอย่างที่ไม่ใช่ความจริง ขั้นแรก เราสำรวจกรณีเชิงประจักษ์ของการหลอกลวงโดย AI โดยกล่าวถึงทั้งระบบ AI เฉพาะทาง (รวมถึง CICERO ของ Meta) ที่สร้างขึ้นสำหรับสถานการณ์การแข่งขันเฉพาะ และระบบ AI อเนกประสงค์ (เช่น large language models) จากนั้น เราอธิบายรายละเอียดความเสี่ยงหลายประการจากการหลอกลวงโดย AI เช่น การฉ้อโกง การแทรกแซงการเลือกตั้ง และการสูญเสียการควบคุมระบบ AI สุดท้าย เราสรุปแนวทางแก้ไขที่เป็นไปได้บางประการต่อปัญหาที่การหลอกลวงโดย AI ก่อขึ้น ได้แก่ ประการแรก กรอบกำกับดูแลควรกำหนดให้ระบบ AI ที่สามารถหลอกลวงได้ต้องผ่านข้อกำหนดการประเมินความเสี่ยงที่เข้มงวด ประการที่สอง ผู้กำหนดนโยบายควรบังคับใช้กฎหมาย bot-or-not และสุดท้าย ผู้กำหนดนโยบายควรจัดลำดับความสำคัญของเงินทุนสำหรับงานวิจัยที่เกี่ยวข้อง ซึ่งรวมถึงเครื่องมือสำหรับตรวจจับการหลอกลวงโดย AI และทำให้ระบบ AI หลอกลวงน้อยลง ผู้กำหนดนโยบาย นักวิจัย และสาธารณชนในวงกว้างควรทำงานเชิงรุกเพื่อป้องกันไม่ให้การหลอกลวงโดย AI บั่นทอนรากฐานร่วมกันของสังคมเรา
> This paper argues that a range of current AI systems have learned how to deceive humans. We define deception as the systematic inducement of false beliefs in the pursuit of some outcome other than the truth. We first survey empirical examples of AI deception, discussing both special-use AI systems (including Meta's CICERO) built for specific competitive situations, and general-purpose AI systems (such as large language models). Next, we detail several risks from AI deception, such as fraud, election tampering, and losing control of AI systems. Finally, we outline several potential solutions to the problems posed by AI deception: first, regulatory frameworks should subject AI systems that are capable of deception to robust risk-assessment requirements; second, policymakers should implement bot-or-not laws; and finally, policymakers should prioritize the funding of relevant research, including tools to detect AI deception and to make AI systems less deceptive. Policymakers, researchers, and the broader public should work proactively to prevent AI deception from destabilizing the shared foundations of our society.
ลิงก์บทความวิจัย
https://arxiv.org/abs/2308.14752
อ่านเพิ่มเติม
https://twitter.com/DanHendrycks/status/1699437800301752332
FLM-101B: Open LLM และวิธีฝึกด้วยงบประมาณ 100,000 ดอลลาร์ / FLM-101B: An Open LLM and How to Train It with $100K Budget
แนะนำบทความวิจัย
- สำหรับ FLM-101B ซึ่งเป็น open LLM ใหม่ที่มีพารามิเตอร์ 101B และโทเค็น 0.31TB และสามารถฝึกได้ด้วยงบประมาณ 100,000 ดอลลาร์ ผู้เขียนได้วิเคราะห์กลยุทธ์การเติบโตหลายแบบ โดยค่อย ๆ เพิ่มจำนวนพารามิเตอร์จากขนาดเล็กไปสู่ขนาดใหญ่ และท้ายที่สุดใช้กลยุทธ์เชิงรุกที่ช่วยลดต้นทุนได้มากกว่า 50% กล่าวคือ มีการฝึกโมเดล 3 ตัวตามลำดับ โดยแต่ละโมเดลสืบทอดความรู้จากโมเดลก่อนหน้าที่มีขนาดเล็กกว่า (16b -> 51b -> 101b) พร้อมทั้งให้ประสิทธิภาพที่แข่งขันได้
> A new open llm called flm-101b with 101b parameters and 0.31tb tokens which can be trained on a $100k budget; the authors analyze different growth strategies, growing the number of parameters from smaller sizes to large ones. they ultimately employ an aggressive strategy that reduces costs by >50%. in other words, three models are trained sequentially with each model inheriting knowledge from its smaller predecessor (16b -> 51b -> 101b) while achieving competitive performance.
บทคัดย่อของงานวิจัย
- โมเดลภาษาขนาดใหญ่ (LLM) ประสบความสำเร็จอย่างโดดเด่นในงานด้าน NLP และงานมัลติโหมด แม้จะประสบความสำเร็จเช่นนี้ แต่การพัฒนาโมเดลภาษาขนาดใหญ่ยังเผชิญกับความท้าทายหลัก 2 ประการ ได้แก่ (i) ต้นทุนการประมวลผลที่สูง และ (ii) ความยากในการดำเนินการประเมินผลที่ยุติธรรมและเป็นกลาง เนื่องจาก LLM มีค่าใช้จ่ายสูงมาก จึงมีเพียงผู้เล่นรายใหญ่ไม่กี่รายเท่านั้นที่สามารถฝึกโมเดลได้ ส่งผลให้โอกาสทั้งด้านการวิจัยและการประยุกต์ใช้งานถูกจำกัด สิ่งนี้ตอกย้ำความสำคัญของการฝึก LLM อย่างคุ้มค่า ในงานวิจัยนี้ ผู้เขียนใช้กลยุทธ์การเติบโตเพื่อลดต้นทุนการฝึก LLM อย่างมีนัยสำคัญ โดยแสดงให้เห็นว่า LLM ที่มีพารามิเตอร์ 101B และโทเค็น 0.31TB สามารถฝึกได้ด้วยงบประมาณ 100,000 ดอลลาร์ นอกจากนี้ เพื่อเสริมการประเมินแบบเดิมที่เน้นความสามารถเชิงความรู้เป็นหลัก ผู้เขียนยังใช้กรอบการประเมินอย่างเป็นระบบสำหรับประเมิน IQ ของ LLM โดยนำเสนอเบนช์มาร์กที่ครอบคลุมการประเมินมิติสำคัญของสติปัญญา เช่น symbolic mapping, การเข้าใจกฎ, pattern mining และการต้านทานสัญญาณรบกวน การประเมินลักษณะนี้ช่วยลดผลกระทบที่อาจเกิดจากการท่องจำได้ ผลการทดลองแสดงให้เห็นว่า FLM-101B ซึ่งฝึกด้วยงบประมาณ 100,000 ดอลลาร์ มีประสิทธิภาพใกล้เคียงกับโมเดลที่ทรงพลังและเป็นที่รู้จักดี เช่น GPT-3 และ GLM-130B โดยเฉพาะในการประเมินเบนช์มาร์กด้าน IQ ที่ใช้บริบทซึ่งไม่ปรากฏในข้อมูลฝึก เช็กพอยต์ของ FLM-101B จะเปิดซอร์สที่ https://huggingface.co/CofeAI/FLM-101B
> Large language models (LLMs) have achieved remarkable success in NLP and multimodal tasks. Despite these successes, their development faces two main challenges: (i) high computational cost; and (ii) difficulty in conducting fair and objective evaluations. LLMs are prohibitively expensive, making it feasible for only a few major players to undertake their training, thereby constraining both research and application opportunities. This underscores the importance of cost-effective LLM training. In this paper, we utilize a growth strategy to significantly reduce LLM training cost. We demonstrate that an LLM with 101B parameters and 0.31TB tokens can be trained on a $100K budget. We also adopt a systematic evaluation paradigm for the IQ evaluation of LLMs, in complement to existing evaluations that focus more on knowledge-oriented abilities. We introduce our benchmark including evaluations on important aspects of intelligence including symbolic mapping, itrule understanding, pattern mining, and anti-interference. Such evaluations minimize the potential impact of memorization. Experimental results show that our model FLM-101B, trained with a budget of $100K, achieves comparable performance to powerful and well-known models, eg GPT-3 and GLM-130B, especially in the IQ benchmark evaluations with contexts unseen in training data. The checkpoint of FLM-101B will be open-sourced at https://huggingface.co/CofeAI/FLM-101B.
ลิงก์งานวิจัย
https://arxiv.org/abs/2309.03852
อ่านเพิ่มเติม
https://twitter.com/omarsar0/status/1700156132700963053
สถาปัตยกรรมการรู้คิดสำหรับ language agents / Cognitive Architectures for Language Agents
แนะนำงานวิจัย
- เสนอกรอบการทำงานอย่างเป็นระบบเพื่อทำความเข้าใจและสร้าง language agents แบบสมบูรณ์ โดยดึงความคล้ายคลึงจาก production systems และ cognitive architectures และจัดระบบวิธีการที่หลากหลายสำหรับการให้เหตุผล การยึดโยงกับบริบท การเรียนรู้ และการตัดสินใจบนฐานภาษา ในฐานะอินสแตนซ์ของ language agents ภายในกรอบดังกล่าว
> Proposes a systematic framework for understanding and building fully-fledged language agents drawing parallels from production systems and cognitive architectures; it systematizes diverse methods for llm-based reasoning, grounding, learning, and decision making as instantiations of language agents in the framework.
บทคัดย่อของงานวิจัย
- ความพยายามในช่วงหลังได้นำ large language models (LLMs) มาผสานกับทรัพยากรภายนอก (เช่น อินเทอร์เน็ต) หรือโฟลว์การควบคุมภายใน (เช่น prompt chaining) สำหรับงานที่ต้องอาศัย grounding หรือการให้เหตุผล อย่างไรก็ตาม ความพยายามเหล่านี้ส่วนใหญ่ยังเป็นเพียงชิ้นส่วนย่อย ๆ และขาดกรอบงานที่เป็นระบบสำหรับการสร้าง language agent ที่สมบูรณ์ เพื่อแก้ปัญหานี้ เราอาศัยประวัติศาสตร์อันยาวนานของการออกแบบเอเจนต์ใน symbolic artificial intelligence เพื่อพิมพ์เขียวสำหรับ cognitive language agents ระลอกใหม่ ขั้นแรก เราแสดงให้เห็นว่า LLM มีคุณสมบัติหลายอย่างเหมือนกับ production systems และความพยายามล่าสุดในการปรับปรุง grounding หรือการให้เหตุผลของมันก็สะท้อนพัฒนาการของ cognitive architectures ที่สร้างขึ้นรอบ production systems จากนั้น เราเสนอ Cognitive Architectures for Language Agents (CoALA) ซึ่งเป็นกรอบแนวคิดเพื่อจัดระบบวิธีการที่หลากหลายสำหรับการให้เหตุผล การทำ grounding การเรียนรู้ และการตัดสินใจบนพื้นฐาน LLM ในฐานะการทำให้เป็นรูปธรรมของ language agents ภายในกรอบดังกล่าว สุดท้าย เราใช้กรอบ CoALA เพื่อชี้ให้เห็นช่องว่างที่ยังขาดอยู่ และเสนอทิศทางที่นำไปปฏิบัติได้เพื่อมุ่งสู่ language agents ที่มีความสามารถมากยิ่งขึ้นในอนาคต
> ความพยายามล่าสุดได้นำ large language models (LLMs) มาผสานกับทรัพยากรภายนอก (เช่น อินเทอร์เน็ต) หรือโฟลว์การควบคุมภายใน (เช่น prompt chaining) สำหรับงานที่ต้องการ grounding หรือการให้เหตุผล อย่างไรก็ตาม ความพยายามเหล่านี้ส่วนใหญ่ยังเป็นแบบแยกส่วน และขาดกรอบงานที่เป็นระบบสำหรับการสร้าง language agent ที่สมบูรณ์ เพื่อรับมือกับความท้าทายนี้ เราอาศัยประวัติศาสตร์อันยาวนานของการออกแบบเอเจนต์ใน symbolic artificial intelligence เพื่อพัฒนาพิมพ์เขียวสำหรับ cognitive language agents ระลอกใหม่ ขั้นแรก เราแสดงให้เห็นว่า LLM มีคุณสมบัติหลายอย่างเช่นเดียวกับ production systems และความพยายามล่าสุดในการปรับปรุง grounding หรือการให้เหตุผลของมันก็สะท้อนพัฒนาการของ cognitive architectures ที่สร้างขึ้นรอบ production systems จากนั้น เราเสนอ Cognitive Architectures for Language Agents (CoALA) ซึ่งเป็นกรอบแนวคิดเพื่อจัดระบบวิธีการที่หลากหลายสำหรับการให้เหตุผล การทำ grounding การเรียนรู้ และการตัดสินใจที่อิง LLM ในฐานะการทำให้เป็นรูปธรรมของ language agents ภายในกรอบงานนี้ สุดท้าย เราใช้กรอบ CoALA เพื่อชี้ให้เห็นช่องว่างและเสนอทิศทางที่นำไปปฏิบัติได้เพื่อมุ่งสู่ language agents ที่มีความสามารถมากขึ้นในอนาคต
ลิงก์บทความวิจัย
https://arxiv.org/abs/2309.02427
อ่านเพิ่มเติม
https://twitter.com/ShunyuYao12/status/1699396834983362690
Q-Transformer
แนะนำบทความวิจัย
- เป็นวิธี RL ที่ขยายขนาดได้สำหรับการฝึกนโยบายแบบหลายงานจากชุดข้อมูลออฟไลน์ขนาดใหญ่ โดยอาศัยเดโมจากมนุษย์และข้อมูลที่เก็บรวบรวมแบบอัตโนมัติ และแสดงประสิทธิภาพที่ดีในชุดงานการควบคุมหุ่นยนต์ในโลกจริงที่หลากหลายขนาดใหญ่
> วิธี rl ที่ขยายขนาดได้สำหรับการฝึกนโยบายแบบหลายงานจากชุดข้อมูลออฟไลน์ขนาดใหญ่ โดยใช้ประโยชน์จากเดโมของมนุษย์และข้อมูลที่เก็บรวบรวมโดยอัตโนมัติ และแสดงผลลัพธ์ที่ดีในชุดงานการควบคุมหุ่นยนต์ในโลกจริงที่มีความหลากหลายขนาดใหญ่
ลิงก์บทความวิจัย
https://q-transformer.github.io/
อ่านเพิ่มเติม
https://twitter.com/YevgenChebotar/status/1699909244743815677
ต้นฉบับ
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-b88
- บทความนี้เป็นคำอธิบายที่สรุปโดยอัตโนมัติด้วยโมเดล GPT จึงอาจมีข้อมูลที่ไม่ถูกต้อง กรุณาอ้างอิงต้นฉบับด้วย!
- หากระหว่างอ่านพบข้อความที่ฟังดูแปลกหรือมีเนื้อหาที่ไม่ถูกต้อง กรุณาแจ้งให้ทราบผ่านคอมเมนต์ด้วย! ♂️
ยังไม่มีความคิดเห็น