ภาพรวม

  • บทความนี้เป็นการแปลอัตโนมัติของบทความเกี่ยวกับงานวิจัย ML ที่ DAIR.AI เผยแพร่ทุกสัปดาห์

  • เมื่อพิจารณางานวิจัยที่ได้รับคัดเลือกในสัปดาห์นี้ จะเห็นได้ว่าโดยรวมแล้วงานวิจัยที่มีโมเดลภาษาขนาดใหญ่ (Large Language Models, LLMs) อย่าง GPT-4 เป็นศูนย์กลางยังคงเป็นกระแสหลัก โดยเฉพาะงานที่มุ่งใช้ API ใหม่ของ GPT-4 ความสามารถในการดึงคืนข้อเท็จจริงของ LLM และวิธีทำให้ LLM มีความสามารถในการค้นหาที่ดีกว่าและหนาแน่นยิ่งขึ้น นอกจากนี้ยังครอบคลุมหัวข้อการแก้ปัญหาคณิตศาสตร์ด้วยโมเดลภาษารวมถึงการที่โมเดลเหล่านี้ใช้การให้เหตุผลอย่างไร

  • แนวโน้มเช่นนี้อาจเกิดขึ้นเพราะ LLM ยังคงเป็นหัวข้อวิจัยหลักในแวดวงปัญญาประดิษฐ์ โมเดลอย่าง GPT-4 กำลังขยายความเป็นไปได้ในการประยุกต์ใช้ในหลากหลายด้านด้วยความสามารถอันโดดเด่นด้านความเข้าใจและการสร้างภาษา และมีการวิจัยอย่างต่อเนื่องเพื่อปรับปรุงความสามารถนี้และนำไปใช้ในรูปแบบใหม่ ๆ งานวิจัยเชิงวิธีวิทยาที่เป็นรูปธรรมเพื่อยกระดับประสิทธิภาพจริง รวมถึงการวิเคราะห์กรณีการใช้งาน จึงกำลังก้าวขึ้นมาเป็นพื้นที่วิจัยสำคัญ และงานที่ได้รับคัดเลือกในสัปดาห์นี้ก็ดูจะสะท้อนแนวโน้มดังกล่าว

  • ขณะเดียวกัน งานวิจัยที่พยายามประเมินและพัฒนาความเข้าใจรวมถึงความสามารถในการให้เหตุผลของ LLM ก็ดูเป็นหัวข้อที่ได้รับความนิยมเช่นกัน การสำรวจว่าจะทำให้เอเจนต์อัจฉริยะโต้ตอบกับมนุษย์ได้อย่างเป็นธรรมชาติและมีประสิทธิภาพมากขึ้นได้อย่างไร น่าจะเป็นภารกิจที่สำคัญอย่างยิ่งในวงการปัญญาประดิษฐ์ การศึกษาประสิทธิภาพที่ดีขึ้นและความเป็นไปได้ในการนำไปใช้ในชีวิตจริงผ่านแนวทางเหล่านี้ คาดว่าจะมีบทบาทสำคัญในทิศทางการวิจัยต่อจากนี้


CogAgent: โมเดลภาษาภาพสำหรับ GUI Agents / CogAgent: A Visual Language Model for GUI Agents

แนะนำงานวิจัย

  • นำเสนอโมเดลภาษาภาพขนาด 18 พันล้านพารามิเตอร์ที่เชี่ยวชาญด้านความเข้าใจและการนำทาง GUI รองรับอินพุตความละเอียดสูง (1120x1120) แสดงความสามารถในงานอย่าง visual question answering, visual grounding และ GUI agent และทำสถิติใหม่ที่ดีที่สุดบน 5 เบนช์มาร์กที่มีข้อความหนาแน่นและ 4 เบนช์มาร์ก VQA ทั่วไป
    > Presents an 18 billion parameter visual language model specializing in gui understanding and navigation; supports high-resolution inputs (1120x1120) and shows abilities in tasks such as visual q&a, visual grounding, and gui agent; achieves state of the art on 5 text-rich and 4 general vqa benchmarks.

บทคัดย่อ(Abstract)

  • ผู้คนใช้เวลาเป็นจำนวนมหาศาลกับอุปกรณ์ดิจิทัลผ่าน graphical user interfaces (GUI) เช่น หน้าจอคอมพิวเตอร์หรือสมาร์ตโฟน แม้โมเดลภาษาขนาดใหญ่ (LLM) อย่าง ChatGPT จะช่วยงานอย่างการเขียนอีเมลได้ แต่ยังมีข้อจำกัดในการทำความเข้าใจและโต้ตอบกับ GUI จึงทำให้ศักยภาพในการยกระดับระบบอัตโนมัติยังถูกจำกัด ในบทความนี้ ผู้วิจัยนำเสนอ CogAgent ซึ่งเป็น visual language model (VLM) ขนาด 18 พันล้านพารามิเตอร์ที่เชี่ยวชาญด้านความเข้าใจและการนำทาง GUI ด้วยการใช้ทั้งตัวเข้ารหัสภาพความละเอียดต่ำและความละเอียดสูง CogAgent จึงรองรับอินพุตที่ความละเอียด 11201120 ทำให้สามารถรู้จำองค์ประกอบเล็ก ๆ บนหน้าและข้อความได้ ในฐานะโมเดลภาษาภาพแบบอเนกประสงค์ CogAgent ทำผลงานระดับล้ำสมัยบน 5 เบนช์มาร์กที่มีข้อความจำนวนมากและ 4 เบนช์มาร์ก VQA ทั่วไป รวมถึง VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet และ POPE โดย CogAgent ที่ใช้เพียงภาพหน้าจอเป็นอินพุต ยังทำผลงานได้ดีกว่าวิธีแบบ LLM ที่ใช้ข้อความ HTML ที่สกัดออกมาทั้งในงานนำทาง GUI บน PC และ Android ได้แก่ Mind2Web และ AITW ส่งผลให้ยกระดับสถิติที่ดีที่สุดขึ้นไปอีกขั้น สามารถดูโมเดลและโค้ดได้ที่ https://github.com/THUDM/CogVLM
    > People are spending an enormous amount of time on digital devices through graphical user interfaces (GUIs), e.g., computer or smartphone screens. Large language models (LLMs) such as ChatGPT can assist people in tasks like writing emails, but struggle to understand and interact with GUIs, thus limiting their potential to increase automation levels. In this paper, we introduce CogAgent, an 18-billion-parameter visual language model (VLM) specializing in GUI understanding and navigation. By utilizing both low-resolution and high-resolution image encoders, CogAgent supports input at a resolution of 1120
    1120, enabling it to recognize tiny page elements and text. As a generalist visual language model, CogAgent achieves the state of the art on five text-rich and four general VQA benchmarks, including VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet, and POPE. CogAgent, using only screenshots as input, outperforms LLM-based methods that consume extracted HTML text on both PC and Android GUI navigation tasks -- Mind2Web and AITW, advancing the state of the art. The model and codes are available at https://github.com/THUDM/CogVLM .

ลิงก์งานวิจัย

https://arxiv.org/abs/2312.08914

อ่านเพิ่มเติม

https://x.com/cenyk1230/status/1739916469272789222


จาก Google Gemini ถึง OpenAI Q* (Q-Star): บทสำรวจการปรับโฉมภูมิทัศน์การวิจัยปัญญาประดิษฐ์เชิงกำเนิด (AI) / From Google Gemini to OpenAI Q* (Q-Star): A Survey of Reshaping the Generative Artificial Intelligence (AI) Research Landscape

แนะนำงานวิจัย

  • รายงานฉบับนี้สำรวจงานวิจัยมากกว่า 300 ชิ้นและสรุปพัฒนาการด้านการวิจัยที่ควรจับตาในแวดวง generative AI โดยครอบคลุมความท้าทายด้านการคำนวณ ความสามารถในการขยายระบบ ผลกระทบต่อการใช้งานจริง และศักยภาพของ generative AI ในการขับเคลื่อนความก้าวหน้าในสาขาอย่างสาธารณสุข การเงิน และการศึกษา
    > Surveys 300+ papers and summarizes research developments to look at in the space of generative ai; it covers computational challenges, scalability, real-world implications, and the potential for gen ai to drive progress in fields like healthcare, finance, and education.

บทคัดย่อ(Abstract)

  • แบบสำรวจที่ครอบคลุมฉบับนี้ได้สำรวจภูมิทัศน์ที่กำลังพัฒนาของปัญญาประดิษฐ์เชิงกำเนิด (AI) โดยมุ่งเน้นเป็นพิเศษที่ผลกระทบเชิงเปลี่ยนแปลงของ Mixture of Experts (MoE), การเรียนรู้แบบมัลติโมดัล และความก้าวหน้าที่คาดการณ์กันไปสู่ Artificial General Intelligence (AGI) รายงานนี้ได้วิพากษ์ตรวจสอบทั้งสถานะปัจจุบันและทิศทางในอนาคตของปัญญาประดิษฐ์เชิงกำเนิด (AI) พร้อมสำรวจว่านวัตกรรมอย่าง Gemini ของ Google และโครงการ OpenAI Q* ที่ถูกคาดหมายไว้ กำลังปรับเปลี่ยนลำดับความสำคัญของงานวิจัยและการประยุกต์ใช้ในหลากหลายสาขาอย่างไร รวมถึงการวิเคราะห์ผลกระทบต่ออนุกรมวิธานงานวิจัยด้าน generative AI อีกด้วย รายงานนี้ยังประเมินความท้าทายด้านการคำนวณ ความสามารถในการขยายตัว และผลกระทบในโลกจริงของเทคโนโลยีเหล่านี้ ขณะเดียวกันก็เน้นย้ำศักยภาพของมันในการขับเคลื่อนความก้าวหน้าครั้งสำคัญในสาขาต่าง ๆ เช่น การแพทย์ การเงิน และการศึกษา นอกจากนี้ยังกล่าวถึงความท้าทายทางวิชาการรูปแบบใหม่ที่เกิดจากการเพิ่มจำนวนขึ้นของทั้ง preprint ที่มีเนื้อหาเกี่ยวกับ AI และ preprint ที่ AI สร้างขึ้น พร้อมตรวจสอบผลกระทบต่อกระบวนการ peer review และการสื่อสารทางวิชาการ งานวิจัยนี้เน้นย้ำถึงความสำคัญของการผสานวิธีการที่มีจริยธรรมและยึดมนุษย์เป็นศูนย์กลางเข้าไว้ในการพัฒนา AI เพื่อให้สอดคล้องกับบรรทัดฐานและสวัสดิภาพของสังคม และได้นำเสนอกลยุทธ์สำหรับการวิจัย AI ในอนาคตที่มุ่งเน้นการใช้ MoE, มัลติโมดัล และ AGI ใน generative AI อย่างสมดุลและมีความรับผิดชอบ
    > This comprehensive survey explored the evolving landscape of generative Artificial Intelligence (AI), with a specific focus on the transformative impacts of Mixture of Experts (MoE), multimodal learning, and the speculated advancements towards Artificial General Intelligence (AGI). It critically examined the current state and future trajectory of generative Artificial Intelligence (AI), exploring how innovations like Google's Gemini and the anticipated OpenAI Q* project are reshaping research priorities and applications across various domains, including an impact analysis on the generative AI research taxonomy. It assessed the computational challenges, scalability, and real-world implications of these technologies while highlighting their potential in driving significant progress in fields like healthcare, finance, and education. It also addressed the emerging academic challenges posed by the proliferation of both AI-themed and AI-generated preprints, examining their impact on the peer-review process and scholarly communication. The study highlighted the importance of incorporating ethical and human-centric methods in AI development, ensuring alignment with societal norms and welfare, and outlined a strategy for future AI research that focuses on a balanced and conscientious use of MoE, multimodality, and AGI in generative AI.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2312.10868

อ่านเพิ่มเติม

https://x.com/omarsar0/status/1740119485011390558


PromptBench: ไลบรารีแบบรวมศูนย์สำหรับการประเมินโมเดลภาษาขนาดใหญ่ / PromptBench: A Unified Library for Evaluation of Large Language Models

แนะนำบทความวิจัย

  • เป็นไลบรารีแบบรวมศูนย์ที่รองรับการประเมินและวิเคราะห์ LLM อย่างครอบคลุม โดยประกอบด้วยความสามารถต่าง ๆ เช่น การสร้างพรอมป์ต์, prompt engineering, การโหลดชุดข้อมูลและโมเดล, การโจมตีพรอมป์ต์แบบ adversarial, โปรโตคอลการประเมินแบบไดนามิก และเครื่องมือวิเคราะห์
    > A unified library that supports comprehensive evaluation and analysis of llms; it consists of functionalities for prompt construction, prompt engineering, dataset and model loading, adversarial prompt attack, dynamic evaluation protocols, and analysis tools.

บทคัดย่อ(Abstract)

  • การประเมินโมเดลภาษาขนาดใหญ่ (LLM) มีความสำคัญอย่างยิ่งต่อการประเมินประสิทธิภาพและลดความเสี่ยงด้านความปลอดภัยที่อาจเกิดขึ้น ในบทความนี้ ผู้เขียนได้แนะนำ PromptBench ซึ่งเป็นไลบรารีแบบรวมศูนย์สำหรับประเมิน LLM ไลบรารีนี้ประกอบด้วยองค์ประกอบหลักหลายส่วนที่นักวิจัยสามารถใช้งานและต่อยอดได้อย่างง่ายดาย ได้แก่ การสร้างพรอมป์ต์, prompt engineering, การโหลดชุดข้อมูลและโมเดล, การโจมตีพรอมป์ต์แบบ adversarial, โปรโตคอลการประเมินแบบไดนามิก และเครื่องมือวิเคราะห์ PromptBench ถูกออกแบบให้เป็นโค้ดเบสแบบเปิด กว้าง และยืดหยุ่นสำหรับงานวิจัย ซึ่งสามารถเอื้อต่องานศึกษาเชิงสร้างสรรค์ในการสร้างเบนช์มาร์กใหม่ การนำแอปพลิเคชันปลายทางไปใช้งาน และการออกแบบโปรโตคอลการประเมินรูปแบบใหม่ โค้ดสามารถดูได้ที่ https://github.com/microsoft/promptbench และจะได้รับการสนับสนุนอย่างต่อเนื่อง
    > The evaluation of large language models (LLMs) is crucial to assess their performance and mitigate potential security risks. In this paper, we introduce PromptBench, a unified library to evaluate LLMs. It consists of several key components that are easily used and extended by researchers: prompt construction, prompt engineering, dataset and model loading, adversarial prompt attack, dynamic evaluation protocols, and analysis tools. PromptBench is designed to be an open, general, and flexible codebase for research purposes that can facilitate original study in creating new benchmarks, deploying downstream applications, and designing new evaluation protocols. The code is available at: https://github.com/microsoft/promptbench and will be continuously supported.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2312.07910v1

อ่านเพิ่มเติม

https://x.com/omarsar0/status/1739360426134028631


การใช้ประโยชน์จาก GPT-4 API แบบใหม่ / Exploiting Novel GPT-4 APIs

แนะนำบทความวิจัย

  • ได้ทำ red-teaming กับความสามารถ 3 อย่างที่เปิดให้ใช้ใน GPT-4 APIs ได้แก่ การปรับจูนละเอียด การเรียกใช้ฟังก์ชัน และการดึงค้นความรู้ พร้อมสรุปผลสำคัญดังนี้: 1) การปรับจูน GPT-4 ด้วยตัวอย่างที่เป็นอันตรายเพียง 15 ตัวอย่าง หรือด้วยตัวอย่างเชิงบวก 100 ตัวอย่าง สามารถลบกลไกความปลอดภัยหลักของ GPT-4 ได้ 2) สามารถทำให้ GPT-4 Assistants เปิดเผยสคีมาการเรียกฟังก์ชันและสั่งให้รันการเรียกฟังก์ชันใดๆ ก็ได้ 3) สามารถยึดการค้นคืนความรู้ได้โดยการฉีดคำสั่งเข้าไปในเอกสารสำหรับการดึงค้น
    > Performs red-teaming on three functionalities exposed in the gpt-4 apis: fine-tuning, function calling, and knowledge retrieval; main findings: 1) fine-tuning on as few as 15 harmful examples or 100 benign examples can remove core safeguards from gpt-4, 2) gpt-4 assistants divulge the function call schema and can be made to execute arbitrary function calls, and 3) knowledge retrieval can be hijacked by injecting instructions into retrieval documents.

บทคัดย่อของงานวิจัย (Abstract)

  • โดยทั่วไปแล้ว การโจมตีโมเดลภาษามักตั้งอยู่บนสมมติฐานของโมเดลภัยคุกคามสุดขั้วอย่างใดอย่างหนึ่งจากสองแบบ คือเข้าถึงไวต์บ็อกซ์เต็มรูปแบบต่อค่าน้ำหนักของโมเดล หรือเข้าถึงแบบแบล็กบ็อกซ์ที่จำกัดอยู่เพียง API สำหรับสร้างข้อความเท่านั้น อย่างไรก็ตาม API ในโลกจริงมักยืดหยุ่นมากกว่าการสร้างข้อความเพียงอย่างเดียว และ API เหล่านี้เปิดให้เข้าถึงแบบ "gray-box" ซึ่งนำไปสู่เวกเตอร์ภัยคุกคามรูปแบบใหม่ เพื่อสำรวจเรื่องนี้ เราได้ทำ red-team กับความสามารถใหม่ 3 อย่างที่เปิดให้ใช้ใน GPT-4 APIs ได้แก่ การปรับจูนละเอียด การเรียกใช้ฟังก์ชัน และการดึงค้นความรู้ เราพบว่าการปรับจูนโมเดลด้วยตัวอย่างที่เป็นอันตรายเพียง 15 ตัวอย่าง หรือด้วยตัวอย่างเชิงบวก 100 ตัวอย่าง สามารถลบกลไกความปลอดภัยหลักของ GPT-4 ได้ ส่งผลให้เกิดเอาต์พุตที่เป็นอันตรายได้หลากหลายรูปแบบ นอกจากนี้ เรายังพบว่า GPT-4 Assistants สามารถเปิดเผยสคีมาการเรียกฟังก์ชันได้อย่างง่ายดาย และสามารถถูกทำให้รันการเรียกฟังก์ชันใดๆ ก็ได้ สุดท้าย เรายังพบว่าการค้นคืนความรู้สามารถถูกยึดได้ด้วยการฉีดคำสั่งเข้าไปในเอกสารสำหรับการดึงค้น ช่องโหว่เหล่านี้ชี้ให้เห็นว่า การเพิ่มความสามารถใดๆ ให้กับ API อาจสร้างช่องโหว่ใหม่ขึ้นมาได้
    > Language model attacks typically assume one of two extreme threat models: full white-box access to model weights, or black-box access limited to a text generation API. However, real-world APIs are often more flexible than just text generation: these APIs expose ``gray-box'' access leading to new threat vectors. To explore this, we red-team three new functionalities exposed in the GPT-4 APIs: fine-tuning, function calling and knowledge retrieval. We find that fine-tuning a model on as few as 15 harmful examples or 100 benign examples can remove core safeguards from GPT-4, enabling a range of harmful outputs. Furthermore, we find that GPT-4 Assistants readily divulge the function call schema and can be made to execute arbitrary function calls. Finally, we find that knowledge retrieval can be hijacked by injecting instructions into retrieval documents. These vulnerabilities highlight that any additions to the functionality exposed by an API can create new vulnerabilities.

ลิงก์งานวิจัย

https://arxiv.org/abs/2312.14302

อ่านเพิ่มเติม

https://x.com/omarsar0/status/1739677995747450964


การเรียกคืนข้อเท็จจริงของ LLM / Fact Recalling in LLMs

แนะนำงานวิจัย

  • ศึกษาว่าชั้น MLP ใช้วิธีใดในการทำหน้าที่เป็นตาราง lookup สำหรับการเรียกคืนความจำเชิงข้อเท็จจริง โดยขยายขอบเขตการศึกษาไปที่วิธีที่ MLP ระยะแรกใน pythia 2.8b ใช้ค้นหาว่านักกีฬาหลายคนเล่นกีฬาชนิดใดใน 3 ชนิดกีฬา และเสนอว่าชั้น MLP ระยะแรกทำหน้าที่เป็นตาราง lookup พร้อมแนะนำให้มองการเรียกคืนความรู้เชิงข้อเท็จจริงในโมเดลว่าเป็นการฝังตัวหลายโทเค็น
    > Investigates how mlp layers implement a lookup table for factual recall; scopes the study on how early mlps in pythia 2.8b look up which of 3 different sports various athletes play; suggests that early mlp layers act as a lookup table and recommends thinking about the recall of factual knowledge in the model as multi-token embeddings.

ลิงก์งานวิจัย

https://www.alignmentforum.org/s/hpWHhjvjn67LJ4xXX/p/iGuwZTHWb6DFY3sKB

อ่านเพิ่มเติม

https://x.com/NeelNanda5/status/1738559368361349122


GenAI สำหรับคณิตศาสตร์: ตอนที่ 1 - MathPile: คอร์ปัสพรีเทรนสำหรับคณิตศาสตร์ระดับพันล้านโทเค็น / Generative AI for Math: Part I -- MathPile: A Billion-Token-Scale Pretraining Corpus for Math

แนะนำงานวิจัย

  • นำเสนอคอร์ปัสที่เน้นคณิตศาสตร์ซึ่งมีความหลากหลายและคุณภาพสูง ประกอบด้วยโทเค็นประมาณ 9.5 พันล้านโทเค็น เพื่อใช้ฝึก foundation models
    > Presents a diverse and high-quality math-centric corpus comprising of ~9.5 billion tokens to train foundation models.

บทคัดย่อของงานวิจัย (Abstract)

  • คลังข้อความขนาดใหญ่คุณภาพสูงคือรากฐานสำคัญของการสร้าง foundation model ในงานนี้ เราขอแนะนำ ${MathPile}$ ซึ่งเป็นคลังข้อความที่เน้นคณิตศาสตร์ มีความหลากหลายและคุณภาพสูง ประกอบด้วยโทเคนราว 9.5 พันล้านโทเคน ตลอดกระบวนการสร้าง เราปฏิบัติตามหลักการ 'น้อยแต่มาก' อย่างเคร่งครัด โดยเชื่อมั่นอย่างหนักแน่นว่าคุณภาพของข้อมูลสำคัญกว่าปริมาณ แม้กระทั่งในขั้นก่อนการฝึก เราทุ่มเทอย่างพิถีพิถันในการรวบรวมและประมวลผลข้อมูล ผ่านกระบวนการที่ซับซ้อนทั้ง preprocessing, prefiltering, language identification, cleaning, filtering และ deduplication เพื่อรับประกันคุณภาพสูงของคลังข้อความ นอกจากนี้ เรายังตรวจจับการปนเปื้อนของข้อมูลในชุดทดสอบ benchmark ปลายทางเพื่อกำจัดข้อมูลซ้ำ เราหวังว่าการให้เหตุผลทางคณิตศาสตร์ผ่านข้อความจะช่วยยกระดับความสามารถด้านการให้เหตุผลทางคณิตศาสตร์ของ language model ในอนาคต เราวางแผนจะโอเพนซอร์ส $MathPile$ หลายเวอร์ชันพร้อมสคริปต์ที่ใช้ในการประมวลผล เพื่อส่งเสริมความก้าวหน้าในสาขานี้
    > High-quality, large-scale corpora are the cornerstone of building foundation models. In this work, we introduce ${MathPile}$, a diverse and high-quality math-centric corpus comprising about 9.5 billion tokens. Throughout its creation, we adhered to the principle of {less is more}, firmly believing in the supremacy of data quality over quantity, even in the pre-training phase. Our meticulous data collection and processing efforts included a complex suite of preprocessing, prefiltering, language identification, cleaning, filtering, and deduplication, ensuring the high quality of our corpus. Furthermore, we performed data contamination detection on downstream benchmark test sets to eliminate duplicates. We hope our ${MathPile}$ can help to enhance the mathematical reasoning abilities of language models. We plan to open-source different versions of \mathpile with the scripts used for processing, to facilitate future developments in this field.

ลิงก์บทความ

https://arxiv.org/abs/2312.17120

อ่านเพิ่มเติม

https://x.com/arankomatsuzaki/status/1740564961032556942


เพียงมีคำสั่งเชิงหลักการก็เพียงพอสำหรับการตั้งคำถามกับ LLaMA-1/2, GPT-3.5/4 / Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4

แนะนำบทความ

  • นำเสนอหลักการแนะแนว 26 ข้อที่ออกแบบมาเพื่อทำให้กระบวนการ query และ prompt large language model ง่ายขึ้น และนำหลักการเหล่านี้ไปใช้ทำการทดลองอย่างกว้างขวางกับ llama-1/2 (7b, 13b, 70b), gpt-3.5/4 เพื่อยืนยันประสิทธิภาพของหลักการต่อการออกแบบคำสั่งและพรอมป์ต์
    > Introduces 26 guiding principles designed to streamline the process of querying and prompting large language models; applies these principles to conduct extensive experiments on llama-1/2 (7b, 13b and 70b), gpt-3.5/4 to verify their effectiveness on instructions and prompts design.

บทคัดย่อ(Abstract)

  • บทความนี้นำเสนอหลักการพื้นฐาน 26 ข้อที่ออกแบบมาเพื่อทำให้กระบวนการ query และ prompt large language model ง่ายขึ้น เป้าหมายของเราคือทำให้แนวคิดพื้นฐานของการตั้งคำถามสำหรับ large language model หลายขนาด การตรวจสอบความสามารถของโมเดล และการเพิ่มความเข้าใจของผู้ใช้ต่อพฤติกรรมของ large language model ขนาดต่าง ๆ เมื่อป้อนพรอมป์ต์ที่แตกต่างกันนั้นเรียบง่ายยิ่งขึ้น เพื่อยืนยันประสิทธิภาพของหลักการที่เสนอในการออกแบบคำสั่งและพรอมป์ต์ เราได้ทำการทดลองอย่างกว้างขวางบน LLaMA-1/2(7B, 13B, 70B), GPT-3.5/4 เราหวังว่างานนี้จะเป็นคู่มือที่ดียิ่งขึ้นสำหรับนักวิจัยที่ศึกษาการทำ prompt กับ large language model โดยสามารถดูหน้าโปรเจกต์ได้ที่ https://github.com/VILA-Lab/ATLAS
    > This paper introduces 26 guiding principles designed to streamline the process of querying and prompting large language models. Our goal is to simplify the underlying concepts of formulating questions for various scales of large language models, examining their abilities, and enhancing user comprehension on the behaviors of different scales of large language models when feeding into different prompts. Extensive experiments are conducted on LLaMA-1/2 (7B, 13B and 70B), GPT-3.5/4 to verify the effectiveness of the proposed principles on instructions and prompts design. We hope that this work provides a better guide for researchers working on the prompting of large language models. Project page is available at https://github.com/VILA-Lab/ATLAS.

ลิงก์บทความ

https://arxiv.org/abs/2312.16171v1

อ่านเพิ่มเติม

https://x.com/_akhaliq/status/1739857456161759455


แบบสำรวจการให้เหตุผลด้วย foundation model / A Survey of Reasoning with Foundation Models

แนะนำบทความ

  • นำเสนอแบบสำรวจอย่างครอบคลุมเกี่ยวกับ foundation model สำคัญสำหรับการให้เหตุผล โดยเน้นความก้าวหน้าล่าสุดในงานให้เหตุผลหลากหลายประเภท วิธีการ benchmark และทิศทางที่เป็นไปได้ในอนาคต อีกทั้งยังอภิปรายว่าพัฒนาการอื่น ๆ เช่น multimodal learning, autonomous agents และ super alignment ช่วยเร่งและขยายงานวิจัยด้านการให้เหตุผลได้อย่างไร
    > Provides a comprehensive survey of seminal foundational models for reasoning, highlighting the latest advancements in various reasoning tasks, methods, benchmarks, and potential future directions; also discusses how other developments like multimodal learning, autonomous agents, and super alignment accelerate and extend reasoning research.

บทคัดย่อ(Abstract)

  • การให้เหตุผลซึ่งเป็นความสามารถสำคัญสำหรับการแก้ปัญหาที่ซับซ้อน มีบทบาทหลักในสถานการณ์จริงหลากหลายรูปแบบ เช่น การเจรจา การวินิจฉัยทางการแพทย์ และการสืบสวนคดีอาชญากรรม อีกทั้งยังเป็นระเบียบวิธีพื้นฐานในสาขา Artificial General Intelligence (AGI) ด้วยการพัฒนาอย่างต่อเนื่องของ foundation models ความสนใจในการสำรวจความสามารถของโมเดลเหล่านี้ในงานที่ต้องใช้การให้เหตุผลจึงเพิ่มสูงขึ้น งานวิจัยนี้นำเสนอ foundation models สำคัญที่ถูกเสนอขึ้นหรือสามารถนำมาปรับใช้เพื่อการให้เหตุผล พร้อมเน้นความก้าวหน้าล่าสุดของงาน วิธีการ และเบนช์มาร์กด้านการให้เหตุผลที่หลากหลาย จากนั้นจึงสำรวจทิศทางในอนาคตที่เป็นไปได้ซึ่งอยู่เบื้องหลังการเกิดขึ้นของความสามารถด้านการให้เหตุผลภายใน foundation models นอกจากนี้ยังอภิปรายถึงความเกี่ยวข้องของการเรียนรู้แบบหลายโมดัล autonomous agents และ super alignment ในบริบทของการให้เหตุผล โดยหวังว่าการอภิปรายถึงทิศทางการวิจัยในอนาคตเหล่านี้จะช่วยสร้างแรงบันดาลใจให้นักวิจัยสำรวจสาขานี้ กระตุ้นความก้าวหน้าเพิ่มเติมของการให้เหตุผลด้วย foundation models และมีส่วนต่อการพัฒนา AGI
    > Reasoning, a crucial ability for complex problem-solving, plays a pivotal role in various real-world settings such as negotiation, medical diagnosis, and criminal investigation. It serves as a fundamental methodology in the field of Artificial General Intelligence (AGI). With the ongoing development of foundation models, there is a growing interest in exploring their abilities in reasoning tasks. In this paper, we introduce seminal foundation models proposed or adaptable for reasoning, highlighting the latest advancements in various reasoning tasks, methods, and benchmarks. We then delve into the potential future directions behind the emergence of reasoning abilities within foundation models. We also discuss the relevance of multimodal learning, autonomous agents, and super alignment in the context of reasoning. By discussing these future research directions, we hope to inspire researchers in their exploration of this field, stimulate further advancements in reasoning with foundation models, and contribute to the development of AGI.

ลิงก์งานวิจัย

https://arxiv.org/abs/2312.11562v4

อ่านเพิ่มเติม

https://x.com/omarsar0/status/1740729489661874632


สร้างโมเดลภาษาขนาดใหญ่ให้เป็นรากฐานที่ดีกว่าสำหรับ dense retrieval / Making Large Language Models A Better Foundation For Dense Retrieval

แนะนำงานวิจัย

  • นำเสนอ LLaRA สำหรับการปรับ LLM ให้เหมาะกับ dense retrieval โดยประกอบด้วยงาน pretext สองอย่างคือ EBAE (embedding-based auto-encoding) และ EBAR (embedding-based auto-regression) ซึ่งใช้ text embeddings ของ LLM เพื่อสร้างโทเค็นของประโยคอินพุตขึ้นใหม่และทำนายโทเค็นของประโยคถัดไปตามลำดับ และทำให้ llama-2-7b มีผลลัพธ์ดีขึ้นบนเบนช์มาร์กอย่าง MSMARCO และ BEIR
    > Proposes llara which adapts an llm for dense retrieval; it consists of two pretext tasks: ebae (embedding-based auto-encoding) and ebar (embedding-based auto-regression), where the text embeddings from llm are used to reconstruct the tokens for the input sentence and predict the tokens for the next sentence, respectively; a llama-2-7b was improved on benchmarks like msmarco and beir.

บทคัดย่อ(Abstract)

  • dense retrieval จำเป็นต้องเรียนรู้ text embeddings ที่มีความสามารถในการจำแนก เพื่อแทนความสัมพันธ์เชิงความหมายระหว่าง query และ document ซึ่งอาจได้รับประโยชน์จากการใช้ LLM (โมเดลภาษาขนาดใหญ่) เนื่องจาก LLM มีความสามารถสูงในการทำความเข้าใจเชิงความหมาย อย่างไรก็ตาม LLM ถูก pre-train ด้วยงานสร้างข้อความ ซึ่งมีรูปแบบการทำงานแตกต่างจากการแทนข้อความเป็น embeddings อย่างสิ้นเชิง ดังนั้นจึงจำเป็นอย่างยิ่งที่จะต้องศึกษาวิธีปรับ LLM อย่างเหมาะสม เพื่อให้สามารถใช้เป็น backbone encoder สำหรับ dense retrieval ได้อย่างมีประสิทธิภาพ งานวิจัยนี้จึงนำเสนอแนวทางใหม่ชื่อ LLaRA (LLM adapted for dense RetrievAl) ซึ่งทำหน้าที่เป็นการปรับ LLM ภายหลังสำหรับงาน dense retrieval โดย LLaRA ประกอบด้วยงาน pretext สองอย่าง ได้แก่ EBAE (Embedding-Based Auto-Encoding) และ EBAR (Embedding-Based Auto-Regression) ซึ่งใช้ text embeddings จาก LLM เพื่อสร้างโทเค็นของประโยคอินพุตขึ้นใหม่และทำนายโทเค็นของประโยคถัดไปตามลำดับ LLaRA มีจุดเด่นคือเรียบง่าย ใช้ทรัพยากรน้อย และมีประสิทธิภาพสูง แนวทางนี้ถูกใช้เพื่อปรับ LLaMA-2-7B (base) บนคอร์ปัส Wikipedia และช่วยเพิ่มประสิทธิภาพหลัง fine-tune ของโมเดลอย่างมากบนเบนช์มาร์ก dense retrieval หลากหลายรายการ เช่น MSMARCO และ BEIR โดยโมเดลและโค้ดจะเปิดให้ใช้งานสาธารณะที่ BGE repository
    > Dense retrieval needs to learn discriminative text embeddings to represent the semantic relationship between query and document. It may benefit from the using of large language models (LLMs), given LLMs' strong capability on semantic understanding. However, the LLMs are pre-trained by text generation tasks, whose working pattern is completely different from representing texts as embeddings. As a result, it is imperative to study how to adapt LLMs properly so that they can be effectively initialized as the backbone encoder for dense retrieval. In this paper, we propose a novel approach, called LLaRA (LLM adapted for dense RetrievAl), which works as a post-hoc adaptation of LLM for the dense retrieval application. LLaRA consists of two pretext tasks: EBAE (Embedding-Based Auto-Encoding) and EBAR (Embedding-Based Auto-Regression), where the text embeddings from LLM are used to reconstruct the tokens for the input sentence and predict the tokens for the next sentence, respectively. LLaRA turns out to be simple, lightweight, and highly effective. It is applied to adapt LLaMA-2-7B (base) on the Wikipedia corpus, where it substantially improves the model's fine-tuned performances on a variety of dense retrieval benchmarks, like MSMARCO and BEIR. Our model and code will be made publicly available at BGE repository.

ลิงก์งานวิจัย

https://arxiv.org/abs/2312.15503v1


Gemini และ GPT-4V: การเปรียบเทียบเบื้องต้นและการผสานโมเดล Vision-Language ผ่านกรณีศึกษาเชิงคุณภาพ / Gemini vs GPT-4V: A Preliminary Comparison and Combination of Vision-Language Models Through Qualitative Cases

แนะนำงานวิจัย

  • จากกรณีศึกษาเชิงคุณภาพหลายกรณี มีการเปรียบเทียบเบื้องต้นอย่างครอบคลุมและการผสานโมเดล vision-language อย่าง Gemini และ GPT-4V พบว่า GPT-4V ให้คำตอบที่แม่นยำและกระชับ ขณะที่ Gemini โดดเด่นในการให้คำตอบที่ละเอียดและครอบคลุม พร้อมภาพและลิงก์ที่เกี่ยวข้อง
    > Provides a comprehensive preliminary comparison and combination of vision-language models like gemini and gpt-4v through several qualitative cases; finds that gpt-4v is precise and succinct in responses, while gemini excels in providing detailed, expansive answers accompanied by relevant imagery and links.

บทคัดย่อของงานวิจัย (Abstract)

  • แวดวงของ Multi-modal Large Language Models (MLLMs) ที่กำลังพัฒนาอย่างรวดเร็ว กำลังอยู่แนวหน้าของการบูรณาการการประมวลผลภาษาและภาพในปัญญาประดิษฐ์ บทความนี้นำเสนอการศึกษาเชิงเปรียบเทียบเชิงลึกของสองโมเดลบุกเบิก ได้แก่ Gemini ของ Google และ GPT-4V(ision) ของ OpenAI งานศึกษานี้ประเมินทั้งสองโมเดลในหลายมิติสำคัญ เช่น ความสามารถด้าน vision-language การปฏิสัมพันธ์กับมนุษย์ ความเข้าใจเชิงเวลา ตลอดจนการประเมินด้านเชาวน์ปัญญาและความฉลาดทางอารมณ์ แกนหลักของการวิเคราะห์คือการสำรวจความสามารถในการทำความเข้าใจภาพที่แตกต่างกันของแต่ละโมเดล ผู้วิจัยได้ดำเนินการทดลองแบบมีโครงสร้างหลายชุดเพื่อประเมินประสิทธิภาพในสถานการณ์การใช้งานภาคอุตสาหกรรมที่หลากหลาย เพื่อให้มุมมองที่ครอบคลุมต่อประโยชน์ใช้สอยในทางปฏิบัติ นอกจากการเปรียบเทียบประสิทธิภาพโดยตรงแล้ว ยังรวมถึงการปรับพรอมป์ต์และสถานการณ์เพื่อให้การวิเคราะห์มีความสมดุลและเป็นธรรม ผลลัพธ์จากการศึกษานี้ชี้ให้เห็นจุดแข็งและความโดดเด่นเฉพาะทางของทั้งสองโมเดล โดย GPT-4V แตกต่างด้วยคำตอบที่แม่นยำและกระชับ ขณะที่ Gemini โดดเด่นในการให้คำตอบที่ละเอียดและกว้างขวาง พร้อมภาพและลิงก์ที่เกี่ยวข้อง ความเข้าใจเหล่านี้ไม่เพียงช่วยให้เห็นข้อดีเชิงเปรียบเทียบของ Gemini และ GPT-4V เท่านั้น แต่ยังตอกย้ำถึงภูมิทัศน์ที่กำลังเปลี่ยนแปลงของโมเดลพื้นฐานแบบมัลติโหมด ซึ่งปูทางไปสู่ความก้าวหน้าในอนาคตของสาขานี้ หลังจากการเปรียบเทียบ ผู้วิจัยยังพยายามผสานทั้งสองโมเดลเพื่อให้ได้ผลลัพธ์ที่ดียิ่งขึ้น สุดท้ายนี้ ผู้วิจัยขอแสดงความขอบคุณอย่างสุดซึ้งต่อทีมงานเบื้องหลัง GPT-4V และ Gemini สำหรับการมีส่วนร่วมบุกเบิกในสาขานี้ และขอขอบคุณการวิเคราะห์เชิงคุณภาพอย่างครอบคลุมที่นำเสนอใน 'Dawn' โดย Yang และคณะ ซึ่งรวบรวมตัวอย่างภาพ พรอมป์ต์ และผลลัพธ์ที่เกี่ยวข้องกับ GPT-4V ไว้อย่างกว้างขวาง และเป็นรากฐานสำคัญของการวิเคราะห์นี้
    > The rapidly evolving sector of Multi-modal Large Language Models (MLLMs) is at the forefront of integrating linguistic and visual processing in artificial intelligence. This paper presents an in-depth comparative study of two pioneering models: Google's Gemini and OpenAI's GPT-4V(ision). Our study involves a multi-faceted evaluation of both models across key dimensions such as Vision-Language Capability, Interaction with Humans, Temporal Understanding, and assessments in both Intelligence and Emotional Quotients. The core of our analysis delves into the distinct visual comprehension abilities of each model. We conducted a series of structured experiments to evaluate their performance in various industrial application scenarios, offering a comprehensive perspective on their practical utility. We not only involve direct performance comparisons but also include adjustments in prompts and scenarios to ensure a balanced and fair analysis. Our findings illuminate the unique strengths and niches of both models. GPT-4V distinguishes itself with its precision and succinctness in responses, while Gemini excels in providing detailed, expansive answers accompanied by relevant imagery and links. These understandings not only shed light on the comparative merits of Gemini and GPT-4V but also underscore the evolving landscape of multimodal foundation models, paving the way for future advancements in this area. After the comparison, we attempted to achieve better results by combining the two models. Finally, We would like to express our profound gratitude to the teams behind GPT-4V and Gemini for their pioneering contributions to the field. Our acknowledgments are also extended to the comprehensive qualitative analysis presented in 'Dawn' by Yang et al. This work, with its extensive collection of image samples, prompts, and GPT-4V-related results, provided a foundational basis for our analysis.

ลิงก์งานวิจัย

https://arxiv.org/abs/2312.15011v1

อ่านเพิ่มเติม

https://x.com/omarsar0/status/1741177994377330895


ต้นฉบับ

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-1d3

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น