• บทความนี้เป็นการแปลอัตโนมัติของบทความเกี่ยวกับงานวิจัย ML ที่ DAIR.AI เผยแพร่ทุกสัปดาห์

  • เมื่อดูงานวิจัยที่ได้รับคัดเลือกในสัปดาห์นี้ จะเห็นได้ว่างานส่วนใหญ่เน้นไปที่โมเดลภาษาขนาดใหญ่ (Large Language Models, LLMs) จากชื่ออย่าง "Genie", "Mistral Large", "The Era of 1-bit LLMs", "Dataset for LLMs", และ "PlanGPT" จะเห็นได้ว่าความสนใจต่อการทำ language modeling รวมถึงแนวทางในการปรับปรุงโมเดลเหล่านี้หรือการใช้ชุดข้อมูลใหม่ ๆ นั้นเพิ่มสูงขึ้น ซึ่งอาจเป็นผลมาจากความก้าวหน้าอย่างรวดเร็วของเทคโนโลยีการประมวลผลภาษาในช่วงไม่กี่ปีที่ผ่านมา และจากการที่โมเดลภาษาขนาดใหญ่แสดงประสิทธิภาพโดดเด่นในงานประมวลผลภาษาธรรมชาติที่หลากหลาย

  • โมเดลภาษา โดยเฉพาะโมเดลขนาดใหญ่อย่าง GPT-4 กำลังถูกนำไปประยุกต์ใช้ในอุตสาหกรรมและงานวิจัยหลากหลายสาขา ส่งผลให้ความต้องการเทคโนโลยีใหม่ ๆ ที่ช่วยฝึกโมเดลเหล่านี้ได้อย่างมีประสิทธิภาพมากขึ้น นำไปใช้กับข้อมูลที่หลากหลายยิ่งขึ้น และแม้กระทั่งรักษาประสิทธิภาพสูงไว้ได้ด้วยจำนวนบิตที่น้อยลง ก็เพิ่มขึ้นตามไปด้วย นอกจากนี้ ชื่ออย่าง "On the Societal Impact of Open Foundation Models" ยังบ่งชี้ว่ามีการศึกษาถึงผลกระทบของโมเดลภาษาที่มีต่อสังคมด้วย ซึ่งหมายความว่าไม่เพียงแต่ความก้าวหน้าทางเทคโนโลยีเท่านั้นที่ได้รับความสนใจ แต่การตระหนักถึงการเปลี่ยนแปลงทางสังคมและความรับผิดชอบที่ตามมาจากเทคโนโลยีก็เพิ่มสูงขึ้นเช่นกัน

  • ขณะเดียวกัน ชื่อที่มีความเฉพาะเจาะจงน้อยกว่าอย่าง "LearnAct" หรือ "EMO" ก็สะดุดตาเช่นกัน โดยงานวิจัยเหล่านี้อาจไม่ได้จำกัดอยู่แค่โมเดลภาษา แต่มีแนวโน้มจะมุ่งเน้นไปที่การประยุกต์ใช้ในวงกว้างหรือความก้าวหน้าเชิงทฤษฎีมากกว่า โดยรวมแล้ว สัปดาห์นี้ยืนยันได้ว่าแนวทางใหม่ ๆ ในด้าน language modeling และงานวิจัยเชิงประยุกต์ที่ใช้ประโยชน์จากมัน ได้กลายเป็นเทรนด์หลัก ซึ่งสะท้อนถึงความคึกคักของการวิจัยและการพัฒนาเพื่อตอบโจทย์ความท้าทายสำคัญหลากหลายด้านในวงการ AI


Genie: สภาพแวดล้อมเชิงโต้ตอบแบบกำเนิด / Genie: Generative Interactive Environments

แนะนำงานวิจัย

  • Genie เป็น foundation model ที่ฝึกจากวิดีโอบนอินเทอร์เน็ต และสามารถสร้างโลก 2D ได้หลากหลายแบบที่ควบคุมการกระทำได้เมื่อได้รับ image prompt โดยมีพารามิเตอร์ขนาด 11B และประกอบด้วย spatiotemporal video tokenizer, autoregressive dynamic model และ scalable latent action model อีกทั้ง latent action space ยังช่วยให้เอเจนต์ที่ฝึกสามารถเลียนแบบพฤติกรรมจากวิดีโอที่ไม่เคยเห็นมาก่อนได้ จึงเป็นแนวทางที่มีศักยภาพสำหรับการสร้างเอเจนต์แบบ generalist มากยิ่งขึ้น

    A foundation model trained from internet videos and with the ability to generate a variety of action-controllable 2d worlds given an image prompt; genie has 11b parameters and consists of a spatiotemporal video tokenizer, an autoregressive dynamic model, and a scalable latent action model; the latent action space enables training agents to imitate behaviors from unseen video which is promising for building more generalist agents.

บทคัดย่อ(Abstract)

  • เราขอแนะนำ Genie ซึ่งเป็นสภาพแวดล้อมเชิงโต้ตอบแบบกำเนิดตัวแรกที่ฝึกแบบไม่มีผู้กำกับจากวิดีโออินเทอร์เน็ตที่ไม่มีป้ายกำกับ โมเดลนี้สามารถรับ prompt เพื่อสร้างโลกเสมือนที่ควบคุมการกระทำได้อย่างหลากหลายไม่สิ้นสุด ซึ่งอธิบายได้ผ่านข้อความ ภาพสังเคราะห์ ภาพถ่าย และแม้แต่ภาพสเก็ตช์ ด้วยพารามิเตอร์ 11B ทำให้ Genie ถือได้ว่าเป็น foundation world model โดยประกอบด้วย spatiotemporal video tokenizer, autoregressive dynamics model และ latent action model ที่เรียบง่ายและขยายขนาดได้ Genie ช่วยให้ผู้ใช้สามารถกระทำการในสภาพแวดล้อมที่สร้างขึ้นแบบเฟรมต่อเฟรมได้ แม้ว่าจะฝึกโดยไม่มีป้ายกำกับการกระทำจริงหรือข้อกำหนดเฉพาะโดเมนอื่น ๆ ที่มักพบในวรรณกรรมด้าน world model นอกจากนี้ latent action space ที่เรียนรู้ได้ยังเอื้อให้เอเจนต์สามารถเลียนแบบพฤติกรรมจากวิดีโอที่ไม่เคยเห็นมาก่อน เปิดทางสู่การฝึกเอเจนต์ generalist แห่งอนาคต

    We introduce Genie, the first generative interactive environment trained in an unsupervised manner from unlabelled Internet videos. The model can be prompted to generate an endless variety of action-controllable virtual worlds described through text, synthetic images, photographs, and even sketches. At 11B parameters, Genie can be considered a foundation world model. It is comprised of a spatiotemporal video tokenizer, an autoregressive dynamics model, and a simple and scalable latent action model. Genie enables users to act in the generated environments on a frame-by-frame basis despite training without any ground-truth action labels or other domain-specific requirements typically found in the world model literature. Further the resulting learned latent action space facilitates training agents to imitate behaviors from unseen videos, opening the path for training generalist agents of the future.

ลิงก์งานวิจัย

https://arxiv.org/abs/2402.15391

อ่านเพิ่มเติม

https://discuss.pytorch.kr/t/…

https://sites.google.com/view/genie-2024/home

https://x.com/_rockt/status/1762026090262872161


Mistral Large / Mistral Large

แนะนำงานวิจัย

  • คุณลักษณะของ language engine ใหม่ที่ทรงพลังด้านพหุภาษา การให้เหตุผล คณิตศาสตร์ และการสร้างโค้ด มีดังนี้: 1) context window 32k โทเค็น 2) ความสามารถหลายภาษาในตัว 3) ความสามารถแข็งแกร่งในเบนช์มาร์กด้านการให้เหตุผล ความรู้ คณิตศาสตร์ และการเขียนโค้ด 4) รองรับ function calling และรูปแบบ JSON ได้โดยกำเนิด

    A new llm with strong multilingual, reasoning, maths, and code generation capabilities; features include: 1) 32k tokens context window, 2) native multilingual capacities, 3) strong abilities in reasoning, knowledge, maths, and coding benchmarks, and 4) function calling and json format natively supported.

ลิงก์งานวิจัย

https://mistral.ai/news/mistral-large/

อ่านเพิ่มเติม

https://discuss.pytorch.kr/t/…

https://x.com/omarsar0/status/1762140818654064721


ยุคของ LLM แบบ 1 บิต: โมเดลภาษาขนาดใหญ่ทั้งหมดอยู่ที่ 1.58 บิต / The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

แนะนำงานวิจัย

  • แนะนำ BitNet b1.58 ซึ่งเป็น LLM แบบ 1 บิตที่มีประสิทธิภาพสูงและคุ้มค่าต้นทุน โดยพารามิเตอร์ทั้งหมดเป็นแบบ ternary {-1, 0, 1} เมื่อกำหนดขนาดโมเดลและโทเคนที่ใช้เทรนเท่ากัน bitnet b1.58 สามารถเทียบชั้นได้กับ LLM แบบ Transformer ที่ใช้ความแม่นยำเต็มรูปแบบ (กล่าวคือ fp16) ทั้งในด้านความซับซ้อนและประสิทธิภาพของงาน โดยข้อดีของ 1-bit LLM นี้คือมี latency, memory, throughput และการใช้พลังงานที่ดีขึ้นอย่างมาก
    > Introduces a high-performing and cost-effective 1-bit llm variant called bitnet b1.58 where every parameter is a ternary {-1, 0, 1}; given the same model size and training tokens, bitnet b1.58 can match the perplexity and task performance of a full precision transformer llm (i.e., fp16); the benefits of this 1-bit llm are significantly better latency, memory, throughout, and energy consumption.

บทคัดย่อของงานวิจัย (Abstract)

  • งานวิจัยล่าสุด เช่น BitNet กำลังปูทางไปสู่ยุคใหม่ของ Large Language Models (LLMs) แบบ 1 บิต ในบทความนี้ ผู้วิจัยนำเสนอ LLM แบบ 1 บิตรุ่นหนึ่งชื่อ BitNet b1.58 ซึ่งทุกพารามิเตอร์เดี่ยว (หรือค่าน้ำหนัก) ของ LLM เป็นแบบ ternary {-1, 0, 1} โมเดลนี้สามารถเทียบเท่า Transformer LLM แบบ full-precision (กล่าวคือ FP16 หรือ BF16) ที่มีขนาดโมเดลและจำนวนโทเคนสำหรับการเทรนเท่ากันได้ ทั้งในแง่ของ perplexity และประสิทธิภาพของงานปลายทาง ขณะเดียวกันก็มีความคุ้มค่าด้านต้นทุนสูงกว่ามากในด้าน latency, memory, throughput และการใช้พลังงาน ในมุมที่ลึกไปกว่านั้น LLM แบบ 1.58 บิตนี้ยังนิยาม scaling law และสูตรการเทรนใหม่สำหรับการฝึก LLM รุ่นถัดไปที่ทั้งประสิทธิภาพสูงและคุ้มค่าต้นทุน นอกจากนี้ยังเปิดทางสู่กระบวนทัศน์การคำนวณแบบใหม่ และเปิดประตูสู่การออกแบบฮาร์ดแวร์เฉพาะที่ปรับให้เหมาะกับ 1-bit LLMs
    > Recent research, such as BitNet, is paving the way for a new era of 1-bit Large Language Models (LLMs). In this work, we introduce a 1-bit LLM variant, namely BitNet b1.58, in which every single parameter (or weight) of the LLM is ternary {-1, 0, 1}. It matches the full-precision (i.e., FP16 or BF16) Transformer LLM with the same model size and training tokens in terms of both perplexity and end-task performance, while being significantly more cost-effective in terms of latency, memory, throughput, and energy consumption. More profoundly, the 1.58-bit LLM defines a new scaling law and recipe for training new generations of LLMs that are both high-performance and cost-effective. Furthermore, it enables a new computation paradigm and opens the door for designing specific hardware optimized for 1-bit LLMs.

ลิงก์งานวิจัย

https://arxiv.org/abs/2402.17764

อ่านเพิ่มเติม

https://x.com/_akhaliq/status/1762729757454618720


ชุดข้อมูลสำหรับ Large Language Models: งานสำรวจอย่างครอบคลุม / Datasets for Large Language Models: A Comprehensive Survey

แนะนำงานวิจัย

  • ภาพรวมและการวิเคราะห์ชุดข้อมูล LLM อย่างครอบคลุม ความยาวกว่า 180 หน้า
    > A comprehensive overview (180+ pages) and analysis of llm datasets.

บทคัดย่อของงานวิจัย (Abstract)

  • บทความนี้เริ่มสำรวจชุดข้อมูลของ Large Language Model (LLM) ซึ่งมีบทบาทสำคัญต่อความก้าวหน้าอย่างโดดเด่นของ LLM ชุดข้อมูลเหล่านี้ทำหน้าที่เป็นโครงสร้างพื้นฐานหลัก เปรียบได้กับระบบรากที่คอยค้ำจุนและหล่อเลี้ยงการพัฒนา LLM ดังนั้นการศึกษาชุดข้อมูลเหล่านี้จึงกลายเป็นหัวข้อวิจัยที่สำคัญ เพื่อแก้ปัญหาการขาดภาพรวมที่ครอบคลุมและการวิเคราะห์เชิงลึกของชุดข้อมูล LLM ในปัจจุบัน รวมถึงเพื่อทำความเข้าใจสถานะปัจจุบันและแนวโน้มในอนาคต งานสำรวจนี้จึงรวบรวมและจัดหมวดหมู่แง่มุมพื้นฐานของชุดข้อมูล LLM จาก 5 มุมมอง ได้แก่ (1) คอร์ปัสสำหรับ pre-training (2) ชุดข้อมูลสำหรับ instruction fine-tuning (3) ชุดข้อมูล preference (4) ชุดข้อมูล evaluation และ (5) ชุดข้อมูลประมวลผลภาษาธรรมชาติ (NLP) แบบดั้งเดิม งานสำรวจนี้ชี้ให้เห็นถึงความท้าทายในปัจจุบันและเสนอทิศทางที่เป็นไปได้สำหรับการศึกษาในอนาคต นอกจากนี้ยังมีการทบทวนทรัพยากรชุดข้อมูลที่มีอยู่ในปัจจุบันอย่างครอบคลุม โดยรวมสถิติของชุดข้อมูล 444 ชุด ครอบคลุม 8 หมวดหมู่ภาษาและ 32 โดเมน ข้อมูล 20 มิติถูกรวมเข้าไว้ในการสถิติของชุดข้อมูล ขนาดข้อมูลรวมที่สำรวจมีมากกว่า 774.5TB สำหรับคอร์ปัส pre-training และมากกว่า 700 ล้านอินสแตนซ์สำหรับชุดข้อมูลประเภทอื่น ๆ เรามุ่งนำเสนอภูมิทัศน์ทั้งหมดของชุดข้อมูลข้อความสำหรับ LLM เพื่อเป็นแหล่งอ้างอิงที่ครอบคลุมสำหรับนักวิจัยในสาขานี้และช่วยสนับสนุนงานวิจัยในอนาคต โดยสามารถดูทรัพยากรที่เกี่ยวข้องได้ที่ https://github.com/lmmlzn/Awesome-LLMs-Datasets
    > This paper embarks on an exploration into the Large Language Model (LLM) datasets, which play a crucial role in the remarkable advancements of LLMs. The datasets serve as the foundational infrastructure analogous to a root system that sustains and nurtures the development of LLMs. Consequently, examination of these datasets emerges as a critical topic in research. In order to address the current lack of a comprehensive overview and thorough analysis of LLM datasets, and to gain insights into their current status and future trends, this survey consolidates and categorizes the fundamental aspects of LLM datasets from five perspectives: (1) Pre-training Corpora; (2) Instruction Fine-tuning Datasets; (3) Preference Datasets; (4) Evaluation Datasets; (5) Traditional Natural Language Processing (NLP) Datasets. The survey sheds light on the prevailing challenges and points out potential avenues for future investigation. Additionally, a comprehensive review of the existing available dataset resources is also provided, including statistics from 444 datasets, covering 8 language categories and spanning 32 domains. Information from 20 dimensions is incorporated into the dataset statistics. The total data size surveyed surpasses 774.5 TB for pre-training corpora and 700M instances for other datasets. We aim to present the entire landscape of LLM text datasets, serving as a comprehensive reference for researchers in this field and contributing to future studies. Related resources are available at: https://github.com/lmmlzn/Awesome-LLMs-Datasets.

ลิงก์บทความ

https://arxiv.org/abs/2402.18041

อ่านเพิ่มเติม

https://github.com/lmmlzn/Awesome-LLMs-Datasets

https://x.com/omarsar0/status/1763233452852134001


เสริมศักยภาพเอเจนต์ Large Language Model ผ่านการเรียนรู้แบบแอ็กชัน / Empowering Large Language Model Agents through Action Learning

แนะนำบทความ

  • สำรวจการเรียนรู้แอ็กชันแบบเปิดสำหรับ language agent ผ่านกลยุทธ์การเรียนรู้แบบวนซ้ำที่สร้างและปรับปรุงแอ็กชันด้วยฟังก์ชัน Python โดยเฟรมเวิร์กที่นำเสนอ (learnact) จะปรับแก้และอัปเดตแอ็กชันที่ใช้งานได้ในแต่ละรอบตาม feedback จากการรัน เพื่อขยาย action space และเพิ่มประสิทธิภาพของแอ็กชัน และจากการทดลองในงานวางแผนหุ่นยนต์และสภาพแวดล้อม Alfworld พบว่าสามารถเพิ่มประสิทธิภาพของเอเจนต์ใน Alfworld ได้ 32% เมื่อเทียบกับ ReAct+Reflexion
    > Explores open-action learning for language agents through an iterative learning strategy that creates and improves actions using python functions; on each iteration, the proposed framework (learnact) expands the action space and enhances action effectiveness by revising and updating available actions based on execution feedback; the learnact framework was tested on robotic planning and alfworld environments; it improves agent performance by 32% in alfworld compared to react+reflexion.

บทคัดย่อ (Abstract)

  • แม้ช่วงหลังมานี้ LLM agent ขนาดใหญ่จะได้รับความสนใจมากขึ้น แต่ก็ยังมีข้อจำกัดด้านความสามารถในการเรียนรู้ผ่านการลองผิดลองถูก ซึ่งเป็นองค์ประกอบสำคัญของพฤติกรรมอันชาญฉลาด งานวิจัยนี้ชี้ว่า ความสามารถในการเรียนรู้การกระทำใหม่จากประสบการณ์เป็นสิ่งจำเป็นต่อการพัฒนาการเรียนรู้ของ LLM agent มนุษย์สามารถขยาย action space และพัฒนาทักษะได้อย่างเป็นธรรมชาติผ่านการเรียนรู้จากประสบการณ์ ขณะที่ LLM agent โดยทั่วไปทำงานอยู่ภายใน action space แบบตายตัว จึงมีข้อจำกัดด้านศักยภาพในการเติบโต เพื่อแก้ปัญหานี้ งานวิจัยนี้จึงสำรวจการเรียนรู้ action แบบเปิดสำหรับ language agent และนำเสนอเฟรมเวิร์ก LearnAct ที่มีกลยุทธ์การเรียนรู้แบบวนซ้ำเพื่อสร้างและปรับปรุง action ในรูปแบบของฟังก์ชัน Python ในแต่ละรอบ LLM จะปรับแก้และอัปเดต action ที่มีอยู่ตามข้อผิดพลาดที่พบจากงานฝึกที่ล้มเหลว เพื่อเพิ่มประสิทธิภาพของ action จากการประเมินเชิงทดลองในสภาพแวดล้อม Robotic Planning และ Alfworld พบว่า หลังจากเรียนรู้จากตัวอย่างงานฝึกเพียงไม่กี่ชุด แนวทางการเรียนรู้ action แบบเปิดนี้ช่วยยกระดับประสิทธิภาพของ agent สำหรับงานประเภทนั้นได้อย่างชัดเจน (เช่น ใน AlfWord ดีขึ้น 32% เมื่อเทียบกับ ReAct+Reflexion) ซึ่งตอกย้ำความสำคัญของการเรียนรู้ action เชิงประสบการณ์ต่อการพัฒนา LLM agent ที่ฉลาดยิ่งขึ้น
    > Large Language Model (LLM) Agents have recently garnered increasing interest yet they are limited in their ability to learn from trial and error, a key element of intelligent behavior. In this work, we argue that the capacity to learn new actions from experience is fundamental to the advancement of learning in LLM agents. While humans naturally expand their action spaces and develop skills through experiential learning, LLM agents typically operate within fixed action spaces, limiting their potential for growth. To address these challenges, our study explores open-action learning for language agents. We introduce a framework LearnAct with an iterative learning strategy to create and improve actions in the form of Python functions. In each iteration, LLM revises and updates the currently available actions based on the errors identified in unsuccessful training tasks, thereby enhancing action effectiveness. Our experimental evaluations across Robotic Planning and Alfworld environments reveal that after learning on a few training task instances, our approach to open-action learning markedly improves agent performance for the type of task (by 32 percent in AlfWorld compared to ReAct+Reflexion, for instance) highlighting the importance of experiential action learning in the development of more intelligent LLM agents.

ลิงก์งานวิจัย

https://arxiv.org/abs/2402.15809

อ่านเพิ่มเติม

https://x.com/omarsar0/status/1762533498492010761


EMO: ทำให้ภาพพอร์ตเทรตมีชีวิตชีวา - สร้างวิดีโอพอร์ตเทรตที่แสดงอารมณ์ได้ด้วยโมเดล Audio2Video Diffusion ภายใต้เงื่อนไขแบบอ่อน / EMO: Emote Portrait Alive -- Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions

แนะนำงานวิจัย

  • EMO เป็นเฟรมเวิร์กใหม่สำหรับสร้างวิดีโอที่แสดงอารมณ์ได้ โดยใช้แนวทางสังเคราะห์แบบ Audio-to-Video โดยตรงผ่านโมเดล Audio-to-Video diffusion จึงไม่จำเป็นต้องใช้โมเดล 3D ขั้นกลางหรือ facial landmark และสามารถสร้างทั้งวิดีโอพูดและวิดีโอร้องเพลงที่น่าเชื่อถือในหลากหลายสไตล์ พร้อมทั้งให้ผลลัพธ์เหนือกว่าวิธีเดิมในด้านการแสดงอารมณ์และความสมจริง
    > A new framework for generating expressive video by utilizing a direct audio-to-video synthesis approach; by leveraging an audio2video diffusion model it bypasses the need for intermediate 3d models or facial landmarks; emo can produce convincing speaking videos and singing videos in various styles while outperforming existing methods in terms of expressiveness and realism.

บทคัดย่อ(Abstract)

  • งานวิจัยนี้มุ่งแก้โจทย์การเพิ่มความสมจริงและความสามารถในการแสดงอารมณ์ในการสร้างวิดีโอ talking head โดยเน้นที่ความสัมพันธ์อันซับซ้อนและเปลี่ยนแปลงได้ระหว่างสัญญาณเสียงกับการเคลื่อนไหวของใบหน้า ผู้วิจัยระบุข้อจำกัดของเทคนิคแบบดั้งเดิมที่มักไม่สามารถถ่ายทอดทั้งสเปกตรัมของสีหน้ามนุษย์และเอกลักษณ์ของสไตล์ใบหน้าแต่ละบุคคลได้อย่างครบถ้วน เพื่อแก้ปัญหาเหล่านี้ ผู้วิจัยจึงเสนอ EMO ซึ่งเป็นเฟรมเวิร์กใหม่ที่ใช้แนวทางสังเคราะห์เสียงเป็นวิดีโอโดยตรง โดยไม่ต้องพึ่งโมเดล 3D ขั้นกลางหรือ facial landmark วิธีนี้ช่วยให้การเปลี่ยนผ่านระหว่างเฟรมลื่นไหลและคงความสม่ำเสมอของอัตลักษณ์ตลอดทั้งวิดีโอ ส่งผลให้ได้แอนิเมชันที่แสดงอารมณ์ได้ดีและมีชีวิตชีวา ผลการทดลองแสดงให้เห็นว่า EMO ไม่เพียงสร้างวิดีโอพูดที่น่าเชื่อถือได้เท่านั้น แต่ยังสร้างวิดีโอร้องเพลงในหลากหลายสไตล์ได้ด้วย และมีประสิทธิภาพเหนือกว่าวิธีล้ำสมัยที่มีอยู่เดิมอย่างชัดเจนในด้านการแสดงอารมณ์และความสมจริง
    > In this work, we tackle the challenge of enhancing the realism and expressiveness in talking head video generation by focusing on the dynamic and nuanced relationship between audio cues and facial movements. We identify the limitations of traditional techniques that often fail to capture the full spectrum of human expressions and the uniqueness of individual facial styles. To address these issues, we propose EMO, a novel framework that utilizes a direct audio-to-video synthesis approach, bypassing the need for intermediate 3D models or facial landmarks. Our method ensures seamless frame transitions and consistent identity preservation throughout the video, resulting in highly expressive and lifelike animations. Experimental results demonsrate that EMO is able to produce not only convincing speaking videos but also singing videos in various styles, significantly outperforming existing state-of-the-art methodologies in terms of expressiveness and realism.

ลิงก์งานวิจัย

https://arxiv.org/abs/2402.17485

อ่านเพิ่มเติม

https://x.com/_akhaliq/status/1762686465777999932


ผลกระทบทางสังคมของ Open Foundation Models / On the Societal Impact of Open Foundation Models

แนะนำงานวิจัย

  • บทความแสดงจุดยืนที่มุ่งเน้น Open Foundation Models รวมถึงผลกระทบ ประโยชน์ และความเสี่ยง โดยเสนอกรอบการประเมินความเสี่ยงสำหรับการวิเคราะห์ความเสี่ยง และอธิบายว่าทำไมความเสี่ยงส่วนเพิ่มของ Open Foundation Models จึงต่ำในบางกรณี อีกทั้งยังนำเสนอการประเมินผลกระทบทางสังคมของ Open Foundation Models ที่ตั้งอยู่บนหลักฐานมากยิ่งขึ้น
    > A position paper with a focus on open foundation models and their impact, benefits, and risks; proposes a risk assessment framework for analyzing risk and explains why the marginal risk of open foundation models is low in some cases; it also offers a more grounded assessment of the societal impact of open foundation models.

ลิงก์งานวิจัย

https://crfm.stanford.edu/open-fms/

อ่านเพิ่มเติม

https://x.com/sayashk/status/1762508812370551207


StarCoder 2 / StarCoder 2

แนะนำงานวิจัย

  • ตระกูล open LLMs สำหรับงานโค้ดที่มี 3 ขนาด (3b, 7b และ 15b) โดยโมเดล 15b ได้รับการฝึกด้วยโทเค็น 14 ล้านล้านรายการและภาษาการเขียนโปรแกรมมากกว่า 600 ภาษา พร้อม context window ขนาด 16k โทเค็น และใช้เป้าหมายแบบ fill-in-the-middle ซึ่งให้ผลทัดเทียมโมเดลขนาด 33b ขึ้นไปในการประเมินหลายด้าน เช่น code completion, code reasoning และการให้เหตุผลทางคณิตศาสตร์ที่อาศัย PAL
    > A family of open llms for code with three different sizes (3b, 7b, and 15b); the 15b model was trained on 14 trillion tokens and 600+ programming languages with a context window of 16k token and employing a fill-in-the-middle objective; it matches 33b+ models on many evaluation like code completion, code reasoning, and math reasoning aided through pal.

ลิงก์งานวิจัย

https://huggingface.co/blog/starcoder2

อ่านเพิ่มเติม

https://x.com/_philschmid/status/1762843489220296881


Large Language Models (LLMs) บนข้อมูลแบบตาราง: การพยากรณ์ การสร้าง และความเข้าใจ - บทความสำรวจ / Large Language Models(LLMs) on Tabular Data: Prediction, Generation, and Understanding - A Survey

แนะนำงานวิจัย

  • กล่าวถึงภาพรวมของ LLMs สำหรับงานข้อมูลแบบตาราง ครอบคลุมเทคนิคหลัก เมตริก ชุดข้อมูล โมเดล และแนวทางการปรับเหมาะ รวมถึงข้อจำกัดและแนวคิดที่ยังไม่ถูกสำรวจ พร้อมมอบอินไซต์สำหรับทิศทางการวิจัยในอนาคต
    > An overview of llms for tabular data tasks including key techniques, metrics, datasets, models, and optimization approaches; it covers limitations and unexplored ideas with insights for future research directions.

บทคัดย่อ(Abstract)

  • ความก้าวหน้าครั้งสำคัญของการสร้างแบบจำลองภาษาขนาดใหญ่ในช่วงหลัง ทำให้สามารถสำรวจการประยุกต์ใช้กับงานที่เกี่ยวข้องกับการสร้างแบบจำลองข้อมูลแบบตารางได้อย่างเข้มข้นมากขึ้น เช่น การพยากรณ์ การสังเคราะห์ข้อมูลแบบตาราง การตอบคำถาม และความเข้าใจตาราง แต่ละงานมีทั้งความท้าทายและโอกาสเฉพาะตัว อย่างไรก็ตาม ปัจจุบันยังขาดบททบทวนแบบครอบคลุมที่สรุปและเปรียบเทียบเทคนิคหลัก เมตริก ชุดข้อมูล โมเดล และแนวทางการปรับเหมาะในขอบเขตการวิจัยนี้ บทความสำรวจฉบับนี้มีเป้าหมายเพื่ออุดช่องว่างดังกล่าว โดยรวบรวมความก้าวหน้าล่าสุดในด้านเหล่านี้ และนำเสนอการสำรวจรวมถึงการจัดหมวดหมู่ของชุดข้อมูล ตัวชี้วัด และวิธีวิทยาที่ใช้งานอย่างละเอียด อีกทั้งยังชี้ให้เห็นจุดแข็ง ข้อจำกัด พื้นที่ที่ยังไม่ถูกสำรวจ และช่องว่างในวรรณกรรมที่มีอยู่ พร้อมให้มุมมองบางประการต่อทิศทางการวิจัยในอนาคตของสาขาที่สำคัญและเปลี่ยนแปลงอย่างรวดเร็วนี้ นอกจากนี้ยังให้แหล่งอ้างอิงของโค้ดและชุดข้อมูลที่เกี่ยวข้องด้วย ผ่านบททบทวนที่ครอบคลุมนี้ ผู้เขียนหวังว่าจะมอบแหล่งอ้างอิงที่เหมาะสมและมุมมองที่ให้ข้อคิดแก่ผู้อ่านที่สนใจ พร้อมเสริมเครื่องมือและองค์ความรู้ที่จำเป็นในการสำรวจและจัดการกับความท้าทายสำคัญในสาขานี้ได้อย่างมีประสิทธิภาพ
    > Recent breakthroughs in large language modeling have facilitated rigorous exploration of their application in diverse tasks related to tabular data modeling, such as prediction, tabular data synthesis, question answering, and table understanding. Each task presents unique challenges and opportunities. However, there is currently a lack of comprehensive review that summarizes and compares the key techniques, metrics, datasets, models, and optimization approaches in this research domain. This survey aims to address this gap by consolidating recent progress in these areas, offering a thorough survey and taxonomy of the datasets, metrics, and methodologies utilized. It identifies strengths, limitations, unexplored territories, and gaps in the existing literature, while providing some insights for future research directions in this vital and rapidly evolving field. It also provides relevant code and datasets references. Through this comprehensive review, we hope to provide interested readers with pertinent references and insightful perspectives, empowering them with the necessary tools and knowledge to effectively navigate and address the prevailing challenges in the field.

ลิงก์งานวิจัย

https://arxiv.org/abs/2402.17944

อ่านเพิ่มเติม

https://x.com/omarsar0/status/1763187964501254492


PlanGPT: ยกระดับการวางผังเมืองด้วยโมเดลภาษาที่ปรับให้เหมาะและการค้นคืนข้อมูลอย่างมีประสิทธิภาพ / PlanGPT: Enhancing Urban Planning with Tailored Language Model and Efficient Retrieval

แนะนำงานวิจัย

  • แสดงให้เห็นวิธีใช้ประโยชน์จาก LLMs และการผสานหลายแนวทางเข้าด้วยกัน เช่น retrieval augmentation, fine-tuning, tool usage และอื่น ๆ โดยเฟรมเวิร์กที่เสนอนี้นำไปใช้กับการวางผังเมืองและการวางแผนเชิงพื้นที่ แต่ก็มีอินไซต์และเคล็ดลับเชิงปฏิบัติจำนวนมากที่สามารถนำไปประยุกต์ใช้กับสาขาอื่นได้เช่นกัน
    > Shows how to leverage llms and combine multiple approaches like retrieval augmentation, fine-tuning, tool usage, and more; the proposed framework is applied to urban and spatial planning but there are a lot of insights and practical tips that apply to other domains.

บทคัดย่อ(Abstract)

  • ในด้านการวางผังเมือง โมเดลภาษาขนาดใหญ่แบบอเนกประสงค์มักประสบปัญหาในการตอบสนองความต้องการเฉพาะของนักวางแผน งานอย่างการสร้างข้อความด้านการวางผังเมือง การค้นคืนข้อมูลที่เกี่ยวข้อง และการประเมินเอกสารแผน ล้วนมีความท้าทายเฉพาะตัว เพื่อเพิ่มประสิทธิภาพให้ผู้เชี่ยวชาญด้านเมืองและก้าวข้ามอุปสรรคเหล่านี้ จึงมีการนำเสนอ PlanGPT ซึ่งเป็นโมเดลภาษาขนาดใหญ่เฉพาะทางตัวแรกที่ออกแบบมาสำหรับการวางผังเมืองและการวางแผนเชิงพื้นที่โดยเฉพาะ PlanGPT ได้รับการพัฒนาผ่านความร่วมมือกับสถาบันต่าง ๆ เช่น Chinese Academy of Urban Planning โดยใช้เฟรมเวิร์กการค้นคืนฐานข้อมูลภายในแบบปรับแต่งเฉพาะ การปรับจูนละเอียดโมเดลตั้งต้นตามโดเมน และความสามารถด้านเครื่องมือขั้นสูง จากการทดสอบเชิงประจักษ์พบว่า PlanGPT มีประสิทธิภาพในระดับสูง พร้อมมอบคำตอบคุณภาพเยี่ยมที่ปรับให้ตรงกับความซับซ้อนของการวางผังเมืองได้อย่างแม่นยำ
    > In the field of urban planning, general-purpose large language models often struggle to meet the specific needs of planners. Tasks like generating urban planning texts, retrieving related information, and evaluating planning documents pose unique challenges. To enhance the efficiency of urban professionals and overcome these obstacles, we introduce PlanGPT, the first specialized Large Language Model tailored for urban and spatial planning. Developed through collaborative efforts with institutions like the Chinese Academy of Urban Planning, PlanGPT leverages a customized local database retrieval framework, domain-specific fine-tuning of base models, and advanced tooling capabilities. Empirical tests demonstrate that PlanGPT has achieved advanced performance, delivering responses of superior quality precisely tailored to the intricacies of urban planning.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2402.19273

อ่านเพิ่มเติม

https://x.com/omarsar0/status/1763424166890377691


ต้นฉบับ

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-983


บทความนี้สรุปโดยโมเดล GPT จึงอาจมีบางส่วนที่คลาดเคลื่อน โปรดดูต้นฉบับที่ลิงก์ด้านล่างประกอบด้วย! หากพบเนื้อหาที่อ่านแล้วไม่ลื่นไหลหรือไม่ถูกต้อง ขอความกรุณาแจ้งในคอมเมนต์ด้วยครับ/ค่ะ.

⚠️โฆษณา⚠️: บทความนี้ที่สรุปโดย ชุมชนผู้ใช้ PyTorch เกาหลี มีประโยชน์ไหม? หาก สมัครสมาชิก เราจะส่งบทความสำคัญทางอีเมลให้คุณ! (ค่าเริ่มต้นคือ Weekly แต่ เปลี่ยนเป็น Daily ได้)

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น