• บทความนี้เป็นการแปลอัตโนมัติของบทความเกี่ยวกับงานวิจัย ML ที่ DAIR.AI เผยแพร่ทุกสัปดาห์

  • แนวโน้มสำคัญที่สังเกตได้จากงานวิจัยที่เผยแพร่ในสัปดาห์นี้คือมีงานจำนวนมากที่มุ่งเน้นไปที่การประมวลผลภาษาธรรมชาติ (NLP) และการเรียนรู้แบบเสริมกำลัง (RL) ตัวอย่างเช่น "GPT-4o", "Fine-tuning and Hallucinations" และ "Zero-shot Tokenizer Transfer" ครอบคลุมเทคโนโลยีและระเบียบวิธีล่าสุดที่เกี่ยวข้องกับการประมวลผลภาษาธรรมชาติ โดยเฉพาะการสำรวจความก้าวหน้าในด้านโมเดลเชิงกำเนิดและการถ่ายโอนการเรียนรู้ของโทเคไนเซอร์ นอกจากนี้ "RLHF Workflow" ยังนำเสนองานวิจัยเกี่ยวกับการออกแบบกระบวนการเรียนรู้ที่มีประสิทธิภาพโดยใช้การเรียนรู้แบบเสริมกำลัง ซึ่งอาจมองได้ว่าเป็นความพยายามในการขยายศักยภาพการประยุกต์ใช้จริงของสาขา RL

  • แนวโน้มเหล่านี้สะท้อนให้เห็นว่าความสำคัญของการประมวลผลภาษาธรรมชาติและการเรียนรู้แบบเสริมกำลัง ซึ่งมีบทบาทสำคัญต่อความก้าวหน้าของเทคโนโลยีปัญญาประดิษฐ์ โดยเฉพาะแมชชีนเลิร์นนิงและดีปเลิร์นนิง กำลังเพิ่มสูงขึ้นอย่างต่อเนื่อง ในช่วงไม่กี่ปีที่ผ่านมา พร้อมกับการเติบโตอย่างก้าวกระโดดของโมเดลสร้างภาษาประเภท GPT ขอบเขตการใช้งานของโมเดลเหล่านี้ก็ขยายตัวอย่างต่อเนื่อง ส่งผลให้นักวิจัยให้ความสนใจกับการปรับแต่งโมเดลเหล่านี้ให้ละเอียดขึ้น และการวิจัยเพื่อชดเชยจุดอ่อนของโมเดลเดิมมากยิ่งขึ้น ขณะเดียวกัน การเรียนรู้แบบเสริมกำลังได้กลายเป็นเทคนิคสำคัญในการเพิ่มประสิทธิภาพกระบวนการตัดสินใจและยกระดับความสามารถในการเรียนรู้ในสภาพแวดล้อมที่ซับซ้อน ซึ่งสอดคล้องกับแนวโน้มการวิจัยในปัจจุบันที่มุ่งเพิ่มประสิทธิภาพการเรียนรู้ให้สูงสุด

  • ดังนั้น งานวิจัยที่เผยแพร่ในสัปดาห์นี้จึงแสดงให้เห็นอย่างชัดเจนว่าความพยายามด้านการวิจัยและพัฒนาในแวดวงวิชาการและอุตสาหกรรมกำลังดำเนินไปในทิศทางใด การประมวลผลภาษาธรรมชาติเป็นแกนหลักของเทคโนโลยีที่ทำให้ปฏิสัมพันธ์ระหว่างมนุษย์กับเครื่องจักรเป็นธรรมชาติและมีประสิทธิภาพมากขึ้น ส่วนการเรียนรู้แบบเสริมกำลังก็มีบทบาทสำคัญในการเพิ่มประสิทธิภาพกระบวนการตัดสินใจที่ตั้งอยู่บนปฏิสัมพันธ์ดังกล่าว แนวโน้มการวิจัยเหล่านี้จะเป็นตัวชี้วัดสำคัญที่บ่งบอกทิศทางอนาคตของเทคโนโลยีปัญญาประดิษฐ์ซึ่งจะยังคงพัฒนาต่อไป


GPT-4o

เกริ่นนำ

โมเดลใหม่ที่มีความสามารถด้านการให้เหตุผลแบบมัลติโหมด พร้อมรองรับเสียง ภาพ และข้อความแบบเรียลไทม์ สามารถรับอินพุตเป็นการผสมกันของข้อความ เสียง ภาพ และวิดีโอในรูปแบบใดก็ได้ เพื่อสร้างเอาต์พุตเป็นการผสมกันของข้อความ เสียง และภาพ โดยมีรายงานว่าผ่าน API นั้นทำงานได้เร็วกว่าและมีต้นทุนต่ำกว่าถึง 50% ขณะที่ให้ประสิทธิภาพเทียบเท่า GPT-4 Turbo

A new model with multimodal reasoning capabilities with real-time support across audio, vision, and text; it can accept as input any combination of text, audio, image, and video to generate combinations of text, audio, and image outputs; it’s reported to match GPT-4 Turbo performance while being 50% much faster and cheaper via APIs.

ลิงก์ที่เกี่ยวข้อง

https://openai.com/index/hello-gpt-4o/

อ่านเพิ่มเติม

https://discuss.pytorch.kr/t/openai-gpt-4o-gpt-4o/4362

https://x.com/OpenAI/status/1790072174117613963


Gemini 1.5 Flash / Gemini 1.5 Flash

แนะนำงานวิจัย

โมเดล transformer decoder แบบน้ำหนักเบาที่มีหน้าต่างคอนเท็กซ์ขนาด 2M พร้อมความสามารถแบบมัลติโหมด ถูกออกแบบมาเพื่อประสิทธิภาพ และให้การสร้างเอาต์พุตได้เร็วที่สุดในบรรดาทุกโมเดลสำหรับหลายภาษาที่ใช้ในการประเมิน โดยรวมแล้ว Gemini 1.5 Flash ให้ประสิทธิภาพเหนือกว่า Gemini 1.0 Pro อย่างสม่ำเสมอ และยังแสดงประสิทธิภาพในระดับใกล้เคียงกับ 1.0 Ultra ในหลายเบนช์มาร์ก

A lightweight transformer decoder model with a 2M context window with multimodal capabilities; it is designed for efficiency and yields the fastest output generation of all models on several evaluated languages; overall, Gemini 1.5 Flash performs uniformly better compared to Gemini 1.0 Pro and even performs at a similar level to 1.0 Ultra on several benchmarks.

บทคัดย่อ (Abstract)

รายงานนี้แนะนำตระกูลโมเดล Gemini 1.5 ซึ่งเป็นตัวแทนของโมเดลมัลติโหมดรุ่นถัดไปที่มีประสิทธิภาพด้านการคำนวณสูง สามารถจดจำและให้เหตุผลกับข้อมูลรายละเอียดระดับลึกจาก context token หลายล้านโทเค็นได้ รวมถึงเอกสารยาวหลายฉบับและวิดีโอกับเสียงที่มีความยาวหลายชั่วโมง ตระกูลนี้ประกอบด้วยโมเดลใหม่ 2 รุ่น ได้แก่ (1) Gemini 1.5 Pro ที่อัปเดตแล้ว ซึ่งเหนือกว่าเวอร์ชันเดือนกุมภาพันธ์ในความสามารถและ benchmark ส่วนใหญ่ และ (2) Gemini 1.5 Flash ซึ่งเป็นรุ่นที่เบากว่าซึ่งออกแบบมาเพื่อประสิทธิภาพโดยลดการถดถอยด้านคุณภาพให้น้อยที่สุด โมเดล Gemini 1.5 ทำ recall ได้เกือบสมบูรณ์แบบในงานค้นคืนแบบ long-context ข้ามหลายโมดาลิตี ปรับปรุงประสิทธิภาพล้ำสมัยใน long-document QA, long-video QA และ long-context ASR และมีประสิทธิภาพล้ำสมัยเทียบเท่าหรือเหนือกว่า Gemini 1.0 Ultra บน benchmark ที่หลากหลาย จากการศึกษาขีดจำกัดของความสามารถด้าน long-context ของ Gemini 1.5 พบว่าการทำนายโทเค็นถัดไปและการค้นคืนที่เกือบสมบูรณ์แบบ (>99%) ยังคงดีขึ้นต่อเนื่องได้อย่างน้อยถึง 10M tokens ซึ่งนับเป็นการก้าวกระโดดข้ามรุ่นเหนือโมเดลที่มีอยู่ เช่น Claude 3.0 (200k) และ GPT-4 Turbo (128k) สุดท้าย รายงานนี้ยังเน้นกรณีใช้งานจริง เช่น การที่ Gemini 1.5 ทำงานร่วมกับผู้เชี่ยวชาญเพื่อทำงานให้เสร็จ โดยช่วยประหยัดเวลาได้ 26 ถึง 75% ใน 10 หมวดอาชีพที่แตกต่างกัน ตลอดจนความสามารถใหม่ที่น่าทึ่งบริเวณแนวหน้าของ large language model โดยเมื่อได้รับคู่มือไวยากรณ์ของ Kalamang ซึ่งเป็นภาษาที่มีผู้ใช้ทั่วโลกไม่ถึง 200 คน โมเดลสามารถเรียนรู้ที่จะแปลภาษาอังกฤษเป็น Kalamang ได้ในระดับใกล้เคียงกับมนุษย์ที่เรียนจากเนื้อหาเดียวกัน

In this report, we introduce the Gemini 1.5 family of models, representing the next generation of highly compute-efficient multimodal models capable of recalling and reasoning over fine-grained information from millions of tokens of context, including multiple long documents and hours of video and audio. The family includes two new models: (1) an updated Gemini 1.5 Pro, which exceeds the February version on the great majority of capabilities and benchmarks; (2) Gemini 1.5 Flash, a more lightweight variant designed for efficiency with minimal regression in quality. Gemini 1.5 models achieve near-perfect recall on long-context retrieval tasks across modalities, improve the state-of-the-art in long-document QA, long-video QA and long-context ASR, and match or surpass Gemini 1.0 Ultra’s state-of-the-art performance across a broad set of benchmarks. Studying the limits of Gemini 1.5’s long-context ability, we find continued improvement in next-token prediction and near-perfect retrieval (>99%) up to at least 10M tokens, a generational leap over existing models such as Claude 3.0 (200k) and GPT-4 Turbo (128k). Finally, we highlight real-world use cases, such as Gemini 1.5 collaborating with professions on their completing their tasks achieving 26 to 75% time savings across 10 different job categories, as well as surprising new capabilities of large language models at the frontier; when given a grammar manual for Kalamang, a language with fewer than 200 speakers worldwide, the model learns to translate English to Kalamang at a similar level to a person who learned from the same content.

ลิงก์งานวิจัย

https://storage.googleapis.com/deepmind-media/gemini/…

อ่านเพิ่มเติม

https://discuss.pytorch.kr/t/gn-google-i-o-2024/4371

https://x.com/OriolVinyalsML/status/1791521517211107515


Veo

แนะนำ

โมเดลสร้างวิดีโอที่ทรงความสามารถที่สุดของ Google DeepMind สามารถสร้างวิดีโอคุณภาพสูงความละเอียด 1080p ที่ยาวเกิน 1 นาที รองรับการแก้ไขแบบ masked editing บนวิดีโอ และยังสามารถสร้างวิดีโอจากภาพที่ป้อนเข้าพร้อมข้อความได้ อีกทั้งยังสามารถขยายคลิปวิดีโอให้ยาวเกิน 60 วินาทีโดยยังคงความสอดคล้องไว้ผ่าน latent diffusion transformer

Google Deepmind’s most capable video generation model generates high-quality, 1080p resolution videos beyond 1 minute; it supports masked editing on videos and can also generate videos with an input image along with text; the model can extend video clips to 60 seconds and more while keeping consistency with its latent diffusion transformer.

ลิงก์ที่เกี่ยวข้อง

https://deepmind.google/technologies/veo/

อ่านเพิ่มเติม

https://discuss.pytorch.kr/t/veo-google-deepmind/4385

https://x.com/GoogleDeepMind/status/1790435824598716704


Chameleon: โมเดลพื้นฐานแบบ early-fusion ผสมหลายโมดาลิตี / Chameleon: Mixed-Modal Early-Fusion Foundation Models

แนะนำงานวิจัย

ตระกูลโมเดลผสมหลายโมดาลิตีแบบอิงโทเค็นสำหรับการสร้างภาพและข้อความในลำดับใดก็ได้ รายงานประสิทธิภาพล้ำสมัยในงาน image captioning และเหนือกว่า Llama 2 ในงานข้อความล้วน อีกทั้งยังแข่งขันได้กับ Mixtral 8x7B และ Gemini-Pro และยังทำผลงานเหนือกว่า Gemini Pro และ GPT-4V ในการประเมินการสร้างผสมหลายโมดาลิตีแบบ long-form ชุดใหม่

A family of token-based mixed-modal models for generating images and text in any arbitrary sequence; reports state-of-the-art performance in image captioning and outperforms Llama 2 in text-only tasks and is also competitive with Mixtral 8x7B and Gemini-Pro; exceeds the performance of Gemini Pro and GPT-4V on a new long-form mixed-modal generation evaluation.

บทคัดย่อ(Abstract)

ขอแนะนำ Chameleon ตระกูลโมเดลผสมหลายโมดัลแบบโทเคนที่ใช้ early fusion ซึ่งสามารถเข้าใจและสร้างทั้งภาพและข้อความได้ในลำดับใดก็ได้ตามต้องการ โดยอธิบายถึงแนวทางการฝึกที่มีเสถียรภาพตั้งแต่ต้น สูตรการจัดแนว (alignment) และการกำหนดพารามิเตอร์สถาปัตยกรรมที่ปรับให้เหมาะกับการตั้งค่าแบบโทเคนผสมหลายโมดัลที่ใช้ early fusion ประเมินโมเดลบนงานที่ครอบคลุมหลากหลาย ทั้ง visual question answering, image captioning, text generation, image generation และการสร้างเนื้อหาแบบผสมหลายโมดัลระยะยาว Chameleon แสดงความสามารถที่กว้างและใช้งานได้ทั่วไป รวมถึงทำผลงานระดับล้ำสมัยในงาน image captioning เหนือกว่า Llama-2 ในงานข้อความล้วน ขณะเดียวกันก็แข่งขันได้กับโมเดลอย่าง Mixtral 8x7B และ Gemini-Pro และยังทำ image generation ที่ไม่ใช่เรื่องพื้นฐานได้ภายในโมเดลเดียว นอกจากนี้ ในการประเมินใหม่ด้านการสร้างแบบผสมหลายโมดัลระยะยาว ซึ่งพรอมป์ต์หรือผลลัพธ์มีลำดับที่ผสมทั้งภาพและข้อความ ผลการตัดสินโดยมนุษย์ชี้ว่า Chameleon มีประสิทธิภาพทัดเทียมหรือเหนือกว่าโมเดลที่ใหญ่กว่ามากอย่าง Gemini Pro และ GPT-4V Chameleon นับเป็นก้าวสำคัญของการสร้างแบบจำลองเอกสารมัลติโมดัลแบบรวมเป็นหนึ่งเดียว

We present Chameleon, a family of early-fusion token-based mixed-modal models capable of understanding and generating images and text in any arbitrary sequence. We outline a stable training approach from inception, an alignment recipe, and an architectural parameterization tailored for the early-fusion, token-based, mixed-modal setting. The models are evaluated on a comprehensive range of tasks, including visual question answering, image captioning, text generation, image generation, and long-form mixed modal generation. Chameleon demonstrates broad and general capabilities, including state-of-the-art performance in image captioning tasks, outperforms Llama-2 in text-only tasks while being competitive with models such as Mixtral 8x7B and Gemini-Pro, and performs non-trivial image generation, all in a single model. It also matches or exceeds the performance of much larger models, including Gemini Pro and GPT-4V, according to human judgments on a new long-form mixed-modal generation evaluation, where either the prompt or outputs contain mixed sequences of both images and text. Chameleon marks a significant step forward in a unified modeling of full multimodal documents.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2405.09818

อ่านเพิ่มเติม

https://x.com/AIatMeta/status/1791263344714014733


การ fine-tune LLM ด้วยความรู้ใหม่ส่งเสริมให้เกิดอาการหลอนหรือไม่? / Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?

แนะนำบทความวิจัย

ศึกษาผลกระทบของการ fine-tune ด้วยความรู้ใหม่ที่มีต่อแนวโน้มการเกิด hallucination ของ LLM โดยตั้งค่าตัวอย่างสำหรับการ fine-tune ที่มีความรู้ใหม่รวมอยู่ด้วย และแสดงให้เห็นว่า LLM ประสบความยากลำบากในการรับความรู้เชิงข้อเท็จจริงใหม่ผ่านการ fine-tune อีกทั้งยังพบว่ายิ่งเรียนรู้ความรู้ใหม่มากขึ้น โมเดลก็ยิ่งมีแนวโน้มเกิด hallucination เพิ่มขึ้น

Studies the impact of fine-tuning on new knowledge on the hallucination tendencies of LLMs; the setup includes fine-tuning examples that include new knowledge; shows that LLMs struggle to acquire new factual knowledge via fine-tuning; also finds that as new knowledge is learned it increases the model’s tendency to hallucinate.

บทคัดย่อ(Abstract)

เมื่อ large language models ถูกปรับให้สอดคล้องผ่าน supervised fine-tuning โมเดลอาจได้พบกับข้อมูลข้อเท็จจริงใหม่ที่ไม่ได้รับมาจากการ pre-training ในกรณีนี้ มักมีการคาดกันว่าโมเดลอาจเรียนรู้พฤติกรรมการ hallucinate คำตอบที่ไม่ตรงข้อเท็จจริงได้ เพราะโมเดลถูกฝึกให้สร้างข้อเท็จจริงที่ไม่ได้ยึดโยงกับความรู้เดิมที่มีอยู่ก่อน งานวิจัยนี้ศึกษาผลกระทบของการได้รับความรู้ใหม่ลักษณะดังกล่าวต่อความสามารถของโมเดลที่ผ่านการ fine-tune ในการใช้ประโยชน์จากความรู้เดิมของตน เพื่อจุดประสงค์นี้ ผู้วิจัยได้ออกแบบการตั้งค่าที่ควบคุมตัวแปร โดยมุ่งเน้นที่ closed-book QA และปรับสัดส่วนของตัวอย่าง fine-tuning ที่นำเสนอความรู้ใหม่ เราแสดงให้เห็นว่า large language models มีความยากลำบากในการรับความรู้เชิงข้อเท็จจริงใหม่ผ่านการ fine-tune เนื่องจากตัวอย่าง fine-tuning ที่แนะนำความรู้ใหม่ถูกเรียนรู้ช้ากว่าตัวอย่างที่สอดคล้องกับความรู้เดิมของโมเดลอย่างมีนัยสำคัญ อย่างไรก็ตาม เรายังพบว่าเมื่อในที่สุดตัวอย่างที่มีความรู้ใหม่เหล่านี้ถูกเรียนรู้แล้ว แนวโน้มการเกิด hallucination ของโมเดลจะเพิ่มขึ้นอย่างเป็นเส้นตรง เมื่อนำผลลัพธ์ทั้งหมดมาพิจารณาร่วมกัน งานวิจัยนี้ชี้ให้เห็นถึงความเสี่ยงของการนำความรู้เชิงข้อเท็จจริงใหม่เข้าสู่โมเดลผ่านการ fine-tune และสนับสนุนมุมมองที่ว่า large language models ส่วนใหญ่ได้รับความรู้เชิงข้อเท็จจริงผ่านการ pre-training ขณะที่การ fine-tune ทำหน้าที่สอนให้โมเดลใช้ความรู้นั้นได้อย่างมีประสิทธิภาพมากขึ้น

When large language models are aligned via supervised fine-tuning, they may encounter new factual information that was not acquired through pre-training. It is often conjectured that this can teach the model the behavior of hallucinating factually incorrect responses, as the model is trained to generate facts that are not grounded in its pre-existing knowledge. In this work, we study the impact of such exposure to new knowledge on the capability of the fine-tuned model to utilize its pre-existing knowledge. To this end, we design a controlled setup, focused on closed-book QA, where we vary the proportion of the fine-tuning examples that introduce new knowledge. We demonstrate that large language models struggle to acquire new factual knowledge through fine-tuning, as fine-tuning examples that introduce new knowledge are learned significantly slower than those consistent with the model's knowledge. However, we also find that as the examples with new knowledge are eventually learned, they linearly increase the model's tendency to hallucinate. Taken together, our results highlight the risk in introducing new factual knowledge through fine-tuning, and support the view that large language models mostly acquire factual knowledge through pre-training, whereas fine-tuning teaches them to use it more efficiently.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2405.05904

อ่านเพิ่มเติม

https://x.com/arankomatsuzaki/status/1788859706187882960


การถ่ายโอนโทเคไนเซอร์แบบ Zero-Shot / Zero-Shot Tokenizer Transfer

แนะนำงานวิจัย

ฝึกไฮเปอร์เน็ตเวิร์กที่รับโทเคไนเซอร์เป็นอินพุตและคาดการณ์ embedding ที่สอดคล้องกัน จากนั้นสาธิตการทำให้ทั่วไปไปยังโทเคไนเซอร์ใหม่ผ่านทั้ง encoder และ decoder LLM และรายงานว่าวิธีนี้ให้ประสิทธิภาพใกล้เคียงกับโมเดลต้นฉบับในงานหลายภาษาและงานเขียนโค้ด พร้อมทั้งลดความยาวของลำดับที่ถูกโทเคไนซ์

Trains a hypernetwork taking a tokenizer as input and predicting the corresponding embeddings; it demonstrates generalization to new tokenizers both with encoder and decoder LLMs; reports that the method achieves performance close to the original models' performance in cross-lingual and coding tasks while reducing the length of the tokenized sequence.

บทคัดย่อของงานวิจัย (Abstract)

โมเดลภาษา (LM) ถูกผูกติดกับโทเคไนเซอร์ ซึ่งทำหน้าที่แมปข้อความดิบให้เป็นลำดับของรายการคำศัพท์ (โทเคน) ตัวอย่างเช่น LM ที่ฝึกโดยเน้นภาษาอังกฤษเป็นหลักอาจยังทำงานได้ดีในภาษาธรรมชาติอื่นและภาษาโปรแกรม แต่ประสิทธิภาพอาจลดลงอย่างมากเพราะใช้โทเคไนเซอร์ที่ยึดภาษาอังกฤษเป็นศูนย์กลาง เพื่อลดปัญหานี้ เราควรสามารถสลับโทเคไนเซอร์ดั้งเดิมของ LM กับโทเคไนเซอร์ใดก็ได้แบบ on the fly โดยไม่ทำให้ประสิทธิภาพลดลง ดังนั้น งานนี้จึงนิยามปัญหาใหม่ชื่อ Zero-Shot Tokenizer Transfer (ZeTT) ความท้าทายหลักของ ZeTT คือการหา embedding สำหรับโทเคนในคลังคำศัพท์ของโทเคไนเซอร์ใหม่ เนื่องจากฮิวริสติกเดิมสำหรับการเริ่มต้น embedding มักทำผลงานได้เพียงระดับเดาสุ่มในบริบทของ ZeTT เราจึงเสนอวิธีแก้ใหม่โดยฝึกไฮเปอร์เน็ตเวิร์กที่รับโทเคไนเซอร์เป็นอินพุตและทำนาย embedding ที่สอดคล้องกัน เราแสดงเชิงประจักษ์ว่าไฮเปอร์เน็ตเวิร์กนี้สามารถทำให้ทั่วไปไปยังโทเคไนเซอร์ใหม่ได้ทั้งกับ encoder (เช่น XLM-R) และ decoder LLM (เช่น Mistral-7B) วิธีของเราให้ประสิทธิภาพใกล้เคียงกับโมเดลต้นฉบับในงานข้ามภาษาและงานเขียนโค้ด ขณะเดียวกันก็ลดความยาวของลำดับที่ถูกโทเคไนซ์ได้อย่างชัดเจน เรายังพบว่าช่องว่างที่เหลือสามารถปิดได้อย่างรวดเร็วด้วยการฝึกต่อเนื่องบนโทเคนน้อยกว่า 1B สุดท้าย เราแสดงให้เห็นว่า ZeTT hypernetwork ที่ฝึกสำหรับ (L)LM พื้นฐานยังสามารถนำไปใช้กับเวอร์ชันที่ fine-tune แล้วได้โดยไม่ต้องฝึกเพิ่ม โดยรวมแล้ว ผลลัพธ์ของเราถือเป็นความก้าวหน้าสำคัญในการแยก LM ออกจากโทเคไนเซอร์

Language models (LMs) are bound to their tokenizer, which maps raw text to a sequence of vocabulary items (tokens). This restricts their flexibility: for example, LMs trained primarily on English may still perform well in other natural and programming languages, but have vastly decreased efficiency due to their English-centric tokenizer. To mitigate this, we should be able to swap the original LM tokenizer with an arbitrary one, on the fly, without degrading performance. Hence, in this work we define a new problem: Zero-Shot Tokenizer Transfer (ZeTT). The challenge at the core of ZeTT is finding embeddings for the tokens in the vocabulary of the new tokenizer. Since prior heuristics for initializing embeddings often perform at chance level in a ZeTT setting, we propose a new solution: we train a hypernetwork taking a tokenizer as input and predicting the corresponding embeddings. We empirically demonstrate that the hypernetwork generalizes to new tokenizers both with encoder (e.g., XLM-R) and decoder LLMs (e.g., Mistral-7B). Our method comes close to the original models' performance in cross-lingual and coding tasks while markedly reducing the length of the tokenized sequence. We also find that the remaining gap can be quickly closed by continued training on less than 1B tokens. Finally, we show that a ZeTT hypernetwork trained for a base (L)LM can also be applied to fine-tuned variants without extra training. Overall, our results make substantial strides toward detaching LMs from their tokenizer.

ลิงก์งานวิจัย

https://arxiv.org/abs/2405.07883

อ่านเพิ่มเติม

https://x.com/bminixhofer/status/1790267652587258343


WavCraft: การตัดต่อและสร้างเสียงด้วยโมเดลภาษาขนาดใหญ่ / WavCraft: Audio Editing and Generation with Large Language Models

แนะนำงานวิจัย

ใช้ประโยชน์จาก LLM เพื่อเชื่อมต่อโมเดลเฉพาะงานสำหรับการสร้างและตัดต่อคอนเทนต์เสียง แยกคำสั่งของผู้ใช้ออกเป็นหลายงาน และจัดการแต่ละงานร่วมกับโมดูลที่เหมาะสม ช่วยให้ผู้ใช้โต้ตอบและสร้างคอนเทนต์เสียงได้โดยไม่ต้องใช้คำสั่งที่ชัดเจน

Leverages LLMs to connect task-specific models for audio content creation and editing; decomposes users' instructions into several tasks and tackles each task collaboratively with the particular module; it can enable users to interact and produce audio content without explicit commands

บทคัดย่อของงานวิจัย (Abstract)

ขอแนะนำ WavCraft ซึ่งเป็นระบบแบบบูรณาการที่ใช้ประโยชน์จาก large language models (LLM) เพื่อเชื่อมต่อโมเดลเฉพาะงานที่หลากหลายสำหรับการสร้างและตัดต่อคอนเทนต์เสียง โดยเฉพาะอย่างยิ่ง WavCraft จะอธิบายเนื้อหาของไฟล์เสียงดิบด้วยภาษาธรรมชาติ และปรับพรอมป์ต์ให้กับ LLM โดยอิงจากคำอธิบายเสียงและคำขอของผู้ใช้ WavCraft ใช้ความสามารถด้าน in-context learning ของ LLM เพื่อแยกคำสั่งของผู้ใช้ออกเป็นหลายงาน และจัดการแต่ละงานร่วมกับโมดูลที่เหมาะสม ผ่านการแยกงานร่วมกับชุดโมเดลเฉพาะงาน WavCraft สามารถสร้างหรือตัดต่อคอนเทนต์เสียงตามคำสั่งอินพุตได้อย่างมีรายละเอียดและเหตุผลรองรับมากขึ้น ช่วยให้ผู้ใช้ควบคุมได้สะดวก นอกจากนี้ WavCraft ยังสามารถทำงานร่วมกับผู้ใช้ผ่านการโต้ตอบแบบสนทนา และยังสามารถสร้างคอนเทนต์เสียงได้แม้ไม่มีคำสั่งจากผู้ใช้อย่างชัดเจน ผลการทดลองแสดงให้เห็นว่า WavCraft ให้ประสิทธิภาพดีกว่าวิธีการเดิม โดยเฉพาะเมื่อต้องปรับแต่งบริเวณเฉพาะส่วนของคลิปเสียง นอกจากนี้ WavCraft ยังสามารถตัดต่อและสร้างคอนเทนต์เสียงบนพื้นฐานของไฟล์บันทึกเสียงอินพุตตามคำสั่งที่ซับซ้อนได้ ช่วยสนับสนุนผู้ผลิตเสียงในแอปพลิเคชันที่หลากหลายยิ่งขึ้น สามารถดูการติดตั้งใช้งานและเดโมได้ที่นี่ (https://github.com/JinhuaLiang/WavCraft)

เราขอแนะนำ WavCraft ซึ่งเป็นระบบแบบบูรณาการที่ใช้ประโยชน์จาก large language models (LLMs) เพื่อเชื่อมต่อโมเดลเฉพาะงานที่หลากหลายสำหรับการสร้างและตัดต่อคอนเทนต์เสียง โดยเฉพาะอย่างยิ่ง WavCraft จะอธิบายเนื้อหาของไฟล์เสียงดิบด้วยภาษาธรรมชาติ และกระตุ้น LLM โดยอิงจากคำอธิบายเสียงและคำขอของผู้ใช้ WavCraft ใช้ความสามารถด้าน in-context learning ของ LLM เพื่อแยกคำสั่งของผู้ใช้ออกเป็นหลายงาน และจัดการแต่ละงานร่วมกับโมดูลที่เกี่ยวข้อง ผ่านการแยกงานร่วมกับชุดโมเดลเฉพาะงาน WavCraft ปฏิบัติตามคำสั่งอินพุตเพื่อสร้างหรือตัดต่อคอนเทนต์เสียงที่มีรายละเอียดและเหตุผลรองรับมากขึ้น ช่วยให้ผู้ใช้ควบคุมได้สะดวก นอกจากนี้ WavCraft ยังสามารถทำงานร่วมกับผู้ใช้ผ่านการโต้ตอบแบบสนทนา และแม้แต่สร้างคอนเทนต์เสียงได้โดยไม่มีคำสั่งจากผู้ใช้อย่างชัดเจน การทดลองแสดงให้เห็นว่า WavCraft ให้ประสิทธิภาพดีกว่าวิธีการที่มีอยู่ โดยเฉพาะเมื่อปรับแต่งบริเวณเฉพาะส่วนของคลิปเสียง ยิ่งไปกว่านั้น WavCraft ยังสามารถปฏิบัติตามคำสั่งที่ซับซ้อนเพื่อตัดต่อและสร้างคอนเทนต์เสียงบนไฟล์บันทึกที่ป้อนเข้า ช่วยอำนวยความสะดวกให้ผู้ผลิตเสียงในแอปพลิเคชันที่กว้างขวางยิ่งขึ้น สามารถดูการติดตั้งใช้งานและเดโมของเราได้ที่ https://github.com/JinhuaLiang/WavCraft.

ลิงก์บทความ

https://arxiv.org/abs/2403.09527v3

อ่านเพิ่มเติม

https://github.com/JinhuaLiang/WavCraft


เวิร์กโฟลว์ RLHF: จากการสร้างแบบจำลองรางวัลสู่ Online RLHF / RLHF Workflow: From Reward Modeling to Online RLHF

แนะนำบทความ

นำเสนอสูตรที่ทำซ้ำได้ง่ายสำหรับ online iterative RLHF และอธิบายทั้งมุมมองเชิงทฤษฎี หลักการของอัลกอริทึม และการติดตั้งใช้งานจริงของ online iterative RLHF

ให้สูตรที่ทำซ้ำได้ง่ายสำหรับ online iterative RLHF; อภิปรายมุมมองเชิงทฤษฎี หลักการของอัลกอริทึมของ online iterative RLHF และการติดตั้งใช้งานจริง

บทคัดย่อ (Abstract)

รายงานทางเทคนิคฉบับนี้นำเสนอเวิร์กโฟลว์ของ Online Iterative Reinforcement Learning from Human Feedback (RLHF) ซึ่งในงานวรรณกรรมเกี่ยวกับ large language model (LLM) ระยะหลังมีการรายงานอย่างกว้างขวางว่าทำผลงานได้ดีกว่าแบบออฟไลน์อย่างมาก อย่างไรก็ตาม โปรเจกต์ RLHF แบบโอเพนซอร์สที่มีอยู่ยังคงจำกัดอยู่กับสภาพแวดล้อมการเรียนรู้แบบออฟไลน์เป็นส่วนใหญ่ รายงานทางเทคนิคฉบับนี้มีเป้าหมายเพื่อเติมเต็มช่องว่างดังกล่าว และนำเสนอสูตรอย่างละเอียดที่สามารถทำซ้ำได้ง่ายสำหรับ online iterative RLHF โดยเฉพาะอย่างยิ่ง เนื่องจากโดยทั่วไปการรับ human feedback แบบออนไลน์เป็นไปได้ยากสำหรับชุมชนโอเพนซอร์สที่มีทรัพยากรจำกัด เราจึงเริ่มจากการสร้าง preference model โดยใช้ชุดข้อมูลโอเพนซอร์สที่หลากหลาย และใช้ proxy preference model ที่สร้างขึ้นเพื่อประมาณค่า human feedback จากนั้นจึงอภิปรายอินไซต์เชิงทฤษฎีและหลักการเชิงอัลกอริทึมเบื้องหลัง online iterative RLHF ก่อนจะตามด้วยการนำไปใช้งานจริงอย่างละเอียด LLM ที่ฝึกแล้วของเรา SFR-Iterative-DPO-LLaMA-3-8B-R ทำผลงานได้น่าประทับใจทั้งบนเบนช์มาร์กแชตบอต LLM เช่น AlpacaEval-2, Arena-Hard และ MT-Bench รวมถึงเบนช์มาร์กเชิงวิชาการอื่น ๆ เช่น HumanEval และ TruthfulQA เราแสดงให้เห็นว่า supervised fine-tuning (SFT) และ iterative RLHF สามารถบรรลุประสิทธิภาพระดับ state-of-the-art ได้ด้วยชุดข้อมูลโอเพนซอร์สทั้งหมด นอกจากนี้ เรายังเปิดให้เข้าถึงโมเดล ชุดข้อมูลที่คัดสรรแล้ว และคู่มือโค้ดแบบครบถ้วนทีละขั้นตอนแบบสาธารณะ โปรดดูรายละเอียดเพิ่มเติมที่ https://github.com/RLHFlow/RLHF-Reward-Modeling และ https://github.com/RLHFlow/Online-RLHF

We present the workflow of Online Iterative Reinforcement Learning from Human Feedback (RLHF) in this technical report, which is widely reported to outperform its offline counterpart by a large margin in the recent large language model (LLM) literature. However, existing open-source RLHF projects are still largely confined to the offline learning setting. In this technical report, we aim to fill in this gap and provide a detailed recipe that is easy to reproduce for online iterative RLHF. In particular, since online human feedback is usually infeasible for open-source communities with limited resources, we start by constructing preference models using a diverse set of open-source datasets and use the constructed proxy preference model to approximate human feedback. Then, we discuss the theoretical insights and algorithmic principles behind online iterative RLHF, followed by a detailed practical implementation. Our trained LLM, SFR-Iterative-DPO-LLaMA-3-8B-R, achieves impressive performance on LLM chatbot benchmarks, including AlpacaEval-2, Arena-Hard, and MT-Bench, as well as other academic benchmarks such as HumanEval and TruthfulQA. We have shown that supervised fine-tuning (SFT) and iterative RLHF can obtain state-of-the-art performance with fully open-source datasets. Further, we have made our models, curated datasets, and comprehensive step-by-step code guidebooks publicly available. Please refer to https://github.com/RLHFlow/RLHF-Reward-Modeling and https://github.com/RLHFlow/Online-RLHF for more detailed information.

ลิงก์งานวิจัย

https://arxiv.org/abs/2405.07863v1

อ่านเพิ่มเติม

https://github.com/RLHFlow/RLHF-Reward-Modeling และ https://github.com/RLHFlow/Online-RLHF

https://x.com/CaimingXiong/status/1790379121719361776


แคชเพียงครั้งเดียว: สถาปัตยกรรม decoder-decoder สำหรับ language model / You Only Cache Once: Decoder-Decoder Architectures for Language Models

แนะนำงานวิจัย

สถาปัตยกรรม LLM แบบ decoder-decoder ที่แคชคู่คีย์-ค่าเพียงครั้งเดียว สามารถลดการใช้หน่วยความจำ GPU ได้อย่างมากโดยไม่ทำให้ความสามารถลดลง ด้วยการวาง cross-decoder ซ้อนบน self-decoder ที่เข้ารหัส global key-value cache ได้อย่างมีประสิทธิภาพ และให้ cross-encoder นำแคชกลับมาใช้ผ่าน cross-attention อีกทั้งยังให้ประสิทธิภาพใกล้เคียงกับ Transformer ในการตั้งค่าต่าง ๆ ที่ขยายทั้งขนาดโมเดลและจำนวนโทเค็นสำหรับฝึก

A decoder-decoder LLM architecture that only caches key-value pairs once; it involves a cross-decoder stacked upon a self-decoder which efficiently encodes global key-value caches and the cross-encoder reuses the cache via cross-attention; this leads to a significant reduction in GPU memory use without sacrificing capabilities; achieves comparable performance to Transformer in various settings of scaling up model size and number of training token.

บทคัดย่อ(Abstract)

ขอแนะนำ YOCO ซึ่งเป็นสถาปัตยกรรมแบบ decoder-decoder สำหรับโมเดลภาษาขนาดใหญ่ที่แคชคู่คีย์-ค่าไว้เพียงครั้งเดียว สถาปัตยกรรมนี้ประกอบด้วยสองส่วนคือ cross-decoder ที่วางซ้อนอยู่บน self-decoder โดย self-decoder จะเข้ารหัสแคชคีย์-ค่า (KV) แบบโกลบอลอย่างมีประสิทธิภาพ ซึ่ง cross-decoder นำกลับมาใช้ผ่าน cross-attention โมเดลโดยรวมทำงานคล้าย Transformer แบบ decoder-only แต่ YOCO ใช้การแคชเพียงครั้งเดียว การออกแบบนี้ช่วยลดความต้องการหน่วยความจำ GPU ลงอย่างมาก ขณะเดียวกันก็ยังคงความสามารถของ global attention ไว้ นอกจากนี้ ลำดับการคำนวณยังรองรับการออกจาก prefill ได้ตั้งแต่เนิ่น ๆ โดยไม่เปลี่ยนผลลัพธ์สุดท้าย ทำให้ขั้นตอน prefill เร็วขึ้นอย่างมาก ผลการทดลองแสดงให้เห็นว่า YOCO ให้ประสิทธิภาพที่น่าพอใจเมื่อเทียบกับ Transformer ในการตั้งค่าต่าง ๆ ที่ขยายทั้งขนาดโมเดลและจำนวนโทเค็นฝึก นอกจากนี้ YOCO ยังขยายไปสู่ความยาวคอนเท็กซ์ 1M ได้ โดยมีความแม่นยำในการดึง needle เกือบสมบูรณ์แบบ ผลการ profiling ยังแสดงให้เห็นว่า YOCO ปรับปรุงหน่วยความจำระหว่างการอนุมาน, prefill latency และ throughput ได้อย่างมากในหลายระดับของความยาวคอนเท็กซ์และขนาดโมเดล สามารถดูโค้ดได้ที่ https://aka.ms/YOCO

We introduce a decoder-decoder architecture, YOCO, for large language models, which only caches key-value pairs once. It consists of two components, i.e., a cross-decoder stacked upon a self-decoder. The self-decoder efficiently encodes global key-value (KV) caches that are reused by the cross-decoder via cross-attention. The overall model behaves like a decoder-only Transformer, although YOCO only caches once. The design substantially reduces GPU memory demands, yet retains global attention capability. Additionally, the computation flow enables prefilling to early exit without changing the final output, thereby significantly speeding up the prefill stage. Experimental results demonstrate that YOCO achieves favorable performance compared to Transformer in various settings of scaling up model size and number of training tokens. We also extend YOCO to 1M context length with near-perfect needle retrieval accuracy. The profiling results show that YOCO improves inference memory, prefill latency, and throughput by orders of magnitude across context lengths and model sizes. Code is available at https://aka.ms/YOCO.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2405.05254

อ่านเพิ่มเติม

https://github.com/microsoft/unilm/tree/master/YOCO

https://x.com/arankomatsuzaki/status/1788435838474355098


CAT3D: สร้างอะไรก็ได้ให้เป็น 3D ด้วยโมเดล diffusion แบบหลายมุมมอง / CAT3D: Create Anything in 3D with Multi-View Diffusion Models

แนะนำบทความวิจัย

นำเสนอวิธีสร้างอะไรก็ได้ให้เป็น 3D โดยจำลองกระบวนการเก็บภาพในโลกจริงด้วยโมเดล diffusion แบบหลายมุมมอง โดยสามารถสร้างมุมมองใหม่ของฉากที่มีความสอดคล้องกันเพื่อนำไปใช้เป็นอินพุตให้เทคนิคการสร้าง 3D ใหม่ ทำให้ได้ตัวแทน 3D ที่เรนเดอร์แบบเรียลไทม์ได้ และฉากจาก CAT3D สามารถสร้างได้ภายในเวลาไม่ถึง 1 นาที อีกทั้งยังมีรายงานว่าทำผลงานได้ดีกว่าวิธีเดิมในงานสร้างฉาก 3D จากภาพเดียวและจากมุมมองจำนวนน้อย

Presents a method for creating anything in 3D by simulating the real-world capture process using a multi-view diffusion model; it can generate consistent novel views of a scene which can be used as input to 3D reconstruction techniques to produce 3D representation rendered in real-time; the scene from CAT3D can be generated in less than one minute and is reported to outperform existing methods on single image and few-view 3D scene creation tasks.

บทคัดย่อ(Abstract)

ความก้าวหน้าในด้านการสร้าง 3D ใหม่ทำให้สามารถเก็บข้อมูล 3D คุณภาพสูงได้ แต่การสร้างฉาก 3D ยังต้องให้ผู้ใช้รวบรวมภาพตั้งแต่หลักร้อยถึงหลักพันภาพ Unity จึงนำเสนอ CAT3D ซึ่งเป็นวิธีสร้างอะไรก็ได้ให้เป็น 3D โดยจำลองกระบวนการเก็บภาพในโลกจริงนี้ด้วยโมเดล diffusion แบบหลายมุมมอง เมื่อกำหนดจำนวนภาพอินพุตเท่าใดก็ได้และชุดของมุมมองใหม่เป้าหมาย โมเดลของ Unity จะสร้างมุมมองใหม่ของฉากที่มีความสอดคล้องกันสูง มุมมองที่สร้างขึ้นเหล่านี้สามารถใช้เป็นอินพุตให้เทคนิคการสร้าง 3D ใหม่ที่มีความทนทาน เพื่อสร้างตัวแทน 3D ที่สามารถเรนเดอร์แบบเรียลไทม์ได้จากทุกมุมมอง CAT3D สามารถสร้างฉาก 3D ทั้งฉากได้ในเวลาเพียง 1 นาที และให้ประสิทธิภาพเหนือกว่าวิธีเดิมสำหรับการสร้างฉาก 3D จากภาพเดียวและจากมุมมองจำนวนน้อย ดูผลลัพธ์และเดโมแบบอินเทอร์แอ็กทีฟได้ที่หน้าโครงการ https://cat3d.github.io

Advances in 3D reconstruction have enabled high-quality 3D capture, but require a user to collect hundreds to thousands of images to create a 3D scene. We present CAT3D, a method for creating anything in 3D by simulating this real-world capture process with a multi-view diffusion model. Given any number of input images and a set of target novel viewpoints, our model generates highly consistent novel views of a scene. These generated views can be used as input to robust 3D reconstruction techniques to produce 3D representations that can be rendered from any viewpoint in real-time. CAT3D can create entire 3D scenes in as little as one minute, and outperforms existing methods for single image and few-view 3D scene creation. See our project page for results and interactive demos at https://cat3d.github.io .

ลิงก์บทความวิจัย

https://arxiv.org/abs/2405.10314

อ่านเพิ่มเติม

https://cat3d.github.io

https://x.com/_akhaliq/status/1791294630614442009


ต้นฉบับ

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-ed5


บทความนี้สรุปด้วยโมเดล GPT จึงอาจมีบางส่วนที่คลาดเคลื่อนได้ กรุณาอ้างอิงต้นฉบับที่อยู่ด้านล่างของบทความประกอบด้วย หากพบเนื้อหาที่อ่านแล้วไม่ลื่นไหลหรือไม่ถูกต้อง ขอความกรุณาแจ้งในคอมเมนต์ด้วย 🤗

⚠️โฆษณา⚠️: บทความนี้ที่ 🔥กลุ่มผู้ใช้ PyTorch เกาหลี🇰🇷 จัดทำขึ้นมีประโยชน์สำหรับคุณไหม? หาก สมัครสมาชิก เราจะส่งบทความสำคัญให้ทางอีเมล💌! (ค่าเริ่มต้นคือแบบ Weekly แต่ เปลี่ยนเป็น Daily ได้เช่นกัน.)

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น