[2024/02/12 ~ 02/18] บทความวิจัย ML ที่สำคัญประจำสัปดาห์ (Top ML Papers of the Week)
(discuss.pytorch.kr)ภาพรวม
-
เราได้ลองแปลบทความเกี่ยวกับงานวิจัย ML ที่ DAIR.AI เผยแพร่รายสัปดาห์ด้วยระบบอัตโนมัติ
-
งานที่คัดเลือกในสัปดาห์นี้สะท้อนแนวโน้มการวิจัยล่าสุดในด้านประมวลผลภาษาธรรมชาติ เครือข่ายประสาทลึก และการเรียนรู้เสริมแรง โดยงานที่เกี่ยวข้องกับ NLP ได้รับความสนใจเป็นพิเศษในสัปดาห์นี้ นอกจากนี้คำว่า "World Model" และ "neural network trainability" ยังดูมีความสัมพันธ์กับแง่มุมเชิงทฤษฎีของการเรียนรู้เสริมแรงหรือเครือข่ายประสาทลึก
-
ช่วงหลังนี้ สาขาปัญญาประดิษฐ์ให้ความสนใจการพัฒนาโมเดลภาษาแบบขนาดใหญ่เป็นอย่างมาก เนื่องจากโมเดลอย่าง GPT-3 แสดงผลงานที่น่าทึ่งในงานที่ใช้ภาษาหลากหลาย จึงทำให้เทคโนโลยี NLP กลายเป็นประเด็นสำคัญทั้งในงานวิจัยเชิงทฤษฎีและการใช้งานจริง โมเดลภาษาแบบขนาดใหญ่สามารถนำไปใช้ในงาน NLP ต่าง ๆ ได้ เช่น การแปล การสรุป การตอบคำถาม และการเขียนเชิงสร้างสรรค์ และการวิจัยเกี่ยวกับการเข้าใจและปรับปรุงโมเดลเหล่านี้จึงเป็นที่ยุติอย่างรวดเร็ว
-
นอกจากนี้ แนวคิดอย่าง "neural network trainability" และ "World Model" ยังสะท้อนการวิจัยเทคโนโลยีใหม่ที่ช่วยให้การฝึกเครือข่ายประสาทลึกมีประสิทธิภาพขึ้น และสามารถสร้างแบบจำลองสภาพแวดล้อมที่ซับซ้อนได้มากขึ้น ในด้านการเรียนรู้เสริมแรงมีการเน้นการพัฒนาความสามารถของเอเจนต์ให้แก้ปัญหาที่ซับซ้อนมากขึ้นผ่านโมเดลสภาพแวดล้อมที่ละเอียดมากขึ้น ซึ่งเป็นแนวโน้มสำคัญของงานวิจัย AI สมัยใหม่ด้วย
-
บทความนี้จัดทำโดยโมเดล GPT อาจมีข้อมูลที่ไม่ถูกต้องได้ จึงขอให้ดูต้นฉบับที่อยู่ด้านล่างประกอบการอ่านด้วยกันด้วย หากพบว่าข้อความใดแปลกหรือไม่ถูกต้อง ให้แจ้งในส่วนความคิดเห็นด้วย
OpenAI Sora
การแนะนำงานวิจัย
- โมเดล AI สร้างวิดีโอจากข้อความที่สามารถสร้างฉากสมจริงและจินตนาการได้ยาวสูงสุด 1 นาทีเมื่อได้รับคำสั่งเป็นข้อความ; มันสามารถสร้างฉากที่ซับซ้อนที่มีตัวละครหลายตัว ประเภทการเคลื่อนไหวต่าง ๆ และฉากหลังต่างๆ และเข้าใจว่าพวกมันเกี่ยวข้องกันอย่างไร; ความสามารถอื่น ๆ รวมถึงการสร้างหลายช็อตในวิดีโอเดียวโดยยังคงลักษณะตัวละครและสไตล์ภาพให้ต่อเนื่อง
A text-to-video ai model that can create videos of up to a minute of realistic and imaginative scenes given text instructions; it can generate complex scenes with multiple characters, different motion types, and backgrounds, and understand how they relate to each other; other capabilities include creating multiple shots within a single video with persistence across characters and visual style.
ลิงก์งานวิจัย
อ่านเพิ่มเติม
https://discuss.pytorch.kr/t/gn-openai-sora-ai/3519
https://x.com/OpenAI/status/1758192957386342435
Gemini 1.5 / Gemini 1.5
การแนะนำงานวิจัย
- โมเดลผสมผู้เชี่ยวชาญมัลติมอดอลที่คำนวณได้อย่างมีประสิทธิภาพ โดยมุ่งเน้นความสามารถ เช่น การเรียกคืนและการให้เหตุผลกับเนื้อหารูปแบบยาว สามารถให้เหตุผลในเอกสารยาวที่อาจมีโทเค็นเป็นล้าน รวมถึงวิดีโอและเสียงหลายชั่วโมง และปรับปรุงประสิทธิภาพระดับแนวหน้าในงาน long-document QA, long-video QA และ long-context ASR ได้อย่างเด่นชัด Gemini 1.5 pro มีผลการทดสอบที่ตรงกันหรือดีกว่า Gemini 1.0 ultra ในเกณฑ์มาตรฐานต่าง ๆ และบรรลุการเรียกค้นเกือบสมบูรณ์ (>99%) อย่างน้อยถึง 10 ล้านโทเค็น ซึ่งเป็นการพัฒนาล้ำหน้ามากเมื่อเทียบกับ LLMs ระดับบริบทยาวตัวอื่น
A compute-efficient multimodal mixture-of-experts model that focuses on capabilities such as recalling and reasoning over long-form content; it can reason over long documents potentially containing millions of tokens, including hours of video and audio; improves the state-of-the-art performance in long-document qa, long-video qa, and long-context asr. gemini 1.5 pro matches or outperforms gemini 1.0 ultra across standard benchmarks and achieves near-perfect retrieval (>99%) up to at least 10 million tokens, a significant advancement compared to other long-context llms.
ลิงก์งานวิจัย
https://storage.googleapis.com/deepmind-media/gemini/…
อ่านเพิ่มเติม
https://discuss.pytorch.kr/t/gn-gemini-1-5/3518
https://x.com/omarsar0/status/1758151923612483839
V-JEPA
การแนะนำงานวิจัย
- ชุดโมเดลวิสัยทัศน์ที่ผ่านการฝึกด้วยเป้าหมายการคาดเดาคุณลักษณะจากวิดีโอ 2 ล้านคลิป โดยอาศัยการเรียนรู้แบบ self-supervised และไม่ใช้ pretrained image encoder ข้อความ ตัวอย่างเชิงลบ การสร้างใหม่ หรือแหล่งกำกับการเรียนรู้อื่นใด ๆ; อ้างว่าสามารถบรรลุการแทนค่าทางวิสัยทัศน์ที่หลากหลายและทำงานได้ดีทั้งในงานที่เน้นการเคลื่อนไหวและรูปลักษณ์ โดยไม่ต้องปรับแต่งพารามิเตอร์ของโมเดล
A collection of vision models trained on a feature prediction objective using 2 million videos; relies on self-supervised learning and doesn’t use pretrained image encoders, text, negative examples, reconstruction, or other supervision sources; claims to achieve versatile visual representations that perform well on both motion and appearance-based tasks, without adaption of the model’s parameters.
บทคัดย่อ (Abstract)
บทความนี้สำรวจการพยากรณ์คุณลักษณะ (feature prediction) ให้เป็นเป้าหมายแบบสแตนด์อโลนสำหรับการเรียนรู้แบบไม่ต้องมีการสอนจากวิดีโอ และแนะนำ V-JEPA ซึ่งเป็นชุดโมเดลวิสัยทัศน์ที่ฝึกด้วยเป้าหมายการพยากรณ์คุณลักษณะเพียงอย่างเดียว โดยไม่ใช้ตัวเข้ารหัสภาพที่ผ่านการฝึกล่วงหน้า ข้อความ ตัวอย่างเชิงลบ (negative examples) การสร้างใหม่ (reconstruction) หรือแหล่งควบคุมการเรียนรู้แบบอื่นใด โมเดลเหล่านี้ถูกฝึกด้วยวิดีโอ 2 ล้านคลิปที่รวบรวมจากชุดข้อมูลสาธารณะ และถูกประเมินบนงานภาพและวิดีโอแบบ downstream รายงานผลแสดงให้เห็นว่าการเรียนรู้ด้วยการพยากรณ์คุณลักษณะของวิดีโอทำให้ได้การแทนภาพที่มีความยืดหยุ่นและมีประสิทธิภาพทั้งในงานที่อิงการเคลื่อนไหวและรูปลักษณ์ โดยไม่ต้องปรับพารามิเตอร์ของโมเดล ตัวอย่างเช่น โมเดลที่ใหญ่ที่สุดที่ฝึกเฉพาะบนวิดีโอคือ ViT-H/16 ใช้โครงข่ายฐานแบบแช่แข็งและสามารถทำความแม่นยำได้ 81.9% บน Kinetics-400, 72.2% บน Something-Something-v2 และ 77.9% บน ImageNet1K
This paper explores feature prediction as a stand-alone objective for unsupervised learning from video and introduces V-JEPA, a collection of vision models trained solely using a feature prediction objective, without the use of pretrained image encoders, text, negative examples, reconstruction, or other sources of supervision. The models are trained on 2 million videos collected from public datasets and are evaluated on downstream image and video tasks. Our results show that learning by predicting video features leads to versatile visual representations that perform well on both motion and appearance-based tasks, without adaption of the model’s parameters; e.g., using a frozen backbone, our largest model, a ViT-H/16 trained only on videos, obtains 81.9% on Kinetics-400, 72.2% on Something-Something-v2, and 77.9% on ImageNet1K.
ลิงก์งานวิจัย
https://ai.meta.com/research/publications/…
อ่านเพิ่มเติม
https://github.com/facebookresearch/jepa
https://x.com/AIatMeta/status/1758176023588577326
LWM (Large World Model): แบบจำลองภาษาวิดีโอความยาวหนึ่งล้านโทเคนด้วย RingAttention / World Model on Million-Length Video And Language With RingAttention
บทนำงานวิจัย
- โมเดลมัลติโมดัลแบบทั่วไปที่มีคอนเท็กซ์ 1M และถูกฝึกด้วยวิดีโอยาวและหนังสือโดยใช้ RingAttention; กำหนดมาตรฐานใหม่ในงานค้นหาที่ซับซ้อนและการทำความเข้าใจวิดีโอยาว, ผสมผสานความยาวลำดับที่หลากหลาย, การให้ค่าน้ำหนัก loss และชุดข้อมูล QA ที่สร้างด้วยโมเดลเพื่อใช้กับการแชตด้วยลำดับยาวด้วย masked sequence packing และเปิดซอร์สโมเดลชุดพารามิเตอร์ 7B ที่สามารถประมวลผลข้อความและวิดีโอยาวมากกว่า 1 ล้านโทเคน
บทคัดย่อ (Abstract)
-
โมเดลภาษาในปัจจุบันยังไม่สามารถเข้าใจมิติของโลกที่อธิบายด้วยคำพูดได้ยากได้อย่างเต็มที่ และมีความยากในการทำงานรูปแบบซับซ้อนที่ยาว วิดีโอซีเควนซ์ให้ข้อมูลเชิงเวลาอันมีค่าสูงที่ไม่พบในภาษาและภาพนิ่ง จึงเป็นตัวเลือกที่น่าสนใจสำหรับการสร้างแบบจำลองร่วมกับภาษา รุ่นเหล่านี้สามารถพัฒนาความเข้าใจทั้งความรู้เชิงข้อความของมนุษย์และโลกทางกายภาพได้ ส่งผลให้ออกแบบความสามารถ AI ที่กว้างขวางขึ้นในการช่วยเหลือมนุษย์ อย่างไรก็ตาม การเรียนรู้จากลำดับของวิดีโอและภาษาจำนวนล้าน ๆ รายการยังคงเผชิญปัญหาเนื่องจากข้อจำกัดหน่วยความจำ ความซับซ้อนในการคำนวณ และชุดข้อมูลที่มีจำกัด เพื่อแก้ปัญหาเหล่านี้ นักวิจัยได้คัดเลือกชุดข้อมูลขนาดใหญ่ที่ประกอบด้วยวิดีโอและหนังสือหลากหลายประเภท ใช้เทคนิค RingAttention เพื่อฝึกโมเดลบนลำดับที่ยาวในรูปแบบที่ขยายขนาดได้ และค่อย ๆ เพิ่มขนาดคอนเทกซ์จาก 4K ไปจนถึง 1M โทเค็น งานวิจัยนี้มีส่วนสำคัญดังต่อไปนี้: (ก) เครือข่ายประสาทขนาดคอนเทกซ์ที่ใหญ่ที่สุด: ฝึกตัวแปลงแบบคอนเทกซ์ขนาดใหญ่สำหรับลำดับวิดีโอและภาษาแบบยาว อันเป็นหนึ่งใน Transformer ที่มีขนาดคอนเทกซ์ใหญ่ที่สุด ตั้งผลลัพธ์ใหม่ในงานดึงข้อมูลที่ยากและความเข้าใจวิดีโอยาว (ข) แนวทางแก้ปัญหาความท้าทายในการฝึก vision-language โดยการใช้ masked sequence packing เพื่อผสมความยาวของลำดับต่าง ๆ การปรับน้ำหนักฟังก์ชัน loss เพื่อปรับสมดุลระหว่างภาษาและวิชัน และชุดข้อมูล QA ที่สร้างจากโมเดลสำหรับการแชตลำดับยาว (ค) การนำไปใช้ที่ผ่านการปรับให้เหมาะสมสูง โดยใช้ RingAttention, masked sequence packing และคุณลักษณะสำคัญอื่น ๆ สำหรับการฝึกบนลำดับมัลติมอดัลที่ยาวถึงระดับล้าน ๆ โทเค็น (ง) เปิดเผยโค้ดและโมเดลโอเพนซอร์สครบวงจรของตระกูลโมเดลพารามิเตอร์ 7B ที่สามารถประมวลผลเอกสารข้อความยาว (LWM-Text, LWM-Text-Chat) และวิดีโอ (LWM, LWM-Chat) ที่ยาวเกิน 1M โทเค็น การทำงานนี้ปูทางไปสู่การฝึกจากชุดข้อมูลขนาดใหญ่ของวิดีโอและภาษาแบบยาว เพื่อพัฒนาความเข้าใจทั้งความรู้ของมนุษย์และโลกแบบมัลติมอดัล ตลอดจนความสามารถที่กว้างขึ้น
Current language models fall short in understanding aspects of the world not easily described in words, and struggle with complex, long-form tasks. Video sequences offer valuable temporal information absent in language and static images, making them attractive for joint modeling with language. Such models could develop an understanding of both human textual knowledge and the physical world, enabling broader AI capabilities for assisting humans. However, learning from millions of tokens of video and language sequences poses challenges due to memory constraints, computational complexity, and limited datasets. To address these challenges, we curate a large dataset of diverse videos and books, utilize the RingAttention technique to scalably train on long sequences, and gradually increase context size from 4K to 1M tokens. This paper makes the following contributions: (a) Largest context size neural network: We train one of the largest context size transformers on long video and language sequences, setting new benchmarks in difficult retrieval tasks and long video understanding. (b) Solutions for overcoming vision-language training challenges, including using masked sequence packing for mixing different sequence lengths, loss weighting to balance language and vision, and model-generated QA dataset for long sequence chat. (c) A highly-optimized implementation with RingAttention, masked sequence packing, and other key features for training on millions-length multimodal sequences. (d) Fully open-sourced a family of 7B parameter models capable of processing long text documents (LWM-Text, LWM-Text-Chat) and videos (LWM, LWM-Chat) of over 1M tokens. This work paves the way for training on massive datasets of long video and language to develop understanding of both human knowledge and the multimodal world, and broader capabilities.
ลิงก์งานวิจัย
https://arxiv.org/abs/2402.08268
อ่านเพิ่มเติม
https://largeworldmodel.github.io/
https://huggingface.co/LargeWorldModel
https://x.com/haoliuhl/status/1757828392362389999
ขอบเขตความสามารถในการฝึกของเครือข่ายประสาทเป็นแฟรกทัล / The boundary of neural network trainability is fractal
การแนะนำงานวิจัย
- พบว่าขอบเขตระหว่างการตั้งค่าพารามิเตอร์ไฮเปอร์ของเครือข่ายประสาทที่สามารถฝึกได้และไม่สามารถฝึกได้เป็นรูปแบบแฟรกทัล สังเกตภาพภูมิทัศน์พารามิเตอร์ไฮเปอร์ที่แฟรกทัลสำหรับการกำหนดโครงสร้างเครือข่ายประสาททุกแบบและเครือข่ายเชิงเส้นเชิงลึก และยังพบว่าพารามิเตอร์ที่ให้ผลลัพธ์ดีที่สุดมักอยู่ที่ช่วงท้ายของความเสถียร
Finds that the boundary between trainable and untrainable neural network hyperparameter configurations is fractal; observes fractal hyperparameter landscapes for every neural network configuration and deep linear networks; also observes that the best-performing hyperparameters are at the end of stability.
บทคัดย่อ (Abstract)
- ตัวอย่างเช่น เฟรกตัลบางส่วนที่เกี่ยวข้องกับเซตแมนเดลบรอตและจูลียากำลังสองถูกคำนวณโดยการทำซ้ำฟังก์ชัน และการจำแนกขอบเขตระหว่างไฮเปอร์พารามิเตอร์ที่ทำให้ลำดับผลลัพธ์ลู่กระจายหรือยังคงถูกจำกัดในขอบเขตเดิม ขณะเดียวกัน การฝึกเครือข่ายประสาทก็ตามด้วยการนำฟังก์ชันการอัปเดตมาใช้ซ้ำ (เช่น ขั้นตอนการลดความลาดชันซ้ำ ๆ) อาจก่อให้เกิดพฤติกรรมที่ลู่เข้าหรือลู่กระจายได้ และอาจไวต่อการเปลี่ยนแปลงไฮเปอร์พารามิเตอร์เพียงเล็กน้อยมาก เราได้ใช้ความคล้ายคลึงกันนี้ศึกษาขอบเขตระหว่างไฮเปอร์พารามิเตอร์ของเครือข่ายประสาทที่นำไปสู่การฝึกที่เสถียรและการฝึกที่ลู่กระจายเชิงทดลอง และพบว่า ขอบเขตนี้มีลักษณะเป็นแฟรกตัลมากกว่าสิบช่วงขนาดในการทดสอบทุกการกำหนดค่า
Some fractals -- for instance those associated with the Mandelbrot and quadratic Julia sets -- are computed by iterating a function, and identifying the boundary between hyperparameters for which the resulting series diverges or remains bounded. Neural network training similarly involves iterating an update function (e.g. repeated steps of gradient descent), can result in convergent or divergent behavior, and can be extremely sensitive to small changes in hyperparameters. Motivated by these similarities, we experimentally examine the boundary between neural network hyperparameters that lead to stable and divergent training. We find that this boundary is fractal over more than ten decades of scale in all tested configurations.
ลิงก์บทความวิจัย
https://arxiv.org/abs/2402.06184
อ่านเพิ่มเติม
https://x.com/jaschasd/status/1756930242965606582
OS-Copilot: สู่ตัวแทนคอมพิวเตอร์แบบจีเนอรัลลิสต์ผ่านการพัฒนาตนเอง / OS-Copilot: Towards Generalist Computer Agents with Self-Improvement
แนะนำงานวิจัย
- เราเสนอเฟรมเวิร์กเพื่อสร้างตัวแทนคอมพิวเตอร์แบบ generalist ที่เชื่อมต่อกับองค์ประกอบหลักของระบบปฏิบัติการ เช่น Linux หรือ macOS และยังเสนอเอเจนต์ที่พัฒนาตนเองเพื่อทำงานอัตโนมัติสำหรับงานคอมพิวเตอร์ทั่วไป ซึ่งเอเจนต์นี้มีประสิทธิภาพเหนือวิธีเดิม 35% ในเกณฑ์วัดผู้ช่วย AI ทั่วไป (GAIA)
a framework to build generalist computer agents that interface with key elements of an operating system like linux or macos; it also proposes a self-improving embodied agent for automating general computer tasks; this agent outperforms the previous methods by 35% on the general ai assistants (gaia) benchmark.
บทคัดย่อ (Abstract)
- การโต้ตอบกับคอมพิวเตอร์โดยอัตโนมัติเป็นความท้าทายที่มีศักยภาพสูงมายาวนาน และการแพร่หลายล่าสุดของโมเดลภาษาขนาดใหญ่ (LLM) ได้เร่งความก้าวหน้าในการสร้างตัวแทนดิจิทัลอย่างชัดเจน อย่างไรก็ตาม ตัวแทนส่วนใหญ่เหล่านี้ถูกออกแบบมาเพื่อโต้ตอบกับโดเมนที่แคบ เช่น ซอฟต์แวร์หรือเว็บไซต์เฉพาะโดเมน ทำให้ความเป็นไปได้ของการใช้งานกับงานคอมพิวเตอร์ทั่วไปถูกจำกัด ดังนั้นเพื่อจุดมุ่งหมายนี้ เราแนะนำ OS-Copilot เป็นเฟรมเวิร์กสำหรับสร้างตัวแทน generalist ที่สามารถเชื่อมต่อกับองค์ประกอบที่ครอบคลุมในระบบปฏิบัติการ (OS) รวมถึงเว็บ เทอมินัลโค้ด ไฟล์ สื่อมัลติมีเดีย และแอปพลิเคชันของบุคคลที่สาม เราใช้ OS-Copilot เพื่อสร้าง FRIDAY ซึ่งเป็นตัวแทน embodied ที่พัฒนาตนเองเพื่อทำงานอัตโนมัติสำหรับงานคอมพิวเตอร์ทั่วไป บน GAIA ซึ่งเป็นเกณฑ์วัดผู้ช่วย AI ทั่วไป FRIDAY ทำผลงานได้ดีกว่าวิธีก่อนหน้า 35% แสดงถึงความสามารถในการ generalize ไปยังแอปพลิเคชันที่ไม่เคยเห็นมาก่อนผ่านทักษะที่สะสมจากงานก่อนหน้า เราแสดงหลักฐานเชิงตัวเลขและเชิงปริมาณด้วยข้อมูลเชิงประจักษ์ว่า FRIDAY เรียนรู้การควบคุมและพัฒนาตนเองในการใช้ Excel และ Powerpoint ด้วยการกำกับดูแลขั้นต่ำที่สุดเท่านั้น เฟรมเวิร์ก OS-Copilot และผลการศึกษาเชิงประจักษ์ของเรามอบโครงสร้างพื้นฐานและข้อมูลเชิงลึกสำหรับการวิจัยในอนาคตสู่ตัวแทนคอมพิวเตอร์ที่มีประสิทธิภาพและเป็น general-purpose มากขึ้น
ลิงก์บทความวิจัย
https://arxiv.org/abs/2402.07456
อ่านเพิ่มเติม
https://x.com/omarsar0/status/1757443594976206885
TestGen-LLM: การปรับปรุงการทดสอบหน่วยแบบอัตโนมัติด้วยโมเดลภาษาแบบสเกลใหญ่ของ Meta / Automated Unit Test Improvement using Large Language Models at Meta
แนะนำงานวิจัย
- รายงานว่าหลังจากประเมินผลิตภัณฑ์ Reels และ Stories ของ Instagram แล้ว พบว่า 75% ของชุดทดสอบของ TestGen-LLM ถูกสร้างอย่างถูกต้อง, 57% ผ่านได้อย่างเสถียร และครอบคลุมได้เพิ่มขึ้น 25%
Uses llms to automatically improve existing human-written tests; reports that after an evaluation on reels and stories products for instagram, 75% of testgen-llm's test cases were built correctly, 57% passed reliably, and 25% increased coverage.
บทคัดย่อ (Abstract)
- บทความนี้อธิบายเครื่องมือ TestGen-LLM ของ Meta ซึ่งใช้ LLM ในการปรับปรุงการทดสอบที่มนุษย์เขียนไว้ก่อนหน้าได้โดยอัตโนมัติ TestGen-LLM ตรวจสอบว่า classes การทดสอบที่สร้างขึ้นผ่านชุดตัวกรองที่รับประกันการปรับปรุงที่วัดได้เหนือชุดทดสอบต้นฉบับอย่างมีประสิทธิผลได้สำเร็จหรือไม่ โดยช่วยกำจัดปัญหาที่เกิดจากความหลงผิดของ LLM บทความยังอธิบายวิธีการนำ TestGen-LLM ไปใช้งานใน test-a-thon ของ Meta สำหรับแพลตฟอร์ม Instagram และ Facebook ในการประเมินผลิตภัณฑ์ Reels และ Stories ของ Instagram พบว่า 75% ของเคสทดสอบของ TestGen-LLM ถูกสร้างขึ้นอย่างถูกต้อง 57% ผ่านอย่างเสถียร และ 25% เพิ่ม coverage ขึ้น อย่างไรก็ตาม ใน test-a-thon ของ Instagram และ Facebook ของ Meta โซลูชันนี้ช่วยปรับปรุง 11.5% ของทุกคลาสที่นำไปใช้ และข้อเสนอแนะของมัน 73% ได้รับการยอมรับเพื่อการใช้งานจริงจากวิศวกรซอฟต์แวร์ของ Meta เราเชื่อว่านี่คือรายงานแรกเกี่ยวกับการนำโค้ดที่สร้างโดย LLM ไปใช้งานในระดับอุตสาหกรรมโดยมีหลักประกันเรื่องการปรับปรุงโค้ดที่เชื่อถือได้เช่นนี้
This paper describes Meta's TestGen-LLM tool, which uses LLMs to automatically improve existing human-written tests. TestGen-LLM verifies that its generated test classes successfully clear a set of filters that assure measurable improvement over the original test suite, thereby eliminating problems due to LLM hallucination. We describe the deployment of TestGen-LLM at Meta test-a-thons for the Instagram and Facebook platforms. In an evaluation on Reels and Stories products for Instagram, 75% of TestGen-LLM's test cases built correctly, 57% passed reliably, and 25% increased coverage. During Meta's Instagram and Facebook test-a-thons, it improved 11.5% of all classes to which it was applied, with 73% of its recommendations being accepted for production deployment by Meta software engineers. We believe this is the first report on industrial scale deployment of LLM-generated code backed by such assurances of code improvement.
ลิงก์กระดาษวิจัย
https://arxiv.org/abs/2402.09171
อ่านเพิ่มเติม
https://x.com/nathanbenaich/status/1758036247115608317
ChemLLM: โมเดลภาษาใหญ่สำหรับเคมี / ChemLLM: A Chemical Large Language Model
บทนำบทความ
- สำหรับงานสำคัญอย่างการแปลงชื่อ คำอธิบายโมเลกุล และการคาดการณ์ปฏิกิริยา คู่นี้อ้างว่างานนี้ทำได้ดีกว่า GPT-3.5 และในสองงานจากสามงานดังกล่าวยังเกิน GPT-4 อีกด้วย พร้อมกับเป็น LLM ที่ฝึกสอนโดยเฉพาะสำหรับงานที่เกี่ยวกับเคมี
บทคัดย่อ (Abstract)
- โมเดลภาษาแบบขนาดใหญ่ (LLM) ทำให้เกิดความก้าวหน้าอย่างเห็นได้ชัดในงานประยุกต์ด้านเคมี ตั้งแต่การทำนายคุณสมบัติของโมเลกุล การสร้างโมเลกุล ไปจนถึงการออกแบบโปรโตคอลการทดลอง อย่างไรก็ตาม ชุมชนยังขาดโมเดลแบบโต้ตอบที่ออกแบบมาโดยเฉพาะสำหรับเคมี ปัญหานี้เกิดจากข้อเท็จจริงที่ว่าข้อมูลทางเคมีและความรู้ทางวิทยาศาสตร์ส่วนใหญ่ถูกเก็บไว้ในฐานข้อมูลเชิงโครงสร้างเป็นหลัก และการนำข้อมูลเชิงโครงสร้างเหล่านี้มาใช้โดยตรงทำให้ความสามารถของโมเดลในการรักษาบทสนทนาที่มีความสอดคล้องกันลดลง
เพื่อรับมือปัญหานี้ เราได้พัฒนาวิธีการสร้างคำสั่งแบบเทมเพลตใหม่ที่แปลงความรู้เชิงโครงสร้างให้เป็นบทสนทนาทั่วไป ทำให้เหมาะสมกับการฝึกอบรมโมเดลภาษา โดยใช้แนวทางนี้ เราพัฒนา ChemLLM ซึ่งเป็นโมเดลภาษาใหญ่เพื่อเคมีตัวแรกที่สามารถทำงานหลากหลายในสาขาเคมีต่างๆ ได้ด้วยการโต้ตอบแบบสนทนาอย่างราบรื่น
ChemLLM ทำผลงานเหนือกว่า GPT-3.5 ในงานหลักทั้งสามด้านของเคมี ได้แก่ การแปลงชื่อ การบรรยายโมเลกุล และการทำนายปฏิกิริยา และเหนือกว่า GPT-4 ในสองงานจากสามงานนี้
ที่น่าทึ่ง ChemLLM ยังแสดงให้เห็นถึงความสามารถในการปรับตัวอย่างมากต่อภาระงานทางคณิตศาสตร์และฟิสิกส์ที่เกี่ยวข้อง แม้จะถูกฝึกหลักๆ บนคอร์ปัสที่เน้นเคมีเป็นหลัก
นอกจากนี้ ChemLLM ยังชำนาญในงาน NLP เชิงเฉพาะทางด้านเคมี เช่น การแปลวรรณกรรมและการเขียนโปรแกรมเชมิโนฟอร์แมติกส์
ChemLLM เปิดเส้นทางการสำรวจใหม่ในงานวิจัยเคมี ขณะที่วิธีการของเราที่ผสานความรู้เคมีเชิงโครงสร้างเข้าไปในระบบสนทนาได้ปูทางใหม่ในการพัฒนา LLM สำหรับสาขาวิทยาศาสตร์หลากหลายรูปแบบ
โค้ด ชุดข้อมูล และน้ำหนักโมเดลสามารถเข้าถึงได้อย่างสาธารณะที่ hf.co/AI4Chem/ChemLLM-7B-Chat.
Large language models (LLMs) have made impressive progress in chemistry applications, including molecular property prediction, molecular generation, experimental protocol design, etc. However, the community lacks a dialogue-based model specifically designed for chemistry. The challenge arises from the fact that most chemical data and scientific knowledge are primarily stored in structured databases, and the direct use of these structured data compromises the model's ability to maintain coherent dialogue. To tackle this issue, we develop a novel template-based instruction construction method that transforms structured knowledge into plain dialogue, making it suitable for language model training. By leveraging this approach, we develop ChemLLM, the first large language model dedicated to chemistry, capable of performing various tasks across chemical disciplines with smooth dialogue interaction. ChemLLM beats GPT-3.5 on all three principal tasks in chemistry, i.e., name conversion, molecular caption, and reaction prediction, and surpasses GPT-4 on two of them. Remarkably, ChemLLM also shows exceptional adaptability to related mathematical and physical tasks despite being trained mainly on chemical-centric corpora. Furthermore, ChemLLM demonstrates proficiency in specialized NLP tasks within chemistry, such as literature translation and cheminformatic programming. ChemLLM opens up a new avenue for exploration within chemical studies, while our method of integrating structured chemical knowledge into dialogue systems sets a new frontier for developing LLMs across various scientific fields. Codes, Datasets, and Model weights are publicly accessible at hf.co/AI4Chem/ChemLLM-7B-Chat.
ลิงก์บทความ
https://arxiv.org/abs/2402.06852
อ่านเพิ่มเติม
https://hf.co/AI4Chem/ChemLLM-7B-Chat
https://x.com/omarsar0/status/1757246740539773165
แบบสำรวจโมเดลภาษาขนาดใหญ่ / Large Language Models: A Survey
แนะนำบทความ
- เราทบทวนสามตระกูล LLM ที่ได้รับความนิยมสูง (GPT, Llama, PaLM) ทั้งลักษณะเฉพาะ คุณูปการ และข้อจำกัด โดยสรุปความสามารถและเทคนิคที่พัฒนาเพื่อสร้างและเสริม LLM อีกทั้งยังอธิบายชุดข้อมูลที่ใช้กันอย่างแพร่หลายสำหรับการฝึก การปรับแต่งอย่างละเอียด และการประเมิน LLM รวมถึงเมตริกการประเมิน LLM และสรุปด้วยความท้าทายที่ยังคงอยู่และแนวทางการวิจัยในอนาคต
Reviews three popular families of llms (gpt, llama, palm), their characteristics, contributions, and limitations; includes a summary of capabilities and techniques developed to build and augment llm; it also discusses popular datasets for llm training, fine-tuning, and evaluation, and llm evaluation metrics; concludes with open challenges and future research directions.
บทคัดย่อ (Abstract)
- โมเดลภาษาแบบขนาดใหญ่ (LLM) ได้รับความสนใจอย่างมากตั้งแต่การเปิดตัว ChatGPT เมื่อเดือนพฤศจิกายน 2022 เนื่องจากมีสมรรถนะที่สูงในการทำงานด้านภาษาธรรมชาติที่หลากหลาย ความสามารถด้านการเข้าใจและการสร้างภาษาทั่วไปของ LLM ได้รับมาโดยการฝึกพารามิเตอร์ของโมเดลจำนวนพันล้านตัวบนข้อมูลข้อความขนาดมหาศาล ซึ่งสอดคล้องกับกฎการขยายขนาด \cite{kaplan2020scaling,hoffmann2022training} สาขาวิจัย LLM แม้จะแตกต่างกันเพิ่งเริ่มไม่นาน แต่กำลังพัฒนาอย่างรวดเร็วในหลายรูปแบบ ในงานนี้ เราทบทวน LLM ที่โดดเด่นที่สุด โดยรวมถึงตระกูล LLM ยอดนิยมสามตระกูล (GPT, LLaMA, PaLM) และได้หารือถึงลักษณะเด่น การมีส่วนร่วม และข้อจำกัดของพวกมัน เรายังนำเสนอภาพรวมของเทคนิคที่พัฒนาขึ้นเพื่อสร้างและเสริมสมรรถนะของ LLM ต่อมา เราสำรวจชุดข้อมูลยอดนิยมที่เตรียมไว้สำหรับการฝึก การปรับแต่งละเอียด และการประเมินผล LLM ตรวจสอบตัวชี้วัดการประเมิน LLM ที่ใช้กันอย่างกว้างขวาง และเปรียบเทียบประสิทธิภาพของ LLM ยอดนิยมบางตัวบนชุดเกณฑ์ประเมินที่เป็นตัวแทน สุดท้ายเราสรุปบทความด้วยการอภิปรายความท้าทายที่ยังไม่มีการแก้ไขและแนวทางการวิจัยในอนาคต
Large Language Models (LLMs) have drawn a lot of attention due to their strong performance on a wide range of natural language tasks, since the release of ChatGPT in November 2022. LLMs' ability of general-purpose language understanding and generation is acquired by training billions of model's parameters on massive amounts of text data, as predicted by scaling laws \cite{kaplan2020scaling,hoffmann2022training}. The research area of LLMs, while very recent, is evolving rapidly in many different ways. In this paper, we review some of the most prominent LLMs, including three popular LLM families (GPT, LLaMA, PaLM), and discuss their characteristics, contributions and limitations. We also give an overview of techniques developed to build, and augment LLMs. We then survey popular datasets prepared for LLM training, fine-tuning, and evaluation, review widely used LLM evaluation metrics, and compare the performance of several popular LLMs on a set of representative benchmarks. Finally, we conclude the paper by discussing open challenges and future research directions.
ลิงก์งานวิจัย
https://arxiv.org/abs/2402.06196
อ่านเพิ่มเติม
https://x.com/omarsar0/status/1757049645119799804
เอเจนต์ LLM สามารถแฮ็กเว็บไซต์ได้อย่างอิสระ / LLM Agents can Autonomously Hack Websites
บทนำงานวิจัย
- แสดงให้เห็นว่าเอเจนต์ LLM สามารถแฮ็กเว็บไซต์ได้โดยอัตโนมัติและดำเนินการงานเช่นการ SQL Injection ได้โดยไม่ต้องอาศัย feedback จากมนุษย์หรือความรู้ก่อนหน้าเกี่ยวกับช่องโหว่ ความสามารถนี้เกิดขึ้นได้จากการใช้เครื่องมือและความสามารถบริบทแบบยาวของ LLM โดยแสดงให้เห็นว่า GPT-4 มีความสามารถในการแฮ็กดังกล่าวได้ รวมถึงการค้นหาช่องโหว่ในเว็บไซต์ที่ใช้งานจริง ในขณะที่โมเดลโอเพ่นซอร์สไม่สามารถแสดงความสามารถเดียวกันได้
Shows that llm agents can automatically hack websites and perform tasks like sql injections without human feedback or explicit knowledge about the vulnerability beforehand; this is enabled by an llm’s tool usage and long context capabilities; shows that gpt-4 is capable of such hacks, including finding vulnerabilities in websites in the wild; open-source models did not show the same capabilities.
บทคัดย่อ (Abstract)
- ในช่วงไม่กี่ปีที่ผ่านมา ความสามารถของโมเดลภาษาแบบขนาดใหญ่ (LLM) ได้ค่อยๆ พัฒนาขึ้นอย่างต่อเนื่อง จนสามารถโต้ตอบกับเครื่องมือ (เช่น การเรียกใช้ฟังก์ชัน), อ่านเอกสาร และเรียกตัวเองซ้ำแบบ recursive ได้ จึงทำให้ LLM เหล่านี้สามารถทำงานได้แบบอิสระในฐานะเอเจนต์ ตามมาแล้ว การเพิ่มขึ้นของความสามารถเอเจนต์เหล่านี้ได้ทำให้การวิจัยล่าสุดคาดเดาได้ว่ามันจะส่งผลอย่างไรต่อความปลอดภัยทางไซเบอร์ อย่างไรก็ตาม ยังมีข้อมูลเกี่ยวกับความสามารถเชิงรุกของเอเจนต์ LLM ที่ทราบอยู่น้อย ในการศึกษานี้ เราแสดงให้เห็นว่าเอเจนต์ LLM สามารถแฮ็กเว็บไซต์ได้อย่างอิสระ โดยไม่ต้องพึ่ง feedback จากมนุษย์ และสามารถทำงานที่ซับซ้อนได้ เช่น การสกัด schema ฐานข้อมูลแบบ blind และ SQL Injection ได้อย่างสำคัญ คือ เอเจนต์ไม่จำเป็นต้องรู้ช่องโหว่ล่วงหน้าก็ได้ ความสามารถนี้เกิดขึ้นเฉพาะจากโมเดลระดับแนวหน้าที่มีความสามารถสูงในการใช้เครื่องมือและใช้บริบทแบบขยายได้ กล่าวคือ เราแสดงให้เห็นว่า GPT-4 สามารถทำการแฮ็กดังกล่าวได้ แต่โมเดลโอเพ่นซอร์สที่มีอยู่ยังไม่สามารถทำได้ สุดท้าย เราแสดงให้เห็นว่า GPT-4 สามารถค้นหาช่องโหว่บนเว็บไซต์ในโลกจริงได้อย่างอิสระได้ด้วยตนเอง ผลการค้นพบของเรายกคำถามเกี่ยวกับการใช้งาน LLM อย่างกว้างขวาง
In recent years, large language models (LLMs) have become increasingly capable and can now interact with tools (i.e., call functions), read documents, and recursively call themselves. As a result, these LLMs can now function autonomously as agents. With the rise in capabilities of these agents, recent work has speculated on how LLM agents would affect cybersecurity. However, not much is known about the offensive capabilities of LLM agents. In this work, we show that LLM agents can autonomously hack websites, performing tasks as complex as blind database schema extraction and SQL injections without human feedback. Importantly, the agent does not need to know the vulnerability beforehand. This capability is uniquely enabled by frontier models that are highly capable of tool use and leveraging extended context. Namely, we show that GPT-4 is capable of such hacks, but existing open-source models are not. Finally, we show that GPT-4 is capable of autonomously finding vulnerabilities in websites in the wild. Our findings raise questions about the widespread deployment of LLMs.
ลิงก์งานวิจัย
https://arxiv.org/abs/2402.06664v1
อ่านเพิ่มเติม
https://x.com/emollick/status/1757937829340967240
ต้นฉบับ
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-325
⚠️โฆษณา⚠️: หากบทความนี้ที่ PyTorch Korea User Group จัดทำไว้นั้นมีประโยชน์สำหรับคุณ หากลงทะเบียนเป็นสมาชิก เราจะส่งบทความสำคัญให้ทางอีเมล! (โดยค่าเริ่มต้นเป็น Weekly แต่สามารถ เปลี่ยนเป็น Daily ได้ )
ยังไม่มีความคิดเห็น