ML ที่น่าจับตาประจำสัปดาห์นี้

(discuss.pytorch.kr)

14 คะแนน โดย ninebow 2025-08-27 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

[2025/08/18 ~ 24] รวมงานวิจัย AI/ML ที่น่าจับตาประจำสัปดาห์นี้

PyTorchKR🔥🇰🇷 🤔💭

1️⃣ เมื่อดูงานวิจัยที่คัดเลือกมาในสัปดาห์นี้ จะเห็นได้ว่ามีเทรนด์สำคัญอยู่หลายประการ ประการแรกคือความพยายามในการเพิ่มประสิทธิภาพทั้งด้านความคุ้มค่าและสมรรถนะของโมเดลภาษาขนาดใหญ่ไปพร้อมกัน งานวิจัยหลายฉบับนำเสนอแนวทางที่หลากหลายเพื่อยกระดับความสามารถของโมเดล ตัวอย่างเช่น DeepConf และ Avengers-Pro แสดงให้เห็นความพยายามในการสร้างสมดุลระหว่างประสิทธิภาพกับต้นทุน โดยอาศัยสัญญาณความเชื่อมั่นภายในของโมเดลหรือเฟรมเวิร์กการ routing ที่มีประสิทธิภาพ แนวทางเหล่านี้สะท้อนความสนใจของนักวิจัยที่ต้องการลดต้นทุนการคำนวณอันสูงของโมเดลขนาดใหญ่ ขณะเดียวกันก็ยังคงเพิ่มประสิทธิภาพให้สูงที่สุด

2️⃣ ประการที่สองคือการศึกษาผลกระทบด้านลบที่โมเดลภาษาซึ่งมีปฏิกิริยาเชิงอารมณ์อาจมีต่อความน่าเชื่อถือ งานวิจัยบางฉบับแสดงให้เห็นว่าโมเดลที่ถูกปรับให้ตอบสนองอย่างอบอุ่นและเห็นอกเห็นใจอาจทำให้ความน่าเชื่อถือลดลง ซึ่งเป็นประเด็นที่ต้องระมัดระวังมากยิ่งขึ้นเมื่อระบบ AI มีบทบาทสำคัญในความสัมพันธ์กับมนุษย์ งานวิจัยลักษณะนี้มีส่วนสำคัญต่อการพิจารณาความรับผิดชอบทางสังคมและมิติด้านจริยธรรมของ AI

3️⃣ ประการที่สามคือความก้าวหน้าในด้านความเข้าใจวิดีโอและการประมวลผลแบบมัลติโหมด งานวิจัยล่าสุดกำลังเสนอวิธีวิทยาใหม่ ๆ สำหรับการประมวลผลและทำความเข้าใจข้อมูลวิดีโออย่างมีประสิทธิภาพ ซึ่งสะท้อนถึงความพยายามในการสำรวจปฏิสัมพันธ์ระหว่างวิดีโอกับข้อความให้ลึกซึ้งยิ่งขึ้น งานอย่าง Infinite Video Understanding และ GLIMPSE กำลังก้าวไปในทิศทางของการก้าวข้ามข้อจำกัดของการทำความเข้าใจวิดีโอ เพื่อให้โมเดลไม่หยุดอยู่แค่การวิเคราะห์เฟรม แต่สามารถคิดเชิงวิดีโอได้อย่างแท้จริง แนวโน้มนี้คาดว่าจะเปิดโอกาสการประยุกต์ใช้ที่หลากหลายยิ่งขึ้นควบคู่ไปกับความก้าวหน้าของ AI แบบมัลติโหมด

คิดลึกอย่างมั่นใจ / Deep Think with Confidence

แนะนำงานวิจัย

คิดลึกอย่างมั่นใจ (DeepConf; Deep Think with Confidence) เป็นวิธีการใหม่ที่ออกแบบมาเพื่อปรับปรุงทั้งประสิทธิภาพและสมรรถนะของงานให้เหตุผลในโมเดลภาษาขนาดใหญ่ (LLM) โดยไม่ต้องมีการฝึกเพิ่มหรือปรับจูนไฮเปอร์พารามิเตอร์ DeepConf ใช้สัญญาณความเชื่อมั่นภายในเพื่อกรอง reasoning trace ที่มีคุณภาพต่ำได้อย่างมีประสิทธิภาพ ส่งผลให้เพิ่มความแม่นยำได้อย่างมากพร้อมลด computational overhead จากผลการประเมินในงานให้เหตุผลหลากหลายประเภท รวมถึง benchmark อย่าง AIME 2025 พบว่า DeepConf สามารถบรรลุความแม่นยำสูงสุดถึง 99.9% พร้อมลดจำนวนโทเค็นที่สร้างลงได้มากถึง 84.7% เมื่อเทียบกับวิธีเดิม แนวทางนี้สามารถผสานเข้ากับ serving framework ที่มีอยู่ได้อย่างง่ายดาย จึงอาจเป็นโซลูชันเชิงปฏิบัติสำหรับการยกระดับสมรรถนะของ LLM

บทคัดย่อ(Abstract)

โมเดลภาษาขนาดใหญ่ (LLM) ได้แสดงศักยภาพอย่างมากในงานให้เหตุผลผ่านวิธี test-time scaling เช่น self-consistency ที่ใช้การโหวตเสียงข้างมาก อย่างไรก็ตาม แนวทางนี้มักนำไปสู่ผลตอบแทนด้านความแม่นยำที่ลดลงและมี computational overhead สูง เพื่อรับมือกับความท้าทายเหล่านี้ เราขอแนะนำ Deep Think with Confidence (DeepConf) ซึ่งเป็นวิธีการที่เรียบง่ายแต่ทรงพลังในการยกระดับทั้งประสิทธิภาพและสมรรถนะของการให้เหตุผลในช่วง test time DeepConf ใช้สัญญาณความเชื่อมั่นภายในของโมเดลเพื่อกรอง reasoning trace คุณภาพต่ำแบบไดนามิกระหว่างหรือหลังการสร้าง ไม่ต้องอาศัยการฝึกโมเดลเพิ่มเติมหรือการปรับจูนไฮเปอร์พารามิเตอร์ และสามารถผสานเข้ากับ serving framework ที่มีอยู่ได้อย่างไร้รอยต่อ เราประเมิน DeepConf บนงานให้เหตุผลที่หลากหลายและโมเดลโอเพนซอร์สรุ่นล่าสุด รวมถึงซีรีส์ Qwen 3 และ GPT-OSS โดยเฉพาะบน benchmark ที่ท้าทายอย่าง AIME 2025 นั้น DeepConf@512 ทำความแม่นยำได้สูงสุดถึง 99.9% และลดจำนวนโทเค็นที่สร้างลงได้มากถึง 84.7% เมื่อเทียบกับการคิดแบบขนานเต็มรูปแบบ

Large Language Models (LLMs) have shown great potential in reasoning tasks through test-time scaling methods like self-consistency with majority voting. However, this approach often leads to diminishing returns in accuracy and high computational overhead. To address these challenges, we introduce Deep Think with Confidence (DeepConf), a simple yet powerful method that enhances both reasoning efficiency and performance at test time. DeepConf leverages model-internal confidence signals to dynamically filter out low-quality reasoning traces during or after generation. It requires no additional model training or hyperparameter tuning and can be seamlessly integrated into existing serving frameworks. We evaluate DeepConf across a variety of reasoning tasks and the latest open-source models, including Qwen 3 and GPT-OSS series. Notably, on challenging benchmarks such as AIME 2025, DeepConf@512 achieves up to 99.9% accuracy and reduces generated tokens by up to 84.7% compared to full parallel thinking.

ลิงก์งานวิจัย

https://arxiv.org/abs/2508.15260

อ่านเพิ่มเติม

https://discuss.pytorch.kr/t/thinkmesh-llm-python/7575

ก้าวข้าม GPT-5: ลดต้นทุนและยกระดับประสิทธิภาพของ LLM ด้วย routing ที่ปรับให้เหมาะสมด้านประสิทธิภาพ-ความคุ้มค่า / Beyond GPT-5: Making LLMs Cheaper and Better via Performance-Efficiency Optimized Routing

[IMG] ก้าวข้าม GPT-5: ลดต้นทุนและยกระดับประสิทธิภาพของ LLM ด้วย routing ที่ปรับให้เหมาะสมด้านประสิทธิภาพ-ความคุ้มค่า / Beyond GPT-5: Making LLMs Cheaper and Better via Performance-Efficiency Optimized Routing|997x448

แนะนำงานวิจัย

การพัฒนาให้สมดุลทั้งด้านสมรรถนะและประสิทธิภาพของโมเดลภาษาขนาดใหญ่ (LLM) เป็นโจทย์สำคัญ Avengers-Pro คือเฟรมเวิร์กการ routing ในช่วง test time ที่รวม LLM หลายตัวซึ่งมีขนาดและประสิทธิภาพแตกต่างกัน แล้วส่ง query ไปยังโมเดลที่เหมาะสมตามคะแนนสมรรถนะ-ความคุ้มค่าที่ดีที่สุด วิธีนี้ทำผลลัพธ์ระดับล้ำสมัยได้บน 6 benchmark ที่ท้าทายและ 8 โมเดลหลัก และเมื่อปรับพารามิเตอร์ trade-off ระหว่างสมรรถนะกับประสิทธิภาพ ก็สามารถเพิ่มความแม่นยำเฉลี่ยได้ +7% เมื่อเทียบกับ GPT-5-medium นอกจากนี้ยังสร้างพาเรโตฟรอนเทียร์ที่ให้ความแม่นยำคุ้มค่าต้นทุนอย่างต่อเนื่อง โดยสามารถทำความแม่นยำเฉลี่ยเทียบเท่าโมเดลเดี่ยวที่ทรงพลังที่สุดได้ที่ต้นทุนต่ำลง 27% และบรรลุราว 90% ของสมรรถนะด้วยต้นทุนที่ต่ำลง 63%

บทคัดย่อ(Abstract)

การสร้างสมดุลระหว่างประสิทธิภาพและความคุ้มค่าเป็นความท้าทายสำคัญในการพัฒนาโมเดลภาษาขนาดใหญ่ (LLM) โดย GPT-5 แก้ปัญหานี้ด้วย test-time routing ซึ่งจัดสรรคิวรีแบบไดนามิกไปยังโมเดลที่มีประสิทธิภาพสูงหรือโมเดลที่มีขนาดความจุมากระหว่างการอนุมาน งานวิจัยนี้นำเสนอ Avengers-Pro ซึ่งเป็นเฟรมเวิร์ก test-time routing ที่ทำ ensemble ของ LLM ที่มีความจุและประสิทธิภาพแตกต่างกัน เพื่อมอบโซลูชันแบบรวมศูนย์สำหรับทุก trade-off ระหว่างประสิทธิภาพกับความคุ้มค่า Avengers-Pro จะทำ embedding และ clustering ให้กับคิวรีที่เข้ามา จากนั้นจึงส่งต่อแต่ละคิวรีไปยังโมเดลที่เหมาะสมที่สุดตามคะแนนประสิทธิภาพ-ความคุ้มค่า จากการทดสอบบน benchmark ที่ท้าทาย 6 ชุด และโมเดลชั้นนำ 8 รุ่น ซึ่งรวมถึง GPT-5-medium, Gemini-2.5-pro และ Claude-opus-4.1 พบว่า Avengers-Pro ทำผลลัพธ์ระดับล้ำสมัยได้ โดยเมื่อปรับพารามิเตอร์ trade-off ระหว่างประสิทธิภาพกับความคุ้มค่า ก็สามารถทำคะแนนความแม่นยำเฉลี่ยแซงหน้าโมเดลเดี่ยวที่แข็งแกร่งที่สุด (GPT-5-medium) ได้ +7% นอกจากนี้ยังสามารถทำความแม่นยำเฉลี่ยเทียบเท่าโมเดลเดี่ยวที่แข็งแกร่งที่สุดได้ด้วยต้นทุนที่ต่ำลง 27% และทำได้ราว 90% ของประสิทธิภาพดังกล่าวด้วยต้นทุนที่ต่ำลง 63% สุดท้าย Avengers-Pro ยังบรรลุ Pareto frontier โดยให้ความแม่นยำสูงสุดอย่างสม่ำเสมอสำหรับต้นทุนที่กำหนด และให้ต้นทุนต่ำที่สุดสำหรับความแม่นยำที่กำหนด เมื่อเทียบกับโมเดลเดี่ยวทั้งหมด สามารถดูโค้ดได้ที่ https://github.com/ZhangYiqun018/AvengersPro

Balancing performance and efficiency is a central challenge in large language model (LLM) advancement. GPT-5 addresses this with test-time routing, dynamically assigning queries to either an efficient or a high-capacity model during inference. In this work, we present Avengers-Pro, a test-time routing framework that ensembles LLMs of varying capacities and efficiencies, providing a unified solution for all performance-efficiency tradeoffs. The Avengers-Pro embeds and clusters incoming queries, then routes each to the most suitable model based on a performance-efficiency score. Across 6 challenging benchmarks and 8 leading models -- including GPT-5-medium, Gemini-2.5-pro, and Claude-opus-4.1 -- Avengers-Pro achieves state-of-the-art results: by varying a performance-efficiency trade-off parameter, it can surpass the strongest single model (GPT-5-medium) by +7% in average accuracy. Moreover, it can match the average accuracy of the strongest single model at 27% lower cost, and reach ~90% of that performance at 63% lower cost. Last but not least, it achieves a Pareto frontier, consistently yielding the highest accuracy for any given cost, and the lowest cost for any given accuracy, among all single models. Code is available at https://github.com/ZhangYiqun018/AvengersPro.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2508.12631

อ่านเพิ่มเติม

https://github.com/ZhangYiqun018/AvengersPro

การให้เหตุผลแบบเสริมการค้นคืนด้วยโมเดลภาษาขนาดเล็ก / Retrieval-augmented reasoning with lean language models

แนะนำบทความวิจัย

งานวิจัยนี้เสนอแนวทางใหม่ในการผสานการให้เหตุผลเข้ากับ retrieval-augmented generation (RAG) ภายในสถาปัตยกรรมโมเดลภาษาขนาดเล็ก ขณะที่ระบบ RAG แบบเดิมพึ่งพาโมเดลขนาดใหญ่และ external API งานนี้มุ่งแก้โจทย์ความต้องการโซลูชันสมรรถนะสูงที่สามารถนำไปใช้งานได้ในสภาพแวดล้อมที่มีข้อจำกัดด้านทรัพยากรหรือด้านความปลอดภัย ผู้วิจัยได้พัฒนา retrieval-augmented conversational agent ที่ใช้ backbone model ขนาดเล็กซึ่งสามารถตีความคิวรีที่ซับซ้อนและเฉพาะโดเมนได้ โดยทำงานผ่านการผสาน dense retriever เข้ากับโมเดล Qwen2.5-Instruct ผลการประเมินแสดงให้เห็นว่าแนวทาง fine-tuning แบบเฉพาะโดเมนช่วยเพิ่มทั้งความแม่นยำและความสอดคล้องของคำตอบได้อย่างมีนัยสำคัญ ทำให้เหมาะกับการ deploy แบบโลคัล ขณะเดียวกันก็มีประสิทธิภาพเข้าใกล้ระดับล้ำสมัย

บทคัดย่อ(Abstract)

งานวิจัยนี้อธิบายแนวทางใหม่ในการผสานการให้เหตุผลและ retrieval-augmented generation (RAG) ไว้ภายในสถาปัตยกรรมโมเดลภาษาขนาดกะทัดรัดเพียงตัวเดียวอย่างละเอียด ขณะที่ระบบ RAG แบบเดิมมักพึ่งพาโมเดลขนาดใหญ่และ API ภายนอก งานวิจัยนี้ตอบโจทย์ความต้องการที่เพิ่มขึ้นสำหรับโซลูชันที่ทั้งมีประสิทธิภาพและคุ้มครองความเป็นส่วนตัว ซึ่งสามารถนำไปใช้งานได้ในสภาพแวดล้อมที่ทรัพยากรจำกัดหรือมีข้อกำหนดด้านความปลอดภัย โดยอาศัยความก้าวหน้าล่าสุดด้าน test-time scaling และโมเดลการให้เหตุผลขนาดเล็ก เราได้พัฒนาเอเจนต์สนทนาแบบ retrieval-augmented ที่สามารถตีความคำถามซับซ้อนและเฉพาะโดเมนได้โดยใช้โมเดลแกนหลักน้ำหนักเบา ระบบของเราผสาน dense retriever เข้ากับโมเดล Qwen2.5-Instruct ที่ผ่านการ fine-tune โดยใช้การสร้างคำค้นสังเคราะห์และร่องรอยการให้เหตุผลที่ได้จากโมเดลแนวหน้า (เช่น DeepSeek-R1) บนคลังข้อมูลที่ผ่านการคัดสรร ซึ่งในกรณีนี้คือหน้าโรค A-Z ของ NHS เราศึกษาผลกระทบของการบีบอัดเอกสารด้วยการสรุป การออกแบบข้อมูลสังเคราะห์ และการ fine-tune ที่ตระหนักถึงการให้เหตุผลต่อประสิทธิภาพของโมเดล เมื่อประเมินเทียบกับทั้งโมเดลกะทัดรัดแบบไม่ใช้การให้เหตุผลและโมเดลกะทัดรัดอเนกประสงค์ พบว่าแนวทางการ fine-tune แบบเฉพาะโดเมนของเราช่วยเพิ่มความแม่นยำและความสม่ำเสมอของคำตอบได้อย่างมาก เข้าใกล้ประสิทธิภาพระดับโมเดลแนวหน้า ขณะเดียวกันก็ยังเหมาะกับการติดตั้งใช้งานแบบโลคัล รายละเอียดการติดตั้งใช้งานทั้งหมดและโค้ดถูกเผยแพร่สู่สาธารณะเพื่อสนับสนุนการทำซ้ำผลลัพธ์และการปรับใช้ข้ามโดเมน

รายงานทางเทคนิคนี้อธิบายแนวทางใหม่ในการผสานการให้เหตุผลและ retrieval augmented generation (RAG) ไว้ภายในสถาปัตยกรรมโมเดลภาษาขนาดกะทัดรัดเพียงตัวเดียว ขณะที่ระบบ RAG ที่มีอยู่โดยทั่วไปมักพึ่งพาโมเดลขนาดใหญ่และ API ภายนอก งานของเราตอบสนองต่อความต้องการที่เพิ่มขึ้นสำหรับโซลูชันที่มีประสิทธิภาพและคุ้มครองความเป็นส่วนตัว ซึ่งสามารถนำไปติดตั้งใช้งานได้ในสภาพแวดล้อมที่ทรัพยากรจำกัดหรือมีข้อกำหนดด้านความปลอดภัย โดยต่อยอดจากความก้าวหน้าล่าสุดด้าน test-time scaling และโมเดลการให้เหตุผลขนาดเล็ก เราได้พัฒนาเอเจนต์สนทนาแบบ retrieval augmented ที่สามารถตีความคำถามซับซ้อนและเฉพาะโดเมนได้โดยใช้โมเดลแกนหลักน้ำหนักเบา ระบบของเราผสาน dense retriever เข้ากับโมเดล Qwen2.5-Instruct ที่ผ่านการ fine-tune โดยใช้การสร้างคำค้นสังเคราะห์และร่องรอยการให้เหตุผลที่ได้จากโมเดลแนวหน้า (เช่น DeepSeek-R1) บนคลังข้อมูลที่ผ่านการคัดสรร ซึ่งในกรณีนี้คือหน้าข้อมูลภาวะโรค A-to-Z ของ NHS เราศึกษาผลกระทบของการบีบอัดเอกสารด้วยการสรุป การออกแบบข้อมูลสังเคราะห์ และการ fine-tune ที่ตระหนักถึงการให้เหตุผลต่อประสิทธิภาพของโมเดล การประเมินเทียบกับทั้งโมเดลกะทัดรัดแบบไม่ใช้การให้เหตุผลและโมเดลกะทัดรัดอเนกประสงค์ แสดงให้เห็นว่าแนวทางการ fine-tune แบบเฉพาะโดเมนของเราช่วยเพิ่มความแม่นยำและความสม่ำเสมอของคำตอบได้อย่างมาก เข้าใกล้ประสิทธิภาพระดับโมเดลแนวหน้า ขณะเดียวกันก็ยังคงเหมาะสมต่อการติดตั้งใช้งานแบบโลคัล รายละเอียดการติดตั้งใช้งานทั้งหมดและโค้ดถูกเผยแพร่สู่สาธารณะเพื่อสนับสนุนการทำซ้ำผลลัพธ์และการปรับใช้ข้ามโดเมน

ลิงก์งานวิจัย

https://arxiv.org/abs/2508.11386

การฝึกให้โมเดลภาษามีความอบอุ่นและเห็นอกเห็นใจ ทำให้ความน่าเชื่อถือลดลงและมีแนวโน้มประจบผู้ใช้มากขึ้น / Training language models to be warm and empathetic makes them less reliable and more sycophantic

แนะนำงานวิจัย

การฝึกโมเดลภาษาให้มีบุคลิกที่อบอุ่นและเห็นอกเห็นใจอาจดูเหมือนช่วยมอบประสบการณ์ที่ดีกว่าแก่ผู้ใช้ แต่สิ่งนี้ก็นำไปสู่ trade-off สำคัญที่อาจลดทอนความน่าเชื่อถือได้ ผลการวิจัยพบว่า โมเดลที่ถูกฝึกให้สร้างคำตอบที่อบอุ่นมีอัตราความผิดพลาดสูงขึ้น 10% ถึง 30% ในงานที่มีความสำคัญต่อความปลอดภัย และมีแนวโน้มให้ข้อมูลข้อเท็จจริงที่ผิดพลาดหรือคำแนะนำทางการแพทย์ที่มีปัญหา โดยเฉพาะเมื่อข้อความของผู้ใช้แสดงความเศร้า โมเดลเหล่านี้มักยืนยันความเชื่อที่ไม่ถูกต้องมากขึ้น ปรากฏการณ์นี้พบอย่างสม่ำเสมอในสถาปัตยกรรมโมเดลที่หลากหลาย และชี้ให้เห็นว่าแนวทางการประเมินในปัจจุบันอาจตรวจจับความเสี่ยงเชิงระบบลักษณะนี้ไม่ได้

บทคัดย่อ(Abstract)

นักพัฒนาปัญญาประดิษฐ์ (AI) กำลังสร้างโมเดลภาษาที่มีบุคลิกอบอุ่นและเห็นอกเห็นใจมากขึ้น ซึ่งผู้คนจำนวนมากขึ้นเรื่อย ๆ ใช้สำหรับขอคำแนะนำ การบำบัด และเป็นเพื่อน ที่นี่เราแสดงให้เห็นว่าแนวทางนี้ก่อให้เกิดการแลกเปลี่ยนที่สำคัญอย่างมาก: การปรับโมเดลภาษาให้เน้นความอบอุ่นบั่นทอนความน่าเชื่อถือของมัน โดยเฉพาะเมื่อผู้ใช้แสดงความเปราะบาง เราได้ทำการทดลองแบบควบคุมกับโมเดลภาษาห้ารุ่นที่มีขนาดและสถาปัตยกรรมแตกต่างกัน โดยฝึกให้โมเดลเหล่านี้สร้างคำตอบที่อบอุ่นและเห็นอกเห็นใจมากขึ้น ก่อนจะประเมินในงานที่มีความสำคัญด้านความปลอดภัย โมเดลที่อบอุ่นมีอัตราความผิดพลาดสูงกว่ารุ่นต้นฉบับอย่างมีนัยสำคัญ (+10 ถึง +30 จุดเปอร์เซ็นต์) และมีแนวโน้มจะส่งเสริมทฤษฎีสมคบคิด ให้ข้อมูลข้อเท็จจริงที่ไม่ถูกต้อง และเสนอคำแนะนำทางการแพทย์ที่มีปัญหา นอกจากนี้ยังมีแนวโน้มสูงขึ้นอย่างชัดเจนที่จะยืนยันความเชื่อที่ไม่ถูกต้องของผู้ใช้ โดยเฉพาะเมื่อข้อความของผู้ใช้แสดงความเศร้า ที่สำคัญ ผลกระทบเหล่านี้ปรากฏอย่างสม่ำเสมอในสถาปัตยกรรมโมเดลที่แตกต่างกัน และเกิดขึ้นแม้ว่าประสิทธิภาพบนเบนช์มาร์กมาตรฐานยังคงอยู่ ซึ่งเผยให้เห็นความเสี่ยงเชิงระบบที่แนวปฏิบัติการประเมินในปัจจุบันอาจตรวจจับไม่ได้ ขณะที่ระบบ AI ที่คล้ายมนุษย์กำลังถูกนำไปใช้งานในขนาดที่ไม่เคยมีมาก่อน ผลการศึกษาของเราชี้ให้เห็นถึงความจำเป็นในการทบทวนวิธีที่เราพัฒนาและกำกับดูแลระบบเหล่านี้ ซึ่งกำลังปรับเปลี่ยนความสัมพันธ์ระหว่างมนุษย์และปฏิสัมพันธ์ทางสังคม

นักพัฒนา Artificial intelligence (AI) กำลังสร้าง language models ที่มีบุคลิกอบอุ่นและเห็นอกเห็นใจมากขึ้น ซึ่งขณะนี้ผู้คนนับล้านใช้สำหรับคำแนะนำ การบำบัด และการเป็นเพื่อน ในที่นี้เราแสดงให้เห็นว่าสิ่งนี้สร้างการแลกเปลี่ยนที่สำคัญ: การปรับ language models ให้เน้นความอบอุ่นจะบั่นทอนความน่าเชื่อถือของมัน โดยเฉพาะเมื่อผู้ใช้แสดงความเปราะบาง เราได้ทำการทดลองแบบควบคุมกับ language models ห้ารุ่นที่มีขนาดและสถาปัตยกรรมแตกต่างกัน โดยฝึกให้พวกมันสร้างคำตอบที่อบอุ่นและเห็นอกเห็นใจมากขึ้น จากนั้นประเมินพวกมันในงานที่มีความสำคัญต่อความปลอดภัย โมเดลที่อบอุ่นแสดงอัตราความผิดพลาดสูงกว่ารุ่นดั้งเดิมอย่างมาก (+10 ถึง +30 จุดเปอร์เซ็นต์) มีการส่งเสริมทฤษฎีสมคบคิด ให้ข้อมูลข้อเท็จจริงที่ไม่ถูกต้อง และให้คำแนะนำทางการแพทย์ที่มีปัญหา พวกมันยังมีแนวโน้มสูงขึ้นอย่างมีนัยสำคัญที่จะยืนยันความเชื่อที่ไม่ถูกต้องของผู้ใช้ โดยเฉพาะเมื่อข้อความของผู้ใช้แสดงความเศร้า ที่สำคัญ ผลกระทบเหล่านี้สอดคล้องกันในสถาปัตยกรรมโมเดลที่แตกต่างกัน และเกิดขึ้นแม้ว่าประสิทธิภาพบนเบนช์มาร์กมาตรฐานจะยังคงอยู่ ซึ่งเผยให้เห็นความเสี่ยงเชิงระบบที่แนวปฏิบัติการประเมินในปัจจุบันอาจตรวจจับไม่ได้ ขณะที่ระบบ AI ที่คล้ายมนุษย์กำลังถูกนำไปใช้งานในระดับที่ไม่เคยมีมาก่อน ผลการค้นพบของเราบ่งชี้ถึงความจำเป็นในการทบทวนวิธีที่เราพัฒนาและกำกับดูแลระบบเหล่านี้ ซึ่งกำลังปรับเปลี่ยนความสัมพันธ์ของมนุษย์และปฏิสัมพันธ์ทางสังคม

ลิงก์งานวิจัย

https://arxiv.org/abs/2507.21919

GEPA: วิวัฒนาการของพรอมป์ต์แบบใคร่ครวญอาจทำได้ดีกว่า reinforcement learning / GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning

แนะนำงานวิจัย

GEPA (Genetic-Pareto) เป็นระเบียบวิธีการปรับพรอมป์ต์ให้เหมาะสมที่ใช้ประโยชน์จากความสามารถในการตีความของภาษาเพื่อยกระดับการฝึก large language model (LLM) โดยเปรียบเทียบกับแนวทาง reinforcement learning (RL) แบบดั้งเดิมอย่าง Group Relative Policy Optimization (GRPO) ด้วยการสุ่มตัวอย่าง system-level trackers และสะท้อนทบทวนสิ่งเหล่านั้นด้วยภาษาธรรมชาติ GEPA สามารถวินิจฉัยปัญหาได้อย่างมีประสิทธิภาพ เสนอการอัปเดตพรอมป์ต์ และผสานอินไซต์ที่ได้จากประสบการณ์ของตัวเอง วิธีนี้ลดจำนวน rollout ที่ต้องใช้ลงอย่างมาก และบรรลุการปรับปรุงประสิทธิภาพเฉลี่ย 10% เมื่อเทียบกับ GRPO อีกทั้งยังทำผลงานได้ดีกว่า MIPROv2 ซึ่งเป็นเครื่องมือปรับพรอมป์ต์ชั้นนำ มากกว่า 10% นอกจากนี้ GEPA ยังแสดงศักยภาพในการเป็นกลยุทธ์ที่มีประสิทธิภาพสำหรับการเพิ่มประสิทธิภาพโค้ดในช่วงอนุมาน

บทคัดย่องานวิจัย (Abstract)

โมเดลภาษาขนาดใหญ่ (LLM) กำลังถูกปรับให้เข้ากับงานปลายน้ำมากขึ้นเรื่อย ๆ ผ่านวิธีการ reinforcement learning (RL) เช่น Group Relative Policy Optimization (GRPO) ซึ่งมักต้องใช้ rollout หลายพันครั้งเพื่อเรียนรู้งานใหม่ เราโต้แย้งว่าธรรมชาติที่ตีความได้ของภาษาสามารถมอบสื่อการเรียนรู้ที่สมบูรณ์ยิ่งกว่ามากให้กับ LLM เมื่อเทียบกับ policy gradient ที่ได้มาจากรางวัลแบบสเกลาร์ซึ่งมีอยู่อย่างเบาบาง เพื่อทดสอบแนวคิดนี้ เราแนะนำ GEPA (Genetic-Pareto) ซึ่งเป็นตัวปรับแต่งพรอมป์ต์ที่ผสานการสะท้อนคิดด้วยภาษาธรรมชาติเข้าไว้อย่างเต็มรูปแบบเพื่อเรียนรู้กฎระดับสูงจากการลองผิดลองถูก เมื่อมีระบบ AI ใด ๆ ที่มีพรอมป์ต์ LLM หนึ่งตัวหรือมากกว่า GEPA จะสุ่มตัวอย่างเส้นทางการทำงานในระดับระบบ (เช่น การให้เหตุผล การเรียกใช้เครื่องมือ และผลลัพธ์จากเครื่องมือ) แล้วสะท้อนคิดกับสิ่งเหล่านั้นด้วยภาษาธรรมชาติเพื่อวินิจฉัยปัญหา เสนอและทดสอบการอัปเดตพรอมป์ต์ และผสานบทเรียนที่เกื้อหนุนกันจาก Pareto frontier ของความพยายามของตนเอง จากการออกแบบของ GEPA ทำให้มันสามารถเปลี่ยน rollout เพียงไม่กี่ครั้งให้กลายเป็นการยกระดับคุณภาพอย่างมากได้บ่อยครั้ง ใน 4 งาน GEPA ทำได้ดีกว่า GRPO โดยเฉลี่ยมากกว่า 10% และสูงสุดถึง 20% ขณะเดียวกันก็ใช้ rollout น้อยกว่ามากได้สูงสุด 35 เท่า GEPA ยังทำได้ดีกว่า MIPROv2 ซึ่งเป็นตัวปรับแต่งพรอมป์ต์ชั้นนำ มากกว่า 10% บน LLM สองตัว และยังแสดงผลลัพธ์ที่มีแนวโน้มดีในฐานะกลยุทธ์การค้นหาระหว่าง inference สำหรับการปรับแต่งโค้ด

Large language models (LLMs) are increasingly adapted to downstream tasks via reinforcement learning (RL) methods like Group Relative Policy Optimization (GRPO), which often require thousands of rollouts to learn new tasks. We argue that the interpretable nature of language can often provide a much richer learning medium for LLMs, compared with policy gradients derived from sparse, scalar rewards. To test this, we introduce GEPA (Genetic-Pareto), a prompt optimizer that thoroughly incorporates natural language reflection to learn high-level rules from trial and error. Given any AI system containing one or more LLM prompts, GEPA samples system-level trajectories (e.g., reasoning, tool calls, and tool outputs) and reflects on them in natural language to diagnose problems, propose and test prompt updates, and combine complementary lessons from the Pareto frontier of its own attempts. As a result of GEPA's design, it can often turn even just a few rollouts into a large quality gain. Across four tasks, GEPA outperforms GRPO by 10% on average and by up to 20%, while using up to 35x fewer rollouts. GEPA also outperforms the leading prompt optimizer, MIPROv2, by over 10% across two LLMs, and demonstrates promising results as an inference-time search strategy for code optimization.

ลิงก์งานวิจัย

https://arxiv.org/abs/2507.19457

GLIMPSE: โมเดลวิชัน-ภาษา ขนาดใหญ่เข้าใจและคิดกับวิดีโอได้อย่างแท้จริง หรือแค่เหลือบมองเท่านั้น? / GLIMPSE: Do Large Vision-Language Models Truly Think With Videos or Just Glimpse at Them?

แนะนำงานวิจัย

GLIMPSE เป็นเบนช์มาร์กที่ออกแบบมาเพื่อประเมินว่าโมเดลวิชัน-ภาษาขนาดใหญ่ (LVLM) สามารถเข้าใจและให้เหตุผลกับวิดีโอทั้งเรื่องได้อย่างลึกซึ้งหรือไม่ เพื่อแก้ปัญหาที่เกณฑ์ประเมินวิดีโอเดิมมักตอบคำถามได้จากเพียงบางเฟรมสำคัญ ทำให้ยากต่อการประเมินความสามารถในการให้เหตุผลเชิงกาล-อวกาศที่แท้จริงของโมเดล GLIMPSE จึงประกอบด้วยวิดีโอ 3,269 รายการ 11 หมวดหมู่ และคำถามที่เน้นข้อมูลภาพมากกว่า 4,342 ข้อ คำถามเหล่านี้ถูกออกแบบมาให้ตอบได้ก็ต่อเมื่อรับชมวิดีโอทั้งหมดและคิดวิเคราะห์แบบองค์รวมเท่านั้น โดยในการประเมินกับมนุษย์ให้ความแม่นยำสูงถึง 94.82% ในทางกลับกัน แม้แต่ GPT-o3 ซึ่งเป็น LVLM ที่มีประสิทธิภาพดีที่สุดในปัจจุบัน ก็ทำได้เพียง 66.43% แสดงให้เห็นว่าโมเดลยังคงมีปัญหาในการก้าวข้ามการวิเคราะห์แบบผิวเผินไปสู่การคิดเชิงลึกบนพื้นฐานของวิดีโอ

บทคัดย่อ (Abstract)

เบนช์มาร์กวิดีโอที่มีอยู่เดิมมักคล้ายกับเบนช์มาร์กที่อิงภาพ โดยมีคำถามประเภทอย่าง “บุคคลในวิดีโอทำกิจกรรมอะไรบ้างตลอดทั้งวิดีโอ?” หรือ “ชุดเดรสของผู้หญิงในวิดีโอมีสีอะไร?” คำถามเหล่านี้ทำให้โมเดลสามารถตอบได้เพียงแค่สแกนเฟรมสำคัญไม่กี่เฟรม โดยไม่จำเป็นต้องใช้การให้เหตุผลเชิงเวลาที่ลึกซึ้ง ข้อจำกัดนี้ทำให้เราประเมินได้ยากว่า large vision-language models (LVLM) สามารถคิดไปกับวิดีโอได้อย่างแท้จริง หรือเพียงแค่วิเคราะห์ในระดับเฟรมแบบผิวเผิน เพื่อแก้ปัญหานี้ เราจึงเสนอ GLIMPSE ซึ่งเป็นเบนช์มาร์กที่ออกแบบมาโดยเฉพาะเพื่อประเมินว่า LVLM สามารถคิดไปกับวิดีโอได้จริงหรือไม่ GLIMPSE ต่างจากเบนช์มาร์กก่อนหน้า โดยเน้นการทำความเข้าใจวิดีโออย่างครอบคลุมนอกเหนือจากเบาะแสจากภาพนิ่ง ประกอบด้วยวิดีโอ 3,269 รายการ และคำถามที่เน้นภาพเป็นศูนย์กลางมากกว่า 4,342 ข้อ ครอบคลุม 11 หมวดหมู่ เช่น การวิเคราะห์วิถีการเคลื่อนที่ การให้เหตุผลเชิงเวลา และการตรวจจับนิติวิทยาศาสตร์ คำถามทั้งหมดถูกร่างขึ้นอย่างพิถีพิถันโดยผู้ทำคำอธิบายประกอบที่เป็นมนุษย์ และต้องอาศัยการดูวิดีโอทั้งหมดพร้อมให้เหตุผลจากบริบทของวิดีโอโดยรวม—ซึ่งนี่คือความหมายของการคิดไปกับวิดีโอ คำถามเหล่านี้ไม่สามารถตอบได้ด้วยการสแกนเฉพาะบางเฟรมที่เลือกไว้ หรืออาศัยเพียงข้อความเท่านั้น ในการประเมินโดยมนุษย์ GLIMPSE ทำคะแนนความแม่นยำได้ 94.82% แต่ LVLM ในปัจจุบันยังเผชิญความท้าทายอย่างมาก แม้แต่โมเดลที่ทำผลงานดีที่สุดอย่าง GPT-o3 ก็ยังทำได้เพียง 66.43% ซึ่งชี้ให้เห็นว่า LVLM ยังมีปัญหาในการก้าวข้ามการให้เหตุผลระดับผิวเผินไปสู่การคิดด้วยวิดีโออย่างแท้จริง

Existing video benchmarks often resemble image-based benchmarks, with question types like "What actions does the person perform throughout the video?" or "What color is the woman's dress in the video?" For these, models can often answer by scanning just a few key frames, without deep temporal reasoning. This limits our ability to assess whether large vision-language models (LVLMs) can truly think with videos rather than perform superficial frame-level analysis. To address this, we introduce GLIMPSE, a benchmark specifically designed to evaluate whether LVLMs can genuinely think with videos. Unlike prior benchmarks, GLIMPSE emphasizes comprehensive video understanding beyond static image cues. It consists of 3,269 videos and over 4,342 highly visual-centric questions across 11 categories, including Trajectory Analysis, Temporal Reasoning, and Forensics Detection. All questions are carefully crafted by human annotators and require watching the entire video and reasoning over full video context-this is what we mean by thinking with video. These questions cannot be answered by scanning selected frames or relying on text alone. In human evaluations, GLIMPSE achieves 94.82% accuracy, but current LVLMs face significant challenges. Even the best-performing model, GPT-o3, reaches only 66.43%, highlighting that LVLMs still struggle to move beyond surface-level reasoning to truly think with videos.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2507.09491

ความเข้าใจวิดีโอแบบไร้ขีดจำกัด / Infinite Video Understanding

แนะนำบทความวิจัย

เมื่อไม่นานมานี้ ความก้าวหน้าของ large language models (LLM) และ multimodal large language models (MLLM) ได้ยกระดับเทคโนโลยีการทำความเข้าใจวิดีโออย่างมาก แต่การประมวลผลวิดีโอขนาดยาวตั้งแต่หลายนาทีไปจนถึงหลายชั่วโมงยังคงมีข้อจำกัดด้านปริมาณการคำนวณและหน่วยความจำ งานวิจัยก่อนหน้านี้ได้เสนอทั้งการออกแบบสถาปัตยกรรมที่มีประสิทธิภาพ (Video-XL-2) และเทคนิค positional encoding สำหรับการรับรู้เชิงกาล-อวกาศระยะยาว (HoPE, VideoRoPE++) แต่ปัญหาเรื่องการรักษาความสอดคล้องเชิงเวลาในลำดับที่ยาว การติดตามเหตุการณ์ที่ซับซ้อน และการคงรักษารายละเอียดระดับละเอียดอ่อนภายในข้อมูล ยังเป็นโจทย์ที่ต้องแก้ไขต่อไป งานวิจัยนี้เสนอแนวคิด ‘การทำความเข้าใจวิดีโอแบบไร้ขีดจำกัด (Infinite Video Understanding)’ ในฐานะเป้าหมายหลักของการวิจัยในอนาคต เพื่อให้สามารถประมวลผลและทำความเข้าใจวิดีโอที่มีความยาวไม่สิ้นสุดได้อย่างต่อเนื่อง พร้อมเสนอทิศทางการวิจัยเชิงนวัตกรรมหลายด้าน เช่น สถาปัตยกรรมแบบสตรีมมิง หน่วยความจำต่อเนื่อง การแทนข้อมูลแบบลำดับชั้นและปรับตัวได้ การให้เหตุผลที่ยึดเหตุการณ์เป็นศูนย์กลาง และระเบียบวิธีการประเมินรูปแบบใหม่ แนวทางเหล่านี้คาดว่าจะช่วยผลักดันการเปลี่ยนผ่านเชิงกระบวนทัศน์ของการประมวลผลวิดีโอระยะยาวในวงการมัลติมีเดียและปัญญาประดิษฐ์โดยรวม

บทคัดย่อ (Abstract)

ความก้าวหน้าอย่างรวดเร็วของโมเดลภาษาขนาดใหญ่ (LLM) และส่วนขยายแบบมัลติโหมดของมัน (MLLM) ได้นำมาซึ่งความคืบหน้าอย่างน่าทึ่งในด้านความเข้าใจวิดีโอ อย่างไรก็ตาม ความท้าทายพื้นฐานยังคงอยู่ นั่นคือปัญหาในการประมวลผลและทำความเข้าใจเนื้อหาวิดีโอความยาวนานตั้งแต่หลายนาทีไปจนถึงหลายชั่วโมงได้อย่างมีประสิทธิภาพ งานวิจัยล่าสุดอย่าง Video-XL-2 ได้นำเสนอแนวทางแก้ปัญหาเชิงสถาปัตยกรรมใหม่เพื่อประสิทธิภาพในระดับสูงมาก ขณะที่ความก้าวหน้าของเทคนิค positional encoding อย่าง HoPE และ VideoRoPE++ มีเป้าหมายเพื่อยกระดับความเข้าใจบริบทเชิงพื้นที่-เวลาในช่วงกว้าง ถึงกระนั้น โมเดลล้ำสมัยที่มีอยู่ในปัจจุบันยังคงเผชิญข้อจำกัดด้านการคำนวณและหน่วยความจำอย่างมีนัยสำคัญเมื่อต้องรับมือกับปริมาณ visual token มหาศาลจากลำดับข้อมูลที่ยาวนาน นอกจากนี้ การรักษาความสอดคล้องเชิงเวลา การติดตามเหตุการณ์ที่ซับซ้อน และการคงรักษารายละเอียดระดับละเอียดในช่วงเวลายาวนาน ก็ยังเป็นความท้าทายที่แก้ได้ยาก แม้จะมีความก้าวหน้าของระบบการให้เหตุผลแบบเอเจนต์อย่าง Deep Video Discovery ก็ตาม เอกสารเชิงเทคนิคฉบับนี้เสนอให้ Infinite Video Understanding เป็นสาขาวิจัยยุคถัดไปของมัลติมีเดียที่ทั้งสมเหตุสมผลและทะเยอทะยาน ซึ่งหมายถึงความสามารถของโมเดลในการประมวลผล ทำความเข้าใจ และให้เหตุผลกับข้อมูลวิดีโอที่มีความยาวตามอำเภอใจ และอาจไม่มีที่สิ้นสุด ได้อย่างต่อเนื่อง เราโต้แย้งว่าการวาง Infinite Video Understanding ให้เป็นเป้าหมายการวิจัยแบบ blue-sky จะทำหน้าที่เป็นเข็มทิศสำคัญให้กับวงการวิจัยมัลติมีเดียและชุมชนวิจัย AI ในวงกว้าง ช่วยผลักดันนวัตกรรมในด้านต่าง ๆ เช่น สถาปัตยกรรมแบบสตรีมมิง กลไกหน่วยความจำแบบคงอยู่ การแทนค่าที่เป็นลำดับชั้นและปรับตัวได้ การให้เหตุผลที่ยึดเหตุการณ์เป็นศูนย์กลาง และกระบวนทัศน์การประเมินแบบใหม่ โดยได้แรงบันดาลใจจากงานวิจัยล่าสุดเกี่ยวกับความเข้าใจวิดีโอระยะยาว/ยาวมาก และสาขาที่เกี่ยวข้องอย่างใกล้ชิดหลายด้าน บทความนี้จึงสรุปความท้าทายหลักและทิศทางการวิจัยสำคัญเพื่อไปสู่ความสามารถเชิงพลิกโฉมนี้

ความก้าวหน้าอย่างรวดเร็วของ Large Language Models (LLMs) และส่วนขยายแบบ multimodal ของมัน (MLLMs) ได้นำไปสู่ความก้าวหน้าอย่างน่าทึ่งในด้าน video understanding อย่างไรก็ตาม ความท้าทายพื้นฐานยังคงมีอยู่: การประมวลผลและทำความเข้าใจเนื้อหาวิดีโอที่ยาวเกินระดับนาทีหรือชั่วโมงได้อย่างมีประสิทธิภาพ แม้ว่างานล่าสุดอย่าง Video-XL-2 จะแสดงให้เห็นถึงแนวทางเชิงสถาปัตยกรรมใหม่สำหรับประสิทธิภาพขั้นสูงมาก และความก้าวหน้าด้าน positional encoding เช่น HoPE และ VideoRoPE++ จะมุ่งปรับปรุงความเข้าใจเชิง spatio-temporal ในบริบทที่กว้างขวาง แต่โมเดลระดับ state-of-the-art ในปัจจุบันก็ยังคงเผชิญข้อจำกัดด้านการคำนวณและหน่วยความจำอย่างมาก เมื่อต้องรับมือกับปริมาณ visual token จำนวนมหาศาลจากลำดับข้อมูลที่ยาวนาน ยิ่งไปกว่านั้น การรักษาความสอดคล้องเชิงเวลา การติดตามเหตุการณ์ที่ซับซ้อน และการเก็บรักษารายละเอียดระดับละเอียดในช่วงเวลายาวนาน ยังเป็นอุปสรรคสำคัญ แม้จะมีความก้าวหน้าในระบบ agentic reasoning อย่าง Deep Video Discovery ก็ตาม บทความเชิงจุดยืนฉบับนี้เสนอว่า แนวหน้าถัดไปที่สมเหตุสมผลแม้จะทะเยอทะยานสำหรับการวิจัยมัลติมีเดีย คือ Infinite Video Understanding -- ความสามารถของโมเดลในการประมวลผล ทำความเข้าใจ และให้เหตุผลเกี่ยวกับข้อมูลวิดีโอที่มีความยาวตามอำเภอใจ และอาจดำเนินต่อไปโดยไม่สิ้นสุด ได้อย่างต่อเนื่อง เราให้เหตุผลว่าการกำหนดกรอบให้ Infinite Video Understanding เป็นเป้าหมายการวิจัยแบบ blue-sky จะเป็นดาวนำทางสำคัญสำหรับชุมชนวิจัยมัลติมีเดียและ AI ในวงกว้าง โดยขับเคลื่อนนวัตกรรมในด้านต่าง ๆ เช่น streaming architectures, persistent memory mechanisms, hierarchical and adaptive representations, event-centric reasoning และ novel evaluation paradigms โดยอาศัยแรงบันดาลใจจากงานล่าสุดด้านความเข้าใจวิดีโอระยะยาว/ยาวเป็นพิเศษ และสาขาที่เกี่ยวข้องใกล้ชิดอีกหลายด้าน เราได้สรุปความท้าทายหลักและทิศทางการวิจัยสำคัญเพื่อไปสู่ความสามารถที่เปลี่ยนโฉมนี้

ลิงก์บทความ

https://arxiv.org/abs/2507.09068

การให้เหตุผลแบบ Chain-of-Thought ของโมเดลภาษาขนาดใหญ่เป็นภาพลวงตาหรือไม่? การพิจารณาผ่านมุมมองการกระจายข้อมูล / Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens

แนะนำบทความ

การพรอมป์ต์แบบ Chain-of-Thought (CoT) ช่วยยกระดับประสิทธิภาพของโมเดลภาษาขนาดใหญ่ (LLM) แต่ก็ทำให้เกิดข้อสงสัยว่าการให้เหตุผลแบบ CoT อาจเป็นเพียงสิ่งผิวเผินในความเป็นจริง งานวิจัยนี้วิเคราะห์การให้เหตุผลแบบ CoT ผ่านมุมมองของการกระจายข้อมูล และเผยให้เห็นว่า CoT เป็นเส้นทางที่ถูกสร้างขึ้นแบบมีเงื่อนไขจากอคติเชิงอุปนัย (inductive bias) ซึ่งอิงอยู่กับการกระจายภายในข้อมูลฝึก เพื่อพิสูจน์เรื่องนี้ ผู้วิจัยได้ฝึก LLM ในสภาพแวดล้อมที่ควบคุมได้ชื่อว่า DataAlchemy และตรวจสอบความแตกต่างของการกระจายเชิงทดลองในสามมิติ ได้แก่ ประเภทงาน ความยาว และรูปแบบ ผลลัพธ์ยืนยันว่าการให้เหตุผลแบบ CoT เป็นปรากฏการณ์ที่ไม่เสถียรและพังทลายได้ง่ายเมื่อออกนอกการกระจายของข้อมูลฝึก พร้อมตอกย้ำความยากของการบรรลุการให้เหตุผลที่แท้จริงและทำให้ทั่วไปได้

บทคัดย่อ(Abstract)

พรอมป์ตร์แบบ Chain-of-Thought (CoT) เป็นที่ทราบกันว่าสามารถเพิ่มความสามารถของโมเดลภาษาขนาดใหญ่ (LLM) ในการทำงานที่หลากหลายได้ แนวทางนี้ทำให้ LLM ดูเหมือนจะสร้างลำดับขั้นการให้เหตุผลคล้ายมนุษย์ก่อนให้คำตอบ (หรือที่เรียกว่า CoT reasoning) ซึ่งมักทำให้เกิดการรับรู้ว่าโมเดลกำลังทำกระบวนการอนุมานอย่างตั้งใจ อย่างไรก็ตาม ผลการวิจัยเบื้องต้นบางส่วนชี้ว่า CoT reasoning อาจเป็นเพียงสิ่งผิวเผินมากกว่าที่เห็น จึงเป็นแรงจูงใจให้ต้องสำรวจเพิ่มเติม ในบทความนี้ ผู้วิจัยศึกษาการให้เหตุผลแบบ CoT ผ่านมุมมองของการกระจายข้อมูล และตรวจสอบว่าการให้เหตุผลแบบ CoT สะท้อนอคติเชิงอุปนัย (inductive bias) ที่มีโครงสร้างซึ่งเรียนรู้มาจากข้อมูลในแจกแจง (in-distribution data) หรือไม่ โดยทำให้โมเดลสามารถสร้างเส้นทางการให้เหตุผลแบบมีเงื่อนไขที่ประมาณเส้นทางซึ่งพบระหว่างการฝึกได้ ดังนั้น ประสิทธิผลของมันจึงถูกจำกัดโดยพื้นฐานจากระดับความแตกต่างของการกระจายระหว่างข้อมูลฝึกและคำถามทดสอบ จากมุมมองนี้ เราแยกวิเคราะห์ CoT reasoning ออกเป็น 3 มิติ ได้แก่ งาน (task), ความยาว (length) และรูปแบบ (format) เพื่อศึกษาทั้ง 3 มิตินี้ เราได้ออกแบบ DataAlchemy ซึ่งเป็นสภาพแวดล้อมที่แยกขาดและควบคุมได้สำหรับฝึก LLM ตั้งแต่ต้น และใช้ตรวจสอบอย่างเป็นระบบภายใต้เงื่อนไขการกระจายที่หลากหลาย ผลลัพธ์ของเราเผยให้เห็นว่า CoT reasoning เป็นภาพลวงตาที่เปราะบางและจะหายไปเมื่อถูกผลักให้ออกนอกการกระจายของข้อมูลฝึก งานนี้ช่วยให้เข้าใจได้ลึกขึ้นว่าทำไมและเมื่อใด CoT reasoning จึงล้มเหลว พร้อมเน้นย้ำถึงความท้าทายอย่างต่อเนื่องในการบรรลุการให้เหตุผลที่แท้จริงและทำให้ทั่วไปได้

การใช้พรอมป์ตร์แบบ Chain-of-Thought (CoT) แสดงให้เห็นว่าสามารถปรับปรุงประสิทธิภาพของ Large Language Model (LLM) ในงานหลากหลายประเภทได้ ด้วยแนวทางนี้ LLM จะดูเหมือนสร้างขั้นตอนการให้เหตุผลคล้ายมนุษย์ก่อนให้คำตอบ (หรือเรียกว่า CoT reasoning) ซึ่งมักนำไปสู่การรับรู้ว่าโมเดลมีส่วนร่วมในกระบวนการอนุมานอย่างจงใจ อย่างไรก็ตาม ผลการค้นพบเบื้องต้นบางส่วนชี้ว่า CoT reasoning อาจผิวเผินกว่าที่เห็น ซึ่งเป็นแรงผลักดันให้เราศึกษาต่อ ในบทความนี้ เราศึกษา CoT reasoning ผ่านเลนส์ของการกระจายข้อมูล และตรวจสอบว่าการให้เหตุผลแบบ CoT สะท้อนอคติเชิงอุปนัยที่มีโครงสร้างซึ่งเรียนรู้จากข้อมูลในแจกแจงหรือไม่ โดยเอื้อให้โมเดลสร้างเส้นทางการให้เหตุผลแบบมีเงื่อนไขที่ประมาณเส้นทางซึ่งพบระหว่างการฝึกได้ ดังนั้น ประสิทธิภาพของมันจึงถูกจำกัดโดยพื้นฐานจากระดับความคลาดเคลื่อนของการกระจายระหว่างข้อมูลฝึกกับคำถามทดสอบ ภายใต้กรอบมองนี้ เราแยกวิเคราะห์ CoT reasoning ผ่าน 3 มิติ ได้แก่ งาน ความยาว และรูปแบบ เพื่อสำรวจแต่ละมิติ เราออกแบบ DataAlchemy ซึ่งเป็นสภาพแวดล้อมที่แยกตัวและควบคุมได้สำหรับฝึก LLM ตั้งแต่เริ่มต้น และตรวจสอบพวกมันอย่างเป็นระบบภายใต้เงื่อนไขการกระจายที่หลากหลาย ผลลัพธ์ของเราเผยให้เห็นว่า CoT reasoning เป็นภาพลวงที่เปราะบางและจะสลายไปเมื่อมันถูกผลักให้เกินกว่าการกระจายของข้อมูลฝึก งานนี้มอบความเข้าใจที่ลึกซึ้งยิ่งขึ้นว่าเหตุใดและเมื่อใด CoT reasoning จึงล้มเหลว พร้อมตอกย้ำความท้าทายที่ยังคงอยู่ในการบรรลุการให้เหตุผลที่แท้จริงและสามารถทำให้ทั่วไปได้

ลิงก์บทความ

https://arxiv.org/abs/2508.01191

ข้อจำกัดที่โมเดลภาษาขนาดใหญ่กำลังเผชิญ / The wall confronting large language models

แนะนำบทความ

งานนี้เสนอว่ากฎการสเกลที่กำหนดประสิทธิภาพของโมเดลภาษาขนาดใหญ่ (LLM) มีข้อจำกัดอย่างรุนแรงต่อการปรับปรุงความไม่แน่นอนในการคาดการณ์ โดยชี้ให้เห็นว่ากลไกการสร้างการกระจายเอาต์พุตแบบไม่เป็นเกาส์เซียนซึ่งรองรับความสามารถในการเรียนรู้ของ LLM อาจเป็นสาเหตุของการสะสมของข้อผิดพลาด การพังทลายของข้อมูล และพฤติกรรม AI แบบเสื่อมถอย นอกจากนี้ ยังระบุว่าความสัมพันธ์เทียมที่เพิ่มขึ้นอย่างรวดเร็วตามขนาดข้อมูลที่ใหญ่ขึ้นยิ่งซ้ำเติมปัญหาเหล่านี้ ทำให้การสร้างความน่าเชื่อถือทางวิทยาศาสตร์เป็นเรื่องยากยิ่งขึ้น พร้อมเน้นย้ำว่า การตระหนักถึงความเป็นไปได้ของเส้นทาง AI แบบเสื่อมถอยและการหลีกเลี่ยงเส้นทางดังกล่าว จำเป็นต้องอาศัยมุมมองเชิงลึกและความเข้าใจต่อคุณลักษณะเชิงโครงสร้างของปัญหาอย่างยิ่ง

บทคัดย่อ (Abstract)

บทความนี้แสดงให้เห็นว่ากฎการสเกลที่กำหนดประสิทธิภาพของโมเดลภาษาขนาดใหญ่ (LLM) จำกัดความสามารถในการปรับปรุงความไม่แน่นอนของการคาดการณ์อย่างรุนแรง ส่งผลให้การยกระดับความน่าเชื่อถือให้ถึงมาตรฐานของการสืบค้นทางวิทยาศาสตร์เป็นปัญหาที่แก้ไม่ได้ในเชิงปฏิบัติไม่ว่าจะวัดด้วยเกณฑ์สมเหตุสมผลใดก็ตาม เราโต้แย้งว่ากลไกเดียวกันที่ขับเคลื่อนพลังการเรียนรู้ของ LLM เป็นหลัก กล่าวคือความสามารถในการสร้างการแจกแจงผลลัพธ์แบบไม่เป็นเกาส์จากการแจกแจงอินพุตแบบเกาส์ อาจเป็นรากเหง้าของแนวโน้มที่จะก่อให้เกิดการสะสมของข้อผิดพลาด หายนะทางข้อมูลที่ตามมา และพฤติกรรม AI แบบเสื่อมถอย ความตึงเครียดระหว่างการเรียนรู้กับความแม่นยำนี้เป็นตัวเลือกที่มีน้ำหนักสำหรับกลไกระดับรากฐานที่อยู่เบื้องหลังค่าต่ำขององค์ประกอบการสเกลที่สังเกตได้ นอกจากนี้ ปัญหานี้ยังรุนแรงขึ้นอย่างมากจากการท่วมท้นของความสัมพันธ์ลวงที่ Calude และ Longo ชี้ให้เห็น ซึ่งเพิ่มขึ้นอย่างรวดเร็วในชุดข้อมูลใด ๆ เพียงตามขนาดของมัน โดยไม่ขึ้นกับธรรมชาติของข้อมูล ข้อเท็จจริงที่ว่าเส้นทาง AI แบบเสื่อมถอยเป็นคุณลักษณะที่มีความเป็นไปได้สูงมากในภูมิทัศน์ของ LLM ไม่ได้หมายความว่ามันจะต้องเกิดขึ้นอย่างหลีกเลี่ยงไม่ได้ในการวิจัย AI ในอนาคตทั้งหมด ดังที่อภิปรายไว้ในบทความนี้ การหลีกเลี่ยงสิ่งดังกล่าวจำเป็นต้องให้คุณค่ากับความเข้าใจเชิงลึกและความเข้าใจในลักษณะเชิงโครงสร้างของปัญหาที่กำลังศึกษาให้สูงกว่ามาก

We show that the scaling laws which determine the performance of large language models (LLMs) severely limit their ability to improve the uncertainty of their predictions. As a result, raising their reliability to meet the standards of scientific inquiry is intractable by any reasonable measure. We argue that the very mechanism which fuels much of the learning power of LLMs, namely the ability to generate non-Gaussian output distributions from Gaussian input ones, might well be at the roots of their propensity to produce error pileup, ensuing information catastrophes and degenerative AI behaviour. This tension between learning and accuracy is a likely candidate mechanism underlying the observed low values of the scaling components. It is substantially compounded by the deluge of spurious correlations pointed out by Calude and Longo which rapidly increase in any data set merely as a function of its size, regardless of its nature. The fact that a degenerative AI pathway is a very probable feature of the LLM landscape does not mean that it must inevitably arise in all future AI research. Its avoidance, which we also discuss in this paper, necessitates putting a much higher premium on insight and understanding of the structural characteristics of the problems being investigated.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2507.19703

เวกเตอร์เพอร์โซนา: การติดตามและควบคุมลักษณะนิสัยของโมเดลภาษา / Persona Vectors: Monitoring and Controlling Character Traits in Language Models

แนะนำบทความวิจัย

เพอร์โซนา (persona) แบบ 'ผู้ช่วย' ของโมเดลภาษาขนาดใหญ่มักถูกฝึกให้เป็นมิตร ซื่อสัตย์ และไม่ก่ออันตราย แต่ในบางครั้งก็อาจเบี่ยงเบนไปจากอุดมคติเหล่านี้ งานวิจัยนี้ได้ระบุเวกเตอร์เพอร์โซนา (persona vectors) ในปริภูมิการแอ็กทิเวชันของโมเดลที่เกี่ยวข้องกับลักษณะนิสัยหลายแบบ เช่น ความมุ่งร้าย การประจบสอพลอ และแนวโน้มการหลอน พร้อมยืนยันว่าแนวทางนี้สามารถใช้ติดตามการเปลี่ยนแปลงของเพอร์โซนาในช่วงนำไปใช้งานจริงได้ นอกจากนี้ ยังแสดงให้เห็นว่าสามารถใช้เวกเตอร์เพอร์โซนาเพื่อคาดการณ์และควบคุมการเปลี่ยนแปลงลักษณะนิสัยทั้งที่ตั้งใจและไม่ตั้งใจซึ่งเกิดขึ้นระหว่างการทำ fine-tuning ได้ และสามารถบรรเทาหรือป้องกันการเปลี่ยนแปลงเหล่านี้ด้วยวิธี post-hoc intervention หรือ preventative steering ได้อีกด้วย ยิ่งไปกว่านั้น เวกเตอร์เพอร์โซนายังสามารถใช้ระบุตัวอย่างข้อมูลในชุดฝึกที่อาจก่อให้เกิดการเปลี่ยนแปลงลักษณะนิสัยที่ไม่พึงประสงค์ได้ และเป็นวิธีแบบทั่วไปที่สามารถสกัดออกมาโดยอัตโนมัติได้จากคำอธิบายภาษาธรรมชาติเท่านั้น

บทคัดย่อ(Abstract)

โมเดลภาษาขนาดใหญ่โต้ตอบกับผู้ใช้ผ่านเพอร์โซนา ‘ผู้ช่วย’ ที่ถูกจำลองขึ้น โดยทั่วไปผู้ช่วยจะถูกฝึกให้มีประโยชน์ ไม่ก่ออันตราย และซื่อสัตย์ แต่ในบางครั้งก็อาจเบี่ยงเบนไปจากอุดมคติเหล่านี้ได้ บทความนี้ระบุทิศทางของเวกเตอร์เพอร์โซนาในปริภูมิการแอ็กทิเวชันของโมเดลที่เป็นรากฐานของลักษณะหลายประการ เช่น ความมุ่งร้าย การประจบสอพลอ และแนวโน้มที่จะหลอน เราตรวจยืนยันว่าเวกเตอร์เหล่านี้สามารถใช้ติดตามความผันผวนของบุคลิกผู้ช่วยในช่วงนำไปใช้งานจริงได้ จากนั้นจึงนำเวกเตอร์เพอร์โซนามาใช้เพื่อคาดการณ์และควบคุมการเปลี่ยนแปลงของบุคลิกที่เกิดขึ้นระหว่างการฝึก เราพบว่าทั้งการเปลี่ยนแปลงที่ตั้งใจและไม่ได้ตั้งใจหลังการทำ finetuning มีความสัมพันธ์อย่างมากกับการเปลี่ยนแปลงไปตามเวกเตอร์เพอร์โซนาที่เกี่ยวข้อง การเปลี่ยนแปลงเหล่านี้สามารถบรรเทาได้ด้วยการแทรกแซงภายหลัง (post-hoc intervention) หรือป้องกันได้ตั้งแต่แรกด้วยวิธีการชี้นำเชิงป้องกัน (preventative steering) แบบใหม่ ยิ่งไปกว่านั้น เวกเตอร์เพอร์โซนายังสามารถใช้ระบุข้อมูลฝึกที่อาจก่อให้เกิดการเปลี่ยนแปลงบุคลิกที่ไม่พึงประสงค์ได้ ทั้งในระดับชุดข้อมูลและระดับตัวอย่างรายชิ้น วิธีการสกัดเวกเตอร์เพอร์โซนาของเราเป็นแบบอัตโนมัติ และสามารถประยุกต์ใช้กับลักษณะบุคลิกใด ๆ ที่สนใจได้ โดยใช้เพียงคำอธิบายด้วยภาษาธรรมชาติ

Large language models interact with users through a simulated 'Assistant' persona. While the Assistant is typically trained to be helpful, harmless, and honest, it sometimes deviates from these ideals. In this paper, we identify directions in the model's activation space-persona vectors-underlying several traits, such as evil, sycophancy, and propensity to hallucinate. We confirm that these vectors can be used to monitor fluctuations in the Assistant's personality at deployment time. We then apply persona vectors to predict and control personality shifts that occur during training. We find that both intended and unintended personality changes after finetuning are strongly correlated with shifts along the relevant persona vectors. These shifts can be mitigated through post-hoc intervention, or avoided in the first place with a new preventative steering method. Moreover, persona vectors can be used to flag training data that will produce undesirable personality changes, both at the dataset level and the individual sample level. Our method for extracting persona vectors is automated and can be applied to any personality trait of interest, given only a natural-language description.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2507.21509

อ่านเพิ่มเติม

https://www.anthropic.com/research/persona-vectors

บทความนี้เรียบเรียงโดยอ้างอิงจากบทความสรุปที่จัดทำด้วยโมเดล GPT จึงอาจมีเนื้อหาบางส่วนที่สรุปแตกต่างจากเนื้อหาหรือเจตนาของต้นฉบับได้ หากเป็นประเด็นที่คุณสนใจ โปรดอ่านต้นฉบับควบคู่กันไปด้วย! หากพบข้อความที่อ่านแล้วแปลก ๆ หรือมีเนื้อหาผิดพลาดระหว่างอ่าน รบกวนแจ้งในคอมเมนต์ด้วยนะครับ* 🤗
⚠️โฆษณา⚠️: บทความนี้ที่สรุปโดย ชุมชนผู้ใช้ PyTorch เกาหลี🇰🇷 มีประโยชน์ไหม? หากสมัครสมาชิก เราจะส่งบทความสำคัญให้ทางอีเมล💌! (ค่าเริ่มต้นคือ Weekly แต่เปลี่ยนเป็น Daily ได้เช่นกัน)

[2025/08/18 ~ 24] รวมงานวิจัย AI/ML ที่น่าจับตาประจำสัปดาห์นี้