[2025/09/08 ~ 14] รวมบทความวิจัย AI/ML ที่น่าสนใจประจำสัปดาห์นี้

PyTorchKR🔥🇰🇷 🤔💭

1️⃣ อาการหลอนของโมเดลภาษา: งานวิจัยล่าสุดเน้นย้ำว่าโมเดลภาษาขนาดใหญ่เมื่อไม่แน่ใจมักเดาคำตอบ ทำให้สร้างข้อความที่ดูน่าเชื่อถือแต่ไม่ถูกต้อง ซึ่งเรียกว่า “อาการหลอน” สาเหตุเกิดจากกระบวนการฝึกและการประเมินมีแนวโน้มให้รางวัลกับการเดามากกว่าการยอมรับความไม่แน่นอน และจึงมีข้อเสนอว่าควรปรับระบบการให้คะแนนของ benchmark เดิมเพื่อแก้ปัญหาอาการหลอนนี้

2️⃣ ความเข้าใจโครงสร้างเชิงความหมาย: มีงานวิจัยเพิ่มขึ้นที่วิเคราะห์ว่าในเมทริกซ์ embedding ของโมเดลภาษาขนาดใหญ่ ความสัมพันธ์เชิงความหมายถูกจัดโครงสร้างไว้อย่างไร งานเหล่านี้เน้นว่าพบโครงสร้างมิติต่ำที่คล้ายกับการประเมินความหมายของมนุษย์ และการฉายตามทิศทางความหมายของคำยังมีความสัมพันธ์สูงกับการประเมินของมนุษย์ สิ่งนี้บ่งชี้ว่าโมเดลภาษากำลังประมวลผลข้อมูลเชิงความหมายในลักษณะคล้ายภาษามนุษย์

3️⃣ ยกระดับความสามารถในการให้เหตุผลขั้นสูงผ่านการเรียนรู้แบบเสริมกำลัง: มีการศึกษาจำนวนมากที่พยายามใช้การเรียนรู้แบบเสริมกำลัง (RL) เพื่อเพิ่มความสามารถในการให้เหตุผลที่ซับซ้อนของโมเดลภาษาขนาดใหญ่ โดยเฉพาะมีการเสนอวิธีปรับความลึกและความกว้างเพื่อเพิ่มประสิทธิภาพของอัลกอริทึม RL และพบว่าวิธีนี้มีบทบาทสำคัญในการช่วยให้โมเดลสำรวจและเชี่ยวชาญการวางแผนเชิงกลยุทธ์ระดับสูง แนวทางดังกล่าวกำลังดำเนินไปผ่านพาราไดม์ใหม่อย่าง RLVR (reinforcement learning with verifiable rewards)


เหตุใดโมเดลภาษาจึงเกิดอาการหลอน / Why Language Models Hallucinate (feat. OpenAI)

แนะนำงานวิจัย

โมเดลภาษาขนาดใหญ่มักมีแนวโน้มจะเดาคำตอบในสถานการณ์ที่ไม่แน่ใจ และด้วยเหตุนี้จึงเกิดปรากฏการณ์ “อาการหลอน” ที่สร้างข้อมูลซึ่งดูน่าเชื่อถือแต่ผิดพลาด ปัญหานี้ยังคงมีอยู่แม้ในโมเดลรุ่นใหม่ที่สุด และเป็นสาเหตุสำคัญที่บั่นทอนความน่าเชื่อถือ งานวิจัยนี้อธิบายว่าสาเหตุที่โมเดลภาษาเกิดอาการหลอนนั้นมาจากกระบวนการฝึกและการประเมินที่ให้รางวัลกับการเดามากกว่าการยอมรับความไม่แน่นอน โดยเฉพาะอาการหลอนมีต้นตอมาจากข้อผิดพลาดในงานจำแนกแบบทวิภาค และเมื่อข้อความที่ผิดไม่สามารถแยกออกจากข้อเท็จจริงได้อย่างชัดเจน แรงกดดันทางสถิติตามธรรมชาติก็จะทำให้เกิดอาการหลอนขึ้น

ในขั้นตอน pretraining โมเดลภาษาจะเรียนรู้การกระจายของภาษาจากข้อมูลข้อความขนาดใหญ่ และในกระบวนการนี้อาจเกิดข้อผิดพลาดได้ ข้อผิดพลาดเหล่านี้ถูกตอกย้ำต่อเนื่องด้วยวิธีการประเมินที่ลงโทษคำตอบที่แสดงความไม่แน่นอน ทีมวิจัยชี้ว่าโมเดลภาษามีแนวโน้มหลีกเลี่ยงการแสดงความไม่แน่นอนและเลือกเดาเพื่อให้ทำคะแนนสอบได้ดี ซึ่งเป็นสาเหตุที่ทำให้อาการหลอนคงอยู่ต่อไป

งานวิจัยฉบับนี้ที่ OpenAI เผยแพร่ ได้อธิบายสาเหตุทางสถิติของอาการหลอนอย่างเป็นระบบ พร้อมวิเคราะห์ทั้งจุดกำเนิดในช่วง pretraining และการคงอยู่ต่อเนื่องในช่วง post-training อีกทั้งยังเสนอว่าการปรับวิธีประเมินแบบเดิมอาจเป็นแนวทางที่มีประสิทธิภาพในการบรรเทาอาการหลอน แนวทางนี้ช่วยเพิ่มความน่าเชื่อถือของโมเดลภาษา และยิ่งไปกว่านั้นยังชี้เส้นทางไปสู่ระบบปัญญาประดิษฐ์ที่ไว้วางใจได้มากขึ้น ผลลัพธ์ของงานวิจัยสามารถใช้เป็นข้อมูลพื้นฐานสำคัญในการทำความเข้าใจและปรับปรุงปัญหาอาการหลอนของโมเดลภาษา

บทคัดย่อ(Abstract)

เช่นเดียวกับนักเรียนที่ต้องเผชิญกับข้อสอบยาก ๆ โมเดลภาษาขนาดใหญ่เมื่อไม่แน่ใจก็มักเดาคำตอบ ทำให้สร้างข้อความที่ดูน่าเชื่อถือแต่ไม่ถูกต้อง แทนที่จะยอมรับว่าตนเองไม่แน่ใจ “อาการหลอน” ลักษณะนี้ยังคงพบได้แม้ในระบบที่ล้ำสมัยที่สุดและบั่นทอนความไว้วางใจ เราโต้แย้งว่าเหตุผลที่โมเดลภาษาเกิดอาการหลอนเป็นเพราะกระบวนการฝึกและการประเมินให้รางวัลกับการเดามากกว่าการยอมรับความไม่แน่นอน และเราได้วิเคราะห์สาเหตุทางสถิติของอาการหลอนใน pipeline การฝึกสมัยใหม่ อาการหลอนไม่ใช่เรื่องลึกลับแต่อย่างใด มันเป็นเพียงข้อผิดพลาดที่เกิดขึ้นจากการจำแนกแบบทวิภาคเท่านั้น หากข้อความที่ไม่ถูกต้องไม่สามารถแยกออกจากข้อเท็จจริงได้ อาการหลอนในโมเดลภาษาที่ผ่าน pretraining แล้วก็จะเกิดขึ้นจากแรงกดดันทางสถิติตามธรรมชาติ เรายังโต้แย้งต่อไปว่าอาการหลอนยังคงอยู่เพราะวิธีที่การประเมินส่วนใหญ่ถูกให้คะแนน โมเดลภาษาถูกปรับให้เป็นผู้ทำข้อสอบที่เก่ง และการเดาเมื่อไม่แน่ใจช่วยเพิ่มผลการทำข้อสอบ “การระบาด” ของการลงโทษคำตอบที่แสดงความไม่แน่นอนนี้ จะแก้ได้ก็ด้วยมาตรการบรรเทาเชิงสังคม-เทคนิคเท่านั้น นั่นคือการปรับวิธีให้คะแนนของ benchmark ที่มีอยู่เดิม ซึ่งแม้จะไม่สอดคล้องแต่กลับครอง leaderboard อยู่ แทนที่จะเพิ่มการประเมินอาการหลอนแบบใหม่เข้าไป การเปลี่ยนแปลงนี้อาจช่วยชี้นำให้วงการมุ่งไปสู่ระบบ AI ที่น่าเชื่อถือมากขึ้น
> Like students facing hard exam questions, large language models sometimes guess when uncertain, producing plausible yet incorrect statements instead of admitting uncertainty. Such "hallucinations" persist even in state-of-the-art systems and undermine trust. We argue that language models hallucinate because the training and evaluation procedures reward guessing over acknowledging uncertainty, and we analyze the statistical causes of hallucinations in the modern training pipeline. Hallucinations need not be mysterious -- they originate simply as errors in binary classification. If incorrect statements cannot be distinguished from facts, then hallucinations in pretrained language models will arise through natural statistical pressures. We then argue that hallucinations persist due to the way most evaluations are graded -- language models are optimized to be good test-takers, and guessing when uncertain improves test performance. This "epidemic" of penalizing uncertain responses can only be addressed through a socio-technical mitigation: modifying the scoring of existing benchmarks that are misaligned but dominate leaderboards, rather than introducing additional hallucination evaluations. This change may steer the field toward more trustworthy AI systems.

ลิงก์งานวิจัย

https://arxiv.org/abs/2509.04664


โครงสร้างเชิงความหมายใน embedding ของโมเดลภาษาขนาดใหญ่ / Semantic Structure in Large Language Model Embeddings

แนะนำงานวิจัย

โครงสร้าง embedding ของโมเดลภาษาขนาดใหญ่ (LLMs) น่าสนใจอย่างยิ่งเพราะมันแสดงข้อมูลเชิงความหมายในลักษณะที่คล้ายกับการรับรู้ภาษาของมนุษย์ งานวิจัยนี้อาศัยข้อค้นพบทางจิตวิทยาเพื่อวิเคราะห์ความสัมพันธ์เชิงความหมายระหว่างคำภายในเมทริกซ์ embedding ของ LLM และตรวจสอบความสัมพันธ์ระหว่างการประเมินคำของมนุษย์กับการแทนค่าเชิงภายในของ LLM ผลการวิจัยพบว่าการฉายคำใน embedding ของ LLM สามารถย่อให้เหลือสามมิติหลัก ได้แก่ การประเมินค่า (ดี vs. แย่) ความเข้ม/พลัง (แข็งแกร่ง vs. อ่อนแอ) และความเคลื่อนไหว (active vs. passive)

งานวิจัยนี้นำข้อมูลจากแบบสำรวจคำจำนวน 360 คำมาเปรียบเทียบกับ embedding ของ LLM เพื่อวิเคราะห์เชิงปริมาณถึงความสัมพันธ์ระหว่างการประเมินเชิงความหมายของมนุษย์กับ embedding ของ LLM โดยเฉพาะอย่างยิ่ง งานได้สกัดทิศทางของคุณลักษณะเชิงความหมายของคำ และวัดผลกระทบนอกเป้าหมายผ่านการแทรกแซงบนพื้นฐานดังกล่าว ซึ่งเน้นให้เห็นว่าคุณลักษณะต่าง ๆ ภายใน LLM มีความพันกันอยู่ ข้อค้นพบนี้ชี้ว่า embedding ของ LLM สะท้อนความซับซ้อนของภาษามนุษย์ และข้อมูลเชิงความหมายมีลักษณะเป็นมิติต่ำค่อนข้างมาก

นอกจากนี้ งานวิจัยยังเน้นว่าการวัดความสัมพันธ์ระหว่างคุณลักษณะแต่ละอย่างมีความสำคัญต่อการทำความเข้าใจกลไกภายในของ LLM และสิ่งนี้อาจส่งผลเชิงบวกต่อความปลอดภัยของ AI รวมถึงการปรับจูนเชิงหน้าที่ของโมเดล แนวทางดังกล่าวยังอาจช่วยหลีกเลี่ยงผลลัพธ์ที่ไม่ได้ตั้งใจซึ่งอาจเกิดขึ้นในกระบวนการ feature steering ของ LLM ได้ด้วย งานวิจัยนี้มีส่วนสำคัญต่อการทำความเข้าใจโครงสร้างเชิงความหมายของ LLM และช่วยให้เรามองเห็นพฤติกรรมของโมเดลได้ชัดเจนยิ่งขึ้น

บทคัดย่อ(Abstract)

งานวิจัยทางจิตวิทยาพบอย่างสม่ำเสมอว่า การประเมินคำของมนุษย์บนสเกลเชิงความหมายที่หลากหลายสามารถย่อให้อยู่ในรูปแบบมิติต่ำได้โดยสูญเสียข้อมูลค่อนข้างน้อย เราพบว่าความสัมพันธ์เชิงความหมายที่ถูกเข้ารหัสอยู่ในเมทริกซ์ embedding ของ large language models (LLM) ก็แสดงโครงสร้างที่คล้ายกันเช่นกัน เราแสดงให้เห็นว่าการฉายคำลงบนทิศทางเชิงความหมายที่กำหนดโดยคู่คำตรงข้าม (เช่น ใจดี - โหดร้าย) มีความสัมพันธ์สูงกับการประเมินของมนุษย์ และยังพบต่อไปว่าการฉายเหล่านี้สามารถย่อลงได้อย่างมีประสิทธิภาพเป็นปริภูมิย่อยมิติ 3 ภายใน embedding ของ LLM ซึ่งใกล้เคียงอย่างมากกับรูปแบบที่ได้จากคำตอบแบบสำรวจของมนุษย์ นอกจากนี้ เรายังพบว่าการเลื่อนโทเคนไปตามทิศทางเชิงความหมายหนึ่งจะก่อให้เกิดผลกระทบนอกเป้าหมายต่อคุณลักษณะที่จัดแนวกันทางเรขาคณิต โดยแปรผันตาม cosine similarity ของมัน ผลการค้นพบเหล่านี้บ่งชี้ว่าคุณลักษณะเชิงความหมายภายใน LLM นั้นพันเกี่ยวกันในลักษณะคล้ายกับที่ภาษาในมนุษย์เชื่อมโยงกันอยู่ และข้อมูลเชิงความหมายจำนวนมาก แม้จะดูซับซ้อน ก็มีมิติต่ำอย่างน่าประหลาดใจ ยิ่งไปกว่านั้น การคำนึงถึงโครงสร้างเชิงความหมายนี้อาจเป็นสิ่งจำเป็นอย่างยิ่งเพื่อหลีกเลี่ยงผลลัพธ์ที่ไม่ตั้งใจเมื่อทำการ steer คุณลักษณะ
> งานวิจัยทางจิตวิทยาพบอย่างสม่ำเสมอว่า การประเมินคำของมนุษย์บนสเกลเชิงความหมายที่หลากหลายสามารถย่อให้อยู่ในรูปแบบมิติต่ำได้โดยสูญเสียข้อมูลค่อนข้างน้อย เราพบว่าความสัมพันธ์เชิงความหมายที่ถูกเข้ารหัสอยู่ในเมทริกซ์ embedding ของ large language models (LLM) ก็แสดงโครงสร้างที่คล้ายกันเช่นกัน เราแสดงให้เห็นว่าการฉายคำลงบนทิศทางเชิงความหมายที่กำหนดโดยคู่คำตรงข้าม (เช่น kind - cruel) มีความสัมพันธ์สูงกับการประเมินของมนุษย์ และยังพบต่อไปว่าการฉายเหล่านี้สามารถย่อลงได้อย่างมีประสิทธิภาพเป็นปริภูมิย่อยมิติ 3 ภายใน embedding ของ LLM ซึ่งใกล้เคียงอย่างมากกับรูปแบบที่ได้จากคำตอบแบบสำรวจของมนุษย์ นอกจากนี้ เรายังพบว่าการเลื่อนโทเคนไปตามทิศทางเชิงความหมายหนึ่งจะก่อให้เกิดผลกระทบนอกเป้าหมายต่อคุณลักษณะที่จัดแนวกันทางเรขาคณิต โดยแปรผันตาม cosine similarity ของมัน ผลการค้นพบเหล่านี้บ่งชี้ว่าคุณลักษณะเชิงความหมายภายใน LLM นั้นพันเกี่ยวกันในลักษณะคล้ายกับที่ภาษาในมนุษย์เชื่อมโยงกันอยู่ และข้อมูลเชิงความหมายจำนวนมาก แม้จะดูซับซ้อน ก็มีมิติต่ำอย่างน่าประหลาดใจ ยิ่งไปกว่านั้น การคำนึงถึงโครงสร้างเชิงความหมายนี้อาจเป็นสิ่งจำเป็นอย่างยิ่งเพื่อหลีกเลี่ยงผลลัพธ์ที่ไม่ตั้งใจเมื่อทำการ steer คุณลักษณะ

ลิงก์งานวิจัย

https://arxiv.org/abs/2508.10003


rStar2-Agent: เอกสารทางเทคนิคการให้เหตุผลเชิงเอเจนต์ / rStar2-Agent: Agentic Reasoning Technical Report (feat. Microsoft)

แนะนำงานวิจัย

rStar2-Agent เป็นโมเดล math-reasoning ขนาด 14 พันล้านพารามิเตอร์ ที่ออกแบบมาเพื่อให้บรรลุประสิทธิภาพระดับ state-of-the-art ผ่าน agentic reinforcement learning โมเดลนี้ก้าวข้ามแนวทาง Long Chain-of-Thought (Long-CoT) แบบเดิม และแสดงพฤติกรรมการรับรู้ขั้นสูงในกระบวนการแก้ปัญหาที่ซับซ้อน โดยเฉพาะเมื่อใช้เครื่องมือเขียนโค้ด Python มันสามารถคิดอย่างรอบคอบ สะท้อนผลตอบกลับจากการรันโค้ด และสำรวจพร้อมตรวจสอบขั้นตอนกลางต่าง ๆ ได้อย่างอัตโนมัติ นวัตกรรมนี้เกิดขึ้นได้จากองค์ประกอบหลักสามประการ

ประการแรก rStar2-Agent สร้างสภาพแวดล้อมโค้ด Python ที่เชื่อถือได้ผ่านโครงสร้างพื้นฐาน RL ที่มีประสิทธิภาพ เพื่อรองรับการประมวลผลแบบ throughput สูง โครงสร้างพื้นฐานนี้ถูกออกแบบมาให้ฝึกได้อย่างมีประสิทธิภาพแม้มีทรัพยากร GPU จำกัด จึงช่วยบรรเทาต้นทุน rollout ที่สูง ประการที่สอง อัลกอริทึม agentic RL ที่ชื่อ GRPO-RoC ใช้กลยุทธ์ rollout แบบ Resample-on-Correct เพื่อจัดการกับ environmental noise ของเครื่องมือเขียนโค้ด และช่วยให้โมเดลให้เหตุผลภายในสภาพแวดล้อมโค้ดได้อย่างมีประสิทธิภาพมากขึ้น ประการที่สาม สูตรการฝึกเอเจนต์ที่มีประสิทธิภาพ ซึ่งเริ่มจาก non-reasoning SFT (Supervised Fine-Tuning) แล้วดำเนินต่อผ่าน RL หลายขั้นตอน มอบความสามารถด้านการรับรู้ขั้นสูงได้ด้วยต้นทุนคอมพิวต์เพียงเล็กน้อย

ด้วยระเบียบวิธีเหล่านี้ rStar2-Agent ยกระดับโมเดล 14B ที่ผ่านการ pretrain มาแล้วให้ขึ้นสู่ระดับ state-of-the-art ได้ภายในเพียง 510 ขั้นตอน RL โดยทำคะแนน pass@1 เฉลี่ย 80.6% บน AIME24 และ 69.8% บน AIME25 ซึ่งเหนือกว่า DeepSeek-R1 (671B) พร้อมทั้งลดเวลาในการตอบสนองลงอย่างมาก นอกจากนี้ rStar2-Agent ยังแสดงความสามารถในการ generalize ที่แข็งแกร่ง ไม่เพียงในงานแก้ปัญหาคณิตศาสตร์ แต่ยังรวมถึงงาน alignment การให้เหตุผลทางวิทยาศาสตร์ และงานใช้เครื่องมือแบบ agentic อีกด้วย ผลลัพธ์เหล่านี้แสดงให้เห็นว่าแนวทาง agentic RL มีส่วนสำคัญในการเสริมพฤติกรรมเชิงการรับรู้สำหรับการแก้ปัญหาที่ซับซ้อน

บทคัดย่อ (Abstract)

เราขอแนะนำ rStar2-Agent โมเดลให้เหตุผลทางคณิตศาสตร์ขนาด 14B ที่ฝึกด้วย agentic reinforcement learning เพื่อให้ได้ประสิทธิภาพระดับแนวหน้า นอกเหนือไปจาก chain of thought (CoT) แบบยาวในปัจจุบัน โมเดลนี้แสดงพฤติกรรมการรับรู้ขั้นสูง เช่น คิดอย่างรอบคอบก่อนใช้เครื่องมือเขียนโค้ด Python และสะท้อนกลับจากผลลัพธ์การรันโค้ดเพื่อสำรวจ ตรวจสอบ และปรับปรุงขั้นตอนกลางในการแก้ปัญหาที่ซับซ้อนด้วยตนเอง ความสามารถนี้เกิดขึ้นได้จากนวัตกรรมหลัก 3 ประการที่ทำให้ agentic RL ใช้งานได้อย่างมีประสิทธิภาพในสเกลใหญ่: (i) โครงสร้างพื้นฐาน RL ที่มีประสิทธิภาพพร้อมสภาพแวดล้อมโค้ด Python ที่เชื่อถือได้ รองรับการประมวลผลแบบ high-throughput และบรรเทาต้นทุน rollout ที่สูง ทำให้ฝึกได้ด้วยทรัพยากร GPU ที่จำกัด (64 MI300X GPU); (ii) GRPO-RoC อัลกอริทึม agentic RL ที่มีกลยุทธ์ rollout แบบ Resample-on-Correct เพื่อจัดการกับ noise ของสภาพแวดล้อมที่เกิดขึ้นโดยธรรมชาติจากเครื่องมือเขียนโค้ด ช่วยให้โมเดลให้เหตุผลในสภาพแวดล้อมโค้ดได้อย่างมีประสิทธิภาพมากขึ้น; (iii) สูตรการฝึกเอเจนต์ที่มีประสิทธิภาพ ซึ่งเริ่มจาก SFT แบบไม่เน้นการให้เหตุผล แล้วพัฒนาต่อผ่านหลายขั้นของ RL เพื่อให้ได้ความสามารถด้านการรับรู้ขั้นสูงด้วยต้นทุนการคำนวณที่ต่ำมาก ด้วยแนวทางนี้ rStar2-Agent ยกระดับโมเดล 14B ที่พรีเทรนไว้ให้ขึ้นสู่ระดับ state of the art ได้ภายในเพียง 510 ขั้น RL ในหนึ่งสัปดาห์ โดยทำคะแนน pass@1 เฉลี่ย 80.6% บน AIME24 และ 69.8% บน AIME25 แซงหน้า DeepSeek-R1 (671B) ด้วยคำตอบที่สั้นกว่ามาก นอกเหนือจากคณิตศาสตร์แล้ว rStar2-Agent-14B ยังแสดงความสามารถในการ generalize ได้ดีในงานด้าน alignment, scientific reasoning และการใช้เครื่องมือแบบ agentic อีกด้วย สามารถดูโค้ดและสูตรการฝึกได้ที่ https://github.com/microsoft/rStar
> We introduce rStar2-Agent, a 14B math reasoning model trained with agentic reinforcement learning to achieve frontier-level performance. Beyond current long CoT, the model demonstrates advanced cognitive behaviors, such as thinking carefully before using Python coding tools and reflecting on code execution feedback to autonomously explore, verify, and refine intermediate steps in complex problem-solving. This capability is enabled through three key innovations that makes agentic RL effective at scale: (i) an efficient RL infrastructure with a reliable Python code environment that supports high-throughput execution and mitigates the high rollout costs, enabling training on limited GPU resources (64 MI300X GPUs); (ii) GRPO-RoC, an agentic RL algorithm with a Resample-on-Correct rollout strategy that addresses the inherent environment noises from coding tools, allowing the model to reason more effectively in a code environment; (iii) An efficient agent training recipe that starts with non-reasoning SFT and progresses through multi-RL stages, yielding advanced cognitive abilities with minimal compute cost. To this end, rStar2-Agent boosts a pre-trained 14B model to state of the art in only 510 RL steps within one week, achieving average pass@1 scores of 80.6% on AIME24 and 69.8% on AIME25, surpassing DeepSeek-R1 (671B) with significantly shorter responses. Beyond mathematics, rStar2-Agent-14B also demonstrates strong generalization to alignment, scientific reasoning, and agentic tool-use tasks. Code and training recipes are available at https://github.com/microsoft/rStar.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2508.20722

อ่านเพิ่มเติม

https://github.com/microsoft/rStar


uGMM-NN: โครงข่ายประสาทแบบ Gaussian Mixture Model ตัวแปรเดี่ยว / uGMM-NN: Univariate Gaussian Mixture Model Neural Network

แนะนำบทความวิจัย

uGMM-NN (Univariate Gaussian Mixture Model Neural Network) เป็นสถาปัตยกรรมใหม่ที่ผสานการอนุมานเชิงความน่าจะเป็นเข้าไปโดยตรงในหน่วยคำนวณของโครงข่ายประสาทเชิงลึก โดยให้แต่ละนิวรอนพารามิเตอร์ไรซ์การกระตุ้นของตนเองด้วย Gaussian mixture แบบตัวแปรเดี่ยว แนวทางนี้ก้าวข้ามข้อจำกัดของนิวรอนแบบดั้งเดิมที่อาศัยผลรวมถ่วงน้ำหนักและ nonlinearity แบบคงที่ และทำให้สามารถจับทั้งความเป็นหลายยอดและความไม่แน่นอนได้อย่างมีประสิทธิภาพในระดับนิวรอนเดี่ยว ผ่านค่าเฉลี่ย ความแปรปรวน และค่าสัมประสิทธิ์การผสมที่เรียนรู้ได้ การออกแบบนี้มอบความยืดหยุ่นที่จำเป็นให้โมเดลสำหรับการเรียนรู้การกระจายข้อมูลที่ซับซ้อน พร้อมคงความสามารถในการขยายสเกลของโครงข่าย feedforward มาตรฐานไว้

เมื่อเทียบกับ multilayer perceptron (MLP) แบบเดิม uGMM-NN สามารถให้ประสิทธิภาพเชิงจำแนกที่แข่งขันได้ พร้อมเปิดทางให้ตีความ activation ในเชิงความน่าจะเป็น ส่งผลให้โมเดลไม่ได้จำกัดอยู่เพียงขอบเขตการตัดสินใจอย่างง่าย แต่ยังมีความสามารถในการทำความเข้าใจและแทนโครงสร้างที่ซับซ้อนของข้อมูลได้ด้วย กรอบงานที่นำเสนอนี้จึงวางรากฐานสำหรับการผสานองค์ประกอบด้านการรับรู้ความไม่แน่นอนเข้ากับสถาปัตยกรรมประสาทสมัยใหม่ และชี้ให้เห็นทิศทางการวิจัยใหม่ทั้งในด้าน discriminative และ generative modeling

โครงสร้างของ uGMM-NN ประกอบด้วยนิวรอนแต่ละตัวที่แสดง activation โดยมีองค์ประกอบอย่างค่าสัมประสิทธิ์การผสม ค่าเฉลี่ย และความแปรปรวน ซึ่งองค์ประกอบเหล่านี้จะถูกปรับให้เหมาะสมระหว่างกระบวนการเรียนรู้ ในด้านวิธีการเรียนรู้ จะใช้อัลกอริทึม backpropagation เพื่ออัปเดตพารามิเตอร์ และออกแบบฟังก์ชัน loss ให้ลดความแตกต่างระหว่าง activation ของแต่ละนิวรอนกับเลเบลจริงให้เหลือน้อยที่สุด โดยในกระบวนการนี้มีการใช้เทคนิคการเพิ่มประสิทธิภาพแบบอิงกราดิเอนต์เพื่อเพิ่มสมรรถนะของโมเดลให้สูงสุด

ผลการทดลองแสดงให้เห็นว่า uGMM-NN ทำความแม่นยำได้สูงกว่า MLP เดิมในชุดข้อมูล benchmark ที่หลากหลาย และพิสูจน์ความสามารถในการจัดการความไม่แน่นอนได้อย่างมีประสิทธิภาพ ผลลัพธ์เหล่านี้ยืนยันถึงจุดเด่นของ uGMM-NN และเป็นข้อมูลตั้งต้นสำคัญที่ชี้ทิศทางของการสร้างแบบจำลองที่รับรู้ความไม่แน่นอนในอนาคต งานวิจัยนี้ยังสำรวจศักยภาพในการประยุกต์ใช้ในหลายโดเมน และต่อยอดไปสู่การอภิปรายเรื่องความสามารถในการขยายสเกลของ uGMM-NN และความเป็นไปได้ในการผสานเข้ากับโมเดลอื่น

บทคัดย่อ(Abstract)

บทความนี้นำเสนอ Univariate Gaussian Mixture Model Neural Network (uGMM-NN) ซึ่งเป็นสถาปัตยกรรมโครงข่ายประสาทแบบใหม่ที่ฝังการอนุมานเชิงความน่าจะเป็นไว้โดยตรงในหน่วยคำนวณของโครงข่ายเชิงลึก ต่างจากนิวรอนแบบดั้งเดิมที่ใช้ผลรวมถ่วงน้ำหนักแล้วตามด้วยฟังก์ชันไม่เชิงเส้นแบบคงที่ โดยแต่ละโหนดของ uGMM-NN จะกำหนดพารามิเตอร์การทำงานของ activation เป็นส่วนผสมแบบเกาส์เซียนตัวแปรเดียว พร้อมค่าเฉลี่ย ความแปรปรวน และค่าสัมประสิทธิ์การผสมที่เรียนรู้ได้ การออกแบบนี้ช่วยให้ได้การแทนข้อมูลที่สมบูรณ์ยิ่งขึ้นด้วยการจับทั้งความเป็นหลายโหมดและความไม่แน่นอนในระดับนิวรอนรายตัว ขณะเดียวกันก็ยังคงความสามารถในการขยายขนาดแบบเดียวกับโครงข่าย feedforward มาตรฐาน ผู้วิจัยแสดงให้เห็นว่า uGMM-NN สามารถให้ประสิทธิภาพด้านการจำแนกที่แข่งขันได้เมื่อเทียบกับ multilayer perceptron แบบเดิม พร้อมทั้งมอบการตีความ activation ในเชิงความน่าจะเป็นเพิ่มเติมด้วย เฟรมเวิร์กที่เสนอนี้วางรากฐานสำหรับการผสานองค์ประกอบที่ตระหนักรู้ความไม่แน่นอนเข้ากับสถาปัตยกรรมโครงข่ายประสาทสมัยใหม่ และเปิดแนวทางใหม่สำหรับทั้งการสร้างแบบจำลองเชิงจำแนกและเชิงกำเนิด
> This paper introduces the Univariate Gaussian Mixture Model Neural Network (uGMM-NN), a novel neural architecture that embeds probabilistic reasoning directly into the computational units of deep networks. Unlike traditional neurons, which apply weighted sums followed by fixed nonlinearities, each uGMM-NN node parameterizes its activations as a univariate Gaussian mixture, with learnable means, variances, and mixing coefficients. This design enables richer representations by capturing multimodality and uncertainty at the level of individual neurons, while retaining the scalability of standard feedforward networks. We demonstrate that uGMM-NN can achieve competitive discriminative performance compared to conventional multilayer perceptrons, while additionally offering a probabilistic interpretation of activations. The proposed framework provides a foundation for integrating uncertainty-aware components into modern neural architectures, opening new directions for both discriminative and generative modeling.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2509.07569


การให้เหตุผลเชิงลำดับชั้นที่เกิดขึ้นใหม่ในโมเดลภาษาขนาดใหญ่ผ่านการเสริมกำลังการเรียนรู้ / Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning

แนะนำบทความวิจัย

งานวิจัยเพื่อยกระดับความสามารถในการให้เหตุผลที่ซับซ้อนของโมเดลภาษาขนาดใหญ่ (LLMs) ได้กลายเป็นประเด็นสำคัญในวงการปัญญาประดิษฐ์ช่วงหลังมานี้ งานวิจัยนี้สำรวจว่า Reinforcement Learning (RL) ช่วยเสริมความสามารถดังกล่าวของ LLM ได้อย่างไร และเผยให้เห็นว่าปรากฏการณ์หลายอย่างที่เกิดขึ้นระหว่างกระบวนการนั้นมีความเชื่อมโยงกัน โดยเฉพาะประสบการณ์อย่าง “ช่วงอ๋อ!” ซึ่งมีความเกี่ยวข้องอย่างใกล้ชิดกับการคิดเชิงกลยุทธ์ระดับสูง และสามารถตีความได้ว่าเป็นลักษณะของลำดับชั้นการให้เหตุผลที่เกิดขึ้นใหม่ ซึ่งคล้ายกับการแยกระหว่างการวางแผนระดับสูงและการลงมือทำระดับต่ำในกระบวนการรับรู้ของมนุษย์

งานวิจัยนำเสนอพลวัตสองช่วง ในช่วงแรก โมเดลถูกจำกัดด้วยความถูกต้องเชิงกระบวนวิธีและต้องปรับปรุงทักษะระดับล่างก่อน จากนั้นคอขวดของการเรียนรู้จะเปลี่ยนไป โดยการปรับปรุงประสิทธิภาพถูกขับเคลื่อนด้วยการสำรวจและการเชี่ยวชาญในการวางแผนเชิงกลยุทธ์ระดับสูง ข้อค้นพบนี้เผยให้เห็นความไม่มีประสิทธิภาพของอัลกอริทึม RL ที่มีอยู่ โดยเฉพาะ GRPO (Generalized Reinforcement Policy Optimization) ซึ่งเน้นว่ามันใช้แรงกดดันในการเพิ่มประสิทธิภาพแบบไม่จำแนก ทำให้สัญญาณการเรียนรู้ถูกเจือจาง

เพื่อแก้ปัญหานี้ ผู้เขียนจึงเสนออัลกอริทึมใหม่ชื่อ HIerarchy-Aware Credit Assignment (HICRA) โดย HICRA มุ่งแก้คอขวดเชิงกลยุทธ์ด้วยการโฟกัสความพยายามในการเพิ่มประสิทธิภาพไปที่โทเค็นการวางแผนที่มีอิทธิพลสูง อัลกอริทึมนี้แสดงประสิทธิภาพที่เหนือกว่า baseline ที่แข็งแกร่ง และพิสูจน์ให้เห็นว่าสามารถเป็นกุญแจสำคัญในการปลดล็อกการให้เหตุผลขั้นสูงได้ นอกจากนี้ ผู้เขียนยังเสนอ semantic entropy ให้เป็นตัวชี้วัดที่ดีกว่าสำหรับการวัดการสำรวจเชิงกลยุทธ์ ซึ่งให้ผลดีกว่าเมตริกที่อาจทำให้เข้าใจผิดอย่าง token-level entropy แบบเดิม

งานวิจัยนี้นำเสนอแนวทางใหม่ในการเพิ่มประสิทธิภาพในกระบวนการเรียนรู้และการให้เหตุผลของ LLM และเน้นย้ำถึงความจำเป็นของการเพิ่มประสิทธิภาพที่มุ่งเน้นต่อการวางแผนเชิงกลยุทธ์ผ่านอัลกอริทึม HICRA ผลงานเหล่านี้คาดว่าจะช่วยต่อยอดความสามารถในการให้เหตุผลที่ซับซ้อนของ LLM ให้ก้าวหน้ายิ่งขึ้น และเป็นรากฐานสำคัญสำหรับงานวิจัยในอนาคต

บทคัดย่อ (Abstract)

แม้จะพิสูจน์แล้วว่า Reinforcement Learning (RL) มีประสิทธิภาพสูงในการยกระดับความสามารถด้านการให้เหตุผลที่ซับซ้อนของ Large Language Models (LLMs) แต่กลไกพื้นฐานที่ขับเคลื่อนความสำเร็จนี้ยังคงไม่ชัดเจน การวิเคราะห์ของเราเผยให้เห็นว่าปรากฏการณ์ชวนสับสนอย่าง “aha moment”, “length-scaling” และพลวัตของเอนโทรปี ไม่ใช่เหตุการณ์แยกขาดจากกัน แต่เป็นลักษณะเด่นของ emergent reasoning hierarchy ซึ่งคล้ายกับการแยกระหว่างการวางแผนเชิงกลยุทธ์ระดับสูงกับการปฏิบัติการเชิงขั้นตอนระดับล่างในกระบวนการรับรู้ของมนุษย์ เราค้นพบพลวัตสองระยะที่น่าสนใจ: ในช่วงแรก โมเดลถูกจำกัดด้วยความถูกต้องเชิงขั้นตอนและต้องพัฒนาทักษะระดับล่างของตน จากนั้นคอขวดของการเรียนรู้จะเปลี่ยนไปอย่างชัดเจน โดยการเพิ่มขึ้นของประสิทธิภาพถูกขับเคลื่อนด้วยการสำรวจและการเชี่ยวชาญด้านการวางแผนเชิงกลยุทธ์ระดับสูง ข้อค้นพบนี้ชี้ให้เห็นถึงความไม่มีประสิทธิภาพหลักของอัลกอริทึม RL ที่ใช้อยู่ทั่วไปอย่าง GRPO ซึ่งใช้แรงกดดันในการเพิ่มประสิทธิภาพแบบไม่จำแนกและทำให้สัญญาณการเรียนรู้เจือจางลงในทุกโทเค็น เพื่อแก้ปัญหานี้ เราเสนออัลกอริทึม HIerarchy-Aware Credit Assignment (HICRA) ที่มุ่งเน้นความพยายามในการเพิ่มประสิทธิภาพไปยังโทเค็นการวางแผนที่มีผลกระทบสูง HICRA มีประสิทธิภาพเหนือกว่า baseline ที่แข็งแกร่งอย่างชัดเจน แสดงให้เห็นว่าการโฟกัสไปที่คอขวดเชิงกลยุทธ์นี้คือกุญแจสำคัญในการปลดล็อกการให้เหตุผลขั้นสูง นอกจากนี้ เรายังยืนยันว่า semantic entropy เป็นเข็มทิศที่ดีกว่าในการวัดการสำรวจเชิงกลยุทธ์ เมื่อเทียบกับเมตริกที่อาจชวนให้เข้าใจผิดอย่าง token-level entropy

Reinforcement Learning (RL) has proven highly effective at enhancing the complex reasoning abilities of Large Language Models (LLMs), yet underlying mechanisms driving this success remain largely opaque. Our analysis reveals that puzzling phenomena like aha moments", length-scaling'' and entropy dynamics are not disparate occurrences but hallmarks of an emergent reasoning hierarchy, akin to the separation of high-level strategic planning from low-level procedural execution in human cognition. We uncover a compelling two-phase dynamic: initially, a model is constrained by procedural correctness and must improve its low-level skills. The learning bottleneck then decisively shifts, with performance gains being driven by the exploration and mastery of high-level strategic planning. This insight exposes a core inefficiency in prevailing RL algorithms like GRPO, which apply optimization pressure agnostically and dilute the learning signal across all tokens. To address this, we propose HIerarchy-Aware Credit Assignment (HICRA), an algorithm that concentrates optimization efforts on high-impact planning tokens. HICRA significantly outperforms strong baselines, demonstrating that focusing on this strategic bottleneck is key to unlocking advanced reasoning. Furthermore, we validate semantic entropy as a superior compass for measuring strategic exploration over misleading metrics such as token-level entropy.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2509.03646


OpenVision 2: ตระกูลวิชวลเอนโค้ดเดอร์ที่พรีเทรนเชิงกำเนิดสำหรับการเรียนรู้แบบหลายโมดัล / OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning (feat. Apple)

แนะนำงานวิจัย

OpenVision 2 เสนอตระกูลใหม่ของวิชวลเอนโค้ดเดอร์ที่ผ่านการพรีเทรนเชิงกำเนิดสำหรับการเรียนรู้แบบหลายโมดัล โดยทำให้สถาปัตยกรรมและการออกแบบ loss ของ OpenVision เดิมเรียบง่ายขึ้น จนช่วยเพิ่มประสิทธิภาพการฝึกได้อย่างมาก งานวิจัยนี้ต่อยอดจากงาน pretraining แบบ vision-language ก่อนหน้า เช่น CapPa และ AIMv2 รวมถึงดีไซน์มัลติโมดัลสมัยใหม่อย่าง LLaVA โดยเลือกแนวทางตัด text encoder ออก และคงไว้เฉพาะ captioning loss เท่านั้น โครงสร้างที่เรียบง่ายนี้ประกอบด้วยสองโมดูลคือ image encoder และ text decoder ทำให้สามารถเรียนรู้ตัวแทนเชิงภาพได้อย่างมีประสิทธิภาพผ่านสัญญาณการเรียนรู้แบบเชิงกำเนิด

ผลการทดลองเบื้องต้นของ OpenVision 2 แสดงให้เห็นว่าสามารถคงประสิทธิภาพของโมเดลต้นฉบับไว้ได้ ขณะเดียวกันก็ลดเวลาในการฝึกและการใช้หน่วยความจำลงอย่างมาก ตัวอย่างเช่น เมื่อใช้ backbone แบบ ViT-L/14 เวลาฝึกสั้นลง 1.5 เท่า และการใช้หน่วยความจำลดลง 1.8 เท่า ทำให้เพิ่มขนาด batch สูงสุดได้จาก 2,000 เป็น 8,000 การปรับปรุงเหล่านี้เปิดทางให้ OpenVision 2 สามารถขยายไปสู่โมเดลที่มีพารามิเตอร์มากกว่า 1 พันล้านตัว และชี้ให้เห็นว่าพาราไดม์แบบ lightweight ที่เน้นการเรียนรู้เชิงกำเนิดเพียงอย่างเดียวมีความน่าสนใจสำหรับการพัฒนา foundation model แบบหลายโมดัล

งานวิจัยนี้กระตุ้นให้เกิดการทบทวนความเชื่อเดิมที่ว่า contrastive learning สไตล์ CLIP เป็นสิ่งจำเป็นสำหรับการสร้าง vision encoder โดย OpenVision 2 แสดงให้เห็นว่า objective เชิงกำเนิดล้วน ๆ ก็สามารถแข่งขันกับวิธีแบบ contrastive ได้ในด้านประสิทธิภาพมัลติโมดัล พร้อมทั้งลดต้นทุนการคำนวณลงอย่างมากและเปิดโอกาสให้ขยายโมเดลให้ใหญ่ขึ้นได้ นักวิจัยจึงมีโอกาสใช้ทั้งชุดข้อมูลการฝึกเต็มรูปแบบและเช็กพอยต์ที่พรีเทรนไว้แล้วของ OpenVision 2 เพื่อสำรวจศักยภาพของการพรีเทรนเชิงกำเนิดสำหรับ vision encoder ต่อไป นวัตกรรมนี้นำเสนอทิศทางใหม่ให้กับวงการการเรียนรู้แบบหลายโมดัล และคาดว่าจะมีส่วนสำคัญต่อการวิจัยในอนาคต

บทคัดย่อ (Abstract)

บทความนี้นำเสนอวิธีปรับสถาปัตยกรรมและการออกแบบ loss ของ OpenVision ให้เรียบง่ายขึ้นเพื่อเพิ่มประสิทธิภาพในการฝึก โดยต่อยอดจากงาน pretraining ด้าน vision-language ก่อนหน้าอย่าง CapPa และ AIMv2 รวมถึงการออกแบบมัลติโหมดสมัยใหม่อย่าง LLaVA การเปลี่ยนแปลงของเรานั้นตรงไปตรงมา: นำ text encoder ออกไป (และจึงตัด contrastive loss ออกด้วย) โดยคงไว้เพียง captioning loss เป็นสัญญาณการฝึกแบบ generative ล้วน เราตั้งชื่อเวอร์ชันใหม่นี้ว่า OpenVision 2 ผลลัพธ์เบื้องต้นน่าสนใจมาก: แม้จะลดความซับซ้อนลง OpenVision 2 ก็ยังทำผลงานได้ทัดเทียมกับโมเดลต้นฉบับอย่างแข่งขันได้บนชุดเบนช์มาร์กมัลติโหมดที่หลากหลาย พร้อมลดทั้งเวลาในการฝึกและการใช้หน่วยความจำลงอย่างมาก ตัวอย่างเช่น เมื่อใช้ ViT-L/14 จะลดเวลาฝึกได้ราว 1.5 เท่า (จาก 83 ชั่วโมงเหลือ 57 ชั่วโมง) และลดการใช้หน่วยความจำได้ราว 1.8 เท่า (จาก 24.5GB เหลือ 13.8GB ซึ่งเทียบเท่ากับการเพิ่มขนาด batch สูงสุดจาก 2k เป็น 8k) ประสิทธิภาพการฝึกที่ยอดเยี่ยมนี้ยังทำให้เราขยายสเกลได้ไกลเกินกว่า vision encoder ที่ใหญ่ที่สุดที่ใช้ใน OpenVision โดยไปถึงมากกว่า 1 พันล้านพารามิเตอร์ เราเชื่ออย่างยิ่งว่าแนวทางแบบน้ำหนักเบาและ generative-only นี้น่าสนใจอย่างมากสำหรับการพัฒนา vision encoder ในอนาคตของ multimodal foundation models
> บทความนี้นำเสนอการทำให้สถาปัตยกรรมและการออกแบบ loss ของ OpenVision เรียบง่ายขึ้นเพื่อเพิ่มประสิทธิภาพการฝึก โดยอิงจากงาน vision-language pretraining ก่อนหน้าอย่าง CapPa และ AIMv2 รวมถึงการออกแบบ multimodal สมัยใหม่อย่าง LLaVA การเปลี่ยนแปลงของเราตรงไปตรงมา: เรานำ text encoder ออก (และจึงนำ contrastive loss ออกไปด้วย) โดยคงไว้เพียง captioning loss เป็นสัญญาณการฝึกแบบ generative ล้วน เราตั้งชื่อเวอร์ชันใหม่นี้ว่า OpenVision 2 ผลลัพธ์เบื้องต้นน่าจับตา: แม้จะทำให้เรียบง่ายลง OpenVision 2 ก็ยังให้ประสิทธิภาพใกล้เคียงกับโมเดลต้นฉบับอย่างแข่งขันได้บนชุดเบนช์มาร์ก multimodal ที่กว้างขวาง ขณะเดียวกันก็ลดทั้งเวลาในการฝึกและการใช้หน่วยความจำลงอย่างมาก ตัวอย่างเช่น เมื่อใช้ ViT-L/14 มันลดเวลาฝึกได้ประมาณ 1.5 เท่า (จาก 83h เหลือ 57h) และลดการใช้หน่วยความจำได้ประมาณ 1.8 เท่า (จาก 24.5GB เหลือ 13.8GB หรือเทียบได้กับการเพิ่ม batch size สูงสุดจาก 2k เป็น 8k) ประสิทธิภาพการฝึกที่เหนือกว่านี้ยังทำให้เราขยายสเกลได้ไกลเกินกว่า vision encoder ที่ใหญ่ที่สุดที่ใช้ใน OpenVision ไปสู่ระดับมากกว่า 1 พันล้านพารามิเตอร์ เราเชื่ออย่างมากว่าแนวทางแบบน้ำหนักเบาและ generative-only นี้มีความน่าสนใจสำหรับการพัฒนา vision encoder ในอนาคตของ multimodal foundation models

ลิงก์บทความวิจัย

https://arxiv.org/abs/2509.01644

อ่านเพิ่มเติม

https://ucsc-vlaa.github.io/OpenVision2

https://github.com/UCSC-VLAA/OpenVision

https://huggingface.co/collections/UCSC-VLAA/…

https://huggingface.co/datasets/UCSC-VLAA/Recap-DataComp-1B


Backprompting: การใช้ข้อมูลโปรดักชันสังเคราะห์สำหรับ guardrails ด้านคำแนะนำสุขภาพ / Backprompting: Leveraging Synthetic Production Data for Health Advice Guardrails (feat. IBM Research)

แนะนำบทความวิจัย

เมื่อการใช้งาน large language model (LLM) แพร่หลายในสภาพแวดล้อมองค์กร ความเสี่ยงหลายด้านที่เกี่ยวข้องก็เริ่มเด่นชัดขึ้น โดยเฉพาะอย่างยิ่ง ความเป็นไปได้ที่ผลลัพธ์จาก LLM จะมีข้อมูลที่ไม่ถูกต้อง ซึ่งอาจนำไปสู่ผลกระทบร้ายแรงในสาขาที่อ่อนไหวอย่างคำแนะนำด้านสุขภาพ เพื่อบรรเทาความเสี่ยงเหล่านี้ จึงจำเป็นต้องมีเทคโนโลยี guardrails ซึ่งทำงานโดยกรองข้อความอินพุตและเอาต์พุตของ LLM ผ่านตัวตรวจจับหลากหลายประเภท อย่างไรก็ตาม หนึ่งในอุปสรรคสำคัญที่สุดในการพัฒนาและดูแลตัวตรวจจับที่แข็งแกร่ง คือความยากในการจัดหาข้อมูลที่มีการติดป้ายกำกับระดับโปรดักชันจากผลลัพธ์จริงของ LLM

งานวิจัยนี้เสนอวิธีวิทยาเชิงนวัตกรรมที่เรียกว่า Backprompting เพื่อแก้ปัญหาดังกล่าว Backprompting เป็นแนวทางที่สร้างข้อมูลแบบมีป้ายกำกับลักษณะคล้ายโปรดักชัน โดยตั้งคำถามย้อนกลับกับข้อความที่ LLM สร้างขึ้นจากคำถามของผู้ใช้ ในกระบวนการนี้ มีการใช้เทคนิค sparse human-in-the-loop clustering เพื่อติดป้ายกำกับให้กับข้อมูลที่สร้างขึ้น วิธีนี้ช่วยให้สามารถสร้าง parallel corpus ที่สะท้อนชุดข้อมูลต้นฉบับอย่างคร่าว ๆ ขณะเดียวกันก็มีความคล้ายคลึงกับผลลัพธ์จริงของ LLM

เป้าหมายหลักของงานวิจัยคือการสร้างข้อมูลฝึกที่แข็งแกร่งสำหรับตัวตรวจจับ โดยฉีดตัวอย่างสังเคราะห์เข้าไปในชุดข้อมูลเดิม ผ่านแนวทางนี้ ผู้วิจัยมุ่งหวังที่จะยกระดับประสิทธิภาพในการสร้าง guardrail สำหรับระบุคำแนะนำด้านสุขภาพ ผลการทดลองแสดงให้เห็นว่าตัวตรวจจับที่เสนอมีประสิทธิภาพดีขึ้นสูงสุด 3.73% เมื่อเทียบกับวิธีเดิม ๆ และยังให้ผลลัพธ์ที่โดดเด่นเมื่อเทียบกับ GPT-4o ด้วย ความสำเร็จนี้บ่งชี้ว่าข้อมูลที่สร้างผ่าน Backprompting ส่งผลเชิงบวกต่อการฝึกตัวตรวจจับ

โดยสรุป งานวิจัยนี้นำเสนอวิธีสร้างข้อมูลแบบใหม่เพื่อเพิ่มความปลอดภัยของผลลัพธ์จาก LLM และแสดงให้เห็นถึงศักยภาพในการประยุกต์ใช้ในหลากหลายสาขาในอนาคต Backprompting มีประสิทธิภาพสำหรับการพัฒนา guardrails ด้านคำแนะนำสุขภาพ และคาดว่าจะเป็นส่วนสำคัญต่อการใช้งาน LLM อย่างปลอดภัย

บทคัดย่อ (Abstract)

การแพร่หลายของโมเดลภาษาขนาดใหญ่ (LLM) ในสภาพแวดล้อมองค์กรได้นำมาซึ่งความเสี่ยงจำนวนมากที่เกี่ยวข้องกับการใช้งานของมัน เทคโนโลยี guardrail มีเป้าหมายเพื่อลดความเสี่ยงนี้ด้วยการกรองข้อความอินพุต/เอาต์พุตของ LLM ผ่านตัวตรวจจับหลายรูปแบบ อย่างไรก็ตาม การพัฒนาและบำรุงรักษาตัวตรวจจับที่มีความแข็งแกร่งต้องเผชิญกับความท้าทายหลายประการ หนึ่งในนั้นคือความยากในการจัดหาข้อมูลที่มีป้ายกำกับคุณภาพระดับใช้งานจริงบนเอาต์พุต LLM จริงก่อนนำไปใช้งานจริง งานวิจัยนี้เสนอ backprompting ซึ่งเป็นวิธีแก้ปัญหาที่เรียบง่ายแต่เข้าใจได้ง่ายสำหรับการสร้างข้อมูลที่มีป้ายกำกับลักษณะใกล้เคียงสภาพการใช้งานจริงเพื่อพัฒนา health advice guardrail นอกจากนี้ยังผสานวิธี backprompting เข้ากับเทคนิค sparse human-in-the-loop clustering เพื่อทำป้ายกำกับข้อมูลที่สร้างขึ้น เป้าหมายของเราคือสร้าง parallel corpus ที่เป็นตัวแทนของชุดข้อมูลต้นฉบับโดยคร่าว ๆ และในขณะเดียวกันก็มีลักษณะคล้ายเอาต์พุต LLM จริง จากนั้นจึงเติมตัวอย่างสังเคราะห์ของเราลงในชุดข้อมูลเดิมเพื่อสร้างข้อมูลฝึกที่แข็งแกร่งสำหรับตัวตรวจจับของเรา เราทดสอบเทคนิคนี้กับหนึ่งใน guardrail ที่ยากและละเอียดอ่อนที่สุด นั่นคือการระบุคำแนะนำด้านสุขภาพในเอาต์พุตของ LLM และแสดงให้เห็นว่ามันปรับปรุงผลลัพธ์ได้ดีกว่าโซลูชันอื่น ๆ ตัวตรวจจับของเราสามารถทำผลงานได้ดีกว่า GPT-4o สูงสุด 3.73% แม้จะมีพารามิเตอร์น้อยกว่าถึง 400 เท่า
> The pervasiveness of large language models (LLMs) in enterprise settings has also brought forth a significant amount of risks associated with their usage. Guardrails technologies aim to mitigate this risk by filtering LLMs' input/output text through various detectors. However, developing and maintaining robust detectors faces many challenges, one of which is the difficulty in acquiring production-quality labeled data on real LLM outputs prior to deployment. In this work, we propose backprompting, a simple yet intuitive solution to generate production-like labeled data for health advice guardrails development. Furthermore, we pair our backprompting method with a sparse human-in-the-loop clustering technique to label the generated data. Our aim is to construct a parallel corpus roughly representative of the original dataset yet resembling real LLM output. We then infuse existing datasets with our synthetic examples to produce robust training data for our detector. We test our technique in one of the most difficult and nuanced guardrails: the identification of health advice in LLM output, and demonstrate improvement versus other solutions. Our detector is able to outperform GPT-4o by up to 3.73%, despite having 400x less parameters.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2508.18384


ซินเนอร์จีระหว่างความลึก-ความกว้างใน RLVR: ปลดล็อกการพัฒนาความสามารถด้านการให้เหตุผลของ LLM ด้วยการสำรวจแบบปรับตัว / Depth-Breadth Synergy in RLVR: Unlocking LLM Reasoning Gains with Adaptive Exploration

แนะนำบทความวิจัย

Reinforcement Learning with Verifiable Reward (RLVR) มีบทบาทสำคัญในการดึงศักยภาพความสามารถด้านการให้เหตุผลของโมเดลภาษาขนาดใหญ่ (LLM) ออกมาให้สูงสุด แต่ศักยภาพดังกล่าวยังถูกจำกัดด้วย 2 มิติที่ยังไม่ถูกสำรวจ ได้แก่ Depth (โจทย์ที่ยากที่สุดที่โมเดลสามารถสุ่มตัวอย่างได้) และ Breadth (จำนวนอินสแตนซ์ที่ใช้ในหนึ่งรอบการวนซ้ำ) งานวิจัยนี้วิเคราะห์อัลกอริทึม GRPO (Generalized Relative Preference Optimization) ที่มีอยู่เดิม และเผยให้เห็นอคติเชิงระบบที่ cumulative advantage ให้น้ำหนักกับตัวอย่างที่มีความแม่นยำระดับกลางอย่างไม่สมดุล พร้อมทั้งมองข้ามอินสแตนซ์ที่มีความแม่นยำต่ำ เพื่อแก้ปัญหานี้ ผู้วิจัยจึงเสนอวิธี Difficulty Adaptive Rollout Sampling (DARS) ซึ่งปรับน้ำหนักของโจทย์ยากใหม่ผ่าน rollout แบบหลายขั้นตอนที่มีเป้าหมายชัดเจน เพื่อเพิ่มจำนวน positive rollout

DARS ไม่ได้เพียงแค่เพิ่มขนาดของ rollout เท่านั้น แต่ยังช่วยยกระดับประสิทธิภาพ Pass@K ได้ด้วย นอกจากนี้ งานวิจัยยังสำรวจว่าการขยายความกว้างของข้อมูลฝึกอย่างจริงจังสามารถช่วยเพิ่มความสามารถด้านการให้เหตุผลได้ โดยขยายขนาดแบตช์อย่างมาก และแทนที่การวนซ้ำ mini-batch ของ Proximal Policy Optimization (PPO) ด้วยการอัปเดตทั้งแบตช์ตลอดหลาย epoch แนวทางนี้ช่วยยกระดับประสิทธิภาพ Pass@1 อย่างชัดเจน และการฝึกด้วยความกว้างขนาดใหญ่ยังคงรักษาเอนโทรปีระดับโทเค็นให้อยู่ในระดับสูง ซึ่งสะท้อนถึงการสำรวจอย่างต่อเนื่องและการลดลงของ gradient noise

DARS-B เป็นวิธีที่ต่อยอดจาก DARS ด้วยการเพิ่มความกว้างขนาดใหญ่ ทำให้สามารถยกระดับประสิทธิภาพทั้ง Pass@K และ Pass@1 ได้พร้อมกัน โดยการสำรวจแบบปรับตัวทั้งในมิติของความกว้างและความลึกมีบทบาทสำคัญต่อการปลดล็อกความสามารถด้านการให้เหตุผลของ RLVR งานวิจัยนี้นำเสนอทิศทางใหม่ในการดึงศักยภาพด้านการให้เหตุผลของ RLVR ให้สูงสุดผ่านวิธีการดังกล่าว และพิสูจน์เชิงทดลองว่าการสำรวจแบบปรับตัวในมิติความลึกและความกว้างช่วยยกระดับประสิทธิภาพของ RLVR ได้

บทคัดย่อ (Abstract)

การเรียนรู้แบบเสริมกำลังร่วมกับรางวัลที่ตรวจสอบได้ (Reinforcement Learning with Verifiable Reward, RLVR) ได้ก้าวขึ้นมาเป็นกระบวนทัศน์ที่ทรงพลังสำหรับการปลดล็อกความสามารถด้านการให้เหตุผลของโมเดลภาษาขนาดใหญ่ แต่ศักยภาพของมันยังถูกจำกัดโดยสองมิติที่ยังไม่ได้รับการสำรวจมากพอ ได้แก่ ความลึก (Depth) — โจทย์ที่ยากที่สุดที่โมเดลสามารถสุ่มตัวอย่างได้; ความกว้าง (Breadth) — จำนวนอินสแตนซ์ที่ถูกใช้ในหนึ่งรอบการทำซ้ำ เราได้วิเคราะห์อัลกอริทึม GRPO ที่ได้รับความนิยม และพบอคติอย่างเป็นระบบว่า cumulative-advantage ให้น้ำหนักกับตัวอย่างที่มีความแม่นยำระดับกลางมากเกินสัดส่วน ขณะที่ลดน้ำหนักของอินสแตนซ์ที่มีความแม่นยำต่ำ ซึ่งมีความสำคัญต่อการผลักขอบเขตของการให้เหตุผล เพื่อแก้ปัญหาการมองข้ามความลึก เราได้แนะนำ Difficulty Adaptive Rollout Sampling (DARS) ซึ่งปรับน้ำหนักของโจทย์ยากผ่าน targeted multi-stage rollouts จึงเพิ่มจำนวน positive rollouts สำหรับโจทย์ยากได้ ในเชิงประจักษ์ การเพิ่มขนาด rollout แบบตรงไปตรงมาไม่เพียงเร่งการลู่เข้าเท่านั้น แต่ยังส่งผลเสียต่อ Pass@K ด้วย ในทางตรงกันข้าม DARS ของเราให้การปรับปรุง Pass@K อย่างสม่ำเสมอโดยไม่เพิ่มต้นทุนการอนุมานเมื่อถึงจุดลู่เข้า เช่นเดียวกับที่เราขยายความลึกของการสำรวจแบบปรับตัวได้ ตอนนี้เราตั้งคำถามต่อว่า หากขยายความกว้างของข้อมูลฝึกอย่างจริงจัง จะช่วยเพิ่มการพัฒนาด้านการให้เหตุผลได้อีกหรือไม่ เพื่อจุดประสงค์นี้ เราได้เพิ่ม batch size อย่างมาก และแทนที่การวนซ้ำแบบ mini-batch ของ PPO ด้วยการอัปเดตแบบ full-batch ตลอดหลาย epoch การเพิ่มความกว้างช่วยยกระดับประสิทธิภาพของ Pass@1 ได้อย่างมีนัยสำคัญ การฝึกด้วยความกว้างขนาดใหญ่ยังคงรักษา token-level entropy ให้อยู่ในระดับสูง ซึ่งบ่งชี้ถึงการสำรวจที่ดำเนินต่อเนื่องและ gradient noise ที่ลดลง เรายังนำเสนอ DARS-B เพิ่มเติม ซึ่งต่อยอด DARS ด้วยความกว้างขนาดใหญ่ และแสดงให้เห็นถึงการปรับปรุงพร้อมกันทั้งใน Pass@K และ Pass@1 ผลลัพธ์ยืนยันว่าความกว้างและการสำรวจแบบปรับตัวได้ในด้านความลึกทำงานเป็นมิติตั้งฉากกันใน RLVR และเป็นกุญแจสำคัญในการปลดปล่อยพลังด้านการให้เหตุผลของ RLVR
> Reinforcement Learning with Verifiable Reward (RLVR) has emerged as a powerful paradigm for unlocking reasoning capabilities in large language models, yet its full potential is hindered by two under-explored dimensions: Depth-the hardest problem a model can sample; Breadth-the number of instances consumed in a single iteration. We dissect the popular GRPO algorithm and reveal a systematic bias: the cumulative-advantage disproportionately weights samples with medium accuracy, while down-weighting the low-accuracy instances that are crucial for pushing reasoning boundaries. To rectify the depth neglect, we introduce Difficulty Adaptive Rollout Sampling (DARS), which re-weights hard problems through targeted multi-stage rollouts, thereby increasing the number of positive rollouts for hard problems. Empirically, naively enlarging rollout size only accelerates convergence and even hurts Pass@K. Our DARS, in contrast, delivers consistent Pass@K gains without extra inference cost at convergence. Just as we adaptively expanded the depth of exploration, we now ask whether aggressively scaling the breadth of training data can further amplify reasoning gains. To this end, we intensely scale batch size and replace PPO's mini-batch iterations with full-batch updates over multiple epochs. Increasing breadth significantly enhances Pass@1 performance. Large-breadth training sustains high token-level entropy, indicating continued exploration and reduced gradient noise. We further present DARS-B, which augments DARS with large breadth, and demonstrate simultaneous gains in Pass@K and Pass@1. The results confirm that breadth and adaptive exploration across depth operate as orthogonal dimensions in RLVR, which are key to unleashing the reasoning power of RLVR.

ลิงก์งานวิจัย

https://arxiv.org/abs/2508.13755


FlowVLA: คิดการเคลื่อนไหวด้วยสายโซ่ความคิดเชิงภาพ / FlowVLA: Thinking in Motion with a Visual Chain of Thought

แนะนำงานวิจัย

โมเดล Vision-Language-Action (VLA) อาศัย world model ภายในที่ฝึกผ่านการทำนายเฟรมถัดไป แต่แนวทางนี้ประสบความยากลำบากในการให้เหตุผลเชิงกายภาพ เนื่องจากลักษณะภาพแบบคงที่และการเคลื่อนไหวแบบพลวัตถูกพันกันอยู่ เพื่อแก้ปัญหานี้ จึงมีการนำกรอบการพรีเทรนชื่อ Visual Chain of Thought (Visual CoT) มาใช้ เพื่อชี้นำให้โมเดลอนุมานการเปลี่ยนแปลงของฉากก่อนแล้วจึงคาดการณ์ FlowVLA ทำงานโดยสร้างตัวแทน optical flow ระดับกลางก่อน แล้วจึงทำนายเฟรมอนาคต โดยกระบวนการนี้ถูกทำให้เกิดขึ้นภายใน Transformer แบบ autoregressive ตัวเดียว เพื่อเรียนรู้โดยแยกองค์ประกอบเชิงพลวัตออกมา ผลการทดลองแสดงให้เห็นว่า FlowVLA สามารถสร้างการคาดการณ์เชิงภาพที่สอดคล้องกัน และเพิ่มประสิทธิภาพของการเรียนรู้นโยบายได้อย่างมาก จึงนำเสนอรากฐานที่มีหลักการมากยิ่งขึ้นสำหรับการสร้างแบบจำลองโลก

บทคัดย่อ(Abstract)

โมเดล Vision-Language-Action (VLA) จำนวนมากพึ่งพา world model ภายในที่ฝึกผ่านการทำนายเฟรมถัดไป อย่างไรก็ตาม แนวทางนี้มีปัญหาในการให้เหตุผลเชิงกายภาพ เนื่องจากมันทำให้ลักษณะภายนอกแบบคงที่ปะปนกับการเคลื่อนไหวแบบไดนามิก ซึ่งมักนำไปสู่การคาดการณ์ภาพที่ไม่น่าเป็นไปได้และการเรียนรู้นโยบายที่ไม่มีประสิทธิภาพ เพื่อแก้ข้อจำกัดเหล่านี้ เราได้เสนอ Visual Chain of Thought (Visual CoT): เฟรมเวิร์กการ pre-training ที่กระตุ้นให้โมเดลให้เหตุผลว่าฉากจะเปลี่ยนแปลงไปอย่างไรก่อนจะทำนายว่ามันจะมีหน้าตาอย่างไร เรานำหลักการนี้มาใช้ใน FlowVLA ซึ่งจะทำนายเฟรมอนาคต ($v_{t+1}$) ก็ต่อเมื่อได้สร้างตัวแทน optical flow ระดับกลาง ($f_t$) ที่เข้ารหัสพลวัตของการเคลื่อนไหวแล้ว กระบวนการให้เหตุผลแบบ "$v_t \rightarrow f_t \rightarrow v_{t+1}$" นี้ถูกทำให้เกิดขึ้นภายใน Transformer แบบ autoregressive เพียงตัวเดียว เพื่อชี้นำให้โมเดลเรียนรู้พลวัตที่แยกออกจากกันได้ ผลลัพธ์คือ FlowVLA สามารถสร้างการคาดการณ์ภาพที่สอดคล้องกันและช่วยให้การเรียนรู้นโยบายมีประสิทธิภาพมากขึ้น การทดลองบนเบนช์มาร์กด้านการควบคุมหุ่นยนต์ที่ท้าทายแสดงให้เห็นประสิทธิภาพระดับ state-of-the-art พร้อมการปรับปรุงด้าน sample efficiency อย่างมีนัยสำคัญ ซึ่งชี้ให้เห็นถึงรากฐานที่มีหลักการมากยิ่งขึ้นสำหรับ world modeling หน้าโปรเจกต์: https://irpn-lab.github.io/FlowVLA/
> Many Vision-Language-Action (VLA) models rely on an internal world model trained via next-frame prediction. This approach, however, struggles with physical reasoning as it entangles static appearance with dynamic motion, often resulting in implausible visual forecasts and inefficient policy learning. To address these limitations, we introduce the Visual Chain of Thought (Visual CoT): a pre-training framework that encourages a model to reason about how a scene evolves before predicting what it will look like. We instantiate this principle in FlowVLA, which predicts a future frame ($v_{t+1}$) only after generating an intermediate optical flow representation ($f_t$) that encodes motion dynamics. This ``$v_t \rightarrow f_t \rightarrow v_{t+1}$'' reasoning process is implemented within a single autoregressive Transformer, guiding the model to learn disentangled dynamics. As a result, FlowVLA produces coherent visual predictions and facilitates more efficient policy learning. Experiments on challenging robotics manipulation benchmarks demonstrate state-of-the-art performance with substantially improved sample efficiency, pointing toward a more principled foundation for world modeling. Project page: https://irpn-lab.github.io/FlowVLA/

ลิงก์บทความ

https://arxiv.org/abs/2508.18269

อ่านเพิ่มเติม

https://irpn-lab.github.io/FlowVLA/


การแทนความจำแบบเป็นตอนสำหรับความเข้าใจวิดีโอระยะยาว / Episodic Memory Representation for Long-form Video Understanding

แนะนำบทความ

หนึ่งในความท้าทายในสาขาความเข้าใจวิดีโอคือการจัดการบริบทของวิดีโอยาวได้อย่างมีประสิทธิภาพ Video Large Language Models (Video-LLMs) แบบเดิมทำได้ดีมากกับความเข้าใจวิดีโอทั่วไป แต่เมื่อเป็นวิดีโอยาวกลับประสบปัญหาเนื่องจากข้อจำกัดของ context window เพื่อแก้ปัญหานี้ เฟรมเวิร์ก Video-EM (Episodic Memory Representation) ที่ถูกเสนอขึ้นมานำเสนอแนวทางใหม่ที่ไม่ต้องอาศัยการฝึก

Video-EM สร้างแบบจำลองเหตุการณ์สำคัญของวิดีโอในรูปของเอพิโซดที่เรียงตามเวลา เพื่อจับความสัมพันธ์เชิงกาล-อวกาศแบบไดนามิกและลำดับเรื่องราว เฟรมเวิร์กนี้ประกอบด้วยองค์ประกอบหลักสามส่วน ได้แก่ Key Event Selection, Episodic Memory Representation และ Chain of Thought (CoT) Video Reasoning โมดูล Key Event Selection จะระบุข้อมูลที่เกี่ยวข้องกับคิวรีและดึงเหตุการณ์สำคัญที่อยู่ใกล้กันตามเวลาออกมา เพื่อจัดการกับความซ้ำซ้อนของวิดีโอ

โมดูล Episodic Memory Representation สร้างแบบจำลองลำดับเวลาของแต่ละเหตุการณ์อย่างชัดเจน เพื่อทำให้การแทนบริบทเชิงกาล-อวกาศแบบไดนามิกมีความสมบูรณ์ยิ่งขึ้น ด้วยวิธีนี้จึงสามารถสร้างโครงเรื่องของวิดีโอขึ้นใหม่ได้อย่างมีประสิทธิภาพ สุดท้าย CoT Video Reasoning จะเลือกชุดขั้นต่ำของ episodic memory ที่เกี่ยวข้องแบบวนซ้ำ เพื่อสร้างคำตอบที่ถูกต้องและอิงบริบท

งานวิจัยนี้ได้ประเมินประสิทธิภาพของ Video-EM บนเบนช์มาร์กหลากหลายชุด และแสดงผลลัพธ์ว่าสามารถเพิ่มประสิทธิภาพได้ 4-9% เมื่อเทียบกับโมเดลเดิม ผลลัพธ์นี้แสดงให้เห็นว่าสามารถรักษาความแม่นยำในระดับสูงได้แม้ใช้จำนวนเฟรมน้อยลง Video-EM ช่วยยกระดับความแม่นยำของการตอบคำถามเกี่ยวกับวิดีโออย่างมาก และเป็นผลงานสำคัญที่เปิดความเป็นไปได้ใหม่ ๆ ในสาขาความเข้าใจวิดีโอ แนวทางนี้อาจถูกนำไปใช้เป็นพื้นฐานสำคัญสำหรับงานวิจัยในอนาคต

บทคัดย่อ (Abstract)

โมเดลภาษาขนาดใหญ่สำหรับวิดีโอ (Video-LLM) แสดงประสิทธิภาพที่ยอดเยี่ยมในการทำความเข้าใจวิดีโอทั่วไป แต่ประสบปัญหากับวิดีโอความยาวมากเนื่องจากข้อจำกัดของ context window ดังนั้นแนวทางในช่วงหลังจึงมุ่งเน้นไปที่การดึงคีย์เฟรม เพื่อบีบอัดวิดีโอขนาดยาวให้เหลือเฟรมข้อมูลสำคัญเพียงไม่กี่เฟรม แม้ว่าวิธีเหล่านี้จะใช้งานได้จริง แต่ก็ทำให้ปัญหาถูกลดรูปเป็นการจับคู่ข้อความกับภาพแบบคงที่ จนมองข้ามความสัมพันธ์เชิงพื้นที่-เวลาที่สำคัญต่อการจับการเปลี่ยนฉากและความต่อเนื่องของบริบท อีกทั้งยังอาจสร้างคีย์เฟรมที่ซ้ำซ้อนและมีข้อมูลจำกัด ซึ่งทำให้เบาะแสสำคัญที่จำเป็นต่อการตอบคำถามจากวิดีโออย่างแม่นยำถูกเจือจางลง เพื่อแก้ข้อจำกัดเหล่านี้ เราขอแนะนำ Video-EM ซึ่งเป็นเฟรมเวิร์กแบบไม่ต้องฝึกสอนที่ได้แรงบันดาลใจจากหลักการของความทรงจำเชิงตอนของมนุษย์ และถูกออกแบบมาเพื่อส่งเสริมการให้เหตุผลที่แข็งแกร่งและยึดโยงกับบริบท แทนที่จะมองคีย์เฟรมเป็นหน่วยภาพที่แยกขาดจากกัน Video-EM จะสร้างแบบจำลองให้คีย์เฟรมเป็นเหตุการณ์เชิงตอนที่เรียงลำดับตามเวลาอย่างชัดเจน จึงสามารถจับได้ทั้งความสัมพันธ์เชิงพื้นที่และพลวัตตามเวลาที่จำเป็นต่อการสร้างเรื่องราวพื้นฐานขึ้นใหม่อย่างแม่นยำ นอกจากนี้ เฟรมเวิร์กนี้ยังใช้การคิดแบบ chain of thought (CoT) ร่วมกับ LLM เพื่อระบุชุดย่อยของความทรงจำเชิงตอนที่มีข้อมูลสูงแต่มีจำนวนน้อยที่สุดแบบวนซ้ำ ทำให้ Video-LLM สามารถตอบคำถามได้อย่างมีประสิทธิภาพและแม่นยำ ผลการประเมินอย่างกว้างขวางบนเบนช์มาร์ก Video-MME, EgoSchema, HourVideo และ LVBench ยืนยันความเหนือกว่าของ Video-EM โดยทำผลลัพธ์ได้แข่งขันสูงพร้อมเพิ่มประสิทธิภาพเหนือ baseline ของแต่ละชุด 4-9% ขณะเดียวกันก็ใช้จำนวนเฟรมน้อยกว่า
> Video Large Language Models (Video-LLMs) excel at general video understanding but struggle with long-form videos due to context window limits. Consequently, recent approaches focus on keyframe retrieval, condensing lengthy videos into a small set of informative frames. Despite their practicality, these methods simplify the problem to static text image matching, overlooking spatio temporal relationships crucial for capturing scene transitions and contextual continuity, and may yield redundant keyframes with limited information, diluting salient cues essential for accurate video question answering. To address these limitations, we introduce Video-EM, a training free framework inspired by the principles of human episodic memory, designed to facilitate robust and contextually grounded reasoning. Rather than treating keyframes as isolated visual entities, Video-EM explicitly models them as temporally ordered episodic events, capturing both spatial relationships and temporal dynamics necessary for accurately reconstructing the underlying narrative. Furthermore, the framework leverages chain of thought (CoT) thinking with LLMs to iteratively identify a minimal yet highly informative subset of episodic memories, enabling efficient and accurate question answering by Video-LLMs. Extensive evaluations on the Video-MME, EgoSchema, HourVideo, and LVBench benchmarks confirm the superiority of Video-EM, which achieves highly competitive results with performance gains of 4-9 percent over respective baselines while utilizing fewer frames.

ลิงก์บทความวิจัย

https://arxiv.org/abs/2508.09486


บทความนี้เรียบเรียงจากเนื้อหาที่สรุปด้วยโมเดล GPT จึงอาจมีบางส่วนที่สรุปคลาดเคลื่อนจากเนื้อหาหรือเจตนาของต้นฉบับ หากคุณสนใจหัวข้อนี้ แนะนำให้อ่านต้นฉบับควบคู่กันไปด้วย! หากระหว่างอ่านพบข้อความที่แปลกหรือผิดพลาด รบกวนแจ้งในคอมเมนต์ด้วยนะครับ/คะ 🤗

⚠️โฆษณา⚠️: บทความนี้ที่เรียบเรียงโดย 🔥ชุมชนผู้ใช้ PyTorch เกาหลี🇰🇷 มีประโยชน์สำหรับคุณไหม? หาก สมัครสมาชิก เราจะส่งบทความสำคัญให้ทางอีเมล💌! (ค่าเริ่มต้นคือ Weekly แต่ เปลี่ยนเป็น Daily ได้)

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น