- Kimi K2.5 ที่เปิดตัวโดย Moonshot AI คือ โมเดลเอเจนต์มัลติโหมดโอเพนซอร์สที่ปรับให้เหมาะกับทั้งข้อความและวิสัยทัศน์ร่วมกัน โดยรองรับงานด้านการให้เหตุผล การเขียนโค้ด วิสัยทัศน์ และงานเอเจนต์โดยรวมภายในโมเดลเดียว
- เพื่อก้าวข้ามข้อจำกัดของเอเจนต์แบบลำดับเดิม ได้มีการนำ การประสานงานเอเจนต์แบบขนาน Agent Swarm มาใช้เพื่อแยกย่อยและดำเนินงานซับซ้อนพร้อมกัน
- มีการนำเสนอผลเปรียบเทียบประสิทธิภาพกับทั้งโมเดลเชิงพาณิชย์และโอเพนซอร์สจาก การประเมินด้วยเบนช์มาร์กที่ครอบคลุมกว้างขวาง รวมถึงภาพ วิดีโอ เอกสาร เว็บ และสภาพแวดล้อม OS
- ยืนยันเชิงทดลองถึง ผลการถ่ายโอนข้ามโมดัล ที่การเรียนรู้แบบเสริมแรงด้านภาพช่วยปรับปรุงความสามารถในการให้เหตุผลด้านข้อความด้วย
- เปิดเผยเช็กพอยต์ที่ผ่านการฝึกแล้ว โดยมุ่งเป้าไปที่ การวิจัยระบบเอเจนต์อเนกประสงค์และการขยายสู่การใช้งานจริง
ภาพรวมและประเด็นปัญหา
- โมเดลภาษาขนาดใหญ่กำลังพัฒนาจากการตอบคำถามทั่วไปไปสู่ ปัญญาแบบเอเจนต์ที่สามารถใช้เครื่องมือและวางแผนระยะยาวได้
- โมเดลมัลติโหมดเดิมมักเป็นการออกแบบที่ยึดข้อความเป็นศูนย์กลางแล้วค่อยเพิ่มวิสัยทัศน์เข้าไป ทำให้เกิดความขัดแย้งระหว่างโมดัลและข้อจำกัดด้านการทำให้ทั่วไป
- ในงานจริงที่ซับซ้อน ความล่าช้าและข้อจำกัดของคอนเท็กซ์จากการทำงานของเอเจนต์แบบลำดับ เป็นคอขวดสำคัญ
การออกแบบหลักของ Kimi K2.5
- ใช้ การพรีเทรนร่วมระหว่างข้อความ–วิสัยทัศน์ โดยผสมสองโมดัลในสัดส่วนคงที่ตั้งแต่ช่วงเริ่มฝึกเพื่อเสริมการจัดแนว
- ใช้วิชันเอนโค้ดเดอร์ MoonViT-3D เพื่อประมวลผล ภาพความละเอียดต้นฉบับและวิดีโอระยะยาว ด้วยโครงสร้างเดียวกัน
- เลือกใช้ กลยุทธ์ zero-vision SFT ซึ่งสามารถกระตุ้นประสิทธิภาพได้แม้ไม่มี SFT เฉพาะทางด้านวิสัยทัศน์
- ปรับปรุงทั้งความรู้ การให้เหตุผล การเขียนโค้ด และความสามารถแบบเอเจนต์ไปพร้อมกันผ่าน การเรียนรู้แบบเสริมแรงมัลติโหมดร่วม ที่จัดตามหน่วยความสามารถ
สถาปัตยกรรม Agent Swarm
- ออร์เคสเตรเตอร์ส่วนกลางจะแยกงานออกเป็น ปัญหาย่อยที่ทำแบบขนานได้ และสร้างซับเอเจนต์เฉพาะทางแบบไดนามิก
- ซับเอเจนต์แต่ละตัวทำงานใน คอนเท็กซ์เฉพาะของตนเองที่เป็นอิสระ เพื่อป้องกันการปนเปื้อนของคอนเท็กซ์ส่วนกลาง
- ใช้การรวมเฉพาะ ผลลัพธ์ที่สรุปแล้วแบบเลือกสรร แทนการรวมบันทึกทั้งหมด เพื่อทำ context sharding
- ฝึกให้ลดความหน่วงผ่านพรอมป์ต์การฝึกที่ชี้นำการทำงานแบบขนานและตัวชี้วัด Critical Steps
องค์ประกอบและขนาดการฝึก
- โมเดลฐาน Kimi K2 ใช้ สถาปัตยกรรม MoE ขนาด 1 ล้านล้านพารามิเตอร์ และพรีเทรนด้วยข้อความ 15 ล้านล้านโทเค็น
- รองรับ ความยาวคอนเท็กซ์สูงสุด 256k ผ่านการฝึกแบบ Joint long-context
- รวม ข้อมูลมัลติโหมดหลากหลาย เช่น ภาพ วิดีโอ OCR เอกสาร และภาพหน้าจอ OS
การประเมินและประสิทธิภาพ: สรุปโดยเน้นการเปรียบเทียบโมเดลหลัก
- Kimi K2.5 ได้รับการประเมินเปรียบเทียบภายใต้เงื่อนไขเดียวกันกับทั้ง โมเดลเชิงพาณิชย์ (Claude Opus 4.5, GPT-5.2, Gemini 3 Pro) และ โมเดลโอเพนซอร์ส (DeepSeek-V3.2, Qwen3-VL-235B)
- การประเมินทั้งหมดดำเนินการด้วย temperature 1.0, top-p 0.95 และตั้งค่า ความยาวคอนเท็กซ์สูงสุด 256k
-
เบนช์มาร์กด้านการให้เหตุผลและความรู้ทั่วไป
- ใน AIME 2025 Kimi K2.5 ได้ 96.1 สูงกว่า Claude Opus 4.5(92.8) และ Gemini 3 Pro(95.0) และมีประสิทธิภาพใกล้เคียง GPT-5.2(100)
- ใน HMMT 2025 และ IMO-AnswerBench ก็ยังคงทำคะแนนสูงกว่า Claude Opus 4.5 และ Qwen3-VL
- ใน GPQA-Diamond ได้ 87.6 ใกล้เคียง Claude Opus 4.5(87.0) และแสดงประสิทธิภาพเหนือกว่าโมเดลโอเพนซอร์ส
- ใน LongBench v2 แม้ Gemini 3 Pro จะได้คะแนนสูงสุด แต่ Kimi K2.5 ก็แสดงผลลัพธ์ที่แข่งขันได้เมื่อเทียบกับ DeepSeek-V3.2 และ Qwen3-VL
-
การเขียนโค้ดและวิศวกรรมซอฟต์แวร์
- ใน SWE-Bench Verified Kimi K2.5 ได้ 76.8 ใกล้เคียง DeepSeek-V3.2(76.2) และสูงกว่า Qwen3-VL(73.1)
- ใน SWE-Bench Pro และ Multilingual แม้ยังต่ำกว่าโมเดลเชิงพาณิชย์ แต่ก็ยังรักษาระดับผลงานอันดับต้น ๆ ในกลุ่มโอเพนซอร์ส
- ใน LiveCodeBench v6 ได้ 85.0 สูงกว่า Claude Opus 4.5(82.2) และ Qwen3-VL(83.3)
- ใน PaperBench(CodeDev) และ CyberGym โมเดลเชิงพาณิชย์ยังคงเหนือกว่า แต่ Kimi K2.5 แสดงประสิทธิภาพที่เสถียรในระดับพร้อมใช้งานจริง
-
งานแบบเอเจนต์และงานที่อิงการค้นหา
- ใน BrowseComp แบบเอเจนต์เดี่ยว Kimi K2.5 ได้ 60.6 สูงกว่า Claude Opus 4.5(37.0) อย่างมาก
- เมื่อใช้ Agent Swarm คะแนน BrowseComp เพิ่มเป็น 78.4 และ WideSearch เป็น 79.0 แสดงการปรับปรุงที่ชัดเจนเมื่อเทียบกับเอเจนต์เดี่ยว
- ใน WideSearch แม้ Claude Opus 4.5 จะได้คะแนนสูงกว่าสำหรับเอเจนต์เดี่ยว แต่ ในการจัดวางเอเจนต์แบบขนาน Kimi K2.5 เหนือกว่า
- ในกลุ่ม DeepSearchQA และ FinSearchComp ก็ทำผลลัพธ์ได้ใกล้เคียงโมเดลเชิงพาณิชย์
-
การเข้าใจภาพ เอกสาร และวิดีโอ
- ใน MMMU-Pro, OCRBench, OmniDocBench 1.5 มีการเปรียบเทียบโดยตรงกับ Qwen3-VL และโดยรวมยังคง ความสามารถในการแข่งขันด้านการให้เหตุผลเชิงภาพและการเข้าใจเอกสาร
- GPT-5.2 มี อัตราความล้มเหลวของเอาต์พุตราว 10% ในการประเมินด้านวิสัยทัศน์บางรายการ จึงถูกให้คะแนนอย่างอนุรักษ์นิยม
- ในเบนช์มาร์กวิดีโอทั้งแบบสั้นและยาว Kimi K2.5 แสดงประสิทธิภาพที่สม่ำเสมอ และให้ผลลัพธ์ที่เสถียรกว่าเมื่อเทียบกับโมเดลที่เน้นภาพเดี่ยว
-
การประเมินโดยรวม
- แม้ Kimi K2.5 จะ ยังไม่ถึงระดับโมเดลเชิงพาณิชย์ที่ดีที่สุดในบางตัวชี้วัด แต่ในบรรดาโมเดลมัลติโหมดและเอเจนต์โอเพนซอร์ส ถือว่า มีประสิทธิภาพที่กว้างและสมดุลที่สุด
- โดยเฉพาะ เมื่อใช้ Agent Swarm จะเห็นความได้เปรียบชัดเจนในงานแบบเอเจนต์และงานค้นหา
- การครอบคลุมทั้งการให้เหตุผล การเขียนโค้ด วิสัยทัศน์ และเอเจนต์ในโมเดลเปิดเพียงตัวเดียว ทำให้เป็น โมเดลเอเจนต์อเนกประสงค์ที่ใช้งานได้จริง ไม่ใช่แค่เพื่อการทดลอง
ข้อจำกัดและข้อสังเกต
- โมเดลเชิงพาณิชย์บางตัวมี อัตราความล้มเหลวของเอาต์พุต ในเบนช์มาร์กด้านวิสัยทัศน์ ทำให้ต้องให้คะแนนแบบอนุรักษ์นิยม
- ในงานเอเจนต์ระยะยาว ประสิทธิภาพแตกต่างกันมากตามกลยุทธ์การจัดการคอนเท็กซ์
- เบนช์มาร์กบางรายการที่มีต้นทุนสูงถูกตัดออกจากการประเมินเนื่องจากปัญหาความเสถียรของ API
การเปิดเผยและการใช้งาน
- เปิดซอร์ส โพสต์เทรนนิงเช็กพอยต์ของ Kimi K2.5
- เป็น โมเดลฐานที่นำกลับมาใช้ซ้ำได้ สำหรับระบบเอเจนต์อเนกประสงค์ งานวิจัยมัลติโหมด และเวิร์กโหลดอัตโนมัติในโลกจริง
- แนวทางที่ไม่แยกข้อความออกจากวิสัยทัศน์และโครงสร้างเอเจนต์แบบขนานอาจเป็น เส้นทางที่จับต้องได้สู่ General Agentic Intelligence
ยังไม่มีความคิดเห็น