• Kimi K2.5 ที่เปิดตัวโดย Moonshot AI คือ โมเดลเอเจนต์มัลติโหมดโอเพนซอร์สที่ปรับให้เหมาะกับทั้งข้อความและวิสัยทัศน์ร่วมกัน โดยรองรับงานด้านการให้เหตุผล การเขียนโค้ด วิสัยทัศน์ และงานเอเจนต์โดยรวมภายในโมเดลเดียว
  • เพื่อก้าวข้ามข้อจำกัดของเอเจนต์แบบลำดับเดิม ได้มีการนำ การประสานงานเอเจนต์แบบขนาน Agent Swarm มาใช้เพื่อแยกย่อยและดำเนินงานซับซ้อนพร้อมกัน
  • มีการนำเสนอผลเปรียบเทียบประสิทธิภาพกับทั้งโมเดลเชิงพาณิชย์และโอเพนซอร์สจาก การประเมินด้วยเบนช์มาร์กที่ครอบคลุมกว้างขวาง รวมถึงภาพ วิดีโอ เอกสาร เว็บ และสภาพแวดล้อม OS
  • ยืนยันเชิงทดลองถึง ผลการถ่ายโอนข้ามโมดัล ที่การเรียนรู้แบบเสริมแรงด้านภาพช่วยปรับปรุงความสามารถในการให้เหตุผลด้านข้อความด้วย
  • เปิดเผยเช็กพอยต์ที่ผ่านการฝึกแล้ว โดยมุ่งเป้าไปที่ การวิจัยระบบเอเจนต์อเนกประสงค์และการขยายสู่การใช้งานจริง

ภาพรวมและประเด็นปัญหา

  • โมเดลภาษาขนาดใหญ่กำลังพัฒนาจากการตอบคำถามทั่วไปไปสู่ ปัญญาแบบเอเจนต์ที่สามารถใช้เครื่องมือและวางแผนระยะยาวได้
  • โมเดลมัลติโหมดเดิมมักเป็นการออกแบบที่ยึดข้อความเป็นศูนย์กลางแล้วค่อยเพิ่มวิสัยทัศน์เข้าไป ทำให้เกิดความขัดแย้งระหว่างโมดัลและข้อจำกัดด้านการทำให้ทั่วไป
  • ในงานจริงที่ซับซ้อน ความล่าช้าและข้อจำกัดของคอนเท็กซ์จากการทำงานของเอเจนต์แบบลำดับ เป็นคอขวดสำคัญ

การออกแบบหลักของ Kimi K2.5

  • ใช้ การพรีเทรนร่วมระหว่างข้อความ–วิสัยทัศน์ โดยผสมสองโมดัลในสัดส่วนคงที่ตั้งแต่ช่วงเริ่มฝึกเพื่อเสริมการจัดแนว
  • ใช้วิชันเอนโค้ดเดอร์ MoonViT-3D เพื่อประมวลผล ภาพความละเอียดต้นฉบับและวิดีโอระยะยาว ด้วยโครงสร้างเดียวกัน
  • เลือกใช้ กลยุทธ์ zero-vision SFT ซึ่งสามารถกระตุ้นประสิทธิภาพได้แม้ไม่มี SFT เฉพาะทางด้านวิสัยทัศน์
  • ปรับปรุงทั้งความรู้ การให้เหตุผล การเขียนโค้ด และความสามารถแบบเอเจนต์ไปพร้อมกันผ่าน การเรียนรู้แบบเสริมแรงมัลติโหมดร่วม ที่จัดตามหน่วยความสามารถ

สถาปัตยกรรม Agent Swarm

  • ออร์เคสเตรเตอร์ส่วนกลางจะแยกงานออกเป็น ปัญหาย่อยที่ทำแบบขนานได้ และสร้างซับเอเจนต์เฉพาะทางแบบไดนามิก
  • ซับเอเจนต์แต่ละตัวทำงานใน คอนเท็กซ์เฉพาะของตนเองที่เป็นอิสระ เพื่อป้องกันการปนเปื้อนของคอนเท็กซ์ส่วนกลาง
  • ใช้การรวมเฉพาะ ผลลัพธ์ที่สรุปแล้วแบบเลือกสรร แทนการรวมบันทึกทั้งหมด เพื่อทำ context sharding
  • ฝึกให้ลดความหน่วงผ่านพรอมป์ต์การฝึกที่ชี้นำการทำงานแบบขนานและตัวชี้วัด Critical Steps

องค์ประกอบและขนาดการฝึก

  • โมเดลฐาน Kimi K2 ใช้ สถาปัตยกรรม MoE ขนาด 1 ล้านล้านพารามิเตอร์ และพรีเทรนด้วยข้อความ 15 ล้านล้านโทเค็น
  • รองรับ ความยาวคอนเท็กซ์สูงสุด 256k ผ่านการฝึกแบบ Joint long-context
  • รวม ข้อมูลมัลติโหมดหลากหลาย เช่น ภาพ วิดีโอ OCR เอกสาร และภาพหน้าจอ OS

การประเมินและประสิทธิภาพ: สรุปโดยเน้นการเปรียบเทียบโมเดลหลัก

  • Kimi K2.5 ได้รับการประเมินเปรียบเทียบภายใต้เงื่อนไขเดียวกันกับทั้ง โมเดลเชิงพาณิชย์ (Claude Opus 4.5, GPT-5.2, Gemini 3 Pro) และ โมเดลโอเพนซอร์ส (DeepSeek-V3.2, Qwen3-VL-235B)
  • การประเมินทั้งหมดดำเนินการด้วย temperature 1.0, top-p 0.95 และตั้งค่า ความยาวคอนเท็กซ์สูงสุด 256k
  • เบนช์มาร์กด้านการให้เหตุผลและความรู้ทั่วไป

    • ใน AIME 2025 Kimi K2.5 ได้ 96.1 สูงกว่า Claude Opus 4.5(92.8) และ Gemini 3 Pro(95.0) และมีประสิทธิภาพใกล้เคียง GPT-5.2(100)
    • ใน HMMT 2025 และ IMO-AnswerBench ก็ยังคงทำคะแนนสูงกว่า Claude Opus 4.5 และ Qwen3-VL
    • ใน GPQA-Diamond ได้ 87.6 ใกล้เคียง Claude Opus 4.5(87.0) และแสดงประสิทธิภาพเหนือกว่าโมเดลโอเพนซอร์ส
    • ใน LongBench v2 แม้ Gemini 3 Pro จะได้คะแนนสูงสุด แต่ Kimi K2.5 ก็แสดงผลลัพธ์ที่แข่งขันได้เมื่อเทียบกับ DeepSeek-V3.2 และ Qwen3-VL
  • การเขียนโค้ดและวิศวกรรมซอฟต์แวร์

    • ใน SWE-Bench Verified Kimi K2.5 ได้ 76.8 ใกล้เคียง DeepSeek-V3.2(76.2) และสูงกว่า Qwen3-VL(73.1)
    • ใน SWE-Bench Pro และ Multilingual แม้ยังต่ำกว่าโมเดลเชิงพาณิชย์ แต่ก็ยังรักษาระดับผลงานอันดับต้น ๆ ในกลุ่มโอเพนซอร์ส
    • ใน LiveCodeBench v6 ได้ 85.0 สูงกว่า Claude Opus 4.5(82.2) และ Qwen3-VL(83.3)
    • ใน PaperBench(CodeDev) และ CyberGym โมเดลเชิงพาณิชย์ยังคงเหนือกว่า แต่ Kimi K2.5 แสดงประสิทธิภาพที่เสถียรในระดับพร้อมใช้งานจริง
  • งานแบบเอเจนต์และงานที่อิงการค้นหา

    • ใน BrowseComp แบบเอเจนต์เดี่ยว Kimi K2.5 ได้ 60.6 สูงกว่า Claude Opus 4.5(37.0) อย่างมาก
    • เมื่อใช้ Agent Swarm คะแนน BrowseComp เพิ่มเป็น 78.4 และ WideSearch เป็น 79.0 แสดงการปรับปรุงที่ชัดเจนเมื่อเทียบกับเอเจนต์เดี่ยว
    • ใน WideSearch แม้ Claude Opus 4.5 จะได้คะแนนสูงกว่าสำหรับเอเจนต์เดี่ยว แต่ ในการจัดวางเอเจนต์แบบขนาน Kimi K2.5 เหนือกว่า
    • ในกลุ่ม DeepSearchQA และ FinSearchComp ก็ทำผลลัพธ์ได้ใกล้เคียงโมเดลเชิงพาณิชย์
  • การเข้าใจภาพ เอกสาร และวิดีโอ

    • ใน MMMU-Pro, OCRBench, OmniDocBench 1.5 มีการเปรียบเทียบโดยตรงกับ Qwen3-VL และโดยรวมยังคง ความสามารถในการแข่งขันด้านการให้เหตุผลเชิงภาพและการเข้าใจเอกสาร
    • GPT-5.2 มี อัตราความล้มเหลวของเอาต์พุตราว 10% ในการประเมินด้านวิสัยทัศน์บางรายการ จึงถูกให้คะแนนอย่างอนุรักษ์นิยม
    • ในเบนช์มาร์กวิดีโอทั้งแบบสั้นและยาว Kimi K2.5 แสดงประสิทธิภาพที่สม่ำเสมอ และให้ผลลัพธ์ที่เสถียรกว่าเมื่อเทียบกับโมเดลที่เน้นภาพเดี่ยว
  • การประเมินโดยรวม

    • แม้ Kimi K2.5 จะ ยังไม่ถึงระดับโมเดลเชิงพาณิชย์ที่ดีที่สุดในบางตัวชี้วัด แต่ในบรรดาโมเดลมัลติโหมดและเอเจนต์โอเพนซอร์ส ถือว่า มีประสิทธิภาพที่กว้างและสมดุลที่สุด
    • โดยเฉพาะ เมื่อใช้ Agent Swarm จะเห็นความได้เปรียบชัดเจนในงานแบบเอเจนต์และงานค้นหา
    • การครอบคลุมทั้งการให้เหตุผล การเขียนโค้ด วิสัยทัศน์ และเอเจนต์ในโมเดลเปิดเพียงตัวเดียว ทำให้เป็น โมเดลเอเจนต์อเนกประสงค์ที่ใช้งานได้จริง ไม่ใช่แค่เพื่อการทดลอง

ข้อจำกัดและข้อสังเกต

  • โมเดลเชิงพาณิชย์บางตัวมี อัตราความล้มเหลวของเอาต์พุต ในเบนช์มาร์กด้านวิสัยทัศน์ ทำให้ต้องให้คะแนนแบบอนุรักษ์นิยม
  • ในงานเอเจนต์ระยะยาว ประสิทธิภาพแตกต่างกันมากตามกลยุทธ์การจัดการคอนเท็กซ์
  • เบนช์มาร์กบางรายการที่มีต้นทุนสูงถูกตัดออกจากการประเมินเนื่องจากปัญหาความเสถียรของ API

การเปิดเผยและการใช้งาน

  • เปิดซอร์ส โพสต์เทรนนิงเช็กพอยต์ของ Kimi K2.5
  • เป็น โมเดลฐานที่นำกลับมาใช้ซ้ำได้ สำหรับระบบเอเจนต์อเนกประสงค์ งานวิจัยมัลติโหมด และเวิร์กโหลดอัตโนมัติในโลกจริง
  • แนวทางที่ไม่แยกข้อความออกจากวิสัยทัศน์และโครงสร้างเอเจนต์แบบขนานอาจเป็น เส้นทางที่จับต้องได้สู่ General Agentic Intelligence

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น