- Kimi K2.5 คือ โมเดลโอเพนซอร์สแบบมัลติโมดัล ที่ผ่านการฝึกเพิ่มเติมด้วยโทเคนภาพและข้อความราว 15 ล้านล้านโทเคน โดยผสานความสามารถด้านการเขียนโค้ดและการประมวลผลวิชัน
- ใช้สถาปัตยกรรม Agent Swarm ที่ควบคุม ซับเอเจนต์ได้สูงสุด 100 ตัว แบบขนาน ทำให้งานซับซ้อนเสร็จได้เร็วขึ้น 4.5 เท่า
- ทำงานร่วมกับ Kimi Code และ Kimi App เพื่อรองรับ ความสามารถเชิงปฏิบัติงานจริง ที่หลากหลาย เช่น การเขียนโค้ดจากภาพและวิดีโอ การดีบักเชิงภาพ และระบบอัตโนมัติสำหรับงานออฟฟิศ
- ในเบนช์มาร์กภายใน พบว่าประสิทธิภาพดีขึ้นอย่างมีนัยสำคัญจาก K2 ในทุกด้านทั้ง การเขียนโค้ด วิชัน และประสิทธิภาพงานออฟฟิศ
- ถูกประเมินในชุมชนโอเพนซอร์สว่าเป็นโมเดลที่แสดงให้เห็นถึงความก้าวหน้าที่เป็นรูปธรรมสู่ AGI (ปัญญาประดิษฐ์ทั่วไป)
ภาพรวมของ Kimi K2.5
- Kimi K2.5 เป็น โมเดลมัลติโมดัลแบบเนทีฟ ที่สร้างบนพื้นฐานของโมเดล K2 และผ่านการ pretrain เพิ่มเติมด้วย โทเคนภาพและข้อความแบบผสมราว 15 ล้านล้านโทเคน
- ผสานความสามารถด้าน การเขียนโค้ด และ วิชัน พร้อมนำกระบวนทัศน์ agent swarm แบบอัตโนมัติ มาใช้งาน
- ซับเอเจนต์ได้สูงสุด 100 ตัว สามารถเรียกใช้เครื่องมือได้สูงสุด 1,500 ครั้ง แบบขนาน และทำเวลาได้ เร็วขึ้นสูงสุด 4.5 เท่า เมื่อเทียบกับเอเจนต์เดี่ยว
- ให้บริการผ่าน Kimi.com, Kimi App, API และ Kimi Code พร้อมรองรับโหมด Instant, Thinking, Agent และ Agent Swarm (เบตา)
การผสานการเขียนโค้ดและวิชัน
- K2.5 เป็นโมเดลเขียนโค้ดโอเพนซอร์สที่มีจุดเด่นด้าน การพัฒนาฟรอนต์เอนด์ โดยสามารถสร้าง UI ที่ซับซ้อน เช่น อินเทอร์เฟซแบบโต้ตอบและ แอนิเมชัน scroll trigger ได้อัตโนมัติ
- รองรับ visual coding จากภาพและวิดีโอ โดยเมื่อผู้ใช้สื่อสารเจตนาในเชิงภาพ ก็สามารถแปลงเป็นโค้ดได้
- ตัวอย่างเช่น สร้างเว็บไซต์ขึ้นใหม่จากวิดีโอ หรือค้นหาเส้นทางที่สั้นที่สุดจากภาพเขาวงกตด้วย อัลกอริทึม BFS (113,557 ขั้นตอน)
- ด้วยการเรียนรู้ร่วมกันขนาดใหญ่ระหว่างวิชันและข้อความ ทำให้ความสามารถด้านภาพและภาษาดีขึ้นไปพร้อมกัน
- ใน Kimi Code Bench ภายใน พบว่าประสิทธิภาพดีขึ้นจาก K2 อย่างสม่ำเสมอในงานเขียนโค้ดหลายภาษา ทั้งการ build, debug, refactor และ test
- Kimi Code ทำงานรวมกับเทอร์มินัลและ IDE เช่น VSCode, Cursor, Zed และรองรับอินพุตภาพและวิดีโอ รวมถึง การย้ายสกิลอัตโนมัติ
Agent Swarm
- K2.5 Agent Swarm ไม่ใช่เพียงการขยายเอเจนต์เดี่ยว แต่เป็น สถาปัตยกรรมการทำงานร่วมกันแบบขนาน ที่ฝึกด้วย Parallel-Agent Reinforcement Learning (PARL)
- เอเจนต์ orchestrator จะย่อยงานออกเป็นงานย่อยที่รันแบบขนานได้ และ ซับเอเจนต์แบบคงที่ จะทำงานพร้อมกัน
- ฟังก์ชันรางวัล ถูกออกแบบให้สนับสนุนการสำรวจความเป็นขนานในช่วงแรก และค่อย ๆ เปลี่ยนไปเน้น คุณภาพงาน Q(τ) มากขึ้น
- มีการนำตัวชี้วัดด้านเวลาแฝงชื่อ Critical Steps มาใช้ประเมินประสิทธิภาพของการทำงานแบบขนาน
- ในการประเมินภายใน พบว่า ลดเวลา end-to-end ได้ 80% และเพิ่มความสามารถในการจัดการงานระยะยาวที่ซับซ้อน
- ตัวอย่าง: ในงานค้นหา YouTube creator จาก 100 สาขาย่อย ระบบสามารถสร้างซับเอเจนต์ 100 ตัวแบบขนานและรวมผลลัพธ์เข้าด้วยกัน
ประสิทธิภาพงานออฟฟิศ
- K2.5 Agent รองรับ ระบบอัตโนมัติสำหรับงานออฟฟิศขนาดใหญ่ และสามารถจัดการแบบโต้ตอบได้ตั้งแต่เอกสาร สเปรดชีต PDF ไปจนถึงการสร้างสไลด์
- ใน AI Office Benchmark และ General Agent Benchmark ภายใน มีผลลัพธ์ดีขึ้น 59.3% และ 24.3% ตามลำดับ
- สามารถทำงานขั้นสูงได้ เช่น เพิ่มคอมเมนต์ใน Word, สร้างแบบจำลองการเงินด้วย Pivot Table และเขียนสมการ LaTeX ใน PDF
- งานเขียนยาว เช่น วิทยานิพนธ์ 10,000 คำ หรือ เอกสาร 100 หน้า สามารถทำเสร็จได้ภายในไม่กี่นาที
บทสรุป
- Kimi K2.5 แสดงให้เห็นถึงความก้าวหน้าใน 3 ด้าน ได้แก่ การเขียนโค้ดที่อิงวิชัน, agent swarm และ ระบบอัตโนมัติงานออฟฟิศ ซึ่งเป็นการพิสูจน์แนวทางสู่ AGI ภายใต้ข้อจำกัดของโลกจริง
- ในอนาคตมีแผนจะขยาย agentic intelligence ต่อไป เพื่อกำหนดขอบเขตใหม่ของงานใช้ความรู้
ภาคผนวก: ผลลัพธ์เบนช์มาร์กหลัก
- เปรียบเทียบกับ GPT-5.2, Claude 4.5, Gemini 3 Pro ฯลฯ ใน 7 ด้าน เช่น Reasoning, Vision, Coding และ Agentic Search
- HLE-Full w/ tools: 50.2 (GPT-5.2: 45.5)
- MMMU-Pro: 78.5 (Gemini 3 Pro: 81.0)
- SWE-Bench Verified: 76.8 (Claude 4.5: 80.9)
- BrowseComp (Swarm Mode) : 78.4
- ทำผลงานได้ อยู่ในกลุ่มระดับบน ในเบนช์มาร์กส่วนใหญ่ด้านวิชัน การเขียนโค้ด และการค้นหาแบบ agentic
- การทดลองทั้งหมดดำเนินการภายใต้การตั้งค่า context 256k โทเคน, temperature=1.0 และ top-p=0.95
- สามารถตรวจสอบความถูกต้องของบริการจากบุคคลที่สามได้ผ่าน Kimi Vendor Verifier (KVV)
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
เมื่อดูที่ หน้า Kimi-K2.5 ของ Hugging Face จะเห็นว่าเป็นโมเดล 1 ล้านล้านพารามิเตอร์
ใช้ไลเซนส์แบบ MIT แต่มีเงื่อนไขเพิ่มว่าหากเป็นบริการเชิงพาณิชย์ที่มีผู้ใช้งานต่อเดือนเกิน 100 ล้านคน หรือมีรายได้เกิน 20 ล้านดอลลาร์ ต้องแสดงคำว่า “Kimi K2.5” บน UI
ในเชิงเทคนิคถือว่าน่าทึ่งมาก แต่พอเป็นของที่ยังไงก็รันที่บ้านไม่ได้อยู่แล้ว การปล่อยฟรีก็เลยให้ความรู้สึกว่าความเสี่ยงลดลงไปครึ่งหนึ่งเหมือนกัน
เห็นใน API พูดถึง agent swarm เลยอยากรู้ว่ามีการเปิดเผยไปถึงระดับเวตด้วยหรือเปล่า
“Deepseek moment” เกิดขึ้นเมื่อประมาณ 1 ปีก่อนพอดี
ถ้าเทียบกับตอนนั้น ตอนนี้มีเทคโนโลยีมากมายที่ถูกปล่อยออกมาให้ใช้ฟรี และให้ความรู้สึกอิสระอย่างมากเมื่อเทียบกับแนวทางแบบปิดของ OpenAI
ถ้ารวม GLM 4.7 flash, Minimax-M2 และซีรีส์ Qwen เข้าไปด้วยก็ยิ่งหลากหลายมาก
ผมยกเลิกการสมัคร OpenAI กับ Anthropic มาสองปีแล้ว และไม่รู้สึกเสียดายเลย
ใน Reddit ก็มีคอมเมนต์แนว ‘pro-deepseek’ โผล่มาแปลก ๆ ตลอด แทบจะเหมือนการตลาดสไตล์ Apple เลย
ไม่น่าจะใช่ว่าบริษัทจีนปล่อยของพวกนี้ออกมาด้วยเหตุผลด้านมนุษยธรรม
มีการแชร์เว็บที่มีประโยชน์สำหรับเปรียบเทียบหลายโมเดล
Kimi K2.5 สามารถรัน ซับเอเจนต์ได้สูงสุด 100 ตัว แบบขนาน และประมวลผลการเรียกใช้เครื่องมือได้พร้อมกันสูงสุด 1,500 ครั้ง
สิ่งที่น่าสนใจคือไม่ได้เป็นแค่การเรียกใช้เครื่องมือธรรมดา แต่ถึงขั้นฝึก การ orchestration ของเอเจนต์เองด้วย reinforcement learning (RL)
ปกติโครงสร้างจะเป็นแบบที่โมเดลส่งออกมาว่า “call tool X” แล้ว IDE ค่อยรันและส่งผลลัพธ์กลับเข้าไป
ผมเองก็เห็นผลลัพธ์คล้ายกันจาก TeammateTool ของ Claude Code
นอกจาก K2.5 แล้ว Moonshot AI ยังเปิดตัว Kimi Code ด้วย
มันเป็น terminal coding agent ที่ต่อยอดมาจาก Kimi CLI เดิม ผมลองใช้มาตั้งแต่เดือนที่แล้วและรู้สึกว่าค่อนข้างเสถียร
GitHub: MoonshotAI/kimi-cli
มี zsh hook ที่ช่วยให้สลับเข้าโหมด agent ได้จากที่ไหนก็ได้
จุดที่น่าสนใจของ K2.5 คือมันถูกฝึกให้ สร้างซับเอเจนต์อัตโนมัติ และจัดตั้ง swarm เองได้
คล้ายกับ dynamic sub-agent ของ Claude Code แต่สามารถจัดการเอเจนต์ได้มากกว่าอย่างอิสระมาก
เลยทำให้น่าคิดว่า Claude เองก็กำลังฝึกอะไรคล้ายกันอยู่หรือไม่ และจะเปิดตัวในเวอร์ชันถัดไปหรือเปล่า
ช่วงหลังมานี้โมเดลจากจีนมักตั้งเป้าเบนช์มาร์กเทียบกับ Claude Opus
ทั้ง Qwen3 max thinking และ Kimi K2.5 ต่างก็เทียบกับ Opus ไม่ใช่ Sonnet และกำลังไล่ตามมาด้วยความเร็วที่แทบจะเท่ากัน
Kimi K2 ถูกมองว่าเด่นด้าน ความฉลาดทางอารมณ์ (emotional intelligence) มาตั้งแต่ก่อนแล้ว
เลยสงสัยว่า K2.5 จะยังรักษาคุณสมบัตินั้นไว้ได้หรือไม่
คะแนน CCP-bench ของ K2.5 ดีขึ้นอย่างมาก
ดู ภาพที่เกี่ยวข้อง
ขอแสดงความยินดีกับทีม Kimi สำหรับผลงานนี้
แต่ก็ยังสงสัยว่าทำไม Claude ยังคงเป็นอันดับ 1 ด้านการเขียนโค้ด อยู่ เป็นเพราะการฝึกเฉพาะทางด้านโค้ด หรือเพราะคุณภาพการฝึกโดยรวมกันแน่
อยากเห็นใครสักคนล้ม Opus 4.5 ในงานโค้ดได้
บางครั้งโมเดลก็ overfit กับเบนช์มาร์กด้วยซ้ำ
ผมใช้ทั้ง GPT5.2 และ Opus 4.5 มาแล้ว และประสิทธิภาพในการเขียนโค้ดจริงแทบไม่ต่างกัน
แถม K2.5 ยังมีราคาประมาณ 1/5 ของโมเดลระดับบนด้วย เลยน่าคาดหวังมาก
ส่วน Opus มักทำ abstraction ที่ไม่จำเป็นหรือ hardcode บ่อย