Kimi เปิดตัว Kimi K2.5 โมเดล agentic แบบวิชวล SOTA แบบโอเพนซอร์ส

(kimi.com)

3 คะแนน โดย GN⁺ 2026-01-28 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Kimi K2.5 คือ โมเดลโอเพนซอร์สแบบมัลติโมดัล ที่ผ่านการฝึกเพิ่มเติมด้วยโทเคนภาพและข้อความราว 15 ล้านล้านโทเคน โดยผสานความสามารถด้านการเขียนโค้ดและการประมวลผลวิชัน
ใช้สถาปัตยกรรม Agent Swarm ที่ควบคุม ซับเอเจนต์ได้สูงสุด 100 ตัว แบบขนาน ทำให้งานซับซ้อนเสร็จได้เร็วขึ้น 4.5 เท่า
ทำงานร่วมกับ Kimi Code และ Kimi App เพื่อรองรับ ความสามารถเชิงปฏิบัติงานจริง ที่หลากหลาย เช่น การเขียนโค้ดจากภาพและวิดีโอ การดีบักเชิงภาพ และระบบอัตโนมัติสำหรับงานออฟฟิศ
ในเบนช์มาร์กภายใน พบว่าประสิทธิภาพดีขึ้นอย่างมีนัยสำคัญจาก K2 ในทุกด้านทั้ง การเขียนโค้ด วิชัน และประสิทธิภาพงานออฟฟิศ
ถูกประเมินในชุมชนโอเพนซอร์สว่าเป็นโมเดลที่แสดงให้เห็นถึงความก้าวหน้าที่เป็นรูปธรรมสู่ AGI (ปัญญาประดิษฐ์ทั่วไป)

ภาพรวมของ Kimi K2.5

Kimi K2.5 เป็น โมเดลมัลติโมดัลแบบเนทีฟ ที่สร้างบนพื้นฐานของโมเดล K2 และผ่านการ pretrain เพิ่มเติมด้วย โทเคนภาพและข้อความแบบผสมราว 15 ล้านล้านโทเคน
- ผสานความสามารถด้าน การเขียนโค้ด และ วิชัน พร้อมนำกระบวนทัศน์ agent swarm แบบอัตโนมัติ มาใช้งาน
ซับเอเจนต์ได้สูงสุด 100 ตัว สามารถเรียกใช้เครื่องมือได้สูงสุด 1,500 ครั้ง แบบขนาน และทำเวลาได้ เร็วขึ้นสูงสุด 4.5 เท่า เมื่อเทียบกับเอเจนต์เดี่ยว
ให้บริการผ่าน Kimi.com, Kimi App, API และ Kimi Code พร้อมรองรับโหมด Instant, Thinking, Agent และ Agent Swarm (เบตา)

การผสานการเขียนโค้ดและวิชัน

K2.5 เป็นโมเดลเขียนโค้ดโอเพนซอร์สที่มีจุดเด่นด้าน การพัฒนาฟรอนต์เอนด์ โดยสามารถสร้าง UI ที่ซับซ้อน เช่น อินเทอร์เฟซแบบโต้ตอบและ แอนิเมชัน scroll trigger ได้อัตโนมัติ
รองรับ visual coding จากภาพและวิดีโอ โดยเมื่อผู้ใช้สื่อสารเจตนาในเชิงภาพ ก็สามารถแปลงเป็นโค้ดได้
- ตัวอย่างเช่น สร้างเว็บไซต์ขึ้นใหม่จากวิดีโอ หรือค้นหาเส้นทางที่สั้นที่สุดจากภาพเขาวงกตด้วย อัลกอริทึม BFS (113,557 ขั้นตอน)
ด้วยการเรียนรู้ร่วมกันขนาดใหญ่ระหว่างวิชันและข้อความ ทำให้ความสามารถด้านภาพและภาษาดีขึ้นไปพร้อมกัน
ใน Kimi Code Bench ภายใน พบว่าประสิทธิภาพดีขึ้นจาก K2 อย่างสม่ำเสมอในงานเขียนโค้ดหลายภาษา ทั้งการ build, debug, refactor และ test
Kimi Code ทำงานรวมกับเทอร์มินัลและ IDE เช่น VSCode, Cursor, Zed และรองรับอินพุตภาพและวิดีโอ รวมถึง การย้ายสกิลอัตโนมัติ

Agent Swarm

K2.5 Agent Swarm ไม่ใช่เพียงการขยายเอเจนต์เดี่ยว แต่เป็น สถาปัตยกรรมการทำงานร่วมกันแบบขนาน ที่ฝึกด้วย Parallel-Agent Reinforcement Learning (PARL)
- เอเจนต์ orchestrator จะย่อยงานออกเป็นงานย่อยที่รันแบบขนานได้ และ ซับเอเจนต์แบบคงที่ จะทำงานพร้อมกัน
ฟังก์ชันรางวัล ถูกออกแบบให้สนับสนุนการสำรวจความเป็นขนานในช่วงแรก และค่อย ๆ เปลี่ยนไปเน้น คุณภาพงาน Q(τ) มากขึ้น
มีการนำตัวชี้วัดด้านเวลาแฝงชื่อ Critical Steps มาใช้ประเมินประสิทธิภาพของการทำงานแบบขนาน
ในการประเมินภายใน พบว่า ลดเวลา end-to-end ได้ 80% และเพิ่มความสามารถในการจัดการงานระยะยาวที่ซับซ้อน
- ตัวอย่าง: ในงานค้นหา YouTube creator จาก 100 สาขาย่อย ระบบสามารถสร้างซับเอเจนต์ 100 ตัวแบบขนานและรวมผลลัพธ์เข้าด้วยกัน

ประสิทธิภาพงานออฟฟิศ

K2.5 Agent รองรับ ระบบอัตโนมัติสำหรับงานออฟฟิศขนาดใหญ่ และสามารถจัดการแบบโต้ตอบได้ตั้งแต่เอกสาร สเปรดชีต PDF ไปจนถึงการสร้างสไลด์
ใน AI Office Benchmark และ General Agent Benchmark ภายใน มีผลลัพธ์ดีขึ้น 59.3% และ 24.3% ตามลำดับ
สามารถทำงานขั้นสูงได้ เช่น เพิ่มคอมเมนต์ใน Word, สร้างแบบจำลองการเงินด้วย Pivot Table และเขียนสมการ LaTeX ใน PDF
งานเขียนยาว เช่น วิทยานิพนธ์ 10,000 คำ หรือ เอกสาร 100 หน้า สามารถทำเสร็จได้ภายในไม่กี่นาที

บทสรุป

Kimi K2.5 แสดงให้เห็นถึงความก้าวหน้าใน 3 ด้าน ได้แก่ การเขียนโค้ดที่อิงวิชัน, agent swarm และ ระบบอัตโนมัติงานออฟฟิศ ซึ่งเป็นการพิสูจน์แนวทางสู่ AGI ภายใต้ข้อจำกัดของโลกจริง
ในอนาคตมีแผนจะขยาย agentic intelligence ต่อไป เพื่อกำหนดขอบเขตใหม่ของงานใช้ความรู้

ภาคผนวก: ผลลัพธ์เบนช์มาร์กหลัก

เปรียบเทียบกับ GPT-5.2, Claude 4.5, Gemini 3 Pro ฯลฯ ใน 7 ด้าน เช่น Reasoning, Vision, Coding และ Agentic Search
- HLE-Full w/ tools: 50.2 (GPT-5.2: 45.5)
- MMMU-Pro: 78.5 (Gemini 3 Pro: 81.0)
- SWE-Bench Verified: 76.8 (Claude 4.5: 80.9)
- BrowseComp (Swarm Mode) : 78.4
ทำผลงานได้ อยู่ในกลุ่มระดับบน ในเบนช์มาร์กส่วนใหญ่ด้านวิชัน การเขียนโค้ด และการค้นหาแบบ agentic
การทดลองทั้งหมดดำเนินการภายใต้การตั้งค่า context 256k โทเคน, temperature=1.0 และ top-p=0.95
สามารถตรวจสอบความถูกต้องของบริการจากบุคคลที่สามได้ผ่าน Kimi Vendor Verifier (KVV)

1 ความคิดเห็น

GN⁺ 2026-01-28

ความคิดเห็นจาก Hacker News

เมื่อดูที่ หน้า Kimi-K2.5 ของ Hugging Face จะเห็นว่าเป็นโมเดล 1 ล้านล้านพารามิเตอร์
ใช้ไลเซนส์แบบ MIT แต่มีเงื่อนไขเพิ่มว่าหากเป็นบริการเชิงพาณิชย์ที่มีผู้ใช้งานต่อเดือนเกิน 100 ล้านคน หรือมีรายได้เกิน 20 ล้านดอลลาร์ ต้องแสดงคำว่า “Kimi K2.5” บน UI
- ตั้ง 1 ล้านล้านเลย ถ้าคิดแบบ int4 ก็น่าจะต้องใช้ VRAM ราวครึ่งเทราไบต์
  ในเชิงเทคนิคถือว่าน่าทึ่งมาก แต่พอเป็นของที่ยังไงก็รันที่บ้านไม่ได้อยู่แล้ว การปล่อยฟรีก็เลยให้ความรู้สึกว่าความเสี่ยงลดลงไปครึ่งหนึ่งเหมือนกัน
- ดูเหมือนจะเป็นข่าวที่ค่อนข้างน่าอึดอัดสำหรับฝั่งนักพัฒนา Cursor ที่พยายามซ่อนว่าโมเดล Composer มีพื้นฐานมาจาก GLM
- อยากรู้ว่า thinking, instruct, agent และ agent swarm(beta) ของ Kimi K2.5 เป็น โอเพนซอร์ส ทั้งหมดหรือไม่
  เห็นใน API พูดถึง agent swarm เลยอยากรู้ว่ามีการเปิดเผยไปถึงระดับเวตด้วยหรือเปล่า
- พอเห็นเงื่อนไขที่ว่า “ถ้ารายได้เกิน 20 ล้านดอลลาร์ให้แสดง Kimi K2.5 บน UI” ก็รู้สึกว่าสู้บอกไปตรง ๆ ว่า “จ่ายมา 1 ล้านดอลลาร์” ยังจะดีกว่าไหม
“Deepseek moment” เกิดขึ้นเมื่อประมาณ 1 ปีก่อนพอดี
ถ้าเทียบกับตอนนั้น ตอนนี้มีเทคโนโลยีมากมายที่ถูกปล่อยออกมาให้ใช้ฟรี และให้ความรู้สึกอิสระอย่างมากเมื่อเทียบกับแนวทางแบบปิดของ OpenAI
- แม้หลังจาก DeepSeekR1 แล้ว ความเร็วในการพัฒนาของ โมเดลจากจีน อย่าง v3-0324, v3.1, v3.1-terminus, v3.2-speciale ก็ยังน่าทึ่ง
  ถ้ารวม GLM 4.7 flash, Minimax-M2 และซีรีส์ Qwen เข้าไปด้วยก็ยิ่งหลากหลายมาก
  ผมยกเลิกการสมัคร OpenAI กับ Anthropic มาสองปีแล้ว และไม่รู้สึกเสียดายเลย
- นี่ไม่ใช่เรื่องบังเอิญ บริษัทจีนมักปล่อยของชุดใหญ่ก่อน ตรุษจีน ดังนั้นก่อนวันที่ 17 กุมภาพันธ์ก็น่าจะมีอะไรออกมาเพิ่มอีก
- สงสัยว่าทำไมถึงปล่อยโมเดลใหญ่ขนาดนี้ให้ใช้ฟรี โมเดลธุรกิจ คืออะไรนะ
- ผมคิดว่า Deepseek จริง ๆ แล้วเป็น โปรเจ็กต์ที่ขับเคลื่อนด้วยการตลาด
  ใน Reddit ก็มีคอมเมนต์แนว ‘pro-deepseek’ โผล่มาแปลก ๆ ตลอด แทบจะเหมือนการตลาดสไตล์ Apple เลย
- แต่โมเดลพวกนี้ก็อาจถูกนำไปใช้ใน การโจมตีด้านความปลอดภัย หรือการโจมตีทางชีววิทยาได้เช่นกัน
  ไม่น่าจะใช่ว่าบริษัทจีนปล่อยของพวกนี้ออกมาด้วยเหตุผลด้านมนุษยธรรม
มีการแชร์เว็บที่มีประโยชน์สำหรับเปรียบเทียบหลายโมเดล
- lmarena.ai/leaderboard — การดวล ELO ระหว่างโมเดล
- dashboard.safe.ai — แดชบอร์ดของ CAIS
- clocks.brianmoore.com — เปรียบเทียบการวาดนาฬิกาของโมเดล
- eqbench.com — เบนช์มาร์กด้าน ความฉลาดทางอารมณ์
- ocrarena.ai/battle — ศึก OCR
- mafia-arena.com — การแข่งขันเกม Mafia
- openrouter.ai/rankings — ส่วนแบ่งการใช้งานบน OpenRouter
Kimi K2.5 สามารถรัน ซับเอเจนต์ได้สูงสุด 100 ตัว แบบขนาน และประมวลผลการเรียกใช้เครื่องมือได้พร้อมกันสูงสุด 1,500 ครั้ง
สิ่งที่น่าสนใจคือไม่ได้เป็นแค่การเรียกใช้เครื่องมือธรรมดา แต่ถึงขั้นฝึก การ orchestration ของเอเจนต์เองด้วย reinforcement learning (RL)
- แต่การเรียกเครื่องมือ 1,500 ครั้งนี่คือ ฝันร้ายด้านต้นทุน เลย แค่หลายสิบสเต็ปมาร์จินก็หายหมดแล้ว ถ้าไม่มีเงิน VC ก็ดูไม่น่ายั่งยืน
- อยากรู้ว่า “self-direct an agent swarm” เป็นความสามารถภายในตัวโมเดลเอง หรือเป็นสิ่งที่ทำไว้ในระดับ IDE/บริการ
  ปกติโครงสร้างจะเป็นแบบที่โมเดลส่งออกมาว่า “call tool X” แล้ว IDE ค่อยรันและส่งผลลัพธ์กลับเข้าไป
- เอเจนต์แบบขนานเป็นลูกเล่นที่เรียบง่ายแต่ทรงพลัง
  ผมเองก็เห็นผลลัพธ์คล้ายกันจาก TeammateTool ของ Claude Code
นอกจาก K2.5 แล้ว Moonshot AI ยังเปิดตัว Kimi Code ด้วย
มันเป็น terminal coding agent ที่ต่อยอดมาจาก Kimi CLI เดิม ผมลองใช้มาตั้งแต่เดือนที่แล้วและรู้สึกว่าค่อนข้างเสถียร
GitHub: MoonshotAI/kimi-cli
- ไม่ได้เป็นแค่ coding agent ธรรมดา แต่ทำหน้าที่เป็น shell ได้ด้วย
  มี zsh hook ที่ช่วยให้สลับเข้าโหมด agent ได้จากที่ไหนก็ได้
- อยากรู้ว่ารองรับฟีเจอร์ swarm ไหม แล้วรองรับ Opencode ด้วยหรือเปล่า
- แล้วถ้าเทียบกับ CC ประสิทธิภาพเป็นอย่างไรบ้างก็อยากรู้เหมือนกัน
จุดที่น่าสนใจของ K2.5 คือมันถูกฝึกให้ สร้างซับเอเจนต์อัตโนมัติ และจัดตั้ง swarm เองได้
คล้ายกับ dynamic sub-agent ของ Claude Code แต่สามารถจัดการเอเจนต์ได้มากกว่าอย่างอิสระมาก
เลยทำให้น่าคิดว่า Claude เองก็กำลังฝึกอะไรคล้ายกันอยู่หรือไม่ และจะเปิดตัวในเวอร์ชันถัดไปหรือเปล่า
ช่วงหลังมานี้โมเดลจากจีนมักตั้งเป้าเบนช์มาร์กเทียบกับ Claude Opus
ทั้ง Qwen3 max thinking และ Kimi K2.5 ต่างก็เทียบกับ Opus ไม่ใช่ Sonnet และกำลังไล่ตามมาด้วยความเร็วที่แทบจะเท่ากัน
- ที่ clocks.brianmoore.com K2 เป็นหนึ่งในไม่กี่โมเดลที่ผ่านการทดสอบนาฬิกาได้อย่างสมบูรณ์แบบ
- แล็บในจีนมีรูปแบบคือ distill โมเดล SOTA จากฝั่งตะวันตก แล้วตามทันภายในไม่กี่เดือน
- แม้ในเชิงเบนช์มาร์กจะใกล้เคียงกัน แต่ในแง่การใช้งานจริง โมเดลของ Anthropic ยังนำอยู่
- ท้ายที่สุดแล้ว สถานการณ์การใช้งานจริง สำคัญกว่า ตัดสินจากคะแนนเบนช์มาร์กอย่างเดียวได้ยาก
Kimi K2 ถูกมองว่าเด่นด้าน ความฉลาดทางอารมณ์ (emotional intelligence) มาตั้งแต่ก่อนแล้ว
เลยสงสัยว่า K2.5 จะยังรักษาคุณสมบัตินั้นไว้ได้หรือไม่
- ผมก็มีความรู้สึกแบบเดียวกัน อยากรู้จริง ๆ ว่าพวกเขาทำให้เกิดการตอบสนองทางอารมณ์แบบนั้นได้อย่างไร
- ว่าจะลองทดสอบที่ mafia-arena.com
- แม้จะเป็นเรื่องอัตวิสัย แต่ผมรู้สึกว่ามันดูเป็นมนุษย์มากกว่า Gemini 3, GPT 5.2 และ Opus 4.5
คะแนน CCP-bench ของ K2.5 ดีขึ้นอย่างมาก
ดู ภาพที่เกี่ยวข้อง
ขอแสดงความยินดีกับทีม Kimi สำหรับผลงานนี้
แต่ก็ยังสงสัยว่าทำไม Claude ยังคงเป็นอันดับ 1 ด้านการเขียนโค้ด อยู่ เป็นเพราะการฝึกเฉพาะทางด้านโค้ด หรือเพราะคุณภาพการฝึกโดยรวมกันแน่
อยากเห็นใครสักคนล้ม Opus 4.5 ในงานโค้ดได้
- ช่องว่างในเบนช์มาร์กแทบไม่มีความหมายเลย ในสภาพแวดล้อมการเขียนโค้ดจริง noise มีมากกว่ามาก
  บางครั้งโมเดลก็ overfit กับเบนช์มาร์กด้วยซ้ำ
  ผมใช้ทั้ง GPT5.2 และ Opus 4.5 มาแล้ว และประสิทธิภาพในการเขียนโค้ดจริงแทบไม่ต่างกัน
  แถม K2.5 ยังมีราคาประมาณ 1/5 ของโมเดลระดับบนด้วย เลยน่าคาดหวังมาก
- ผมใช้ Gemini Pro แทน Opus เพราะมันออกแบบโครงสร้างโค้ดใหม่และสะท้อนความต้องการได้ดีกว่า
  ส่วน Opus มักทำ abstraction ที่ไม่จำเป็นหรือ hardcode บ่อย
- Gemini 3 Pro เด่นกว่ามากโดยเฉพาะกับโค้ดเบสขนาดใหญ่
- Opus 4.5 เป็นโมเดลที่ออกมาเมื่อสองเดือนก่อน และเป็นผลจากการที่ Anthropic โฟกัสเรื่องประสิทธิภาพด้านโค้ดมาโดยเฉพาะ

Kimi เปิดตัว Kimi K2.5 โมเดล agentic แบบวิชวล SOTA แบบโอเพนซอร์ส

ภาพรวมของ Kimi K2.5

การผสานการเขียนโค้ดและวิชัน

Agent Swarm

ประสิทธิภาพงานออฟฟิศ

บทสรุป

ภาคผนวก: ผลลัพธ์เบนช์มาร์กหลัก

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News