3 คะแนน โดย GN⁺ 2026-01-28 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Kimi K2.5 คือ โมเดลโอเพนซอร์สแบบมัลติโมดัล ที่ผ่านการฝึกเพิ่มเติมด้วยโทเคนภาพและข้อความราว 15 ล้านล้านโทเคน โดยผสานความสามารถด้านการเขียนโค้ดและการประมวลผลวิชัน
  • ใช้สถาปัตยกรรม Agent Swarm ที่ควบคุม ซับเอเจนต์ได้สูงสุด 100 ตัว แบบขนาน ทำให้งานซับซ้อนเสร็จได้เร็วขึ้น 4.5 เท่า
  • ทำงานร่วมกับ Kimi Code และ Kimi App เพื่อรองรับ ความสามารถเชิงปฏิบัติงานจริง ที่หลากหลาย เช่น การเขียนโค้ดจากภาพและวิดีโอ การดีบักเชิงภาพ และระบบอัตโนมัติสำหรับงานออฟฟิศ
  • ในเบนช์มาร์กภายใน พบว่าประสิทธิภาพดีขึ้นอย่างมีนัยสำคัญจาก K2 ในทุกด้านทั้ง การเขียนโค้ด วิชัน และประสิทธิภาพงานออฟฟิศ
  • ถูกประเมินในชุมชนโอเพนซอร์สว่าเป็นโมเดลที่แสดงให้เห็นถึงความก้าวหน้าที่เป็นรูปธรรมสู่ AGI (ปัญญาประดิษฐ์ทั่วไป)

ภาพรวมของ Kimi K2.5

  • Kimi K2.5 เป็น โมเดลมัลติโมดัลแบบเนทีฟ ที่สร้างบนพื้นฐานของโมเดล K2 และผ่านการ pretrain เพิ่มเติมด้วย โทเคนภาพและข้อความแบบผสมราว 15 ล้านล้านโทเคน
    • ผสานความสามารถด้าน การเขียนโค้ด และ วิชัน พร้อมนำกระบวนทัศน์ agent swarm แบบอัตโนมัติ มาใช้งาน
  • ซับเอเจนต์ได้สูงสุด 100 ตัว สามารถเรียกใช้เครื่องมือได้สูงสุด 1,500 ครั้ง แบบขนาน และทำเวลาได้ เร็วขึ้นสูงสุด 4.5 เท่า เมื่อเทียบกับเอเจนต์เดี่ยว
  • ให้บริการผ่าน Kimi.com, Kimi App, API และ Kimi Code พร้อมรองรับโหมด Instant, Thinking, Agent และ Agent Swarm (เบตา)

การผสานการเขียนโค้ดและวิชัน

  • K2.5 เป็นโมเดลเขียนโค้ดโอเพนซอร์สที่มีจุดเด่นด้าน การพัฒนาฟรอนต์เอนด์ โดยสามารถสร้าง UI ที่ซับซ้อน เช่น อินเทอร์เฟซแบบโต้ตอบและ แอนิเมชัน scroll trigger ได้อัตโนมัติ
  • รองรับ visual coding จากภาพและวิดีโอ โดยเมื่อผู้ใช้สื่อสารเจตนาในเชิงภาพ ก็สามารถแปลงเป็นโค้ดได้
    • ตัวอย่างเช่น สร้างเว็บไซต์ขึ้นใหม่จากวิดีโอ หรือค้นหาเส้นทางที่สั้นที่สุดจากภาพเขาวงกตด้วย อัลกอริทึม BFS (113,557 ขั้นตอน)
  • ด้วยการเรียนรู้ร่วมกันขนาดใหญ่ระหว่างวิชันและข้อความ ทำให้ความสามารถด้านภาพและภาษาดีขึ้นไปพร้อมกัน
  • ใน Kimi Code Bench ภายใน พบว่าประสิทธิภาพดีขึ้นจาก K2 อย่างสม่ำเสมอในงานเขียนโค้ดหลายภาษา ทั้งการ build, debug, refactor และ test
  • Kimi Code ทำงานรวมกับเทอร์มินัลและ IDE เช่น VSCode, Cursor, Zed และรองรับอินพุตภาพและวิดีโอ รวมถึง การย้ายสกิลอัตโนมัติ

Agent Swarm

  • K2.5 Agent Swarm ไม่ใช่เพียงการขยายเอเจนต์เดี่ยว แต่เป็น สถาปัตยกรรมการทำงานร่วมกันแบบขนาน ที่ฝึกด้วย Parallel-Agent Reinforcement Learning (PARL)
    • เอเจนต์ orchestrator จะย่อยงานออกเป็นงานย่อยที่รันแบบขนานได้ และ ซับเอเจนต์แบบคงที่ จะทำงานพร้อมกัน
  • ฟังก์ชันรางวัล ถูกออกแบบให้สนับสนุนการสำรวจความเป็นขนานในช่วงแรก และค่อย ๆ เปลี่ยนไปเน้น คุณภาพงาน Q(τ) มากขึ้น
  • มีการนำตัวชี้วัดด้านเวลาแฝงชื่อ Critical Steps มาใช้ประเมินประสิทธิภาพของการทำงานแบบขนาน
  • ในการประเมินภายใน พบว่า ลดเวลา end-to-end ได้ 80% และเพิ่มความสามารถในการจัดการงานระยะยาวที่ซับซ้อน
    • ตัวอย่าง: ในงานค้นหา YouTube creator จาก 100 สาขาย่อย ระบบสามารถสร้างซับเอเจนต์ 100 ตัวแบบขนานและรวมผลลัพธ์เข้าด้วยกัน

ประสิทธิภาพงานออฟฟิศ

  • K2.5 Agent รองรับ ระบบอัตโนมัติสำหรับงานออฟฟิศขนาดใหญ่ และสามารถจัดการแบบโต้ตอบได้ตั้งแต่เอกสาร สเปรดชีต PDF ไปจนถึงการสร้างสไลด์
  • ใน AI Office Benchmark และ General Agent Benchmark ภายใน มีผลลัพธ์ดีขึ้น 59.3% และ 24.3% ตามลำดับ
  • สามารถทำงานขั้นสูงได้ เช่น เพิ่มคอมเมนต์ใน Word, สร้างแบบจำลองการเงินด้วย Pivot Table และเขียนสมการ LaTeX ใน PDF
  • งานเขียนยาว เช่น วิทยานิพนธ์ 10,000 คำ หรือ เอกสาร 100 หน้า สามารถทำเสร็จได้ภายในไม่กี่นาที

บทสรุป

  • Kimi K2.5 แสดงให้เห็นถึงความก้าวหน้าใน 3 ด้าน ได้แก่ การเขียนโค้ดที่อิงวิชัน, agent swarm และ ระบบอัตโนมัติงานออฟฟิศ ซึ่งเป็นการพิสูจน์แนวทางสู่ AGI ภายใต้ข้อจำกัดของโลกจริง
  • ในอนาคตมีแผนจะขยาย agentic intelligence ต่อไป เพื่อกำหนดขอบเขตใหม่ของงานใช้ความรู้

ภาคผนวก: ผลลัพธ์เบนช์มาร์กหลัก

  • เปรียบเทียบกับ GPT-5.2, Claude 4.5, Gemini 3 Pro ฯลฯ ใน 7 ด้าน เช่น Reasoning, Vision, Coding และ Agentic Search
    • HLE-Full w/ tools: 50.2 (GPT-5.2: 45.5)
    • MMMU-Pro: 78.5 (Gemini 3 Pro: 81.0)
    • SWE-Bench Verified: 76.8 (Claude 4.5: 80.9)
    • BrowseComp (Swarm Mode) : 78.4
  • ทำผลงานได้ อยู่ในกลุ่มระดับบน ในเบนช์มาร์กส่วนใหญ่ด้านวิชัน การเขียนโค้ด และการค้นหาแบบ agentic
  • การทดลองทั้งหมดดำเนินการภายใต้การตั้งค่า context 256k โทเคน, temperature=1.0 และ top-p=0.95
  • สามารถตรวจสอบความถูกต้องของบริการจากบุคคลที่สามได้ผ่าน Kimi Vendor Verifier (KVV)

1 ความคิดเห็น

 
GN⁺ 2026-01-28
ความคิดเห็นจาก Hacker News
  • เมื่อดูที่ หน้า Kimi-K2.5 ของ Hugging Face จะเห็นว่าเป็นโมเดล 1 ล้านล้านพารามิเตอร์
    ใช้ไลเซนส์แบบ MIT แต่มีเงื่อนไขเพิ่มว่าหากเป็นบริการเชิงพาณิชย์ที่มีผู้ใช้งานต่อเดือนเกิน 100 ล้านคน หรือมีรายได้เกิน 20 ล้านดอลลาร์ ต้องแสดงคำว่า “Kimi K2.5” บน UI

    • ตั้ง 1 ล้านล้านเลย ถ้าคิดแบบ int4 ก็น่าจะต้องใช้ VRAM ราวครึ่งเทราไบต์
      ในเชิงเทคนิคถือว่าน่าทึ่งมาก แต่พอเป็นของที่ยังไงก็รันที่บ้านไม่ได้อยู่แล้ว การปล่อยฟรีก็เลยให้ความรู้สึกว่าความเสี่ยงลดลงไปครึ่งหนึ่งเหมือนกัน
    • ดูเหมือนจะเป็นข่าวที่ค่อนข้างน่าอึดอัดสำหรับฝั่งนักพัฒนา Cursor ที่พยายามซ่อนว่าโมเดล Composer มีพื้นฐานมาจาก GLM
    • อยากรู้ว่า thinking, instruct, agent และ agent swarm(beta) ของ Kimi K2.5 เป็น โอเพนซอร์ส ทั้งหมดหรือไม่
      เห็นใน API พูดถึง agent swarm เลยอยากรู้ว่ามีการเปิดเผยไปถึงระดับเวตด้วยหรือเปล่า
    • พอเห็นเงื่อนไขที่ว่า “ถ้ารายได้เกิน 20 ล้านดอลลาร์ให้แสดง Kimi K2.5 บน UI” ก็รู้สึกว่าสู้บอกไปตรง ๆ ว่า “จ่ายมา 1 ล้านดอลลาร์” ยังจะดีกว่าไหม
  • Deepseek moment” เกิดขึ้นเมื่อประมาณ 1 ปีก่อนพอดี
    ถ้าเทียบกับตอนนั้น ตอนนี้มีเทคโนโลยีมากมายที่ถูกปล่อยออกมาให้ใช้ฟรี และให้ความรู้สึกอิสระอย่างมากเมื่อเทียบกับแนวทางแบบปิดของ OpenAI

    • แม้หลังจาก DeepSeekR1 แล้ว ความเร็วในการพัฒนาของ โมเดลจากจีน อย่าง v3-0324, v3.1, v3.1-terminus, v3.2-speciale ก็ยังน่าทึ่ง
      ถ้ารวม GLM 4.7 flash, Minimax-M2 และซีรีส์ Qwen เข้าไปด้วยก็ยิ่งหลากหลายมาก
      ผมยกเลิกการสมัคร OpenAI กับ Anthropic มาสองปีแล้ว และไม่รู้สึกเสียดายเลย
    • นี่ไม่ใช่เรื่องบังเอิญ บริษัทจีนมักปล่อยของชุดใหญ่ก่อน ตรุษจีน ดังนั้นก่อนวันที่ 17 กุมภาพันธ์ก็น่าจะมีอะไรออกมาเพิ่มอีก
    • สงสัยว่าทำไมถึงปล่อยโมเดลใหญ่ขนาดนี้ให้ใช้ฟรี โมเดลธุรกิจ คืออะไรนะ
    • ผมคิดว่า Deepseek จริง ๆ แล้วเป็น โปรเจ็กต์ที่ขับเคลื่อนด้วยการตลาด
      ใน Reddit ก็มีคอมเมนต์แนว ‘pro-deepseek’ โผล่มาแปลก ๆ ตลอด แทบจะเหมือนการตลาดสไตล์ Apple เลย
    • แต่โมเดลพวกนี้ก็อาจถูกนำไปใช้ใน การโจมตีด้านความปลอดภัย หรือการโจมตีทางชีววิทยาได้เช่นกัน
      ไม่น่าจะใช่ว่าบริษัทจีนปล่อยของพวกนี้ออกมาด้วยเหตุผลด้านมนุษยธรรม
  • มีการแชร์เว็บที่มีประโยชน์สำหรับเปรียบเทียบหลายโมเดล

  • Kimi K2.5 สามารถรัน ซับเอเจนต์ได้สูงสุด 100 ตัว แบบขนาน และประมวลผลการเรียกใช้เครื่องมือได้พร้อมกันสูงสุด 1,500 ครั้ง
    สิ่งที่น่าสนใจคือไม่ได้เป็นแค่การเรียกใช้เครื่องมือธรรมดา แต่ถึงขั้นฝึก การ orchestration ของเอเจนต์เองด้วย reinforcement learning (RL)

    • แต่การเรียกเครื่องมือ 1,500 ครั้งนี่คือ ฝันร้ายด้านต้นทุน เลย แค่หลายสิบสเต็ปมาร์จินก็หายหมดแล้ว ถ้าไม่มีเงิน VC ก็ดูไม่น่ายั่งยืน
    • อยากรู้ว่า “self-direct an agent swarm” เป็นความสามารถภายในตัวโมเดลเอง หรือเป็นสิ่งที่ทำไว้ในระดับ IDE/บริการ
      ปกติโครงสร้างจะเป็นแบบที่โมเดลส่งออกมาว่า “call tool X” แล้ว IDE ค่อยรันและส่งผลลัพธ์กลับเข้าไป
    • เอเจนต์แบบขนานเป็นลูกเล่นที่เรียบง่ายแต่ทรงพลัง
      ผมเองก็เห็นผลลัพธ์คล้ายกันจาก TeammateTool ของ Claude Code
  • นอกจาก K2.5 แล้ว Moonshot AI ยังเปิดตัว Kimi Code ด้วย
    มันเป็น terminal coding agent ที่ต่อยอดมาจาก Kimi CLI เดิม ผมลองใช้มาตั้งแต่เดือนที่แล้วและรู้สึกว่าค่อนข้างเสถียร
    GitHub: MoonshotAI/kimi-cli

    • ไม่ได้เป็นแค่ coding agent ธรรมดา แต่ทำหน้าที่เป็น shell ได้ด้วย
      มี zsh hook ที่ช่วยให้สลับเข้าโหมด agent ได้จากที่ไหนก็ได้
    • อยากรู้ว่ารองรับฟีเจอร์ swarm ไหม แล้วรองรับ Opencode ด้วยหรือเปล่า
    • แล้วถ้าเทียบกับ CC ประสิทธิภาพเป็นอย่างไรบ้างก็อยากรู้เหมือนกัน
  • จุดที่น่าสนใจของ K2.5 คือมันถูกฝึกให้ สร้างซับเอเจนต์อัตโนมัติ และจัดตั้ง swarm เองได้
    คล้ายกับ dynamic sub-agent ของ Claude Code แต่สามารถจัดการเอเจนต์ได้มากกว่าอย่างอิสระมาก
    เลยทำให้น่าคิดว่า Claude เองก็กำลังฝึกอะไรคล้ายกันอยู่หรือไม่ และจะเปิดตัวในเวอร์ชันถัดไปหรือเปล่า

  • ช่วงหลังมานี้โมเดลจากจีนมักตั้งเป้าเบนช์มาร์กเทียบกับ Claude Opus
    ทั้ง Qwen3 max thinking และ Kimi K2.5 ต่างก็เทียบกับ Opus ไม่ใช่ Sonnet และกำลังไล่ตามมาด้วยความเร็วที่แทบจะเท่ากัน

    • ที่ clocks.brianmoore.com K2 เป็นหนึ่งในไม่กี่โมเดลที่ผ่านการทดสอบนาฬิกาได้อย่างสมบูรณ์แบบ
    • แล็บในจีนมีรูปแบบคือ distill โมเดล SOTA จากฝั่งตะวันตก แล้วตามทันภายในไม่กี่เดือน
    • แม้ในเชิงเบนช์มาร์กจะใกล้เคียงกัน แต่ในแง่การใช้งานจริง โมเดลของ Anthropic ยังนำอยู่
    • ท้ายที่สุดแล้ว สถานการณ์การใช้งานจริง สำคัญกว่า ตัดสินจากคะแนนเบนช์มาร์กอย่างเดียวได้ยาก
  • Kimi K2 ถูกมองว่าเด่นด้าน ความฉลาดทางอารมณ์ (emotional intelligence) มาตั้งแต่ก่อนแล้ว
    เลยสงสัยว่า K2.5 จะยังรักษาคุณสมบัตินั้นไว้ได้หรือไม่

    • ผมก็มีความรู้สึกแบบเดียวกัน อยากรู้จริง ๆ ว่าพวกเขาทำให้เกิดการตอบสนองทางอารมณ์แบบนั้นได้อย่างไร
    • ว่าจะลองทดสอบที่ mafia-arena.com
    • แม้จะเป็นเรื่องอัตวิสัย แต่ผมรู้สึกว่ามันดูเป็นมนุษย์มากกว่า Gemini 3, GPT 5.2 และ Opus 4.5
  • คะแนน CCP-bench ของ K2.5 ดีขึ้นอย่างมาก
    ดู ภาพที่เกี่ยวข้อง

  • ขอแสดงความยินดีกับทีม Kimi สำหรับผลงานนี้
    แต่ก็ยังสงสัยว่าทำไม Claude ยังคงเป็นอันดับ 1 ด้านการเขียนโค้ด อยู่ เป็นเพราะการฝึกเฉพาะทางด้านโค้ด หรือเพราะคุณภาพการฝึกโดยรวมกันแน่
    อยากเห็นใครสักคนล้ม Opus 4.5 ในงานโค้ดได้

    • ช่องว่างในเบนช์มาร์กแทบไม่มีความหมายเลย ในสภาพแวดล้อมการเขียนโค้ดจริง noise มีมากกว่ามาก
      บางครั้งโมเดลก็ overfit กับเบนช์มาร์กด้วยซ้ำ
      ผมใช้ทั้ง GPT5.2 และ Opus 4.5 มาแล้ว และประสิทธิภาพในการเขียนโค้ดจริงแทบไม่ต่างกัน
      แถม K2.5 ยังมีราคาประมาณ 1/5 ของโมเดลระดับบนด้วย เลยน่าคาดหวังมาก
    • ผมใช้ Gemini Pro แทน Opus เพราะมันออกแบบโครงสร้างโค้ดใหม่และสะท้อนความต้องการได้ดีกว่า
      ส่วน Opus มักทำ abstraction ที่ไม่จำเป็นหรือ hardcode บ่อย
    • Gemini 3 Pro เด่นกว่ามากโดยเฉพาะกับโค้ดเบสขนาดใหญ่
    • Opus 4.5 เป็นโมเดลที่ออกมาเมื่อสองเดือนก่อน และเป็นผลจากการที่ Anthropic โฟกัสเรื่องประสิทธิภาพด้านโค้ดมาโดยเฉพาะ