- เป็นโมเดลที่ยกระดับประสิทธิภาพใน การเขียนโค้ดช่วงยาว และงานแบบเอเจนต์ พร้อมเสริม ความสามารถในการทั่วไป ครอบคลุมหลายภาษา งานฝั่งฟรอนต์เอนด์·devops·การเพิ่มประสิทธิภาพโดยรวม
- จัดการงานวิศวกรรมที่ซับซ้อนด้วย การเขียนโค้ดแบบรันต่อเนื่อง โดยทำการเรียกใช้เครื่องมือหลายพันครั้งและรันต่อเนื่องนานกว่า 12 ชั่วโมง จนทำให้การเพิ่มประสิทธิภาพ inference ของ Zig และการปรับโครงสร้าง exchange-core ครั้งใหญ่มี throughput เพิ่มขึ้นมาก
- เปลี่ยนพรอมป์ตแบบง่ายให้เป็น อินเทอร์เฟซฟรอนต์เอนด์ที่สมบูรณ์ และยังใช้เครื่องมือสร้างภาพ·วิดีโอได้ พร้อมรองรับ เวิร์กโฟลว์ฟูลสแตกแบบง่าย ที่รวมงานยืนยันตัวตนและฐานข้อมูล
- ขยายโครงสร้าง Agent Swarm เป็นระดับ 300 ซับเอเจนต์และ 4,000 ขั้นตอนการประสานงาน เพื่อรันงานค้นหา·รีเสิร์ช·เขียนเอกสาร·สร้างไฟล์แบบขนาน และแปลงรูปแบบกับสไตล์ของ PDF·สไลด์·สเปรดชีต·เอกสาร Word ให้เป็น skills ที่นำกลับมาใช้ซ้ำได้
- ขยายขอบเขตไปสู่ เอเจนต์เชิงรุก และ Claw Groups เพื่อทำงานอัตโนมัติระยะยาว การร่วมมือหลายเอเจนต์ และการจัดสรรงานใหม่ โดยยืนยันการปรับปรุงด้านการเขียนโค้ด การเรียกใช้เครื่องมือ และความน่าเชื่อถือของการรันระยะยาวผ่านเบนช์มาร์กและการทดสอบเบต้าในองค์กร
การเขียนโค้ดช่วงยาว
- ยืนยันการเพิ่มขึ้นของประสิทธิภาพใน งานเขียนโค้ดช่วงยาว พร้อมเสริม ความสามารถในการทั่วไป ครอบคลุมหลายภาษาอย่าง Rust·Go·Python และหลายงานอย่างฟรอนต์เอนด์·devops·การเพิ่มประสิทธิภาพ
- ใน Kimi Code Bench ซึ่งเป็นเบนช์มาร์กการเขียนโค้ดภายใน ได้บันทึกการปรับปรุงครั้งใหญ่เมื่อเทียบกับ Kimi K2.5 ในงาน end-to-end ที่ซับซ้อนโดยรวม
- ดำเนิน การเขียนโค้ดแบบรันต่อเนื่อง สำหรับงานวิศวกรรมที่ซับซ้อน
- ดาวน์โหลดและดีพลอยโมเดล Qwen3.5-0.8B สำเร็จในสภาพแวดล้อม local บน Mac
- นำ Zig ซึ่งเป็นภาษาที่ค่อนข้างเฉพาะทางมาใช้พัฒนาและเพิ่มประสิทธิภาพ inference ของโมเดล แสดงให้เห็นความสามารถในการทั่วไปนอกการกระจายข้อมูล
- ผ่าน การเรียกใช้เครื่องมือมากกว่า 4,000 ครั้ง, การรันต่อเนื่องนานกว่า 12 ชั่วโมง, และ การวนซ้ำ 14 รอบ จนเพิ่ม throughput จากราว 15 tokens/sec เป็น ประมาณ 193 tokens/sec
- ความเร็วสุดท้าย เร็วกว่า LM Studio ประมาณ 20%
- ปรับโครงสร้างใหม่ทั้งหมดของเอนจินจับคู่ทางการเงินโอเพนซอร์สอายุ 8 ปี exchange-core
- ระหว่าง การรัน 13 ชั่วโมง มีการวนซ้ำกลยุทธ์เพิ่มประสิทธิภาพ 12 แบบ และแก้ไขโค้ดอย่างละเอียดมากกว่า 4,000 บรรทัดผ่าน การเรียกใช้เครื่องมือมากกว่า 1,000 ครั้ง
- ระบุคอขวดที่ซ่อนอยู่ด้วยการวิเคราะห์ flame graph ของการจัดสรร CPU และหน่วยความจำ
- ปรับ topology ของ core thread จาก 4ME+2RE เป็น 2ME+1RE
- บนเอนจินที่ใกล้แตะขีดจำกัดด้านประสิทธิภาพอยู่แล้ว สามารถทำได้ทั้ง throughput ระดับกลางเพิ่มขึ้น 185% (0.43→1.24 MT/s) และ throughput ด้านประสิทธิภาพเพิ่มขึ้น 133% (1.23→2.86 MT/s)
- ในการประเมินขององค์กรจากการทดสอบเบต้า ก็พบเสียงตอบรับเชิงบวกจำนวนมากเกี่ยวกับ ความน่าเชื่อถือของการเขียนโค้ดระยะยาว และ คุณภาพของการเรียกใช้เครื่องมือ
- Baseten ระบุว่ามีสมรรถนะงานเขียนโค้ดใกล้เคียงโมเดลปิดชั้นนำ มีคุณภาพการเรียกใช้เครื่องมือที่แข็งแกร่งจากความเข้าใจเฟรมเวิร์กของบุคคลที่สาม และเหมาะกับงานวิศวกรรมที่ซับซ้อนและยาวนาน
- Blackbox ระบุว่าเป็นมาตรฐานใหม่ของโมเดลโอเพนซอร์สสำหรับเวิร์กโฟลว์การเขียนโค้ดระยะยาวและแบบเอเจนต์ รองรับงานหลายขั้นตอนที่ซับซ้อน มีคุณภาพโค้ดสูง เซสชันยาวมีความเสถียร และตรวจจับบั๊กที่ไม่ชัดเจนได้
- CodeBuddy บันทึก ความแม่นยำการสร้างโค้ดเพิ่มขึ้น 12%, ความเสถียรของบริบทยาวดีขึ้น 18%, และ อัตราสำเร็จของการเรียกใช้เครื่องมือ 96.60% เมื่อเทียบกับ K2.5
- Factory รายงาน ดีขึ้น 15% จากการประเมินเทียบเคียงกับเบนช์มาร์กภายในของตน
- Fireworks ระบุว่าจุดที่ดีขึ้นมากที่สุดคือความน่าเชื่อถือในช่วงยาวและความสามารถในการทำตามคำสั่ง
- Hermes Agent ระบุถึงความแนบแน่นระหว่างการเรียกใช้เครื่องมือกับ agent loop การเขียนโค้ดที่ดีขึ้น และขอบเขตความคิดสร้างสรรค์ที่กว้างขึ้น
- Kilo ระบุถึง ประสิทธิภาพระดับ SOTA เมื่อเทียบกับต้นทุนที่ต่ำ และความแข็งแกร่งในงานบริบทยาวทั้งโค้ดเบส
- Ollama ระบุถึงความเหมาะสมด้านการเขียนโค้ดและเครื่องมือเอเจนต์ ความเสถียรของเซสชันหลายขั้นตอนที่ยาวนาน และการเชื่อมต่อกับการอินทิเกรตเดิมได้ทันที
- OpenCode ระบุถึงความเสถียรของการแยกงานและการเรียกใช้เครื่องมือ การลด overhead จากการวนซ้ำ และความน่าเชื่อถือของประสบการณ์แบบ end-to-end
- Qoder ระบุถึงความถี่ในการเรียกใช้เครื่องมือและการเรียกโมเดลที่เพิ่มขึ้น ความเป็นเชิงรุกระหว่างการดำเนินงาน และการลดการขัดจังหวะผู้ใช้กับเวลาแฝง
- Vercel ระบุถึง การปรับปรุงมากกว่า 50% ใน Next.js benchmark, สมรรถนะระดับแนวหน้าบนแพลตฟอร์ม และความเหมาะสมสำหรับการเขียนโค้ดแบบเอเจนต์กับการสร้างฟรอนต์เอนด์บนพื้นฐานความคุ้มค่าต่อต้นทุน
การออกแบบที่เน้นการเขียนโค้ด
- ด้วย ความสามารถด้านการเขียนโค้ด ที่แข็งแกร่ง จึงสามารถแปลงพรอมป์ตง่าย ๆ ให้เป็น อินเทอร์เฟซฟรอนต์เอนด์ที่สมบูรณ์ ได้
- สร้างเลย์เอาต์ที่มีโครงสร้าง พร้อม hero section ที่สวยงาม องค์ประกอบแบบโต้ตอบ และแอนิเมชันที่หลากหลาย เช่น เอฟเฟกต์ทริกเกอร์ตามการเลื่อน
- รองรับการสร้างแอสเซ็ตที่มีความสอดคล้องทางภาพ ด้วย ความสามารถในการใช้เครื่องมือสร้างภาพ·วิดีโอ
- ช่วยให้สร้าง hero section ที่คุณภาพสูงขึ้นและโดดเด่นยิ่งขึ้น
- ขยายจากฟรอนต์เอนด์แบบสแตติกไปสู่ เวิร์กโฟลว์ฟูลสแตกแบบง่าย
- รวมถึงการยืนยันตัวตน การโต้ตอบกับผู้ใช้ และงานฐานข้อมูล
- รองรับกรณีใช้งานเบา ๆ เช่น บันทึกธุรกรรมหรือการจัดการเซสชัน
- สร้าง Kimi Design Bench ภายใน
- ประกอบด้วย 4 หมวด: Visual Input Tasks, Landing Page Construction, Full-Stack Application Development, General Creative Programming
- เมื่อเทียบกับ Google AI Studio พบผลลัพธ์ที่น่าจับตาและสมรรถนะที่ดีในหลายหมวด
- มีตัวอย่างผลงานที่สร้างโดย K2.6 Agent
- ใช้พรอมป์ตเดียวและ harness·เครื่องมือที่เตรียมไว้ล่วงหน้าเพื่อสร้างผลลัพธ์
- ในด้านความสวยงาม มีดีไซน์ฟรอนต์เอนด์ที่งดงามพร้อมปฏิสัมพันธ์ที่หลากหลาย
- ในด้านฟังก์ชัน มีฐานข้อมูลและการยืนยันตัวตนในตัว
- ในด้านการใช้เครื่องมือ มีการสร้างเว็บไซต์ที่ผ่านการขัดเกลาด้วยเครื่องมือสร้างภาพ·วิดีโอ
Agent Swarm ที่พัฒนาขึ้น
- ใช้สถาปัตยกรรมที่เน้น การขยายแนวนอน ไม่ใช่เพียงการขยายแนวตั้ง
- Agent Swarm จะแยกงานออกเป็นงานย่อยที่มีลักษณะต่างกันแบบไดนามิก และให้เอเจนต์เฉพาะโดเมนที่มันสร้างขึ้นเองรันงานเหล่านั้นแบบขนาน
- จาก research preview ของ K2.5 Agent Swarm สู่ Kimi K2.6 Agent Swarm ที่นำเสนอการก้าวกระโดดเชิงคุณภาพของประสบการณ์
- ผสานการค้นหาอย่างกว้างกับการรีเสิร์ชเชิงลึก
- ผสานการวิเคราะห์เอกสารขนาดใหญ่กับการเขียนเนื้อหาระยะยาว
- รันการสร้างคอนเทนต์หลายรูปแบบแบบขนาน
- ส่งมอบผลงานแบบ end-to-end ครอบคลุมเอกสาร·เว็บไซต์·สไลด์·สเปรดชีตภายในการรันอัตโนมัติครั้งเดียว
- ขยาย ขนาดการสเกลแนวนอน ของสถาปัตยกรรม
- 300 ซับเอเจนต์ สามารถรัน 4,000 ขั้นตอนการประสานงาน พร้อมกัน
- ขยายขึ้นอย่างมากจาก K2.5 ที่มี 100 ซับเอเจนต์ และ 1,500 ขั้นตอน
- การทำงานขนานขนาดใหญ่ช่วยลด latency แบบ end-to-end ปรับปรุงคุณภาพผลลัพธ์ และขยายขอบเขตการทำงานของ Agent Swarm
- สามารถแปลงไฟล์คุณภาพสูงอย่าง PDF·สเปรดชีต·สไลด์·เอกสาร Word ให้เป็น Skills ได้
- จับและคงไว้ซึ่งคุณลักษณะด้านโครงสร้างและสไตล์ของเอกสาร
- ทำให้สามารถสร้างคุณภาพและรูปแบบเดิมซ้ำได้ในงานถัดไป
- มีการนำเสนอตัวอย่างงานหลายแบบ
- ออกแบบและรัน 5 กลยุทธ์เชิงปริมาณสำหรับ สินทรัพย์เซมิคอนดักเตอร์ทั่วโลก 100 รายการ, สกัด PPT สไตล์ McKinsey ให้เป็น skill ที่ใช้ซ้ำได้ และจัดทำทั้งสเปรดชีตการโมเดลอย่างละเอียดกับเอกสารนำเสนอผู้บริหารแบบสมบูรณ์
- แปลง บทความวิชาการด้านฟิสิกส์ดาราศาสตร์ คุณภาพสูงที่มีข้อมูลภาพจำนวนมากให้เป็น skill เชิงวิชาการที่ใช้ซ้ำได้ สกัดลำดับการให้เหตุผลและวิธีการทำ visualization พร้อมสร้าง บทความวิจัย 40 หน้า·7,000 คำ, ชุดข้อมูลแบบมีโครงสร้างมากกว่า 20,000 รายการ, และ กราฟระดับดาราศาสตร์ 14 ชิ้น
- สร้าง 100 ซับเอเจนต์ จากเรซูเม่ที่อัปโหลด เพื่อจับคู่กับตำแหน่งงานที่เกี่ยวข้อง 100 ตำแหน่งใน California พร้อมมอบทั้งชุดข้อมูลโอกาสแบบมีโครงสร้างและ เรซูเม่แบบปรับแต่งเฉพาะ 100 ฉบับ
- ระบุร้านค้าปลีก 30 แห่งใน Los Angeles ที่ไม่มีเว็บไซต์ทางการจาก Google Maps และสร้าง landing page ที่เน้น conversion สำหรับแต่ละร้าน
เอเจนต์เชิงรุก
- บันทึกสมรรถนะที่แข็งแกร่งในเอเจนต์อัตโนมัติและเชิงรุกอย่าง OpenClaw และ Hermes
- รองรับประเภทงานที่รันต่อเนื่อง 24 ชั่วโมง 7 วัน ข้ามหลายแอปพลิเคชัน
- รองรับเวิร์กโฟลว์ที่ต่างจากการโต้ตอบแบบแชตทั่วไป
- จำเป็นต้องทำการจัดตารางเวลา รันโค้ด และ orchestrate งานข้ามแพลตฟอร์มผ่าน เอเจนต์เบื้องหลังแบบต่อเนื่อง
- ทีม RL infrastructure ใช้ เอเจนต์ที่อิง K2.6 เพื่อดำเนินการ อัตโนมัติด้วยตนเองเป็นเวลา 5 วัน
- รับผิดชอบการมอนิเตอร์ การตอบสนองต่อเหตุการณ์ และการปฏิบัติการระบบ
- พิสูจน์การคงบริบทอย่างต่อเนื่อง การจัดการงานแบบมัลติเธรด และการทำงานครบวงจรตั้งแต่เกิดการแจ้งเตือนจนถึงการแก้ไข
- ระบุว่ามีล็อกงานที่ผ่านการลบข้อมูลอ่อนไหวแล้ว
- วัดผลการปรับปรุง ความน่าเชื่อถือในสภาพแวดล้อมจริง
- การตีความ API ที่แม่นยำขึ้น
- สมรรถนะการรันระยะยาวที่เสถียรมากขึ้น
- การตระหนักรู้ด้านความปลอดภัยที่ดีขึ้นระหว่างงานรีเสิร์ชระยะยาว
- ใช้ชุดประเมินภายใน Claw Bench เพื่อวัดผลการปรับปรุงเชิงปริมาณ
- ครอบคลุม 5 ด้านคือ Coding Tasks, IM Ecosystem Integration, Information Research & Analysis, Scheduled Task Management, Memory Utilization
- ในทุกตัวชี้วัด มีการปรับปรุงอย่างมากทั้ง อัตราการทำงานสำเร็จ และ ความแม่นยำของการเรียกใช้เครื่องมือ เมื่อเทียบกับ Kimi K2.5
- โดยเฉพาะในเวิร์กโฟลว์ที่ต้องการการทำงานอัตโนมัติอย่างต่อเนื่องโดยไม่มีการกำกับจากมนุษย์ พบการปรับปรุงที่เด่นชัด
Bring Your Own Agents
- ขยายเอเจนต์เชิงรุกไปสู่ Claw Groups บนพื้นฐานของ ความสามารถด้าน orchestration ที่แข็งแกร่ง
- นำเสนอในรูปแบบ research preview ซึ่งเป็นรูปแบบการนำไปใช้ใหม่ของสถาปัตยกรรม Agent Swarm
- รองรับ ระบบนิเวศแบบเปิดและต่างลักษณะกัน
- ทั้งหลายเอเจนต์และมนุษย์สามารถทำงานร่วมกันในฐานะผู้ร่วมงานจริง
- ผู้ใช้สามารถ onboard เอเจนต์ได้จากอุปกรณ์ใดก็ได้ ไม่ว่าจะรันด้วยโมเดลใด
- เอเจนต์แต่ละตัวมีชุดเครื่องมือ skill และบริบทหน่วยความจำถาวรเป็นของตนเอง
- เอเจนต์จากสภาพแวดล้อมที่หลากหลาย เช่น แล็ปท็อป local อุปกรณ์มือถือ หรือ cloud instance สามารถผสานเข้ากับพื้นที่ปฏิบัติงานร่วมกันได้อย่างเป็นธรรมชาติ
- ที่ศูนย์กลาง Kimi K2.6 ทำหน้าที่เป็นผู้ประสานงานแบบปรับตัวได้
- กระจายงานแบบไดนามิกตามโปรไฟล์ skill และเครื่องมือที่ใช้งานได้ของแต่ละเอเจนต์
- ปรับงานให้เหมาะกับความสามารถที่เหมาะสมที่สุด
- เมื่อตรวจพบความล้มเหลวหรือการติดค้างของเอเจนต์ จะทำการจัดสรรงานใหม่หรือสร้างงานย่อยใหม่
- ดูแลวงจรชีวิตทั้งหมดของผลงานอย่างเชิงรุก ตั้งแต่เริ่มต้น การตรวจสอบ ไปจนถึงการเสร็จสิ้น
- รวมถึงกรณีใช้งานของ Claw Groups เอง
- ใช้ทีมการตลาดเอเจนต์ภายในเพื่อขัดเกลาเวิร์กโฟลว์มนุษย์-เอเจนต์ในงานจริง
- เอเจนต์เฉพาะทางอย่าง Demo Makers, Benchmark Makers, Social Media Agents, Video Makers ทำงานร่วมกัน
- ดำเนินการผลิตคอนเทนต์และแคมเปญเปิดตัวแบบ end-to-end
- K2.6 ทำหน้าที่ประสานการแบ่งปันผลลัพธ์ระหว่างทางและการเปลี่ยนแนวคิดให้เป็นผลงานที่เสร็จสมบูรณ์อย่างสอดคล้อง
- ขยายความสัมพันธ์ระหว่างมนุษย์และ AI จากการถามตอบหรือการมอบหมายงานง่าย ๆ ไปสู่ ความเป็นหุ้นส่วนการทำงานร่วมกันอย่างแท้จริง
- นำเสนอทิศทางอนาคตที่เส้นแบ่งระหว่าง "my agent", "your agent", "our team" ค่อย ๆ เลือนหายไปอย่างเป็นธรรมชาติภายในระบบการทำงานร่วมกัน
ตารางเบนช์มาร์ก
- ตัวเลขสำคัญในหมวด Agentic
- HLE-Full w/ tools 54.0, GPT-5.4 52.1, Claude Opus 4.6 53.0, Gemini 3.1 Pro 51.4, Kimi K2.5 50.2
- BrowseComp 83.2, BrowseComp(agent swarm) 86.3, Kimi K2.5 อยู่ที่ 74.9 และ 78.4 ตามลำดับ
- DeepSearchQA f1-score 92.5, accuracy 83.0
- WideSearch item-f1 80.8
- Toolathlon 50.0, Kimi K2.5 27.8
- MCPMark 55.9
- Claw Eval pass^3 62.3, pass@3 80.9
- APEX-Agents 27.9
- OSWorld-Verified 73.1
- ตัวเลขสำคัญในหมวด Coding
- Terminal-Bench 2.0 (Terminus-2) 66.7
- SWE-Bench Pro 58.6
- SWE-Bench Multilingual 76.7
- SWE-Bench Verified 80.2
- SciCode 52.2
- OJBench (python) 60.6
- LiveCodeBench (v6) 89.6
- ตัวเลขสำคัญในหมวด Reasoning & Knowledge
- HLE-Full 34.7
- AIME 2026 96.4
- HMMT 2026 (Feb) 92.7
- IMO-AnswerBench 86.0
- GPQA-Diamond 90.5
- ตัวเลขสำคัญในหมวด Vision
- MMMU-Pro 79.4, MMMU-Pro w/ python 80.1
- CharXiv (RQ) 80.4, CharXiv (RQ) w/ python 86.7
- MathVision 87.4, MathVision w/ python 93.2
- BabyVision 39.8, BabyVision w/ python 68.5
- V* w/ python 96.9
- สำหรับการ ทำซ้ำผลลัพธ์เบนช์มาร์กอย่างเป็นทางการของ Kimi-K2.6 แนะนำให้ใช้ official API
- มีคำแนะนำให้อ้างอิง Kimi Vendor Verifier (KVV) ในการเลือกผู้ให้บริการภายนอก
เชิงอรรถ
-
รายละเอียดการทดสอบทั่วไป
- Kimi K2.6 และ Kimi K2.5 รายงานผลภายใต้เงื่อนไข thinking mode enabled, Claude Opus 4.6 ภายใต้ max effort, GPT-5.4 ภายใต้ xhigh reasoning effort, และ Gemini 3.1 Pro ภายใต้ high thinking level
- เว้นแต่จะระบุไว้เป็นอย่างอื่น การทดลอง Kimi K2.6 ดำเนินที่ temperature 1.0, top-p 1.0, และ ความยาวบริบท 262,144 tokens
- เบนช์มาร์กที่ไม่มีคะแนนสาธารณะถูกประเมินใหม่ภายใต้เงื่อนไขเดียวกับ Kimi K2.6 และทำเครื่องหมายด้วย ดอกจัน(*)
- ผลลัพธ์ที่ไม่มีดอกจันเป็นการอ้างอิงจากรายงานทางการ
-
เบนช์มาร์กด้านการให้เหตุผล
- คะแนน IMO-AnswerBench ของ GPT-5.4 และ Claude 4.6 ได้มาจากบล็อก z.ai
- Humanity's Last Exam (HLE) และงานให้เหตุผลอื่น ๆ ถูกประเมินด้วยความยาวการสร้างสูงสุด 98,304 tokens
- ค่าที่รายงานโดยพื้นฐานคือ HLE full set
- ในชุดย่อยเฉพาะข้อความ Kimi K2.6 ทำได้ 36.4% accuracy โดยไม่ใช้เครื่องมือ และ 55.5% accuracy เมื่อใช้เครื่องมือ
-
งานแบบเอเจนต์และการเสริมด้วยเครื่องมือ
- ใน HLE with tools, BrowseComp, DeepSearchQA, WideSearch มีการติดตั้งเครื่องมือ search, code-interpreter, web-browsing
- HLE-Full with tools ใช้ความยาวการสร้างสูงสุด 262,144 tokens และลิมิตต่อขั้นตอน 49,152 tokens
- เมื่อหน้าต่างบริบทเกินค่ากำหนด จะใช้กลยุทธ์การจัดการบริบทแบบง่ายที่เก็บไว้เฉพาะรอบข้อความล่าสุดที่เกี่ยวกับเครื่องมือ
- คะแนน BrowseComp ได้มาภายใต้การจัดการบริบทแบบ discard-all strategy เช่นเดียวกับ Kimi K2.5 และ DeepSeek-V3.2
- ใน DeepSearchQA ไม่ได้ใช้การจัดการบริบทในการทดสอบ Kimi K2.6 และงานที่เกินความยาวบริบทที่รองรับจะถูกนับเป็นล้มเหลวโดยตรง
- คะแนน DeepSearchQA ของ Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro อ้างอิงจาก Claude Opus 4.7 System Card
- WideSearch รายงานผลภายใต้การตั้งค่าการจัดการบริบท hide tool result
- system prompt ที่ใช้ทดสอบเหมือนกับใน Kimi K2.5 technical report
- Claw Eval ดำเนินการด้วย version 1.1, max-tokens-per-step 16384
- APEX-Agents ประเมิน 452 งาน จากงานสาธารณะทั้งหมด 480 งาน
- เช่นเดียวกับ Artificial Analysis ได้ยกเว้น Investment Banking Worlds 244, 246
- เหตุผลของการยกเว้นคือการพึ่งพา external runtime
-
งานเขียนโค้ด
- คะแนน Terminal-Bench 2.0 ได้มาภายใต้ preserve thinking mode โดยใช้เฟรมเวิร์กเอเจนต์พื้นฐาน Terminus-2 และ JSON parser ที่จัดเตรียมไว้
- การประเมินตระกูล SWE-Bench (รวม Verified, Multilingual, Pro) ใช้เฟรมเวิร์กประเมินภายในที่ดัดแปลงจาก SWE-agent
- การตั้งค่าเครื่องมือของเฟรมเวิร์กดังกล่าวเป็นชุดขั้นต่ำของ bash tool, createfile tool, insert tool, view tool, strreplace tool, submit tool
- คะแนนที่รายงานของงานเขียนโค้ดทั้งหมดเป็น ค่าเฉลี่ยจากการรันอิสระ 10 ครั้ง
-
เบนช์มาร์กด้านวิสัยทัศน์
- ใช้ max-tokens 98,304 และ ค่าเฉลี่ยจาก 3 ครั้ง (avg@3)
- การตั้งค่าใช้เครื่องมือ Python ทำการให้เหตุผลหลายขั้นตอนด้วย max-tokens-per-step 65,536, max-steps 50
- MMMU-Pro ปฏิบัติตามโปรโตคอลทางการ โดยคงลำดับอินพุตและวางภาพไว้ด้านหน้า
3 ความคิดเห็น
ความเห็นจาก Hacker News
ลองต่อผ่าน OpenRouter แล้วประทับใจที่โมเดลนี้ไม่ได้แค่วาดนกกระทุง SVG ธรรมดา แต่ยังห่อออกมาเป็น HTML ที่ปรับความเร็วแอนิเมชันได้ด้วย บันทึกบทสนทนาและ HTML อยู่ใน gist นี้ และดูตัวอย่างที่รันได้ที่ลิงก์นี้
ดูจากเบนช์มาร์กระยะแรก Kimi K2.6 ดีขึ้นจาก Kimi K2 Thinking มาก โมเดลก่อนหน้านี้ทำคะแนนในเบนช์มาร์กของเราไม่ค่อยดี และก็ใช้การ quantization แบบที่ดีที่สุดแล้ว ตอนนี้ Kimi K2.6 อยู่ระดับหัวแถวของโมเดล open weight ในด้าน การให้เหตุผลด้านโค้ดแบบ one-shot ดีกว่า GLM 5.1 นิดหน่อย และแข่งขันกับโมเดล SOTA เมื่อราว 3 เดือนก่อนได้ ทำให้ดูอยู่ในระดับใกล้กับ Gemini 3.1 Pro Preview การทดสอบแบบเอเจนต์ยังทำอยู่ และโมเดล open weight มักอ่อนในเวิร์กโฟลว์เอเจนต์ที่ใช้คอนเท็กซ์ยาว แต่ GLM 5.1 ทำได้ค่อนข้างดี เลยอยากรู้ว่า Kimi จะออกมาเป็นอย่างไร อย่างไรก็ตามทั้งเวอร์ชันเก่าและใหม่ค่อนข้างช้า จึงอาจมีข้อจำกัดด้านการใช้งานจริงกับ agent coding ก่อนหน้านี้ Kimi K2 เดิมเหมือนจะปรับแต่งเพื่อเบนช์มาร์กหนักมาก และสนใจ ความหลากหลายกับอุณหภูมิ มากกว่าการแก้ปัญหายาก ๆ แต่รุ่นนี้ดูเป็นโมเดลสารพัดประโยชน์ที่แข็งแกร่งกว่ามาก โดยรวมแล้วฝั่ง open weight ดูดีมาก และแทบจะมีโมเดลใหม่ระดับ frontier ออกมาทุกสัปดาห์ ดูเบนช์มาร์กรายละเอียดได้ที่ gertlabs
มันมีความขำเชิงประชดที่จีนกำลังผลักดันสิ่งที่อาจเป็นเทคโนโลยีสำคัญที่สุดของโลกในแนวทาง โอเพนซอร์ส ขณะที่สหรัฐกำลังเดินไปคนละทาง
ผมแปลกใจเสมอที่ Kimi ได้รับความสนใจน้อยกว่าที่ควร ทั้งด้านความสร้างสรรค์และคุณภาพมันโดดเด่นมาตลอด และเคยเป็นโมเดลโปรดของผมอยู่นานพอสมควร แน่นอนว่าผมไม่ใช่ผู้เชี่ยวชาญอะไร
อยากรู้ว่ามีใครใช้ Kimi กับงานจริงบ้างไหม ผมลองครั้งหนึ่งแล้ว แม้เบนช์มาร์กจะดูหวือหวาแต่ความประทับใจจากการใช้งานจริงค่อนข้างธรรมดา ตรงกันข้าม Qwen 3.6 กลับดีพอตัว และถึงจะไม่เท่า Opus แต่ก็รู้สึกว่าสู้ Sonnet ได้สบาย
ถ้าความรู้สึกจากเบนช์มาร์กกับการใช้งานจริงสอดคล้องกัน นี่อาจเป็นช่วงเวลาแบบ DeepSeek ที่ AI จีนเกือบจะ ยืนเคียงบ่าเคียงไหล่ กับโมเดลจากแล็บชั้นนำของสหรัฐก็ได้
จากการทดสอบของผมและการเทียบใน aibenchy Kimi K2.6 ดีกว่า Kimi K2.5 แค่นิดเดียว โดยเฉพาะในโจทย์พัซเซิล ปัญหาเฉพาะโดเมน และงานความแม่นยำแบบมีหลุมพราง มักเห็นการ ไม่ทำตามคำสั่ง และคำตอบผิดบ่อยมาก มันอาจยอดเยี่ยมในฐานะโมเดลเขียนโค้ด แต่ในภาพรวมเรื่องความฉลาดยังรู้สึกว่าต่ำกว่า SOTA ระดับบนสุดอยู่เล็กน้อย
บางทีก็สงสัยว่าในอนาคตเหมือนคอมพิวเตอร์สมัยก่อนที่เคยกินพื้นที่ทั้งห้องแล้วตอนนี้มาอยู่ในกระเป๋าได้ สักวันหนึ่งพลังประมวลผลระดับที่ตอนนี้ต้องใช้ทั้งดาต้าเซ็นเตอร์จะย่อมาอยู่ใน อุปกรณ์ชิ้นเดียวคล้ายโทรศัพท์ ได้ไหม ดูเหมือนความก้าวหน้าทางเทคโนโลยีเร็วขึ้นทุกปี เลยอดคิดไม่ได้ว่าการเปลี่ยนแปลงแบบนั้นอาจมาเร็วกว่าที่คาด
เช้านี้ผมลองเอาไปต่อกับแอปแล้วทดสอบทั้งเช้า ความรู้สึกคือผลลัพธ์ใกล้กับ Sonnet 4.6 มาก แม้จะเป็นความประทับใจแบบ วัดด้วยเซนส์ล้วน ๆ โดยไม่มีการตรวจสอบอย่างเป็นทางการ แต่การที่โมเดล frontier เริ่มมีการแข่งขันจริงจังก็น่ายินดี
ผมสงสัยว่าโมเดลนี้มีแพ็กเกจเหมาจ่ายสำหรับงานโค้ดไหม คือเป็นแบบจำกัดจำนวน API call แทนการจำกัดโทเคนหรือเปล่า ช่วงนี้การเรียกเก็บเงิน GLM บน z.ai ล้มเหลวเลยหลุดจากสมาชิกไปแล้ว แถมราคาก็ขึ้นแรงเกินไปในช่วงไม่กี่เดือนที่ผ่านมา
ส่วนตัวใช้ kimi2.5 ได้ดีมากแบบไม่จำกัดในราคา 30 ดอลลาร์ต่อเดือนผ่าน firepass ของ Fireworks.ai อยู่แล้ว ดังนั้นจึงคาดหวังมากกับการปรับปรุงประสิทธิภาพของ 2.6 ที่กำลังจะถูกนำไปใช้กับ firepass เร็ว ๆ นี้
ลองใช้ผ่าน API ชั่วคราวแล้วรู้สึกได้ว่ามีพัฒนาการก้าวใหญ่มากเมื่อเทียบกับ 2.5
ว้าว อันนี้ปิดการสมัครใหม่ไปแล้วนะ