เปิดตัว Kimi K2.6 - ความก้าวหน้าของการเขียนโค้ดโอเพนซอร์ส

(kimi.com)

5 คะแนน โดย GN⁺ 9 일 전 | 3 ความคิดเห็น | แชร์ทาง WhatsApp

เป็นโมเดลที่ยกระดับประสิทธิภาพใน การเขียนโค้ดช่วงยาว และงานแบบเอเจนต์ พร้อมเสริม ความสามารถในการทั่วไป ครอบคลุมหลายภาษา งานฝั่งฟรอนต์เอนด์·devops·การเพิ่มประสิทธิภาพโดยรวม
จัดการงานวิศวกรรมที่ซับซ้อนด้วย การเขียนโค้ดแบบรันต่อเนื่อง โดยทำการเรียกใช้เครื่องมือหลายพันครั้งและรันต่อเนื่องนานกว่า 12 ชั่วโมง จนทำให้การเพิ่มประสิทธิภาพ inference ของ Zig และการปรับโครงสร้าง exchange-core ครั้งใหญ่มี throughput เพิ่มขึ้นมาก
เปลี่ยนพรอมป์ตแบบง่ายให้เป็น อินเทอร์เฟซฟรอนต์เอนด์ที่สมบูรณ์ และยังใช้เครื่องมือสร้างภาพ·วิดีโอได้ พร้อมรองรับ เวิร์กโฟลว์ฟูลสแตกแบบง่าย ที่รวมงานยืนยันตัวตนและฐานข้อมูล
ขยายโครงสร้าง Agent Swarm เป็นระดับ 300 ซับเอเจนต์และ 4,000 ขั้นตอนการประสานงาน เพื่อรันงานค้นหา·รีเสิร์ช·เขียนเอกสาร·สร้างไฟล์แบบขนาน และแปลงรูปแบบกับสไตล์ของ PDF·สไลด์·สเปรดชีต·เอกสาร Word ให้เป็น skills ที่นำกลับมาใช้ซ้ำได้
ขยายขอบเขตไปสู่ เอเจนต์เชิงรุก และ Claw Groups เพื่อทำงานอัตโนมัติระยะยาว การร่วมมือหลายเอเจนต์ และการจัดสรรงานใหม่ โดยยืนยันการปรับปรุงด้านการเขียนโค้ด การเรียกใช้เครื่องมือ และความน่าเชื่อถือของการรันระยะยาวผ่านเบนช์มาร์กและการทดสอบเบต้าในองค์กร

การเขียนโค้ดช่วงยาว

ยืนยันการเพิ่มขึ้นของประสิทธิภาพใน งานเขียนโค้ดช่วงยาว พร้อมเสริม ความสามารถในการทั่วไป ครอบคลุมหลายภาษาอย่าง Rust·Go·Python และหลายงานอย่างฟรอนต์เอนด์·devops·การเพิ่มประสิทธิภาพ
- ใน Kimi Code Bench ซึ่งเป็นเบนช์มาร์กการเขียนโค้ดภายใน ได้บันทึกการปรับปรุงครั้งใหญ่เมื่อเทียบกับ Kimi K2.5 ในงาน end-to-end ที่ซับซ้อนโดยรวม
ดำเนิน การเขียนโค้ดแบบรันต่อเนื่อง สำหรับงานวิศวกรรมที่ซับซ้อน
- ดาวน์โหลดและดีพลอยโมเดล Qwen3.5-0.8B สำเร็จในสภาพแวดล้อม local บน Mac
- นำ Zig ซึ่งเป็นภาษาที่ค่อนข้างเฉพาะทางมาใช้พัฒนาและเพิ่มประสิทธิภาพ inference ของโมเดล แสดงให้เห็นความสามารถในการทั่วไปนอกการกระจายข้อมูล
- ผ่าน การเรียกใช้เครื่องมือมากกว่า 4,000 ครั้ง, การรันต่อเนื่องนานกว่า 12 ชั่วโมง, และ การวนซ้ำ 14 รอบ จนเพิ่ม throughput จากราว 15 tokens/sec เป็น ประมาณ 193 tokens/sec
- ความเร็วสุดท้าย เร็วกว่า LM Studio ประมาณ 20%
ปรับโครงสร้างใหม่ทั้งหมดของเอนจินจับคู่ทางการเงินโอเพนซอร์สอายุ 8 ปี exchange-core
- ระหว่าง การรัน 13 ชั่วโมง มีการวนซ้ำกลยุทธ์เพิ่มประสิทธิภาพ 12 แบบ และแก้ไขโค้ดอย่างละเอียดมากกว่า 4,000 บรรทัดผ่าน การเรียกใช้เครื่องมือมากกว่า 1,000 ครั้ง
- ระบุคอขวดที่ซ่อนอยู่ด้วยการวิเคราะห์ flame graph ของการจัดสรร CPU และหน่วยความจำ
- ปรับ topology ของ core thread จาก 4ME+2RE เป็น 2ME+1RE
- บนเอนจินที่ใกล้แตะขีดจำกัดด้านประสิทธิภาพอยู่แล้ว สามารถทำได้ทั้ง throughput ระดับกลางเพิ่มขึ้น 185% (0.43→1.24 MT/s) และ throughput ด้านประสิทธิภาพเพิ่มขึ้น 133% (1.23→2.86 MT/s)
ในการประเมินขององค์กรจากการทดสอบเบต้า ก็พบเสียงตอบรับเชิงบวกจำนวนมากเกี่ยวกับ ความน่าเชื่อถือของการเขียนโค้ดระยะยาว และ คุณภาพของการเรียกใช้เครื่องมือ
- Baseten ระบุว่ามีสมรรถนะงานเขียนโค้ดใกล้เคียงโมเดลปิดชั้นนำ มีคุณภาพการเรียกใช้เครื่องมือที่แข็งแกร่งจากความเข้าใจเฟรมเวิร์กของบุคคลที่สาม และเหมาะกับงานวิศวกรรมที่ซับซ้อนและยาวนาน
- Blackbox ระบุว่าเป็นมาตรฐานใหม่ของโมเดลโอเพนซอร์สสำหรับเวิร์กโฟลว์การเขียนโค้ดระยะยาวและแบบเอเจนต์ รองรับงานหลายขั้นตอนที่ซับซ้อน มีคุณภาพโค้ดสูง เซสชันยาวมีความเสถียร และตรวจจับบั๊กที่ไม่ชัดเจนได้
- CodeBuddy บันทึก ความแม่นยำการสร้างโค้ดเพิ่มขึ้น 12%, ความเสถียรของบริบทยาวดีขึ้น 18%, และ อัตราสำเร็จของการเรียกใช้เครื่องมือ 96.60% เมื่อเทียบกับ K2.5
- Factory รายงาน ดีขึ้น 15% จากการประเมินเทียบเคียงกับเบนช์มาร์กภายในของตน
- Fireworks ระบุว่าจุดที่ดีขึ้นมากที่สุดคือความน่าเชื่อถือในช่วงยาวและความสามารถในการทำตามคำสั่ง
- Hermes Agent ระบุถึงความแนบแน่นระหว่างการเรียกใช้เครื่องมือกับ agent loop การเขียนโค้ดที่ดีขึ้น และขอบเขตความคิดสร้างสรรค์ที่กว้างขึ้น
- Kilo ระบุถึง ประสิทธิภาพระดับ SOTA เมื่อเทียบกับต้นทุนที่ต่ำ และความแข็งแกร่งในงานบริบทยาวทั้งโค้ดเบส
- Ollama ระบุถึงความเหมาะสมด้านการเขียนโค้ดและเครื่องมือเอเจนต์ ความเสถียรของเซสชันหลายขั้นตอนที่ยาวนาน และการเชื่อมต่อกับการอินทิเกรตเดิมได้ทันที
- OpenCode ระบุถึงความเสถียรของการแยกงานและการเรียกใช้เครื่องมือ การลด overhead จากการวนซ้ำ และความน่าเชื่อถือของประสบการณ์แบบ end-to-end
- Qoder ระบุถึงความถี่ในการเรียกใช้เครื่องมือและการเรียกโมเดลที่เพิ่มขึ้น ความเป็นเชิงรุกระหว่างการดำเนินงาน และการลดการขัดจังหวะผู้ใช้กับเวลาแฝง
- Vercel ระบุถึง การปรับปรุงมากกว่า 50% ใน Next.js benchmark, สมรรถนะระดับแนวหน้าบนแพลตฟอร์ม และความเหมาะสมสำหรับการเขียนโค้ดแบบเอเจนต์กับการสร้างฟรอนต์เอนด์บนพื้นฐานความคุ้มค่าต่อต้นทุน

การออกแบบที่เน้นการเขียนโค้ด

ด้วย ความสามารถด้านการเขียนโค้ด ที่แข็งแกร่ง จึงสามารถแปลงพรอมป์ตง่าย ๆ ให้เป็น อินเทอร์เฟซฟรอนต์เอนด์ที่สมบูรณ์ ได้
- สร้างเลย์เอาต์ที่มีโครงสร้าง พร้อม hero section ที่สวยงาม องค์ประกอบแบบโต้ตอบ และแอนิเมชันที่หลากหลาย เช่น เอฟเฟกต์ทริกเกอร์ตามการเลื่อน
รองรับการสร้างแอสเซ็ตที่มีความสอดคล้องทางภาพ ด้วย ความสามารถในการใช้เครื่องมือสร้างภาพ·วิดีโอ
- ช่วยให้สร้าง hero section ที่คุณภาพสูงขึ้นและโดดเด่นยิ่งขึ้น
ขยายจากฟรอนต์เอนด์แบบสแตติกไปสู่ เวิร์กโฟลว์ฟูลสแตกแบบง่าย
- รวมถึงการยืนยันตัวตน การโต้ตอบกับผู้ใช้ และงานฐานข้อมูล
- รองรับกรณีใช้งานเบา ๆ เช่น บันทึกธุรกรรมหรือการจัดการเซสชัน
สร้าง Kimi Design Bench ภายใน
- ประกอบด้วย 4 หมวด: Visual Input Tasks, Landing Page Construction, Full-Stack Application Development, General Creative Programming
- เมื่อเทียบกับ Google AI Studio พบผลลัพธ์ที่น่าจับตาและสมรรถนะที่ดีในหลายหมวด
มีตัวอย่างผลงานที่สร้างโดย K2.6 Agent
- ใช้พรอมป์ตเดียวและ harness·เครื่องมือที่เตรียมไว้ล่วงหน้าเพื่อสร้างผลลัพธ์
- ในด้านความสวยงาม มีดีไซน์ฟรอนต์เอนด์ที่งดงามพร้อมปฏิสัมพันธ์ที่หลากหลาย
- ในด้านฟังก์ชัน มีฐานข้อมูลและการยืนยันตัวตนในตัว
- ในด้านการใช้เครื่องมือ มีการสร้างเว็บไซต์ที่ผ่านการขัดเกลาด้วยเครื่องมือสร้างภาพ·วิดีโอ

Agent Swarm ที่พัฒนาขึ้น

ใช้สถาปัตยกรรมที่เน้น การขยายแนวนอน ไม่ใช่เพียงการขยายแนวตั้ง
- Agent Swarm จะแยกงานออกเป็นงานย่อยที่มีลักษณะต่างกันแบบไดนามิก และให้เอเจนต์เฉพาะโดเมนที่มันสร้างขึ้นเองรันงานเหล่านั้นแบบขนาน
จาก research preview ของ K2.5 Agent Swarm สู่ Kimi K2.6 Agent Swarm ที่นำเสนอการก้าวกระโดดเชิงคุณภาพของประสบการณ์
- ผสานการค้นหาอย่างกว้างกับการรีเสิร์ชเชิงลึก
- ผสานการวิเคราะห์เอกสารขนาดใหญ่กับการเขียนเนื้อหาระยะยาว
- รันการสร้างคอนเทนต์หลายรูปแบบแบบขนาน
- ส่งมอบผลงานแบบ end-to-end ครอบคลุมเอกสาร·เว็บไซต์·สไลด์·สเปรดชีตภายในการรันอัตโนมัติครั้งเดียว
ขยาย ขนาดการสเกลแนวนอน ของสถาปัตยกรรม
- 300 ซับเอเจนต์ สามารถรัน 4,000 ขั้นตอนการประสานงาน พร้อมกัน
- ขยายขึ้นอย่างมากจาก K2.5 ที่มี 100 ซับเอเจนต์ และ 1,500 ขั้นตอน
- การทำงานขนานขนาดใหญ่ช่วยลด latency แบบ end-to-end ปรับปรุงคุณภาพผลลัพธ์ และขยายขอบเขตการทำงานของ Agent Swarm
สามารถแปลงไฟล์คุณภาพสูงอย่าง PDF·สเปรดชีต·สไลด์·เอกสาร Word ให้เป็น Skills ได้
- จับและคงไว้ซึ่งคุณลักษณะด้านโครงสร้างและสไตล์ของเอกสาร
- ทำให้สามารถสร้างคุณภาพและรูปแบบเดิมซ้ำได้ในงานถัดไป
มีการนำเสนอตัวอย่างงานหลายแบบ
- ออกแบบและรัน 5 กลยุทธ์เชิงปริมาณสำหรับ สินทรัพย์เซมิคอนดักเตอร์ทั่วโลก 100 รายการ, สกัด PPT สไตล์ McKinsey ให้เป็น skill ที่ใช้ซ้ำได้ และจัดทำทั้งสเปรดชีตการโมเดลอย่างละเอียดกับเอกสารนำเสนอผู้บริหารแบบสมบูรณ์
- แปลง บทความวิชาการด้านฟิสิกส์ดาราศาสตร์ คุณภาพสูงที่มีข้อมูลภาพจำนวนมากให้เป็น skill เชิงวิชาการที่ใช้ซ้ำได้ สกัดลำดับการให้เหตุผลและวิธีการทำ visualization พร้อมสร้าง บทความวิจัย 40 หน้า·7,000 คำ, ชุดข้อมูลแบบมีโครงสร้างมากกว่า 20,000 รายการ, และ กราฟระดับดาราศาสตร์ 14 ชิ้น
- สร้าง 100 ซับเอเจนต์ จากเรซูเม่ที่อัปโหลด เพื่อจับคู่กับตำแหน่งงานที่เกี่ยวข้อง 100 ตำแหน่งใน California พร้อมมอบทั้งชุดข้อมูลโอกาสแบบมีโครงสร้างและ เรซูเม่แบบปรับแต่งเฉพาะ 100 ฉบับ
- ระบุร้านค้าปลีก 30 แห่งใน Los Angeles ที่ไม่มีเว็บไซต์ทางการจาก Google Maps และสร้าง landing page ที่เน้น conversion สำหรับแต่ละร้าน

เอเจนต์เชิงรุก

บันทึกสมรรถนะที่แข็งแกร่งในเอเจนต์อัตโนมัติและเชิงรุกอย่าง OpenClaw และ Hermes
- รองรับประเภทงานที่รันต่อเนื่อง 24 ชั่วโมง 7 วัน ข้ามหลายแอปพลิเคชัน
รองรับเวิร์กโฟลว์ที่ต่างจากการโต้ตอบแบบแชตทั่วไป
- จำเป็นต้องทำการจัดตารางเวลา รันโค้ด และ orchestrate งานข้ามแพลตฟอร์มผ่าน เอเจนต์เบื้องหลังแบบต่อเนื่อง
ทีม RL infrastructure ใช้ เอเจนต์ที่อิง K2.6 เพื่อดำเนินการ อัตโนมัติด้วยตนเองเป็นเวลา 5 วัน
- รับผิดชอบการมอนิเตอร์ การตอบสนองต่อเหตุการณ์ และการปฏิบัติการระบบ
- พิสูจน์การคงบริบทอย่างต่อเนื่อง การจัดการงานแบบมัลติเธรด และการทำงานครบวงจรตั้งแต่เกิดการแจ้งเตือนจนถึงการแก้ไข
- ระบุว่ามีล็อกงานที่ผ่านการลบข้อมูลอ่อนไหวแล้ว
วัดผลการปรับปรุง ความน่าเชื่อถือในสภาพแวดล้อมจริง
- การตีความ API ที่แม่นยำขึ้น
- สมรรถนะการรันระยะยาวที่เสถียรมากขึ้น
- การตระหนักรู้ด้านความปลอดภัยที่ดีขึ้นระหว่างงานรีเสิร์ชระยะยาว
ใช้ชุดประเมินภายใน Claw Bench เพื่อวัดผลการปรับปรุงเชิงปริมาณ
- ครอบคลุม 5 ด้านคือ Coding Tasks, IM Ecosystem Integration, Information Research & Analysis, Scheduled Task Management, Memory Utilization
- ในทุกตัวชี้วัด มีการปรับปรุงอย่างมากทั้ง อัตราการทำงานสำเร็จ และ ความแม่นยำของการเรียกใช้เครื่องมือ เมื่อเทียบกับ Kimi K2.5
- โดยเฉพาะในเวิร์กโฟลว์ที่ต้องการการทำงานอัตโนมัติอย่างต่อเนื่องโดยไม่มีการกำกับจากมนุษย์ พบการปรับปรุงที่เด่นชัด

Bring Your Own Agents

ขยายเอเจนต์เชิงรุกไปสู่ Claw Groups บนพื้นฐานของ ความสามารถด้าน orchestration ที่แข็งแกร่ง
- นำเสนอในรูปแบบ research preview ซึ่งเป็นรูปแบบการนำไปใช้ใหม่ของสถาปัตยกรรม Agent Swarm
รองรับ ระบบนิเวศแบบเปิดและต่างลักษณะกัน
- ทั้งหลายเอเจนต์และมนุษย์สามารถทำงานร่วมกันในฐานะผู้ร่วมงานจริง
- ผู้ใช้สามารถ onboard เอเจนต์ได้จากอุปกรณ์ใดก็ได้ ไม่ว่าจะรันด้วยโมเดลใด
- เอเจนต์แต่ละตัวมีชุดเครื่องมือ skill และบริบทหน่วยความจำถาวรเป็นของตนเอง
- เอเจนต์จากสภาพแวดล้อมที่หลากหลาย เช่น แล็ปท็อป local อุปกรณ์มือถือ หรือ cloud instance สามารถผสานเข้ากับพื้นที่ปฏิบัติงานร่วมกันได้อย่างเป็นธรรมชาติ
ที่ศูนย์กลาง Kimi K2.6 ทำหน้าที่เป็นผู้ประสานงานแบบปรับตัวได้
- กระจายงานแบบไดนามิกตามโปรไฟล์ skill และเครื่องมือที่ใช้งานได้ของแต่ละเอเจนต์
- ปรับงานให้เหมาะกับความสามารถที่เหมาะสมที่สุด
- เมื่อตรวจพบความล้มเหลวหรือการติดค้างของเอเจนต์ จะทำการจัดสรรงานใหม่หรือสร้างงานย่อยใหม่
- ดูแลวงจรชีวิตทั้งหมดของผลงานอย่างเชิงรุก ตั้งแต่เริ่มต้น การตรวจสอบ ไปจนถึงการเสร็จสิ้น
รวมถึงกรณีใช้งานของ Claw Groups เอง
- ใช้ทีมการตลาดเอเจนต์ภายในเพื่อขัดเกลาเวิร์กโฟลว์มนุษย์-เอเจนต์ในงานจริง
- เอเจนต์เฉพาะทางอย่าง Demo Makers, Benchmark Makers, Social Media Agents, Video Makers ทำงานร่วมกัน
- ดำเนินการผลิตคอนเทนต์และแคมเปญเปิดตัวแบบ end-to-end
- K2.6 ทำหน้าที่ประสานการแบ่งปันผลลัพธ์ระหว่างทางและการเปลี่ยนแนวคิดให้เป็นผลงานที่เสร็จสมบูรณ์อย่างสอดคล้อง
ขยายความสัมพันธ์ระหว่างมนุษย์และ AI จากการถามตอบหรือการมอบหมายงานง่าย ๆ ไปสู่ ความเป็นหุ้นส่วนการทำงานร่วมกันอย่างแท้จริง
- นำเสนอทิศทางอนาคตที่เส้นแบ่งระหว่าง "my agent", "your agent", "our team" ค่อย ๆ เลือนหายไปอย่างเป็นธรรมชาติภายในระบบการทำงานร่วมกัน

ตารางเบนช์มาร์ก

ตัวเลขสำคัญในหมวด Agentic
- HLE-Full w/ tools 54.0, GPT-5.4 52.1, Claude Opus 4.6 53.0, Gemini 3.1 Pro 51.4, Kimi K2.5 50.2
- BrowseComp 83.2, BrowseComp(agent swarm) 86.3, Kimi K2.5 อยู่ที่ 74.9 และ 78.4 ตามลำดับ
- DeepSearchQA f1-score 92.5, accuracy 83.0
- WideSearch item-f1 80.8
- Toolathlon 50.0, Kimi K2.5 27.8
- MCPMark 55.9
- Claw Eval pass^3 62.3, pass@3 80.9
- APEX-Agents 27.9
- OSWorld-Verified 73.1
ตัวเลขสำคัญในหมวด Coding
- Terminal-Bench 2.0 (Terminus-2) 66.7
- SWE-Bench Pro 58.6
- SWE-Bench Multilingual 76.7
- SWE-Bench Verified 80.2
- SciCode 52.2
- OJBench (python) 60.6
- LiveCodeBench (v6) 89.6
ตัวเลขสำคัญในหมวด Reasoning & Knowledge
- HLE-Full 34.7
- AIME 2026 96.4
- HMMT 2026 (Feb) 92.7
- IMO-AnswerBench 86.0
- GPQA-Diamond 90.5
ตัวเลขสำคัญในหมวด Vision
- MMMU-Pro 79.4, MMMU-Pro w/ python 80.1
- CharXiv (RQ) 80.4, CharXiv (RQ) w/ python 86.7
- MathVision 87.4, MathVision w/ python 93.2
- BabyVision 39.8, BabyVision w/ python 68.5
- V* w/ python 96.9
สำหรับการ ทำซ้ำผลลัพธ์เบนช์มาร์กอย่างเป็นทางการของ Kimi-K2.6 แนะนำให้ใช้ official API
- มีคำแนะนำให้อ้างอิง Kimi Vendor Verifier (KVV) ในการเลือกผู้ให้บริการภายนอก

เชิงอรรถ

รายละเอียดการทดสอบทั่วไป
- Kimi K2.6 และ Kimi K2.5 รายงานผลภายใต้เงื่อนไข thinking mode enabled, Claude Opus 4.6 ภายใต้ max effort, GPT-5.4 ภายใต้ xhigh reasoning effort, และ Gemini 3.1 Pro ภายใต้ high thinking level
- เว้นแต่จะระบุไว้เป็นอย่างอื่น การทดลอง Kimi K2.6 ดำเนินที่ temperature 1.0, top-p 1.0, และ ความยาวบริบท 262,144 tokens
- เบนช์มาร์กที่ไม่มีคะแนนสาธารณะถูกประเมินใหม่ภายใต้เงื่อนไขเดียวกับ Kimi K2.6 และทำเครื่องหมายด้วย ดอกจัน(*)
- ผลลัพธ์ที่ไม่มีดอกจันเป็นการอ้างอิงจากรายงานทางการ
เบนช์มาร์กด้านการให้เหตุผล
- คะแนน IMO-AnswerBench ของ GPT-5.4 และ Claude 4.6 ได้มาจากบล็อก z.ai
- Humanity's Last Exam (HLE) และงานให้เหตุผลอื่น ๆ ถูกประเมินด้วยความยาวการสร้างสูงสุด 98,304 tokens
- ค่าที่รายงานโดยพื้นฐานคือ HLE full set
- ในชุดย่อยเฉพาะข้อความ Kimi K2.6 ทำได้ 36.4% accuracy โดยไม่ใช้เครื่องมือ และ 55.5% accuracy เมื่อใช้เครื่องมือ
งานแบบเอเจนต์และการเสริมด้วยเครื่องมือ
- ใน HLE with tools, BrowseComp, DeepSearchQA, WideSearch มีการติดตั้งเครื่องมือ search, code-interpreter, web-browsing
- HLE-Full with tools ใช้ความยาวการสร้างสูงสุด 262,144 tokens และลิมิตต่อขั้นตอน 49,152 tokens
- เมื่อหน้าต่างบริบทเกินค่ากำหนด จะใช้กลยุทธ์การจัดการบริบทแบบง่ายที่เก็บไว้เฉพาะรอบข้อความล่าสุดที่เกี่ยวกับเครื่องมือ
- คะแนน BrowseComp ได้มาภายใต้การจัดการบริบทแบบ discard-all strategy เช่นเดียวกับ Kimi K2.5 และ DeepSeek-V3.2
- ใน DeepSearchQA ไม่ได้ใช้การจัดการบริบทในการทดสอบ Kimi K2.6 และงานที่เกินความยาวบริบทที่รองรับจะถูกนับเป็นล้มเหลวโดยตรง
- คะแนน DeepSearchQA ของ Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro อ้างอิงจาก Claude Opus 4.7 System Card
- WideSearch รายงานผลภายใต้การตั้งค่าการจัดการบริบท hide tool result
- system prompt ที่ใช้ทดสอบเหมือนกับใน Kimi K2.5 technical report
- Claw Eval ดำเนินการด้วย version 1.1, max-tokens-per-step 16384
- APEX-Agents ประเมิน 452 งาน จากงานสาธารณะทั้งหมด 480 งาน
  - เช่นเดียวกับ Artificial Analysis ได้ยกเว้น Investment Banking Worlds 244, 246
  - เหตุผลของการยกเว้นคือการพึ่งพา external runtime
งานเขียนโค้ด
- คะแนน Terminal-Bench 2.0 ได้มาภายใต้ preserve thinking mode โดยใช้เฟรมเวิร์กเอเจนต์พื้นฐาน Terminus-2 และ JSON parser ที่จัดเตรียมไว้
- การประเมินตระกูล SWE-Bench (รวม Verified, Multilingual, Pro) ใช้เฟรมเวิร์กประเมินภายในที่ดัดแปลงจาก SWE-agent
- การตั้งค่าเครื่องมือของเฟรมเวิร์กดังกล่าวเป็นชุดขั้นต่ำของ bash tool, createfile tool, insert tool, view tool, strreplace tool, submit tool
- คะแนนที่รายงานของงานเขียนโค้ดทั้งหมดเป็น ค่าเฉลี่ยจากการรันอิสระ 10 ครั้ง
เบนช์มาร์กด้านวิสัยทัศน์
- ใช้ max-tokens 98,304 และ ค่าเฉลี่ยจาก 3 ครั้ง (avg@3)
- การตั้งค่าใช้เครื่องมือ Python ทำการให้เหตุผลหลายขั้นตอนด้วย max-tokens-per-step 65,536, max-steps 50
- MMMU-Pro ปฏิบัติตามโปรโตคอลทางการ โดยคงลำดับอินพุตและวางภาพไว้ด้านหน้า

3 ความคิดเห็น

GN⁺ 9 일 전

ความเห็นจาก Hacker News

ลองต่อผ่าน OpenRouter แล้วประทับใจที่โมเดลนี้ไม่ได้แค่วาดนกกระทุง SVG ธรรมดา แต่ยังห่อออกมาเป็น HTML ที่ปรับความเร็วแอนิเมชันได้ด้วย บันทึกบทสนทนาและ HTML อยู่ใน gist นี้ และดูตัวอย่างที่รันได้ที่ลิงก์นี้
- ตอนนี้เริ่มรู้สึกว่า SVG นกกระทุง แบบนี้น่าจะเข้าไปอยู่ในชุดข้อมูลฝึกแล้ว
- อันนี้ให้ความรู้สึกแบบ ขยันเกินเหตุ เต็ม ๆ และชื่อ Kimi ก็ฟังดูเหมือนเด็กเรียนดีด้วย
- น่าเสียดายที่ดูเหมือนมันไม่ได้ใส่ใจ ขาและเท้า ของนกกระทุงมากเท่ากัน ขาซ้ายเหมือนเป็นอัมพาตไม่ขยับ ส่วนข้อเท้าขวาก็หมุนวูบวาบจนน่ากังวล
- เคยลองใช้ตอนเบต้าแล้ว ถือว่าเป็นโมเดลที่ดีพอตัว และบางจังหวะก็แทบลืมไปเลยว่ากำลังใช้โมเดลอื่นที่ไม่ใช่ Opus หรือ GPT ถึงอย่างนั้น Opus ก็ยังดีกว่าอยู่ และสำหรับผม GPT ดูฝืดกว่าเล็กน้อย งานฝั่งแบ็กเอนด์มีบางช่องที่มันพอใช้ได้ แต่ถ้ามีฝีมือก็แก้แบบคล้ายกันด้วย Opus ได้อยู่ดี และโดยรวมก็ยังมีจุดที่ด้อยกว่าเยอะ
- สงสัยจริง ๆ ว่าจุดประสงค์ของการเอาแบบนี้มาลงแทบทุกเธรดโมเดลใหม่คืออะไร อาจเป็นเพราะผมแก่และขี้หงุดหงิดก็ได้ แต่ผมว่ามัน น่าเบื่อไปนานแล้ว และให้อารมณ์เหมือนคอมเมนต์ Reddit แบบใช้แรงน้อย
ดูจากเบนช์มาร์กระยะแรก Kimi K2.6 ดีขึ้นจาก Kimi K2 Thinking มาก โมเดลก่อนหน้านี้ทำคะแนนในเบนช์มาร์กของเราไม่ค่อยดี และก็ใช้การ quantization แบบที่ดีที่สุดแล้ว ตอนนี้ Kimi K2.6 อยู่ระดับหัวแถวของโมเดล open weight ในด้าน การให้เหตุผลด้านโค้ดแบบ one-shot ดีกว่า GLM 5.1 นิดหน่อย และแข่งขันกับโมเดล SOTA เมื่อราว 3 เดือนก่อนได้ ทำให้ดูอยู่ในระดับใกล้กับ Gemini 3.1 Pro Preview การทดสอบแบบเอเจนต์ยังทำอยู่ และโมเดล open weight มักอ่อนในเวิร์กโฟลว์เอเจนต์ที่ใช้คอนเท็กซ์ยาว แต่ GLM 5.1 ทำได้ค่อนข้างดี เลยอยากรู้ว่า Kimi จะออกมาเป็นอย่างไร อย่างไรก็ตามทั้งเวอร์ชันเก่าและใหม่ค่อนข้างช้า จึงอาจมีข้อจำกัดด้านการใช้งานจริงกับ agent coding ก่อนหน้านี้ Kimi K2 เดิมเหมือนจะปรับแต่งเพื่อเบนช์มาร์กหนักมาก และสนใจ ความหลากหลายกับอุณหภูมิ มากกว่าการแก้ปัญหายาก ๆ แต่รุ่นนี้ดูเป็นโมเดลสารพัดประโยชน์ที่แข็งแกร่งกว่ามาก โดยรวมแล้วฝั่ง open weight ดูดีมาก และแทบจะมีโมเดลใหม่ระดับ frontier ออกมาทุกสัปดาห์ ดูเบนช์มาร์กรายละเอียดได้ที่ gertlabs
- อยากรู้ว่าพอเทียบกับ Sonnet 4.6 แล้ว K2.6 อยู่ระดับไหนทั้งด้านราคาและประสิทธิภาพ
- ค่อนข้างน่าตกใจที่ความต่างของประสิทธิภาพตามภาษาเยอะขนาดนี้
มันมีความขำเชิงประชดที่จีนกำลังผลักดันสิ่งที่อาจเป็นเทคโนโลยีสำคัญที่สุดของโลกในแนวทาง โอเพนซอร์ส ขณะที่สหรัฐกำลังเดินไปคนละทาง
- ผมคิดว่าแรงจูงใจอย่างหนึ่งคือการ คานอำนาจบริษัทอเมริกัน OpenAI กับ Anthropic เป็นผู้เล่นรายใหญ่ที่สุดและทั้งคู่ก็เป็นบริษัทอเมริกัน ดังนั้นยิ่งมีโมเดล open weight มากขึ้น อำนาจครอบงำอุตสาหกรรมของสองรายนี้ก็ยิ่งลดลง ถ้าบริษัทจีนเลือกกลยุทธ์โมเดลปิดแบบอเมริกัน คนส่วนใหญ่ก็คงไปใช้ ChatGPT หรือ Claude อยู่ดี ดังนั้นถ้าทำกำไรก้อนโตได้ยากอยู่แล้ว การปล่อยแบบ open weight เพื่อลดกำไรส่วนเกินของบริษัทอเมริกันก็ดูเป็นทางเลือกที่สมเหตุสมผลกว่า
- ผมมองว่าความก้าวหน้าทางเทคโนโลยีครั้งใหญ่ท้ายที่สุดแล้วถูกเร่งด้วย ความเปิดกว้าง ดูแค่ iPhone ก็ได้ เทคโนโลยีหลักจำนวนมากอย่าง GPS, อินเทอร์เน็ต, ผู้ช่วยเสียง, หน้าจอสัมผัส, ไมโครโปรเซสเซอร์, แบตเตอรี่ลิเธียมไอออน ล้วนมาจากงานวิจัยภาครัฐหรือการวิจัยที่เปิดกว้างใกล้เคียงสาธารณะ บริษัทเอกชนไม่ยอมเปิดทางให้คู่แข่งได้เปรียบง่าย ๆ อยู่แล้ว เพราะงั้นถ้าจะผลักทั้งวงการให้เดินหน้า สุดท้ายก็ต้องเปิดเทคโนโลยี
- จากอัปเดตครั้งนี้ ผมคิดว่า Kimi K2.6 กลายเป็นโมเดล AI มัลติโหมดแบบเปิด ที่แข็งแกร่งที่สุดแล้ว แน่นอนว่าผมไม่ได้มีส่วนเกี่ยวข้อง พอลองรวบรวมเบนช์มาร์ก AI ที่เปิดเผยต่อสาธารณะ เมื่อเทียบกับ Opus 4.6 max effort แล้ว เอเจนต์ออกมา 5 ต่อ 5, โค้ด Kimi 5 ต่อ Opus 1, การให้เหตุผลและความรู้ Kimi 1 ต่อ Opus 4, วิชัน Kimi 9 ต่อ Opus 0 แต่ก็ต้องเผื่อใจว่าเบนช์มาร์กถูกเลือกโดยผู้สร้างโมเดลจึงอาจมีอคติ ถึงอย่างนั้นหลายรายการในหมวดโค้ดและการให้เหตุผลก็ถือว่าค่อนข้างมาตรฐาน
- จะมองแบบนั้นอย่างเดียวก็คงไม่ได้ Google เองก็เพิ่งเปิดตัว Gemma 4 และ Allen AI ก็ออกตระกูล open Olmo อยู่เหมือนกัน ถึงอย่างนั้นก็จริงที่โมเดลเปิดจากจีนดูแข็งแรงกว่าอย่างชัดเจน โดยเฉพาะตระกูล Qwen 3 ที่เหมือนจะทำได้เกินขนาดตัว
- มีการคาดเดาหลายอย่างว่าทำไมแล็บจีนถึงปล่อยโมเดลแบบโอเพนซอร์ส แต่สำหรับผมเหตุผลมันง่ายและชัดมาก เพราะนั่นแทบเป็น กลยุทธ์เชิงพาณิชย์ ที่พอเป็นไปได้เพียงอย่างเดียวสำหรับพวกเขา ผมสรุปเรื่องนี้ไว้ใน บทความของผม
ผมแปลกใจเสมอที่ Kimi ได้รับความสนใจน้อยกว่าที่ควร ทั้งด้านความสร้างสรรค์และคุณภาพมันโดดเด่นมาตลอด และเคยเป็นโมเดลโปรดของผมอยู่นานพอสมควร แน่นอนว่าผมไม่ใช่ผู้เชี่ยวชาญอะไร
- มันดีนะ แต่ยังไม่ถึงระดับ Claude สำหรับผม แถม API ก็มีปัญหาความจุบ่อย ๆ อย่างไรก็ตามคุณภาพต่อราคานี่เหลือเชื่อจริง ๆ ขนาดเติมเงินไว้ 40 ดอลลาร์เมื่อหลายสัปดาห์หรือหลายเดือนก่อน ตอนนี้ยังใช้ไปไม่ถึงครึ่งเลย
- อีกอย่างที่น่าสนใจก็คือมันเป็นหนึ่งในไม่กี่โมเดลที่วาดนาฬิกา SVG ได้ ดูตัวอย่างได้ที่ เว็บไซต์นี้
- ยิ่งดีเข้าไปอีกเพราะบน OpenRouter มัน ถูกมาก หวังว่า 2.6 จะรักษาธรรมเนียมนี้ไว้
- เคยใช้เป็นตัวเลือกใน Kagi Assistant แล้วชอบผลลัพธ์มากในสภาพแวดล้อมที่มีการค้นหาและสรุปเยอะ ๆ โดยเฉพาะเวลาขอให้เขียนเป็น ร้อยแก้วธรรมชาติ แทนสไตล์ LLM ทั่วไปที่เต็มไปด้วยรายการหรือ Markdown มันดูยากจะเปรียบเทียบแบบมั่นใจ แต่ดูเหมือนมันกล้าจัดเรียงต้นฉบับใหม่พอสมควรเพื่อให้ลื่นไหล และบางครั้งการตัดต่อแบบนั้นก็จำเป็นจริง ๆ เพื่อเชื่อมโยงไอเดียที่เกี่ยวข้องแต่แยกกันอยู่ หรือเพื่อให้ตอบคำขอได้ตรงขึ้น
- จำตอน K2 รุ่นแรกออกมาได้ ช่วงหนึ่งมันนำโมเดลอื่นแบบชัดเจนในด้าน งานเขียนเชิงสร้างสรรค์
อยากรู้ว่ามีใครใช้ Kimi กับงานจริงบ้างไหม ผมลองครั้งหนึ่งแล้ว แม้เบนช์มาร์กจะดูหวือหวาแต่ความประทับใจจากการใช้งานจริงค่อนข้างธรรมดา ตรงกันข้าม Qwen 3.6 กลับดีพอตัว และถึงจะไม่เท่า Opus แต่ก็รู้สึกว่าสู้ Sonnet ได้สบาย
- พอใช้โควตา Codex หมด ผมจะใช้ Kimi K2.5 แทน งานเล็กกับงานกลางถือว่าโอเค แต่ถ้าเอาไปใช้กับ งานซับซ้อน สุดท้ายต้องกลับมาเก็บงานต่อด้วย Codex อีกสองวัน เลยหวังว่า 2.6 จะดีขึ้นหน่อย
- ก่อน GLM-5.1 ผมสลับใช้ Opus 4.5 กับ Kimi 4.5 ไปมา และฝั่ง Kimi ก็ให้ผลลัพธ์ดีไม่น้อย
- มีโอกาสสูงว่าคุณใช้อยู่จริง ๆ ถ้าใช้โมเดล composer-2 ของ Cursor เพราะนั่นคือ ตระกูล Kimi การวางแผนอยู่ระดับหัวแถว และการลงมือทำก็รู้สึกว่าบน composer-2 ทำได้ดี
ถ้าความรู้สึกจากเบนช์มาร์กกับการใช้งานจริงสอดคล้องกัน นี่อาจเป็นช่วงเวลาแบบ DeepSeek ที่ AI จีนเกือบจะ ยืนเคียงบ่าเคียงไหล่ กับโมเดลจากแล็บชั้นนำของสหรัฐก็ได้
- ถ้าเทียบกับโมเดลรุ่นก่อน ๆ ก็อาจพูดได้แบบนั้น แต่ถ้าเทียบกับสิ่งที่เรียกว่า โมเดลระดับ 10T ในตำนาน ก็ยังไม่ใกล้เลยแม้แต่น้อย
จากการทดสอบของผมและการเทียบใน aibenchy Kimi K2.6 ดีกว่า Kimi K2.5 แค่นิดเดียว โดยเฉพาะในโจทย์พัซเซิล ปัญหาเฉพาะโดเมน และงานความแม่นยำแบบมีหลุมพราง มักเห็นการ ไม่ทำตามคำสั่ง และคำตอบผิดบ่อยมาก มันอาจยอดเยี่ยมในฐานะโมเดลเขียนโค้ด แต่ในภาพรวมเรื่องความฉลาดยังรู้สึกว่าต่ำกว่า SOTA ระดับบนสุดอยู่เล็กน้อย
- ลองใช้บน OpenRouter โดยตั้ง max tokens เป็น 8192 แล้ว แม้ในโหมด non-thinking ทุกคำตอบก็ยัง ถูกตัด หมด อาจเป็นปัญหาการดีพลอยก็ได้ แต่จากลิงก์ของคุณก็ดูเหมือนมันสร้าง output token เยอะมากเหมือนกัน
บางทีก็สงสัยว่าในอนาคตเหมือนคอมพิวเตอร์สมัยก่อนที่เคยกินพื้นที่ทั้งห้องแล้วตอนนี้มาอยู่ในกระเป๋าได้ สักวันหนึ่งพลังประมวลผลระดับที่ตอนนี้ต้องใช้ทั้งดาต้าเซ็นเตอร์จะย่อมาอยู่ใน อุปกรณ์ชิ้นเดียวคล้ายโทรศัพท์ ได้ไหม ดูเหมือนความก้าวหน้าทางเทคโนโลยีเร็วขึ้นทุกปี เลยอดคิดไม่ได้ว่าการเปลี่ยนแปลงแบบนั้นอาจมาเร็วกว่าที่คาด
- มีงานช่วงต้นในทิศทางนี้แล้ว เช่นบริษัทอย่าง Taalas กำลังทำ LLM ASIC และ HC1 ว่ากันว่าสร้างได้ 17k โทเคนต่อวินาทีบน llama 8b แม้ตอนนี้ยังอยู่ระดับ 2.5kW จึงใกล้กับเซิร์ฟเวอร์เดี่ยวมากกว่าโทรศัพท์ แต่การเป็นชิปตัวแรกก็มีความหมาย ทางเลือกอย่างโฟโตนิกคอมพิวติงก็อาจลดพลังงานลงได้มาก แต่ตอนนี้ยังดูอยู่ในขั้นวิจัย ด้วยเงินที่ไหลเข้า AI มหาศาลและการใช้พลังงานสูงของ GPU สำหรับ inference แบบเดิม ผมคาดว่าการพัฒนาในด้านนี้จะเกิดขึ้นค่อนข้างเร็ว
- ผมไม่คิดว่าจะเร็วขนาดนั้น ในอดีตโดยมากแล้วมันเป็นการ ย่อขนาดแบบเอ็กซ์โปเนนเชียล ต่อเนื่อง และถ้าแนวโน้มนี้ยังอยู่ เวลาที่ต้องใช้เพื่อย่อจากขนาดห้องมาเป็นขนาดกระเป๋าก็ควรใกล้เคียงเดิม ยิ่งไปกว่านั้นช่วงหลังก็ยังต่ำกว่าแนวโน้มเอ็กซ์โปเนนเชียลนั้นด้วย และโดยธรรมชาติแล้วการเติบโตแบบเอ็กซ์โปเนนเชียลก็ยากจะคงอยู่นาน ผมเห็นด้วยว่าเทคโนโลยีจะก้าวหน้าต่อและอุปกรณ์คำนวณก็จะเล็กลงเรื่อย ๆ แต่แค่ข้อเท็จจริงนั้นยังไม่พอจะสรุปว่าการย่อขั้นถัดไปจะมาในเวลาที่สั้นลง
เช้านี้ผมลองเอาไปต่อกับแอปแล้วทดสอบทั้งเช้า ความรู้สึกคือผลลัพธ์ใกล้กับ Sonnet 4.6 มาก แม้จะเป็นความประทับใจแบบ วัดด้วยเซนส์ล้วน ๆ โดยไม่มีการตรวจสอบอย่างเป็นทางการ แต่การที่โมเดล frontier เริ่มมีการแข่งขันจริงจังก็น่ายินดี
- ด้วย K2.6 และ GLM 5.1 ตอนนี้รู้สึกเหมือนได้ความฉลาดระดับ Sonnet ใน ราคาระดับ Haiku ซึ่งดีมากจริง ๆ อยากให้ Anthropic ออกรุ่น Haiku ใหม่เร็ว ๆ และถ้าจะสู้กับโมเดลราคาถูกกว่านี้ได้ ก็คงต้องมีสินค้าที่ราคาเหลือราว 1 ใน 3 ถึง 1 ใน 5 ของ Haiku ปัจจุบัน โดย Gemma-4 ทำได้ค่อนข้างดีในช่วงราคานั้น
ผมสงสัยว่าโมเดลนี้มีแพ็กเกจเหมาจ่ายสำหรับงานโค้ดไหม คือเป็นแบบจำกัดจำนวน API call แทนการจำกัดโทเคนหรือเปล่า ช่วงนี้การเรียกเก็บเงิน GLM บน z.ai ล้มเหลวเลยหลุดจากสมาชิกไปแล้ว แถมราคาก็ขึ้นแรงเกินไปในช่วงไม่กี่เดือนที่ผ่านมา
- Kimi เองก็มีระบบสมัครสมาชิกของตัวเองที่คล้ายกับบริการอื่น ๆ มาก และดูได้ที่ Kimi Code

ingwannu 9 일 전

ส่วนตัวใช้ kimi2.5 ได้ดีมากแบบไม่จำกัดในราคา 30 ดอลลาร์ต่อเดือนผ่าน firepass ของ Fireworks.ai อยู่แล้ว ดังนั้นจึงคาดหวังมากกับการปรับปรุงประสิทธิภาพของ 2.6 ที่กำลังจะถูกนำไปใช้กับ firepass เร็ว ๆ นี้

ลองใช้ผ่าน API ชั่วคราวแล้วรู้สึกได้ว่ามีพัฒนาการก้าวใหญ่มากเมื่อเทียบกับ 2.5

chlrhdmltkfkd 8 일 전

ว้าว อันนี้ปิดการสมัครใหม่ไปแล้วนะ

เปิดตัว Kimi K2.6 - ความก้าวหน้าของการเขียนโค้ดโอเพนซอร์ส

การเขียนโค้ดช่วงยาว

การออกแบบที่เน้นการเขียนโค้ด

Agent Swarm ที่พัฒนาขึ้น

เอเจนต์เชิงรุก

Bring Your Own Agents

ตารางเบนช์มาร์ก

เชิงอรรถ

รายละเอียดการทดสอบทั่วไป

เบนช์มาร์กด้านการให้เหตุผล

งานแบบเอเจนต์และการเสริมด้วยเครื่องมือ

งานเขียนโค้ด

เบนช์มาร์กด้านวิสัยทัศน์

บทความที่เกี่ยวข้อง

3 ความคิดเห็น

ความเห็นจาก Hacker News