5 คะแนน โดย GN⁺ 9 일 전 | 3 ความคิดเห็น | แชร์ทาง WhatsApp
  • เป็นโมเดลที่ยกระดับประสิทธิภาพใน การเขียนโค้ดช่วงยาว และงานแบบเอเจนต์ พร้อมเสริม ความสามารถในการทั่วไป ครอบคลุมหลายภาษา งานฝั่งฟรอนต์เอนด์·devops·การเพิ่มประสิทธิภาพโดยรวม
  • จัดการงานวิศวกรรมที่ซับซ้อนด้วย การเขียนโค้ดแบบรันต่อเนื่อง โดยทำการเรียกใช้เครื่องมือหลายพันครั้งและรันต่อเนื่องนานกว่า 12 ชั่วโมง จนทำให้การเพิ่มประสิทธิภาพ inference ของ Zig และการปรับโครงสร้าง exchange-core ครั้งใหญ่มี throughput เพิ่มขึ้นมาก
  • เปลี่ยนพรอมป์ตแบบง่ายให้เป็น อินเทอร์เฟซฟรอนต์เอนด์ที่สมบูรณ์ และยังใช้เครื่องมือสร้างภาพ·วิดีโอได้ พร้อมรองรับ เวิร์กโฟลว์ฟูลสแตกแบบง่าย ที่รวมงานยืนยันตัวตนและฐานข้อมูล
  • ขยายโครงสร้าง Agent Swarm เป็นระดับ 300 ซับเอเจนต์และ 4,000 ขั้นตอนการประสานงาน เพื่อรันงานค้นหา·รีเสิร์ช·เขียนเอกสาร·สร้างไฟล์แบบขนาน และแปลงรูปแบบกับสไตล์ของ PDF·สไลด์·สเปรดชีต·เอกสาร Word ให้เป็น skills ที่นำกลับมาใช้ซ้ำได้
  • ขยายขอบเขตไปสู่ เอเจนต์เชิงรุก และ Claw Groups เพื่อทำงานอัตโนมัติระยะยาว การร่วมมือหลายเอเจนต์ และการจัดสรรงานใหม่ โดยยืนยันการปรับปรุงด้านการเขียนโค้ด การเรียกใช้เครื่องมือ และความน่าเชื่อถือของการรันระยะยาวผ่านเบนช์มาร์กและการทดสอบเบต้าในองค์กร

การเขียนโค้ดช่วงยาว

  • ยืนยันการเพิ่มขึ้นของประสิทธิภาพใน งานเขียนโค้ดช่วงยาว พร้อมเสริม ความสามารถในการทั่วไป ครอบคลุมหลายภาษาอย่าง Rust·Go·Python และหลายงานอย่างฟรอนต์เอนด์·devops·การเพิ่มประสิทธิภาพ
    • ใน Kimi Code Bench ซึ่งเป็นเบนช์มาร์กการเขียนโค้ดภายใน ได้บันทึกการปรับปรุงครั้งใหญ่เมื่อเทียบกับ Kimi K2.5 ในงาน end-to-end ที่ซับซ้อนโดยรวม
  • ดำเนิน การเขียนโค้ดแบบรันต่อเนื่อง สำหรับงานวิศวกรรมที่ซับซ้อน
    • ดาวน์โหลดและดีพลอยโมเดล Qwen3.5-0.8B สำเร็จในสภาพแวดล้อม local บน Mac
    • นำ Zig ซึ่งเป็นภาษาที่ค่อนข้างเฉพาะทางมาใช้พัฒนาและเพิ่มประสิทธิภาพ inference ของโมเดล แสดงให้เห็นความสามารถในการทั่วไปนอกการกระจายข้อมูล
    • ผ่าน การเรียกใช้เครื่องมือมากกว่า 4,000 ครั้ง, การรันต่อเนื่องนานกว่า 12 ชั่วโมง, และ การวนซ้ำ 14 รอบ จนเพิ่ม throughput จากราว 15 tokens/sec เป็น ประมาณ 193 tokens/sec
    • ความเร็วสุดท้าย เร็วกว่า LM Studio ประมาณ 20%
  • ปรับโครงสร้างใหม่ทั้งหมดของเอนจินจับคู่ทางการเงินโอเพนซอร์สอายุ 8 ปี exchange-core
    • ระหว่าง การรัน 13 ชั่วโมง มีการวนซ้ำกลยุทธ์เพิ่มประสิทธิภาพ 12 แบบ และแก้ไขโค้ดอย่างละเอียดมากกว่า 4,000 บรรทัดผ่าน การเรียกใช้เครื่องมือมากกว่า 1,000 ครั้ง
    • ระบุคอขวดที่ซ่อนอยู่ด้วยการวิเคราะห์ flame graph ของการจัดสรร CPU และหน่วยความจำ
    • ปรับ topology ของ core thread จาก 4ME+2RE เป็น 2ME+1RE
    • บนเอนจินที่ใกล้แตะขีดจำกัดด้านประสิทธิภาพอยู่แล้ว สามารถทำได้ทั้ง throughput ระดับกลางเพิ่มขึ้น 185% (0.43→1.24 MT/s) และ throughput ด้านประสิทธิภาพเพิ่มขึ้น 133% (1.23→2.86 MT/s)
  • ในการประเมินขององค์กรจากการทดสอบเบต้า ก็พบเสียงตอบรับเชิงบวกจำนวนมากเกี่ยวกับ ความน่าเชื่อถือของการเขียนโค้ดระยะยาว และ คุณภาพของการเรียกใช้เครื่องมือ
    • Baseten ระบุว่ามีสมรรถนะงานเขียนโค้ดใกล้เคียงโมเดลปิดชั้นนำ มีคุณภาพการเรียกใช้เครื่องมือที่แข็งแกร่งจากความเข้าใจเฟรมเวิร์กของบุคคลที่สาม และเหมาะกับงานวิศวกรรมที่ซับซ้อนและยาวนาน
    • Blackbox ระบุว่าเป็นมาตรฐานใหม่ของโมเดลโอเพนซอร์สสำหรับเวิร์กโฟลว์การเขียนโค้ดระยะยาวและแบบเอเจนต์ รองรับงานหลายขั้นตอนที่ซับซ้อน มีคุณภาพโค้ดสูง เซสชันยาวมีความเสถียร และตรวจจับบั๊กที่ไม่ชัดเจนได้
    • CodeBuddy บันทึก ความแม่นยำการสร้างโค้ดเพิ่มขึ้น 12%, ความเสถียรของบริบทยาวดีขึ้น 18%, และ อัตราสำเร็จของการเรียกใช้เครื่องมือ 96.60% เมื่อเทียบกับ K2.5
    • Factory รายงาน ดีขึ้น 15% จากการประเมินเทียบเคียงกับเบนช์มาร์กภายในของตน
    • Fireworks ระบุว่าจุดที่ดีขึ้นมากที่สุดคือความน่าเชื่อถือในช่วงยาวและความสามารถในการทำตามคำสั่ง
    • Hermes Agent ระบุถึงความแนบแน่นระหว่างการเรียกใช้เครื่องมือกับ agent loop การเขียนโค้ดที่ดีขึ้น และขอบเขตความคิดสร้างสรรค์ที่กว้างขึ้น
    • Kilo ระบุถึง ประสิทธิภาพระดับ SOTA เมื่อเทียบกับต้นทุนที่ต่ำ และความแข็งแกร่งในงานบริบทยาวทั้งโค้ดเบส
    • Ollama ระบุถึงความเหมาะสมด้านการเขียนโค้ดและเครื่องมือเอเจนต์ ความเสถียรของเซสชันหลายขั้นตอนที่ยาวนาน และการเชื่อมต่อกับการอินทิเกรตเดิมได้ทันที
    • OpenCode ระบุถึงความเสถียรของการแยกงานและการเรียกใช้เครื่องมือ การลด overhead จากการวนซ้ำ และความน่าเชื่อถือของประสบการณ์แบบ end-to-end
    • Qoder ระบุถึงความถี่ในการเรียกใช้เครื่องมือและการเรียกโมเดลที่เพิ่มขึ้น ความเป็นเชิงรุกระหว่างการดำเนินงาน และการลดการขัดจังหวะผู้ใช้กับเวลาแฝง
    • Vercel ระบุถึง การปรับปรุงมากกว่า 50% ใน Next.js benchmark, สมรรถนะระดับแนวหน้าบนแพลตฟอร์ม และความเหมาะสมสำหรับการเขียนโค้ดแบบเอเจนต์กับการสร้างฟรอนต์เอนด์บนพื้นฐานความคุ้มค่าต่อต้นทุน

การออกแบบที่เน้นการเขียนโค้ด

  • ด้วย ความสามารถด้านการเขียนโค้ด ที่แข็งแกร่ง จึงสามารถแปลงพรอมป์ตง่าย ๆ ให้เป็น อินเทอร์เฟซฟรอนต์เอนด์ที่สมบูรณ์ ได้
    • สร้างเลย์เอาต์ที่มีโครงสร้าง พร้อม hero section ที่สวยงาม องค์ประกอบแบบโต้ตอบ และแอนิเมชันที่หลากหลาย เช่น เอฟเฟกต์ทริกเกอร์ตามการเลื่อน
  • รองรับการสร้างแอสเซ็ตที่มีความสอดคล้องทางภาพ ด้วย ความสามารถในการใช้เครื่องมือสร้างภาพ·วิดีโอ
    • ช่วยให้สร้าง hero section ที่คุณภาพสูงขึ้นและโดดเด่นยิ่งขึ้น
  • ขยายจากฟรอนต์เอนด์แบบสแตติกไปสู่ เวิร์กโฟลว์ฟูลสแตกแบบง่าย
    • รวมถึงการยืนยันตัวตน การโต้ตอบกับผู้ใช้ และงานฐานข้อมูล
    • รองรับกรณีใช้งานเบา ๆ เช่น บันทึกธุรกรรมหรือการจัดการเซสชัน
  • สร้าง Kimi Design Bench ภายใน
    • ประกอบด้วย 4 หมวด: Visual Input Tasks, Landing Page Construction, Full-Stack Application Development, General Creative Programming
    • เมื่อเทียบกับ Google AI Studio พบผลลัพธ์ที่น่าจับตาและสมรรถนะที่ดีในหลายหมวด
  • มีตัวอย่างผลงานที่สร้างโดย K2.6 Agent
    • ใช้พรอมป์ตเดียวและ harness·เครื่องมือที่เตรียมไว้ล่วงหน้าเพื่อสร้างผลลัพธ์
    • ในด้านความสวยงาม มีดีไซน์ฟรอนต์เอนด์ที่งดงามพร้อมปฏิสัมพันธ์ที่หลากหลาย
    • ในด้านฟังก์ชัน มีฐานข้อมูลและการยืนยันตัวตนในตัว
    • ในด้านการใช้เครื่องมือ มีการสร้างเว็บไซต์ที่ผ่านการขัดเกลาด้วยเครื่องมือสร้างภาพ·วิดีโอ

Agent Swarm ที่พัฒนาขึ้น

  • ใช้สถาปัตยกรรมที่เน้น การขยายแนวนอน ไม่ใช่เพียงการขยายแนวตั้ง
    • Agent Swarm จะแยกงานออกเป็นงานย่อยที่มีลักษณะต่างกันแบบไดนามิก และให้เอเจนต์เฉพาะโดเมนที่มันสร้างขึ้นเองรันงานเหล่านั้นแบบขนาน
  • จาก research preview ของ K2.5 Agent Swarm สู่ Kimi K2.6 Agent Swarm ที่นำเสนอการก้าวกระโดดเชิงคุณภาพของประสบการณ์
    • ผสานการค้นหาอย่างกว้างกับการรีเสิร์ชเชิงลึก
    • ผสานการวิเคราะห์เอกสารขนาดใหญ่กับการเขียนเนื้อหาระยะยาว
    • รันการสร้างคอนเทนต์หลายรูปแบบแบบขนาน
    • ส่งมอบผลงานแบบ end-to-end ครอบคลุมเอกสาร·เว็บไซต์·สไลด์·สเปรดชีตภายในการรันอัตโนมัติครั้งเดียว
  • ขยาย ขนาดการสเกลแนวนอน ของสถาปัตยกรรม
    • 300 ซับเอเจนต์ สามารถรัน 4,000 ขั้นตอนการประสานงาน พร้อมกัน
    • ขยายขึ้นอย่างมากจาก K2.5 ที่มี 100 ซับเอเจนต์ และ 1,500 ขั้นตอน
    • การทำงานขนานขนาดใหญ่ช่วยลด latency แบบ end-to-end ปรับปรุงคุณภาพผลลัพธ์ และขยายขอบเขตการทำงานของ Agent Swarm
  • สามารถแปลงไฟล์คุณภาพสูงอย่าง PDF·สเปรดชีต·สไลด์·เอกสาร Word ให้เป็น Skills ได้
    • จับและคงไว้ซึ่งคุณลักษณะด้านโครงสร้างและสไตล์ของเอกสาร
    • ทำให้สามารถสร้างคุณภาพและรูปแบบเดิมซ้ำได้ในงานถัดไป
  • มีการนำเสนอตัวอย่างงานหลายแบบ
    • ออกแบบและรัน 5 กลยุทธ์เชิงปริมาณสำหรับ สินทรัพย์เซมิคอนดักเตอร์ทั่วโลก 100 รายการ, สกัด PPT สไตล์ McKinsey ให้เป็น skill ที่ใช้ซ้ำได้ และจัดทำทั้งสเปรดชีตการโมเดลอย่างละเอียดกับเอกสารนำเสนอผู้บริหารแบบสมบูรณ์
    • แปลง บทความวิชาการด้านฟิสิกส์ดาราศาสตร์ คุณภาพสูงที่มีข้อมูลภาพจำนวนมากให้เป็น skill เชิงวิชาการที่ใช้ซ้ำได้ สกัดลำดับการให้เหตุผลและวิธีการทำ visualization พร้อมสร้าง บทความวิจัย 40 หน้า·7,000 คำ, ชุดข้อมูลแบบมีโครงสร้างมากกว่า 20,000 รายการ, และ กราฟระดับดาราศาสตร์ 14 ชิ้น
    • สร้าง 100 ซับเอเจนต์ จากเรซูเม่ที่อัปโหลด เพื่อจับคู่กับตำแหน่งงานที่เกี่ยวข้อง 100 ตำแหน่งใน California พร้อมมอบทั้งชุดข้อมูลโอกาสแบบมีโครงสร้างและ เรซูเม่แบบปรับแต่งเฉพาะ 100 ฉบับ
    • ระบุร้านค้าปลีก 30 แห่งใน Los Angeles ที่ไม่มีเว็บไซต์ทางการจาก Google Maps และสร้าง landing page ที่เน้น conversion สำหรับแต่ละร้าน

เอเจนต์เชิงรุก

  • บันทึกสมรรถนะที่แข็งแกร่งในเอเจนต์อัตโนมัติและเชิงรุกอย่าง OpenClaw และ Hermes
    • รองรับประเภทงานที่รันต่อเนื่อง 24 ชั่วโมง 7 วัน ข้ามหลายแอปพลิเคชัน
  • รองรับเวิร์กโฟลว์ที่ต่างจากการโต้ตอบแบบแชตทั่วไป
    • จำเป็นต้องทำการจัดตารางเวลา รันโค้ด และ orchestrate งานข้ามแพลตฟอร์มผ่าน เอเจนต์เบื้องหลังแบบต่อเนื่อง
  • ทีม RL infrastructure ใช้ เอเจนต์ที่อิง K2.6 เพื่อดำเนินการ อัตโนมัติด้วยตนเองเป็นเวลา 5 วัน
    • รับผิดชอบการมอนิเตอร์ การตอบสนองต่อเหตุการณ์ และการปฏิบัติการระบบ
    • พิสูจน์การคงบริบทอย่างต่อเนื่อง การจัดการงานแบบมัลติเธรด และการทำงานครบวงจรตั้งแต่เกิดการแจ้งเตือนจนถึงการแก้ไข
    • ระบุว่ามีล็อกงานที่ผ่านการลบข้อมูลอ่อนไหวแล้ว
  • วัดผลการปรับปรุง ความน่าเชื่อถือในสภาพแวดล้อมจริง
    • การตีความ API ที่แม่นยำขึ้น
    • สมรรถนะการรันระยะยาวที่เสถียรมากขึ้น
    • การตระหนักรู้ด้านความปลอดภัยที่ดีขึ้นระหว่างงานรีเสิร์ชระยะยาว
  • ใช้ชุดประเมินภายใน Claw Bench เพื่อวัดผลการปรับปรุงเชิงปริมาณ
    • ครอบคลุม 5 ด้านคือ Coding Tasks, IM Ecosystem Integration, Information Research & Analysis, Scheduled Task Management, Memory Utilization
    • ในทุกตัวชี้วัด มีการปรับปรุงอย่างมากทั้ง อัตราการทำงานสำเร็จ และ ความแม่นยำของการเรียกใช้เครื่องมือ เมื่อเทียบกับ Kimi K2.5
    • โดยเฉพาะในเวิร์กโฟลว์ที่ต้องการการทำงานอัตโนมัติอย่างต่อเนื่องโดยไม่มีการกำกับจากมนุษย์ พบการปรับปรุงที่เด่นชัด

Bring Your Own Agents

  • ขยายเอเจนต์เชิงรุกไปสู่ Claw Groups บนพื้นฐานของ ความสามารถด้าน orchestration ที่แข็งแกร่ง
    • นำเสนอในรูปแบบ research preview ซึ่งเป็นรูปแบบการนำไปใช้ใหม่ของสถาปัตยกรรม Agent Swarm
  • รองรับ ระบบนิเวศแบบเปิดและต่างลักษณะกัน
    • ทั้งหลายเอเจนต์และมนุษย์สามารถทำงานร่วมกันในฐานะผู้ร่วมงานจริง
    • ผู้ใช้สามารถ onboard เอเจนต์ได้จากอุปกรณ์ใดก็ได้ ไม่ว่าจะรันด้วยโมเดลใด
    • เอเจนต์แต่ละตัวมีชุดเครื่องมือ skill และบริบทหน่วยความจำถาวรเป็นของตนเอง
    • เอเจนต์จากสภาพแวดล้อมที่หลากหลาย เช่น แล็ปท็อป local อุปกรณ์มือถือ หรือ cloud instance สามารถผสานเข้ากับพื้นที่ปฏิบัติงานร่วมกันได้อย่างเป็นธรรมชาติ
  • ที่ศูนย์กลาง Kimi K2.6 ทำหน้าที่เป็นผู้ประสานงานแบบปรับตัวได้
    • กระจายงานแบบไดนามิกตามโปรไฟล์ skill และเครื่องมือที่ใช้งานได้ของแต่ละเอเจนต์
    • ปรับงานให้เหมาะกับความสามารถที่เหมาะสมที่สุด
    • เมื่อตรวจพบความล้มเหลวหรือการติดค้างของเอเจนต์ จะทำการจัดสรรงานใหม่หรือสร้างงานย่อยใหม่
    • ดูแลวงจรชีวิตทั้งหมดของผลงานอย่างเชิงรุก ตั้งแต่เริ่มต้น การตรวจสอบ ไปจนถึงการเสร็จสิ้น
  • รวมถึงกรณีใช้งานของ Claw Groups เอง
    • ใช้ทีมการตลาดเอเจนต์ภายในเพื่อขัดเกลาเวิร์กโฟลว์มนุษย์-เอเจนต์ในงานจริง
    • เอเจนต์เฉพาะทางอย่าง Demo Makers, Benchmark Makers, Social Media Agents, Video Makers ทำงานร่วมกัน
    • ดำเนินการผลิตคอนเทนต์และแคมเปญเปิดตัวแบบ end-to-end
    • K2.6 ทำหน้าที่ประสานการแบ่งปันผลลัพธ์ระหว่างทางและการเปลี่ยนแนวคิดให้เป็นผลงานที่เสร็จสมบูรณ์อย่างสอดคล้อง
  • ขยายความสัมพันธ์ระหว่างมนุษย์และ AI จากการถามตอบหรือการมอบหมายงานง่าย ๆ ไปสู่ ความเป็นหุ้นส่วนการทำงานร่วมกันอย่างแท้จริง
    • นำเสนอทิศทางอนาคตที่เส้นแบ่งระหว่าง "my agent", "your agent", "our team" ค่อย ๆ เลือนหายไปอย่างเป็นธรรมชาติภายในระบบการทำงานร่วมกัน

ตารางเบนช์มาร์ก

  • ตัวเลขสำคัญในหมวด Agentic
    • HLE-Full w/ tools 54.0, GPT-5.4 52.1, Claude Opus 4.6 53.0, Gemini 3.1 Pro 51.4, Kimi K2.5 50.2
    • BrowseComp 83.2, BrowseComp(agent swarm) 86.3, Kimi K2.5 อยู่ที่ 74.9 และ 78.4 ตามลำดับ
    • DeepSearchQA f1-score 92.5, accuracy 83.0
    • WideSearch item-f1 80.8
    • Toolathlon 50.0, Kimi K2.5 27.8
    • MCPMark 55.9
    • Claw Eval pass^3 62.3, pass@3 80.9
    • APEX-Agents 27.9
    • OSWorld-Verified 73.1
  • ตัวเลขสำคัญในหมวด Coding
    • Terminal-Bench 2.0 (Terminus-2) 66.7
    • SWE-Bench Pro 58.6
    • SWE-Bench Multilingual 76.7
    • SWE-Bench Verified 80.2
    • SciCode 52.2
    • OJBench (python) 60.6
    • LiveCodeBench (v6) 89.6
  • ตัวเลขสำคัญในหมวด Reasoning & Knowledge
    • HLE-Full 34.7
    • AIME 2026 96.4
    • HMMT 2026 (Feb) 92.7
    • IMO-AnswerBench 86.0
    • GPQA-Diamond 90.5
  • ตัวเลขสำคัญในหมวด Vision
    • MMMU-Pro 79.4, MMMU-Pro w/ python 80.1
    • CharXiv (RQ) 80.4, CharXiv (RQ) w/ python 86.7
    • MathVision 87.4, MathVision w/ python 93.2
    • BabyVision 39.8, BabyVision w/ python 68.5
    • V* w/ python 96.9
  • สำหรับการ ทำซ้ำผลลัพธ์เบนช์มาร์กอย่างเป็นทางการของ Kimi-K2.6 แนะนำให้ใช้ official API
    • มีคำแนะนำให้อ้างอิง Kimi Vendor Verifier (KVV) ในการเลือกผู้ให้บริการภายนอก

เชิงอรรถ

  • รายละเอียดการทดสอบทั่วไป

    • Kimi K2.6 และ Kimi K2.5 รายงานผลภายใต้เงื่อนไข thinking mode enabled, Claude Opus 4.6 ภายใต้ max effort, GPT-5.4 ภายใต้ xhigh reasoning effort, และ Gemini 3.1 Pro ภายใต้ high thinking level
    • เว้นแต่จะระบุไว้เป็นอย่างอื่น การทดลอง Kimi K2.6 ดำเนินที่ temperature 1.0, top-p 1.0, และ ความยาวบริบท 262,144 tokens
    • เบนช์มาร์กที่ไม่มีคะแนนสาธารณะถูกประเมินใหม่ภายใต้เงื่อนไขเดียวกับ Kimi K2.6 และทำเครื่องหมายด้วย ดอกจัน(*)
    • ผลลัพธ์ที่ไม่มีดอกจันเป็นการอ้างอิงจากรายงานทางการ
  • เบนช์มาร์กด้านการให้เหตุผล

    • คะแนน IMO-AnswerBench ของ GPT-5.4 และ Claude 4.6 ได้มาจากบล็อก z.ai
    • Humanity's Last Exam (HLE) และงานให้เหตุผลอื่น ๆ ถูกประเมินด้วยความยาวการสร้างสูงสุด 98,304 tokens
    • ค่าที่รายงานโดยพื้นฐานคือ HLE full set
    • ในชุดย่อยเฉพาะข้อความ Kimi K2.6 ทำได้ 36.4% accuracy โดยไม่ใช้เครื่องมือ และ 55.5% accuracy เมื่อใช้เครื่องมือ
  • งานแบบเอเจนต์และการเสริมด้วยเครื่องมือ

    • ใน HLE with tools, BrowseComp, DeepSearchQA, WideSearch มีการติดตั้งเครื่องมือ search, code-interpreter, web-browsing
    • HLE-Full with tools ใช้ความยาวการสร้างสูงสุด 262,144 tokens และลิมิตต่อขั้นตอน 49,152 tokens
    • เมื่อหน้าต่างบริบทเกินค่ากำหนด จะใช้กลยุทธ์การจัดการบริบทแบบง่ายที่เก็บไว้เฉพาะรอบข้อความล่าสุดที่เกี่ยวกับเครื่องมือ
    • คะแนน BrowseComp ได้มาภายใต้การจัดการบริบทแบบ discard-all strategy เช่นเดียวกับ Kimi K2.5 และ DeepSeek-V3.2
    • ใน DeepSearchQA ไม่ได้ใช้การจัดการบริบทในการทดสอบ Kimi K2.6 และงานที่เกินความยาวบริบทที่รองรับจะถูกนับเป็นล้มเหลวโดยตรง
    • คะแนน DeepSearchQA ของ Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro อ้างอิงจาก Claude Opus 4.7 System Card
    • WideSearch รายงานผลภายใต้การตั้งค่าการจัดการบริบท hide tool result
    • system prompt ที่ใช้ทดสอบเหมือนกับใน Kimi K2.5 technical report
    • Claw Eval ดำเนินการด้วย version 1.1, max-tokens-per-step 16384
    • APEX-Agents ประเมิน 452 งาน จากงานสาธารณะทั้งหมด 480 งาน
      • เช่นเดียวกับ Artificial Analysis ได้ยกเว้น Investment Banking Worlds 244, 246
      • เหตุผลของการยกเว้นคือการพึ่งพา external runtime
  • งานเขียนโค้ด

    • คะแนน Terminal-Bench 2.0 ได้มาภายใต้ preserve thinking mode โดยใช้เฟรมเวิร์กเอเจนต์พื้นฐาน Terminus-2 และ JSON parser ที่จัดเตรียมไว้
    • การประเมินตระกูล SWE-Bench (รวม Verified, Multilingual, Pro) ใช้เฟรมเวิร์กประเมินภายในที่ดัดแปลงจาก SWE-agent
    • การตั้งค่าเครื่องมือของเฟรมเวิร์กดังกล่าวเป็นชุดขั้นต่ำของ bash tool, createfile tool, insert tool, view tool, strreplace tool, submit tool
    • คะแนนที่รายงานของงานเขียนโค้ดทั้งหมดเป็น ค่าเฉลี่ยจากการรันอิสระ 10 ครั้ง
  • เบนช์มาร์กด้านวิสัยทัศน์

    • ใช้ max-tokens 98,304 และ ค่าเฉลี่ยจาก 3 ครั้ง (avg@3)
    • การตั้งค่าใช้เครื่องมือ Python ทำการให้เหตุผลหลายขั้นตอนด้วย max-tokens-per-step 65,536, max-steps 50
    • MMMU-Pro ปฏิบัติตามโปรโตคอลทางการ โดยคงลำดับอินพุตและวางภาพไว้ด้านหน้า

3 ความคิดเห็น

 
GN⁺ 9 일 전
ความเห็นจาก Hacker News
  • ลองต่อผ่าน OpenRouter แล้วประทับใจที่โมเดลนี้ไม่ได้แค่วาดนกกระทุง SVG ธรรมดา แต่ยังห่อออกมาเป็น HTML ที่ปรับความเร็วแอนิเมชันได้ด้วย บันทึกบทสนทนาและ HTML อยู่ใน gist นี้ และดูตัวอย่างที่รันได้ที่ลิงก์นี้

    • ตอนนี้เริ่มรู้สึกว่า SVG นกกระทุง แบบนี้น่าจะเข้าไปอยู่ในชุดข้อมูลฝึกแล้ว
    • อันนี้ให้ความรู้สึกแบบ ขยันเกินเหตุ เต็ม ๆ และชื่อ Kimi ก็ฟังดูเหมือนเด็กเรียนดีด้วย
    • น่าเสียดายที่ดูเหมือนมันไม่ได้ใส่ใจ ขาและเท้า ของนกกระทุงมากเท่ากัน ขาซ้ายเหมือนเป็นอัมพาตไม่ขยับ ส่วนข้อเท้าขวาก็หมุนวูบวาบจนน่ากังวล
    • เคยลองใช้ตอนเบต้าแล้ว ถือว่าเป็นโมเดลที่ดีพอตัว และบางจังหวะก็แทบลืมไปเลยว่ากำลังใช้โมเดลอื่นที่ไม่ใช่ Opus หรือ GPT ถึงอย่างนั้น Opus ก็ยังดีกว่าอยู่ และสำหรับผม GPT ดูฝืดกว่าเล็กน้อย งานฝั่งแบ็กเอนด์มีบางช่องที่มันพอใช้ได้ แต่ถ้ามีฝีมือก็แก้แบบคล้ายกันด้วย Opus ได้อยู่ดี และโดยรวมก็ยังมีจุดที่ด้อยกว่าเยอะ
    • สงสัยจริง ๆ ว่าจุดประสงค์ของการเอาแบบนี้มาลงแทบทุกเธรดโมเดลใหม่คืออะไร อาจเป็นเพราะผมแก่และขี้หงุดหงิดก็ได้ แต่ผมว่ามัน น่าเบื่อไปนานแล้ว และให้อารมณ์เหมือนคอมเมนต์ Reddit แบบใช้แรงน้อย
  • ดูจากเบนช์มาร์กระยะแรก Kimi K2.6 ดีขึ้นจาก Kimi K2 Thinking มาก โมเดลก่อนหน้านี้ทำคะแนนในเบนช์มาร์กของเราไม่ค่อยดี และก็ใช้การ quantization แบบที่ดีที่สุดแล้ว ตอนนี้ Kimi K2.6 อยู่ระดับหัวแถวของโมเดล open weight ในด้าน การให้เหตุผลด้านโค้ดแบบ one-shot ดีกว่า GLM 5.1 นิดหน่อย และแข่งขันกับโมเดล SOTA เมื่อราว 3 เดือนก่อนได้ ทำให้ดูอยู่ในระดับใกล้กับ Gemini 3.1 Pro Preview การทดสอบแบบเอเจนต์ยังทำอยู่ และโมเดล open weight มักอ่อนในเวิร์กโฟลว์เอเจนต์ที่ใช้คอนเท็กซ์ยาว แต่ GLM 5.1 ทำได้ค่อนข้างดี เลยอยากรู้ว่า Kimi จะออกมาเป็นอย่างไร อย่างไรก็ตามทั้งเวอร์ชันเก่าและใหม่ค่อนข้างช้า จึงอาจมีข้อจำกัดด้านการใช้งานจริงกับ agent coding ก่อนหน้านี้ Kimi K2 เดิมเหมือนจะปรับแต่งเพื่อเบนช์มาร์กหนักมาก และสนใจ ความหลากหลายกับอุณหภูมิ มากกว่าการแก้ปัญหายาก ๆ แต่รุ่นนี้ดูเป็นโมเดลสารพัดประโยชน์ที่แข็งแกร่งกว่ามาก โดยรวมแล้วฝั่ง open weight ดูดีมาก และแทบจะมีโมเดลใหม่ระดับ frontier ออกมาทุกสัปดาห์ ดูเบนช์มาร์กรายละเอียดได้ที่ gertlabs

    • อยากรู้ว่าพอเทียบกับ Sonnet 4.6 แล้ว K2.6 อยู่ระดับไหนทั้งด้านราคาและประสิทธิภาพ
    • ค่อนข้างน่าตกใจที่ความต่างของประสิทธิภาพตามภาษาเยอะขนาดนี้
  • มันมีความขำเชิงประชดที่จีนกำลังผลักดันสิ่งที่อาจเป็นเทคโนโลยีสำคัญที่สุดของโลกในแนวทาง โอเพนซอร์ส ขณะที่สหรัฐกำลังเดินไปคนละทาง

    • ผมคิดว่าแรงจูงใจอย่างหนึ่งคือการ คานอำนาจบริษัทอเมริกัน OpenAI กับ Anthropic เป็นผู้เล่นรายใหญ่ที่สุดและทั้งคู่ก็เป็นบริษัทอเมริกัน ดังนั้นยิ่งมีโมเดล open weight มากขึ้น อำนาจครอบงำอุตสาหกรรมของสองรายนี้ก็ยิ่งลดลง ถ้าบริษัทจีนเลือกกลยุทธ์โมเดลปิดแบบอเมริกัน คนส่วนใหญ่ก็คงไปใช้ ChatGPT หรือ Claude อยู่ดี ดังนั้นถ้าทำกำไรก้อนโตได้ยากอยู่แล้ว การปล่อยแบบ open weight เพื่อลดกำไรส่วนเกินของบริษัทอเมริกันก็ดูเป็นทางเลือกที่สมเหตุสมผลกว่า
    • ผมมองว่าความก้าวหน้าทางเทคโนโลยีครั้งใหญ่ท้ายที่สุดแล้วถูกเร่งด้วย ความเปิดกว้าง ดูแค่ iPhone ก็ได้ เทคโนโลยีหลักจำนวนมากอย่าง GPS, อินเทอร์เน็ต, ผู้ช่วยเสียง, หน้าจอสัมผัส, ไมโครโปรเซสเซอร์, แบตเตอรี่ลิเธียมไอออน ล้วนมาจากงานวิจัยภาครัฐหรือการวิจัยที่เปิดกว้างใกล้เคียงสาธารณะ บริษัทเอกชนไม่ยอมเปิดทางให้คู่แข่งได้เปรียบง่าย ๆ อยู่แล้ว เพราะงั้นถ้าจะผลักทั้งวงการให้เดินหน้า สุดท้ายก็ต้องเปิดเทคโนโลยี
    • จากอัปเดตครั้งนี้ ผมคิดว่า Kimi K2.6 กลายเป็นโมเดล AI มัลติโหมดแบบเปิด ที่แข็งแกร่งที่สุดแล้ว แน่นอนว่าผมไม่ได้มีส่วนเกี่ยวข้อง พอลองรวบรวมเบนช์มาร์ก AI ที่เปิดเผยต่อสาธารณะ เมื่อเทียบกับ Opus 4.6 max effort แล้ว เอเจนต์ออกมา 5 ต่อ 5, โค้ด Kimi 5 ต่อ Opus 1, การให้เหตุผลและความรู้ Kimi 1 ต่อ Opus 4, วิชัน Kimi 9 ต่อ Opus 0 แต่ก็ต้องเผื่อใจว่าเบนช์มาร์กถูกเลือกโดยผู้สร้างโมเดลจึงอาจมีอคติ ถึงอย่างนั้นหลายรายการในหมวดโค้ดและการให้เหตุผลก็ถือว่าค่อนข้างมาตรฐาน
    • จะมองแบบนั้นอย่างเดียวก็คงไม่ได้ Google เองก็เพิ่งเปิดตัว Gemma 4 และ Allen AI ก็ออกตระกูล open Olmo อยู่เหมือนกัน ถึงอย่างนั้นก็จริงที่โมเดลเปิดจากจีนดูแข็งแรงกว่าอย่างชัดเจน โดยเฉพาะตระกูล Qwen 3 ที่เหมือนจะทำได้เกินขนาดตัว
    • มีการคาดเดาหลายอย่างว่าทำไมแล็บจีนถึงปล่อยโมเดลแบบโอเพนซอร์ส แต่สำหรับผมเหตุผลมันง่ายและชัดมาก เพราะนั่นแทบเป็น กลยุทธ์เชิงพาณิชย์ ที่พอเป็นไปได้เพียงอย่างเดียวสำหรับพวกเขา ผมสรุปเรื่องนี้ไว้ใน บทความของผม
  • ผมแปลกใจเสมอที่ Kimi ได้รับความสนใจน้อยกว่าที่ควร ทั้งด้านความสร้างสรรค์และคุณภาพมันโดดเด่นมาตลอด และเคยเป็นโมเดลโปรดของผมอยู่นานพอสมควร แน่นอนว่าผมไม่ใช่ผู้เชี่ยวชาญอะไร

    • มันดีนะ แต่ยังไม่ถึงระดับ Claude สำหรับผม แถม API ก็มีปัญหาความจุบ่อย ๆ อย่างไรก็ตามคุณภาพต่อราคานี่เหลือเชื่อจริง ๆ ขนาดเติมเงินไว้ 40 ดอลลาร์เมื่อหลายสัปดาห์หรือหลายเดือนก่อน ตอนนี้ยังใช้ไปไม่ถึงครึ่งเลย
    • อีกอย่างที่น่าสนใจก็คือมันเป็นหนึ่งในไม่กี่โมเดลที่วาดนาฬิกา SVG ได้ ดูตัวอย่างได้ที่ เว็บไซต์นี้
    • ยิ่งดีเข้าไปอีกเพราะบน OpenRouter มัน ถูกมาก หวังว่า 2.6 จะรักษาธรรมเนียมนี้ไว้
    • เคยใช้เป็นตัวเลือกใน Kagi Assistant แล้วชอบผลลัพธ์มากในสภาพแวดล้อมที่มีการค้นหาและสรุปเยอะ ๆ โดยเฉพาะเวลาขอให้เขียนเป็น ร้อยแก้วธรรมชาติ แทนสไตล์ LLM ทั่วไปที่เต็มไปด้วยรายการหรือ Markdown มันดูยากจะเปรียบเทียบแบบมั่นใจ แต่ดูเหมือนมันกล้าจัดเรียงต้นฉบับใหม่พอสมควรเพื่อให้ลื่นไหล และบางครั้งการตัดต่อแบบนั้นก็จำเป็นจริง ๆ เพื่อเชื่อมโยงไอเดียที่เกี่ยวข้องแต่แยกกันอยู่ หรือเพื่อให้ตอบคำขอได้ตรงขึ้น
    • จำตอน K2 รุ่นแรกออกมาได้ ช่วงหนึ่งมันนำโมเดลอื่นแบบชัดเจนในด้าน งานเขียนเชิงสร้างสรรค์
  • อยากรู้ว่ามีใครใช้ Kimi กับงานจริงบ้างไหม ผมลองครั้งหนึ่งแล้ว แม้เบนช์มาร์กจะดูหวือหวาแต่ความประทับใจจากการใช้งานจริงค่อนข้างธรรมดา ตรงกันข้าม Qwen 3.6 กลับดีพอตัว และถึงจะไม่เท่า Opus แต่ก็รู้สึกว่าสู้ Sonnet ได้สบาย

    • พอใช้โควตา Codex หมด ผมจะใช้ Kimi K2.5 แทน งานเล็กกับงานกลางถือว่าโอเค แต่ถ้าเอาไปใช้กับ งานซับซ้อน สุดท้ายต้องกลับมาเก็บงานต่อด้วย Codex อีกสองวัน เลยหวังว่า 2.6 จะดีขึ้นหน่อย
    • ก่อน GLM-5.1 ผมสลับใช้ Opus 4.5 กับ Kimi 4.5 ไปมา และฝั่ง Kimi ก็ให้ผลลัพธ์ดีไม่น้อย
    • มีโอกาสสูงว่าคุณใช้อยู่จริง ๆ ถ้าใช้โมเดล composer-2 ของ Cursor เพราะนั่นคือ ตระกูล Kimi การวางแผนอยู่ระดับหัวแถว และการลงมือทำก็รู้สึกว่าบน composer-2 ทำได้ดี
  • ถ้าความรู้สึกจากเบนช์มาร์กกับการใช้งานจริงสอดคล้องกัน นี่อาจเป็นช่วงเวลาแบบ DeepSeek ที่ AI จีนเกือบจะ ยืนเคียงบ่าเคียงไหล่ กับโมเดลจากแล็บชั้นนำของสหรัฐก็ได้

    • ถ้าเทียบกับโมเดลรุ่นก่อน ๆ ก็อาจพูดได้แบบนั้น แต่ถ้าเทียบกับสิ่งที่เรียกว่า โมเดลระดับ 10T ในตำนาน ก็ยังไม่ใกล้เลยแม้แต่น้อย
  • จากการทดสอบของผมและการเทียบใน aibenchy Kimi K2.6 ดีกว่า Kimi K2.5 แค่นิดเดียว โดยเฉพาะในโจทย์พัซเซิล ปัญหาเฉพาะโดเมน และงานความแม่นยำแบบมีหลุมพราง มักเห็นการ ไม่ทำตามคำสั่ง และคำตอบผิดบ่อยมาก มันอาจยอดเยี่ยมในฐานะโมเดลเขียนโค้ด แต่ในภาพรวมเรื่องความฉลาดยังรู้สึกว่าต่ำกว่า SOTA ระดับบนสุดอยู่เล็กน้อย

    • ลองใช้บน OpenRouter โดยตั้ง max tokens เป็น 8192 แล้ว แม้ในโหมด non-thinking ทุกคำตอบก็ยัง ถูกตัด หมด อาจเป็นปัญหาการดีพลอยก็ได้ แต่จากลิงก์ของคุณก็ดูเหมือนมันสร้าง output token เยอะมากเหมือนกัน
  • บางทีก็สงสัยว่าในอนาคตเหมือนคอมพิวเตอร์สมัยก่อนที่เคยกินพื้นที่ทั้งห้องแล้วตอนนี้มาอยู่ในกระเป๋าได้ สักวันหนึ่งพลังประมวลผลระดับที่ตอนนี้ต้องใช้ทั้งดาต้าเซ็นเตอร์จะย่อมาอยู่ใน อุปกรณ์ชิ้นเดียวคล้ายโทรศัพท์ ได้ไหม ดูเหมือนความก้าวหน้าทางเทคโนโลยีเร็วขึ้นทุกปี เลยอดคิดไม่ได้ว่าการเปลี่ยนแปลงแบบนั้นอาจมาเร็วกว่าที่คาด

    • มีงานช่วงต้นในทิศทางนี้แล้ว เช่นบริษัทอย่าง Taalas กำลังทำ LLM ASIC และ HC1 ว่ากันว่าสร้างได้ 17k โทเคนต่อวินาทีบน llama 8b แม้ตอนนี้ยังอยู่ระดับ 2.5kW จึงใกล้กับเซิร์ฟเวอร์เดี่ยวมากกว่าโทรศัพท์ แต่การเป็นชิปตัวแรกก็มีความหมาย ทางเลือกอย่างโฟโตนิกคอมพิวติงก็อาจลดพลังงานลงได้มาก แต่ตอนนี้ยังดูอยู่ในขั้นวิจัย ด้วยเงินที่ไหลเข้า AI มหาศาลและการใช้พลังงานสูงของ GPU สำหรับ inference แบบเดิม ผมคาดว่าการพัฒนาในด้านนี้จะเกิดขึ้นค่อนข้างเร็ว
    • ผมไม่คิดว่าจะเร็วขนาดนั้น ในอดีตโดยมากแล้วมันเป็นการ ย่อขนาดแบบเอ็กซ์โปเนนเชียล ต่อเนื่อง และถ้าแนวโน้มนี้ยังอยู่ เวลาที่ต้องใช้เพื่อย่อจากขนาดห้องมาเป็นขนาดกระเป๋าก็ควรใกล้เคียงเดิม ยิ่งไปกว่านั้นช่วงหลังก็ยังต่ำกว่าแนวโน้มเอ็กซ์โปเนนเชียลนั้นด้วย และโดยธรรมชาติแล้วการเติบโตแบบเอ็กซ์โปเนนเชียลก็ยากจะคงอยู่นาน ผมเห็นด้วยว่าเทคโนโลยีจะก้าวหน้าต่อและอุปกรณ์คำนวณก็จะเล็กลงเรื่อย ๆ แต่แค่ข้อเท็จจริงนั้นยังไม่พอจะสรุปว่าการย่อขั้นถัดไปจะมาในเวลาที่สั้นลง
  • เช้านี้ผมลองเอาไปต่อกับแอปแล้วทดสอบทั้งเช้า ความรู้สึกคือผลลัพธ์ใกล้กับ Sonnet 4.6 มาก แม้จะเป็นความประทับใจแบบ วัดด้วยเซนส์ล้วน ๆ โดยไม่มีการตรวจสอบอย่างเป็นทางการ แต่การที่โมเดล frontier เริ่มมีการแข่งขันจริงจังก็น่ายินดี

    • ด้วย K2.6 และ GLM 5.1 ตอนนี้รู้สึกเหมือนได้ความฉลาดระดับ Sonnet ใน ราคาระดับ Haiku ซึ่งดีมากจริง ๆ อยากให้ Anthropic ออกรุ่น Haiku ใหม่เร็ว ๆ และถ้าจะสู้กับโมเดลราคาถูกกว่านี้ได้ ก็คงต้องมีสินค้าที่ราคาเหลือราว 1 ใน 3 ถึง 1 ใน 5 ของ Haiku ปัจจุบัน โดย Gemma-4 ทำได้ค่อนข้างดีในช่วงราคานั้น
  • ผมสงสัยว่าโมเดลนี้มีแพ็กเกจเหมาจ่ายสำหรับงานโค้ดไหม คือเป็นแบบจำกัดจำนวน API call แทนการจำกัดโทเคนหรือเปล่า ช่วงนี้การเรียกเก็บเงิน GLM บน z.ai ล้มเหลวเลยหลุดจากสมาชิกไปแล้ว แถมราคาก็ขึ้นแรงเกินไปในช่วงไม่กี่เดือนที่ผ่านมา

    • Kimi เองก็มีระบบสมัครสมาชิกของตัวเองที่คล้ายกับบริการอื่น ๆ มาก และดูได้ที่ Kimi Code
 
ingwannu 9 일 전

ส่วนตัวใช้ kimi2.5 ได้ดีมากแบบไม่จำกัดในราคา 30 ดอลลาร์ต่อเดือนผ่าน firepass ของ Fireworks.ai อยู่แล้ว ดังนั้นจึงคาดหวังมากกับการปรับปรุงประสิทธิภาพของ 2.6 ที่กำลังจะถูกนำไปใช้กับ firepass เร็ว ๆ นี้

ลองใช้ผ่าน API ชั่วคราวแล้วรู้สึกได้ว่ามีพัฒนาการก้าวใหญ่มากเมื่อเทียบกับ 2.5

 
chlrhdmltkfkd 8 일 전

ว้าว อันนี้ปิดการสมัครใหม่ไปแล้วนะ