1 คะแนน โดย recast7838 4 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Moonshot AI เปิดตัว 'Kimi K2.7-Code' โมเดลเขียนโค้ดแบบ open-weight ที่เน้นเอเจนต์เป็นศูนย์กลาง ซึ่งยกระดับประสิทธิภาพด้านการเขียนโค้ดขึ้นอย่างมากเมื่อเทียบกับรุ่นก่อนหน้า และลดการใช้โทเคนสำหรับการให้เหตุผลลง 30%


คำแปลฉบับเต็ม

สัปดาห์นี้ Moonshot AI ได้เปิดตัว Kimi K2.7-Code ซึ่งเป็นโมเดลที่เน้นเอเจนต์เป็นศูนย์กลางและออกแบบมาเฉพาะสำหรับงานเขียนโค้ด น้ำหนักโมเดลถูกแจกจ่ายบน Hugging Face ภายใต้ไลเซนส์ MIT แบบแก้ไขเพิ่มเติม และยังสามารถใช้งานผ่าน Kimi API และ Kimi Code ได้อีกด้วย K2.7-Code มีเป้าหมายสำหรับงานวิศวกรรมซอฟต์แวร์ระยะยาว มากกว่าการสนทนาทั่วไป โมเดลนี้สามารถวางแผนเป็นหลายขั้นตอน แก้ไขโค้ด รันเครื่องมือ และดีบักได้ โดย Moonshot AI นำเสนอโมเดลนี้ควบคู่กับแพลตฟอร์มเขียนโค้ดแบบสมัครสมาชิก

สเปกของ Kimi K2.7-Code

K2.7-Code เป็นโมเดล Mixture-of-Experts (MoE) มีพารามิเตอร์รวม 1 ล้านล้าน (1T) และมีพารามิเตอร์ที่ถูกเปิดใช้งานต่อโทเคน 32 พันล้าน (32B) โครงสร้างนี้เลือกผู้เชี่ยวชาญ 8 ตัวต่อโทเคนจากผู้เชี่ยวชาญทั้งหมด 384 ตัว และมีผู้เชี่ยวชาญแบบแชร์ 1 ตัว โมเดลประกอบด้วยทั้งหมด 61 เลเยอร์ รวมถึง Dense layer 1 เลเยอร์

กลไก attention ใช้ MLA และในเส้นทาง feedforward ใช้ SwiGLU ตัวเข้ารหัสภาพ MoonViT เพิ่มพารามิเตอร์อีก 400 ล้าน (400M) สำหรับอินพุตภาพและวิดีโอ โมเดลนี้มาพร้อมการ quantization แบบ native INT4 หน้าต่างบริบทมีขนาด 256K โทเคน (262,144) มีข้อจำกัดอยู่ 2 ประการ ได้แก่ โหมด Thinking เป็นข้อบังคับ และหากปิดใช้งาน API จะส่งข้อผิดพลาดกลับมา ส่วนพารามิเตอร์การสุ่มถูกตรึงไว้ที่ temperature 1.0, top_p 0.95, n 1 และ penalty 0.0 เอาต์พุตสูงสุดเริ่มต้นคือ 32,768 โทเคน สามารถ self-host ได้ด้วย vLLM, SGLang และ KTransformers รีโพซิทอรีบน Hugging Face มีขนาดใหญ่มากที่ประมาณ 595GB บนดิสก์ ซึ่งชี้ชัดว่าไม่ได้ออกแบบมาสำหรับโน้ตบุ๊ก แต่ตั้งเป้าไปที่การดีพลอยระดับเซิร์ฟเวอร์

คะแนนเบนช์มาร์ก

ทีม Moonshot ได้เผยแพร่ผลลัพธ์เบนช์มาร์ก 6 รายการ โดยเปรียบเทียบ K2.7-Code กับ K2.6, GPT-5.5 และ Claude Opus 4.8 K2.7-Code ทำได้ดีกว่า K2.6 ในทุกหมวด การเพิ่มขึ้นที่เด่นที่สุดในด้านการเขียนโค้ดคือ Kimi Code Bench v2 ซึ่งเพิ่มจาก 50.9% เป็น 62.0%

K2.7-Code ทำได้ 81.1% บนเบนช์มาร์ก MCP Mark Verified แซง Opus 4.8 ที่ทำได้ 76.4% นอกจากนี้ยังทำคะแนนบน MLS Bench Lite ได้ใกล้เคียงกับ GPT-5.5 โดย K2.7-Code รันบน Kimi Code CLI ส่วน GPT-5.5 ทดสอบในสภาพแวดล้อม Codex xhigh และ Opus 4.8 ทดสอบในสภาพแวดล้อม Claude Code xhigh

1 ความคิดเห็น

 
cnaa97 1 시간 전

สุดยอดจริง ๆ