Kimi K2.7-Code: โมเดลโค้ดดิ้งโอเพนซอร์สที่ปรับปรุงประสิทธิภาพการใช้โทเค็น

(huggingface.co)

3 คะแนน โดย GN⁺ 2026-06-13 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

เป็น โมเดลโค้ดดิ้งแบบเอเจนต์ ที่รองรับงานเขียนโค้ดระยะยาวและเวิร์กโฟลว์วิศวกรรมซอฟต์แวร์ที่ซับซ้อน โดยพัฒนาต่อยอดจาก Kimi K2.6 ให้มีความสามารถในการทำงานแบบ end-to-end จนเสร็จสมบูรณ์และมีประสิทธิภาพการใช้โทเค็นสูงขึ้น
เมื่อเทียบกับ Kimi K2.6 ใช้โทเค็นสำหรับการให้เหตุผลลดลงประมาณ 30% และคะแนน Kimi Code Bench v2 เพิ่มจาก 50.9 เป็น 62.0, MCP Mark Verified เพิ่มจาก 72.8 เป็น 81.1
โครงสร้างโมเดลเป็นแบบ MoE มีพารามิเตอร์รวม 1T, พารามิเตอร์ที่ทำงานจริง 32B, รองรับคอนเท็กซ์ยาว 256K และมีตัวเข้ารหัสวิชัน MoonViT
การดีพลอยรองรับทั้ง API ทางการและ vLLM, SGLang, KTransformers และเนื่องจากมีสถาปัตยกรรมแบบเดียวกับ Kimi-K2.5/Kimi-K2.6 จึงสามารถนำวิธีดีพลอยเดิมกลับมาใช้ได้
ระหว่างใช้งานจะบังคับเปิดโหมด Thinking และ preserve_thinking รองรับอินพุตภาพ และอินพุตวิดีโอรองรับแบบทดลองผ่าน API ทางการเท่านั้นในตอนนี้

ภาพรวมโมเดล

Kimi K2.7-Code เป็นโมเดลเอเจนต์ที่เน้นงานโค้ดดิ้งบนพื้นฐานของ Kimi K2.6 และได้รับการปรับปรุงสำหรับงานโค้ดดิ้งระยะยาวที่ใกล้เคียงการใช้งานจริง
เสริมความสามารถในการ ทำงานแบบ end-to-end จนเสร็จสมบูรณ์ ตลอดทั้งเวิร์กโฟลว์วิศวกรรมซอฟต์แวร์ที่ซับซ้อน
เมื่อเทียบกับ Kimi K2.6 ใช้โทเค็นสำหรับการให้เหตุผลน้อยลงประมาณ 30% ทำให้ประสิทธิภาพการใช้โทเค็นดีขึ้น
มาพร้อมแท็ก image-text input, Transformers, Safetensors, conversational, custom_code เป็นต้น

สรุปโมเดล

สถาปัตยกรรมเป็นแบบ Mixture-of-Experts(MoE) โดยมีพารามิเตอร์รวม 1T และพารามิเตอร์ที่ทำงานจริง 32B
มีทั้งหมด 61 เลเยอร์รวม Dense layer และมี Dense layer 1 เลเยอร์
Attention Hidden Dimension เท่ากับ 7168 และ MoE Hidden Dimension เท่ากับ 2048 ต่อผู้เชี่ยวชาญหนึ่งตัว
มี Attention Head 64 ตัว, Expert 384 ตัว, เลือก Expert ต่อโทเค็น 8 ตัว และมี Shared Expert 1 ตัว
ขนาดคำศัพท์ 160K และรองรับคอนเท็กซ์ยาว 256K
กลไก Attention คือ MLA และฟังก์ชัน activation คือ SwiGLU
ตัวเข้ารหัสวิชันคือ MoonViT และมีพารามิเตอร์ 400M

ผลการประเมิน

เบนช์มาร์กด้านโค้ดดิ้ง
- ใน Kimi Code Bench v2 นั้น Kimi K2.6 ได้ 50.9, Kimi K2.7 Code ได้ 62.0, GPT-5.5 ได้ 69.0, Claude Opus 4.8 ได้ 67.4
- ใน Program Bench นั้น Kimi K2.6 ได้ 48.3, Kimi K2.7 Code ได้ 53.6, GPT-5.5 ได้ 69.1, Claude Opus 4.8 ได้ 63.8
- ใน MLS Bench Lite นั้น Kimi K2.6 ได้ 26.7, Kimi K2.7 Code ได้ 35.1, GPT-5.5 ได้ 35.5, Claude Opus 4.8 ได้ 42.8
เบนช์มาร์กด้านเอเจนต์
- ใน Kimi Claw 24/7 Bench นั้น Kimi K2.6 ได้ 42.9, Kimi K2.7 Code ได้ 46.9, GPT-5.5 ได้ 52.8, Claude Opus 4.8 ได้ 50.4
- ใน MCP Atlas นั้น Kimi K2.6 ได้ 69.4, Kimi K2.7 Code ได้ 76.0, GPT-5.5 ได้ 79.4, Claude Opus 4.8 ได้ 81.3
- ใน MCP Mark Verified นั้น Kimi K2.6 ได้ 72.8, Kimi K2.7 Code ได้ 81.1, GPT-5.5 ได้ 92.9, Claude Opus 4.8 ได้ 76.4
เงื่อนไขการประเมิน
- หากไม่ได้ระบุเป็นอย่างอื่น Kimi K2.7 Code และ K2.6 จะถูกทดสอบใน Kimi Code CLI โดยเปิดโหมด Thinking ใช้ temperature 1.0, top-p 0.95 และคอนเท็กซ์ยาว 262,144 โทเค็น
- GPT-5.5 ทำงานในโหมด xhigh ของ Codex และ Opus 4.8 ทำงานในโหมด xhigh ของ Claude Code
- นอกเหนือจากความแตกต่างดังกล่าว เบนช์มาร์กทั้งหมดประเมินภายใต้เงื่อนไขเดียวกัน
องค์ประกอบของเบนช์มาร์ก
- Kimi Code Bench V2 เป็นเบนช์มาร์กภายในสำหรับประเมินเอเจนต์โค้ดดิ้งในงานที่ใกล้เคียงความเป็นจริง ครอบคลุมภาษาโปรแกรมหลักมากกว่า 10 ภาษาและทั้ง production tech stack
- Kimi Code Bench V2 รวมกรณีใช้งานทางวิศวกรรมภายใน, เหตุขัดข้องในระบบโปรดักชัน และงานจากโปรเจ็กต์โอเพนซอร์สจริง
- Program Bench กำหนดให้จำลองพฤติกรรมของโปรแกรมใหม่โดยมีเพียงไบนารีที่คอมไพล์แล้วและเอกสารเท่านั้น และใช้ 200 งานพร้อมการทดสอบพฤติกรรมที่สร้างด้วย fuzz มากกว่า 248,000 รายการ
- MLS-Bench ใช้ประเมินว่าระบบ AI สามารถสร้างวิธีการ ML ที่ generalize ได้และขยายต่อได้หรือไม่ โดย MLS-Bench-Lite เป็นชุดย่อยอย่างเป็นทางการ 30 งาน
- Kimi Claw 24/7 Bench เป็นเบนช์มาร์กภายในที่ประเมินประสิทธิภาพเอเจนต์ระยะยาวในการทำงานร่วมกันแบบหลายวันอย่างต่อเนื่อง ครอบคลุม 17 สถานการณ์เฉพาะทางและ 610 จุดประเมิน
- MCP-Atlas ใช้ประเมินประสิทธิภาพของ LLM ในงานใช้เครื่องมือที่ใกล้เคียงโลกจริงผ่าน MCP ที่ขยายขนาดได้
- MCPMark-Verified เป็นเวอร์ชันที่มีการตรวจสอบโดยมนุษย์ของ MCPMark และประเมินการใช้เครื่องมือ MCP ในสภาพแวดล้อมเซิร์ฟเวอร์จริง 5 แบบ ได้แก่ Notion, GitHub, Filesystem, Postgres และ Playwright

Native INT4 quantization

Kimi-K2.7-Code ใช้วิธี native int4 quantization แบบเดียวกับ Kimi-K2-Thinking

การดีพลอย

สามารถเข้าถึง API ของ Kimi-K2.7-Code ได้ที่ https://platform.moonshot.ai
API ทางการรองรับ OpenAI/Anthropic compatible API
เอนจินสำหรับ inference ที่แนะนำคือ vLLM, SGLang, KTransformers
Kimi-K2.7-Code มีสถาปัตยกรรมแบบเดียวกับ Kimi-K2.5/Kimi-K2.6 จึงสามารถนำวิธีดีพลอยเดิมกลับมาใช้ได้โดยตรง
เวอร์ชันที่ต้องการของ transformers คือ >=4.57.1, <5.0.0
ดูตัวอย่างการดีพลอยได้ที่ Model Deployment Guide

วิธีใช้งาน

เงื่อนไขพื้นฐานของการเรียก API
- เดโมการใช้งานอ้างอิงวิธีเรียก API ทางการ
- Kimi-K2.7-Code บังคับเปิด Thinking และตั้ง preserve_thinking เป็น True
- สำหรับ API ของบุคคลที่สามที่ดีพลอยด้วย vLLM หรือ SGLang ฟีเจอร์แชตด้วยวิดีโอเป็นฟีเจอร์ทดลองที่ตอนนี้รองรับเฉพาะใน API ทางการเท่านั้น
- ค่า temperature ที่แนะนำสำหรับโหมด Thinking คือ 1.0 และค่า top_p ที่แนะนำคือ 0.95
- ไม่รองรับโหมด Instant
Chat Completion
- ตัวอย่าง Chat Completion เป็นการเรียก K2.7-Code API ในโหมด Thinking
- โค้ดตัวอย่างเรียก client.chat.completions.create ผ่านไคลเอนต์ openai และตั้งค่า max_tokens=4096
- ในผลลัพธ์จะพิมพ์ response.choices[0].message.reasoning และ response.choices[0].message.content
อินพุตคอนเทนต์ภาพ
- K2.7-Code รองรับ อินพุตภาพและวิดีโอ
- ตัวอย่างอินพุตภาพจะเข้ารหัสภาพเป็น base64 แล้วส่งผ่าน image_url พร้อมสร้างคำตอบด้วย max_tokens=8192
- ตัวอย่างอินพุตวิดีโอจะเข้ารหัสไฟล์ mp4 เป็น base64 แล้วส่งผ่าน video_url
- การแชตด้วยวิดีโอเป็นฟีเจอร์ทดลองที่ตอนนี้รองรับเฉพาะใน API ทางการเท่านั้น
Preserve Thinking
- Kimi K2.7 Code บังคับใช้โหมด preserve_thinking และเก็บเนื้อหา reasoning ทั้งหมดไว้ตลอดการโต้ตอบหลายรอบ
- preserve_thinking ช่วยเพิ่มประสิทธิภาพในสถานการณ์เอเจนต์โค้ดดิ้ง
- ฟีเจอร์นี้เปิดใช้งานเป็นค่าเริ่มต้นและไม่สามารถปิดได้
- API บางตัวอาจไม่รองรับ reasoning_content จึงอาจลองใช้ reasoning ได้
Interleaved Thinking และการเรียกเครื่องมือหลายขั้นตอน
- K2.7-Code ใช้การออกแบบ Interleaved Thinking และ Multi-Step Tool Call แบบเดียวกับ K2 Thinking
- ตัวอย่างการใช้งานอ้างอิงได้จาก K2 Thinking documentation
เฟรมเวิร์กเอเจนต์โค้ดดิ้ง
- Kimi K2.7-Code ทำงานได้ดีที่สุดเมื่อใช้ร่วมกับ Kimi Code CLI เป็นเฟรมเวิร์กเอเจนต์
- Kimi Code CLI ให้บริการที่ https://www.kimi.com/code

ตัวอย่างการรันแบบโลคัล

Transformers
- ใน Transformers สามารถสร้างไฮเลเวลไปป์ไลน์ได้ด้วย pipeline("image-text-to-text", model="moonshotai/Kimi-K2.7-Code", trust_remote_code=True)
- การโหลดโมเดลโดยตรงทำได้ด้วย AutoModel.from_pretrained("moonshotai/Kimi-K2.7-Code", trust_remote_code=True, dtype="auto")
vLLM
- ติดตั้ง vLLM ด้วย pip install vllm และเริ่มเซิร์ฟเวอร์ด้วย vllm serve "moonshotai/Kimi-K2.7-Code"
- ตัวอย่างการเรียกใช้ใช้ OpenAI compatible API endpoint ที่ http://localhost:8000/v1/chat/completions
- ใน Docker Model Runner สามารถรันด้วย docker model run hf.co/moonshotai/Kimi-K2.7-Code
SGLang
- ติดตั้ง SGLang ด้วย pip install sglang และเริ่มเซิร์ฟเวอร์ด้วย python3 -m sglang.launch_server --model-path "moonshotai/Kimi-K2.7-Code"
- ตัวอย่างการเรียกใช้ใช้ OpenAI compatible API endpoint ที่ http://localhost:30000/v1/chat/completions
- ตัวอย่างการรันด้วย Docker มีการตั้งค่า GPU, shared memory, Hugging Face cache และตัวแปรสภาพแวดล้อม HF_TOKEN

ไลเซนส์

โค้ดรีโพซิทอรีและน้ำหนักโมเดลเผยแพร่ภายใต้ Modified MIT License

1 ความคิดเห็น

GN⁺ 2026-06-13

ความคิดเห็นจาก Hacker News

อ่านเงื่อนไขไลเซนส์ที่แก้ไขแล้วก็ขำดี จริง ๆ แล้วมันแทบจะเป็น MIT license ที่เอาเงื่อนไขโฆษณาแบบ BSD เก่ามาแปะเพิ่มหนึ่งข้อ และไม่เกี่ยวว่าจะมีผู้ใช้ต่อเดือนหรือรายได้เท่าไร ถ้าเอาไปใช้ในผลิตภัณฑ์ก็เหมือนแค่ขอให้ช่วย “โฆษณา” ให้พวกเขา
พูดตรง ๆ ว่าดูเป็นคำขอที่สมเหตุสมผล
- มันดูเหมือนเป็น ข้อกำหนดไว้เล่นงาน Cursor มากกว่า คืออย่าทำให้ต้องประจานกันด้วยการบังคับให้เปิดเผย
- เงื่อนไข “โฆษณา” ตรงนี้ก็ประมาณว่าให้ระบุไว้สักที่ในผลิตภัณฑ์ว่าได้ใช้งานมัน เช่น ใส่ไว้ในเครดิตของส่วน “About”
- รู้สึกเหมือนรีบเขียนเพิ่มเข้ามา คิดว่าจะเกลาถ้อยคำทางกฎหมายเรื่องอะไรนับเป็น “user interface” ให้ดีกว่านี้
ลองให้คำสั่งค่อนข้างง่ายกับ Kimi K2.7-code เพื่อ rebase Fil-C OpenSSL patch จาก 3.3.1 ไปเป็น 3.5.7 แล้ว ดูเหมือนว่าจะทำได้ดี
แพตช์มีขนาด 177KB เลยไม่ใช่การเปลี่ยนแปลงเล็ก ๆ และตอนแรกก็ apply ไม่ผ่านแบบเนียน ๆ ดังนั้นเอเจนต์ต้องลงมือทำงานจริงพอสมควร
ผมให้แค่แพตช์สำหรับ 3.3.1, คำสั่ง build, path ของ 3.5.7 และลิงก์เอกสารการเปลี่ยนแปลง(https://fil-c.org/constant_time_crypto)
แต่ก็ใช้ T800 ซึ่งเป็น coding agent ภายในของตัวเอง มันยังไม่เปิดเผยสู่สาธารณะ และก่อนหน้านี้ก็ทดสอบกับ K2.5 และปรับจูนไว้พอสมควรแล้ว
ค่าใช้ API น่าจะอยู่ราว ๆ $5~$10 แก้ไข: เป็น OpenSSL ไม่ใช่ OpenSSH
โดยส่วนตัวเวลาใช้ open code หรือ router ผมรู้สึกว่าพอเกินระดับหนึ่งไปแล้ว ความต่างระหว่างโมเดลไม่ได้ชัดมาก ยกเว้นโมเดลแบบ Gemini ที่ทั้งแพงและก้ำกึ่ง
ในแง่นั้นโมเดลจากจีนก็ค่อนข้างดีทีเดียว ปกติจะให้มันเขียนโค้ดเป็นระดับฟังก์ชันหรือเมธอดก่อน แล้วค่อยออกแบบและประกอบเข้าด้วยกัน
ตระกูล GPT จะละเอียดกว่าและดีกว่าอยู่บ้าง แต่ก็ไม่แน่ใจว่าต่างกันมากขนาดนั้นไหม มันอาจขึ้นกับ workflow แต่ถ้าคุมเข้มพอ ก็สงสัยเหมือนกันว่าความต่างมันมากจริงหรือเปล่า
- ผมค่อนข้างเลิกหวังกับ inference router แบบ “ฟรี” ไปแล้ว อย่างที่คาดไว้ พอมันพยายามประหยัดการใช้ inference ให้มากที่สุด คุณภาพการคิดก็มักจะตก
  การรัน Qwen 3.6 35B A3B MTP จน MacBook M1 Pro กลายเป็นแผ่นให้ความร้อนนั้นถือว่าค่อนข้างได้ผล
  พอพยายามใช้โมเดล Gemini ให้เหมือนเป็น “local” ก็เจอปัญหาคล้ายกัน คือแบ่ง effort เป็นช่วงสั้นเกินไป ทำให้พลาดบ่อยและจำนวน turn เพิ่มขึ้น
  ในทางกลับกัน พอเห็นว่า Fable พูดเรื่องความ “proactive” แบบไม่ลดละ ก็เลยรู้สึกว่าถ้ามี branding ที่แข็งแรงและระบบคิดเงินที่ได้ผล มันก็อาจไปได้ในทิศตรงข้ามเลย
- จากประสบการณ์ของผม ในงาน implement ฟังก์ชันเดี่ยว ๆ ความต่างระหว่าง โมเดลระดับแนวหน้า กับโมเดลขนาด 30B รุ่นใหม่แทบไม่มีเลย
  ถ้ามีการออกแบบที่สอดคล้องกันอยู่แล้ว ซึ่งนั่นแหละคือส่วนที่ยาก พอใส่ให้โมเดลที่เล็กกว่ามาก ๆ ก็ยังได้คุณภาพแทบเท่ากัน
  มันอาจทำไม่เสร็จในรอบเดียว แต่เร็วกว่าและถูกกว่า สุดท้ายเลยออกมาคุ้มกว่า แถมยังทำแบบ local ได้ด้วย
- ความต่างของผลลัพธ์ไม่มากก็จริง แต่ก็ใช่ว่าจะไม่ต้องคุมเข้มขึ้น ยกตัวอย่างเช่น Kimi K2.5/K2.6 บางครั้งแทนที่จะไปแก้ปัญหาที่ตัวเองเพิ่งสร้าง มันกลับเข้าใจผิดว่าเทสต์ที่ล้มเป็น “ความล้มเหลวเดิม” แล้วคอมเมนต์ทิ้ง
  เพราะงั้นเลยต้องตั้งใจทำให้เทสต์ที่ถูกคอมเมนต์ไว้สามารถทำให้ build พังได้อย่างชัดเจน สำหรับโมเดลของ Anthropic หรือ OpenAI ส่วนตัวผมไม่ค่อยเจอปัญหาแบบนั้น
- อยากให้เลิกใช้คำว่า “โมเดลจากจีน” ได้แล้ว มันมีนัยเชิงลบ
  มันคล้ายกับเมื่อก่อนที่คนเรียกรถว่า “รถญี่ปุ่น” ซึ่งตอนนี้แทบไม่สื่ออะไรแล้ว และก็มักจะเรียกกันไปเลยว่า Toyota, Honda, Lexus
ถ้ามีใครเคยลองใช้ opencode + Kimi K2.6/2.7 เทียบกับ Claude Code แล้ว อยากรู้มากว่าอะไรดีกว่าอะไรแย่กว่า และค่าใช้จ่ายเทียบกันเป็นอย่างไร
ตอนนี้จ่าย $100 สำหรับแพลน 5x Max อยู่ แต่ Fable กินโควตาการใช้งานค่อนข้างเร็ว และก็พูดได้ยากเหมือนกันว่ามันต่างจาก Opus แบบกลางวันกับกลางคืน
เพราะส่วนใหญ่ใช้กับโปรเจกต์ส่วนตัว บิล $100 ก็รู้สึกว่าใหญ่พอสมควรแล้ว และไม่อยากจ่ายเพิ่ม
- เคยใช้ Claude Code เป็นหลักคู่กับ Opus แล้วก็ย้ายมาใช้ opencode + Kimi 2.6 กับโปรเจกต์ส่วนตัวอยู่หลายเดือน
  Claude Code ดีกว่าจริง แต่จุดสำคัญคือ opencode + Kimi 2.6 ก็ใช้งานได้ดีพอตัว
  ถ้ารู้ชัดว่าอยากได้อะไรและสั่งให้เขียนโค้ดง่าย ๆ โมเดลยอดนิยมอย่าง DeepSeek, Kimi ก็โอเคเป็นส่วนใหญ่ และให้ความรู้สึกว่าไม่ได้ต่างจากโมเดลของ Anthropic มากนัก
  แต่ Opus เข้าใจเจตนาได้ดีกว่า DeepSeek มาก เวลาใช้ DeepSeek ต้องเขียนพรอมป์ต์ให้แม่นกว่ามาก และถ้าเขียนหลวม ๆ ก็มักจะพาออกนอกทางบ่อย
  Kimi อยู่ตรงกลาง มันช่วยคืนเวิร์กโฟลว์แบบ “พรอมป์ต์หลวม ๆ” ได้ระดับหนึ่ง และทำให้เชื่อถือแผนที่มันเสนอได้มากกว่า DeepSeek
  ทำเวิร์กโฟลว์คล้าย Claude Code ได้ แต่โดยรวมด้อยกว่านิดหน่อยทุกด้าน ทั้งความยาวคอนเท็กซ์ จำนวนข้อผิดพลาด การตัดสินใจ คำแนะนำ และความสามารถในการดีบัก
  ในแง่การใช้งาน แพลน Claude $100 คุ้มค่าจริง ๆ ราคาต่อโทเค็นของ Kimi ถูกกว่ามาก แต่การสมัคร Claude ดูเหมือนจะมีการอุดหนุนเยอะ ทำให้ $100 ได้โทเค็นมากกว่าที่จะซื้อผ่าน API ได้มาก
  สุดท้ายแล้ว ถ้าใช้ในรูปแบบใกล้เคียงกัน ค่าใช้จ่ายของ opencode + Kimi กับ Claude Code อาจออกมาใกล้กัน
  DeepSeek ถูกกว่า และ cache token ก็ถูกแบบไม่น่าเชื่อ แต่ถ้าย้ายมาจาก Claude Code อาจต้องปรับวิธีทำงานตามนิสัยการใช้งานเดิม
  ถ้าเป็นโปรเจกต์ส่วนตัว คิดว่าชุด $10 Opencode Go plan บวก DeepSeek v4 เครดิต $10 จากที่อย่าง OpenRouter ค่อนข้างใช้งานได้จริง
- ที่ทำงานใช้ Claude ส่วนโปรเจกต์ส่วนตัวใช้ Kimi ในองค์กรเปิดใช้ LiteLLM และ Kimi 2.5 ไว้ แต่แทบใช้งานไม่ค่อยได้ เลยใช้ Claude กับ GPT เป็นเครื่องมือหลัก
  Kimi ให้ความรู้สึกเหมือนนักพัฒนาที่กำลังสัมภาษณ์งาน เลยสนุกกว่า การดูมันไล่เหตุผลเพื่อแก้ปัญหาคล้ายกับวิธีที่ฉันอธิบายใน whiteboard session มาก มันพูดคำว่า “wait” บ่อยเกินจนขำ
  Claude คล้ายพนักงานที่รับเข้าทำงานแล้ว หรือเหมือนทั้งทีมพนักงานมากกว่า มันไม่อธิบายยาวตั้งแต่แรก แต่จะถามเฉพาะตอนจำเป็นแล้วค่อยส่งรายงานหรือแผนงานที่ครบถ้วนออกมา
  มองว่า OpenCode เป็น harness ที่ดีกว่า เรื่องค่าใช้จ่ายเปรียบเทียบตรง ๆ ไม่ได้ เพราะไม่เคยรันพรอมป์ต์เดียวกันเป๊ะทั้งสองฝั่ง
  ช่วงนี้เพิ่งให้ Kimi สร้าง libpq wrapper สำหรับภาษาโปรแกรม ZenC (https://github.com/nobleach/zenc-postgres) ใช้เวลาประมาณหนึ่งชั่วโมง และเสียค่าใช้จ่าย ประมาณ $4
- พอใจกับ ohmypi มาก แต่จะใช้ OpenCode หรือใช้ Claude Code ต่อก็ได้
  DeepSeek-V4-Pro ดีพอมาก และงานเล็ก ๆ หรืองานที่ปกติจะโยนให้ Haiku หรือ Sonnet ก็ใช้ DS4-Flash ได้เลย สมัครแบบเติมเงิน $10 ก็พอ
  OpenCode Go สมัครเดือนละ $5 แล้วใช้ Qwen-3.7-Max สำหรับงานออกแบบ วางแผน สถาปัตยกรรม และแก้ปัญหายาก ๆ ได้เลย มันให้ความรู้สึกใกล้ Opus 3.6 หรือ 3.7 มากกว่า DeepSeek และเป็นตัวที่ใกล้ที่สุดเท่าที่เคยเจอ
  OpenAI Codex มีแพลน $20 ต่อเดือนที่ใช้ GPT-5.5 ผ่าน API สำหรับงานออกแบบ วางแผน สถาปัตยกรรม แก้ปัญหา และเขียนคอมมิตได้ ถ้าเป็นปัญหาที่ยากจริง ๆ ก็จ่าย $100 แล้วคัดลอกไปใส่แชต GPT-5.5-Pro ได้
  Xiaomi MiMo-2.5-Pro รับเครดิตฟรี 72 เซ็นต์ได้จากโค้ดแนะนำเพื่อน $2 ราคาพอ ๆ กับ DeepSeek และความสามารถก็อยู่ระหว่าง Sonnet กับ Opus ค่อนข้างเก่งทีเดียว UltraSpeed beta ก็น่าลองสมัคร
  จะใช้ OpenCode หรือ ohmypi สลับโมเดลเหล่านี้ไปมาแบบทันทีเพื่อหาตัวที่เหมาะกับตัวเองที่สุดก็ได้ ใช้ CodexBar ดูการใช้งานแทบจะเรียลไทม์
  ถ้าเป็นผู้ใช้เบา ๆ หรือเพิ่งเริ่มเขียนโปรแกรม แพลน $20 ของ Cursor เหมาะสำหรับเริ่มต้นกับ Composer-2.5 และ Composer-2.5-Fast และยังมีโควตา API ทำให้เข้าถึง Opus-4.x หรือ GPT-5.5-Pro จาก OpenCode หรือ ohmypi ได้นอกเหนือจากใน Cursor เอง
  ถ้าใช้ Grok หรือ Twitter อยู่ SuperGrok เดือนละ $30 มีโมเดล vision ที่ดี และเคยเอาไปใช้กับการทดสอบ frontend อัตโนมัติ แต่ตอนนี้กำลังย้ายไปใช้ Qwen-3-VL แบบรันโลคัลบน Mac ทั่วไปแทน ถ้าไม่ถนัดเทคนิคมาก unreach ช่วยให้โฮสต์โมเดลโลคัลบน Mac ได้ง่าย
  ถ้ามี GPU แรง ๆ อย่าง RTX 5090 ก็ลอง Qwen-3.6 แบบโลคัลได้เหมือนกัน ใช้ ollama หรือ llama-swap ก็ถือว่าค่อนข้างง่าย
  ยังไม่ได้ลอง Kimi ตัวใหม่ แต่ตอนนี้ดูแลทีมที่มีนักพัฒนามืออาชีพ 3 คน, กราฟิกดีไซเนอร์ 1 คนที่ใช้ Midjourney กับ Grok Imagine หนักมาก, และผู้ใช้ที่ไม่ใช่สายเทคนิค 1 คนที่ใช้ ohmypi เก็บ requirement และติดตามการ implement โดยคุมค่าใช้จ่ายไว้ต่ำกว่า $200 ต่อคนต่อเดือน
  ถ้าพยายามอีกนิดก็น่าจะกดลงมาใกล้ $75 ต่อคนต่อเดือน ได้
- ตอนนี้ใช้ litellm proxy ที่แพตช์เข้ากับ Claude Code, openrouter และ Qwen 3.7 max/Kimi K2.6/DeepSeek v4 pro
  ฟีเจอร์เดียวที่ใช้ไม่ได้คือ webfetch กับ web search แต่แทนด้วยการอ้อม agent ผ่าน ddg MCP และ pre-hook สำหรับดึง/ค้นหาเว็บ
  memory, caching และอย่างอื่นที่เหลือทำงานได้ดี
  Qwen ใกล้ Opus ในด้านการวางแผน แต่ Fable เหนือกว่าชัดเจน
  เรื่องการเขียนโค้ด ถ้า Opus เขียนแผนให้ก่อน ผลลัพธ์จาก Kimi และ DeepSeek แทบแยกจาก Opus ไม่ออก
  ความต่างใหญ่ที่สุดคือจังหวะการตอบ เช่น Kimi จะคิดอยู่นานแล้วค่อยพ่นข้อความจำนวนมากออกมาอย่างรวดเร็ว
  ตอนนี้กำลังทดสอบใช้ Fable สำหรับงานวิจัยและวางแผน และใช้ DeepSeek v4 flash สำหรับการเขียนโค้ด ผลลัพธ์คล้าย Opus + DeepSeek v4 pro แต่ค่าใช้จ่ายรวมดูจะต่ำกว่า
- พูดได้แค่เรื่อง GLM 5.1 แต่สำหรับฉันมันใกล้เคียง Sonnet 4 ระดับ

ดี และจัดการงานส่วนใหญ่ที่โยนให้ได้ดี แต่ล้มเหลวกับงานที่ซับซ้อนในเชิงการรับรู้ มักติดบ่อย ถึงอย่างนั้นก็แค่ประมาณ $6 ต่อเดือน

มีจุดวิกฤตที่โมเดล “ที่ดีที่สุด” จะไม่สำคัญอีกต่อไป และคิดว่าเราอยู่ไม่ไกลจากจุดนั้น Fable ตอนนี้ดีมากจริง ๆ แต่ถ้าอีกประมาณ 1 ปี Kimi ไล่ทัน ต่อให้ Fable6 ดีกว่ามาก ถ้าราคาเหลือ 1/10 ก็น่าจะเลือกใช้ Kimi
ก่อนหน้านี้ตอนมอง Opus 4.5 ก็เคยคิดว่า “ถ้าดีได้ขนาดนี้ ภายใน 6~12 เดือน โมเดลจีนก็น่าจะดีและถูกลงมาถึงระดับนี้ แล้วฉันก็จะใช้พวกนั้น” แต่คิดผิดไป ตอนนี้ก็ยังยอมจ่ายพรีเมียมให้ Opus 4.7/8 และ Fable อยู่
ถึงอย่างนั้น สักวันมันก็คงไปถึงระดับที่แค่ทำงานที่ต้องการได้ และจากจุดนั้นการแข่งขันแบบ ตัดราคาลง ก็น่าจะเริ่มขึ้น
ตอนนี้บริษัทจีนเริ่มเข้าถึง Fable token ที่ดีมากได้แล้ว ก็หวังว่าการแข่งขันนั้นจะเร็วขึ้น
- สำหรับบางคน ขึ้นอยู่กับว่าเป็นใครและใช้โมเดลอย่างไร ก็อาจไปถึงจุดนั้นแล้ว
- คิดว่าสมรภูมิการแข่งขันถัดไปคือ ความเร็ว แทนที่จะต้องสลับไปมาระหว่างหลายเอเจนต์ที่ทำงานกันคนละส่วนพร้อมการสลับบริบท อยากได้เอเจนต์เดี่ยวที่สามารถลุยพรอมป์ตไหนก็ได้ภายในไม่กี่วินาที เพื่อรักษาโฟลว์ของงานเดียวให้ต่อเนื่อง
- ไม่ใช่ว่าราคาต่อโทเค็นสำคัญอย่างเดียว ถ้าต้องกลับไปถาม AI ซ้ำ มันอาจแพงกว่าโมเดลที่ตอบถูกตั้งแต่แรก
  เพราะงั้น ต่อให้ราคาต่อโทเค็นสูงกว่า โมเดลที่ดีกว่าอาจถูกกว่าในทางปฏิบัติ
ถ้า Opus แพงกว่า 5 เท่า เมื่อเทียบกับ Kimi K2.6 หรือโมเดลจีนอื่น ๆ แต่ดีกว่าแค่นิดหน่อย ก็สงสัยว่าบริษัทอย่าง Anthropic ยังรักษาความสามารถในการแข่งขันไว้ได้อย่างไร
สมมติฐานของฉันคือบริษัทอเมริกันส่งข้อมูลไปฝั่งจีนไม่ได้ ซึ่งก็เข้าใจได้ แต่สิ่งนั้นเป็น “คูเมือง” จริงหรือ?
- คูเมืองในตอนนี้คือ ประสิทธิภาพของโมเดล และจำนวนโทเค็นกับเวลาที่เพิ่มขึ้นตามมา
  พูดในฐานะคนที่ใช้โมเดล Kimi ค่อนข้างบ่อยและโดยรวมก็ชอบมัน
  บนเบนช์มาร์กอย่าง DeepSWE ที่ยังไม่ถูก game กัน Kimi K2.6 ตามหลัง Claude Sonnet 4.6($3/$15) อยู่มาก และยังตามหลัง GPT 5.4 Mini($0.75/$4.50) เล็กน้อย
  ชัดเจนว่าโมเดล Kimi ดีมากสำหรับงานเขียนโค้ดหลายประเภท และมีคุณภาพดีที่สุดในบรรดาโมเดล open-weight
  แต่ถ้าจะให้ได้ผลลัพธ์รวมใกล้เคียง Sonnet/Opus โดยเฉลี่ยแล้วต้องใช้โทเค็นมากกว่าเยอะ และต้องคอยจัดการโมเดลมากกว่า
  สิ่งที่ควรมองไม่ใช่ราคาต่อโทเค็น แต่คือจ่ายเท่าไรสำหรับทั้งกระบวนการ
- คิดว่ามีการรับรู้กันว่าไม่ได้ “ดีกว่าแค่นิดหน่อย” ช่องว่างคุณภาพที่รับรู้นั้นเองทำให้ตั้งราคาต่างกันได้
  อีกทั้งในกรณีที่มีการใช้เงินเยอะ ก็มีผู้เล่นที่มีเหตุผลมากพอและรันการประเมินจริง ๆ อยู่ ดังนั้น “ดีกว่านิดหน่อย” อาจไม่ใช่แค่ความรู้สึกล้วน ๆ
  แต่ชุดประเมินที่ฉันมองเห็นเองก็มีแค่บางส่วนเท่านั้น อาจเป็นไปได้เหมือนกันว่าทุกคนไม่ค่อยมีเหตุผลและ Anthropic ก็อาศัยจุดนั้น
- คนส่วนใหญ่ที่ได้ลองใช้ทั้งสองฝั่งน่าจะบอกว่าโมเดลของ Anthropic ดีกว่า Kimi มากกว่าแค่นิดหน่อย
  Kimi และโมเดลโอเพนซอร์สอื่น ๆ อาจทำคะแนนได้ดีในที่อย่าง SWE-bench แต่พอใช้จริงจะรู้สึกถึงช่องว่างนั้นได้
- ราคา API token เป็นแค่องค์ประกอบหนึ่ง และ Claude subscription ก็คุ้มค่าดี
  แปลกตรงที่ทุกคนชอบอ้างราคา API แล้วบอกว่า Claude subscription ได้รับการอุดหนุน แต่จริง ๆ ไม่มีใครรู้ต้นทุน inference ของ Claude และผู้ให้บริการจีนเองก็อาจให้ inference ราคาถูกได้ ถ้าอย่างนั้นก็สงสัยว่าทำไมถึงคิดว่า Claude ทำไม่ได้
  สำหรับลูกค้าองค์กรก็อาจมีสัญญาราคา API แบบอื่นที่ไม่เปิดเผยต่อสาธารณะ สิ่งที่เราเห็นอาจมีแค่ราคาหน้าป้ายที่สูงเท่านั้น
- จะใกล้เคียงคำว่า “ดีกว่าแค่นิดหน่อย” ก็เฉพาะในโดเมนที่เทียบกันได้เท่านั้น และในอีกหลายโดเมน โมเดล A\ ดีกว่ามาก ตัวอย่างเช่นงานประเภทที่ Kimi และพวกไม่ได้ distill มา
  ในงานแบบนั้นความต่างห่างกันเหมือนหน้าผา
พอลองทดสอบจริงจังก็ดูเป็นการปรับปรุงที่ค่อนข้างดี แค่ ใช้โทเค็นน้อยลง สำหรับงานเดียวกัน ก็เป็นเหตุผลเพียงพอแล้วที่จะใช้แทน K2.6 เวลาที่ต้องการโมเดลเปิด
ถ้าโมเดลใหม่ไม่ได้ดีกว่า DeepSeek v4 อย่างชัดเจนสัก 20~30% แต่กลับมีราคาต่อโทเค็นสูงกว่า DeepSeek ก็คิดว่าแทบจะถูกผลักไปเป็น โมเดลที่มีการใช้งานต่ำ โดยอัตโนมัติ อาจพอใช้สำหรับงานวางแผนได้บ้าง
- DeepSeek v4 Pro ถ้าเทียบกับ GLM 5.1 หรือ Kimi K2.6 แล้ว จริง ๆ ไม่ได้เป็นโมเดลที่ดีขนาดนั้น แค่เป็น coder/reasoner ที่คุ้มราคาประมาณหนึ่ง
- สงสัยว่า DeepSeek กำลังแบกรับต้นทุนอยู่ หรือจริง ๆ คนทั่วไปสามารถโฮสต์โมเดลเปิดได้ด้วยต้นทุนใกล้เคียงกัน
ยังไม่ค่อยคุ้นกับ โมเดล open weights/open-source มากนัก ถ้ามีใครใช้แบบจริงจังเป็นงานหลัก อยากฟังเรื่องการตั้งค่าและประสิทธิภาพ เพราะกำลังพิจารณาจะย้ายทั้งองค์กรออกจากผลิตภัณฑ์ของ Anthropic
- จากประสบการณ์ส่วนตัว สำหรับงานส่วนตัวฉันใช้ forgecode กับ openrouter ก่อนอื่นเลย ฉันมองว่า forgecode เป็นฮาร์เนสที่ดีกว่า Claude Code มาก
  ในแง่คุณภาพของโมเดลไม่ได้ต่างกันมาก แต่เรื่องต้นทุนนั้นต่างกันแบบเหลือเชื่อ อย่างน้อยก็ในวิธีที่ฉันใช้เอเจนต์
  เมื่อวานยกตัวอย่าง ฉันกำลังพัฒนา DSL ขนาดเล็กสำหรับค้นหาเอกสารทางเทคนิคที่ซับซ้อน และลองใช้ Fable เพื่อเพิ่ม operator เล็ก ๆ ตัวหนึ่ง
  Fable เผาเงินไป $13 และแม้จะให้คำตอบออกมา แต่ก็ไม่ได้ดีกว่าสิ่งที่ DeepSeek v4 ทำงานเดียวกันนี้ด้วย $1.7 อย่างเป็นรูปธรรม
  อย่างไรก็ตาม ฉันมอบงานย่อย ๆ ให้เอเจนต์ทำ ในกรณีของ DSL ฉันเป็นคนออกแบบ operator แล้วให้เอเจนต์ลงมือ implement ทีละตัว
  ถ้าฉันเริ่มจากเอกสารที่ซับซ้อนแล้วสั่งให้ออกแบบทั้งระบบ Fable อาจจะได้เฉิดฉายก็ได้
  แต่ทุกครั้งที่ให้งานขอบเขตกว้างขึ้นกับเอเจนต์ มันก็เผาโทเค็นระดับหลายล้านและสร้างโค้ดที่ชวนกังขา สุดท้ายฉันก็ต้องเสียเวลาไปทำความเข้าใจเองอยู่ดี
- ฉันสร้าง https://github.com/gitsense/gsc-cli และคิดว่าประมาณ 80% ของโค้ดมาจาก glm-4.7
  ตัวอย่างเช่น ถ้าดูไฟล์อย่าง https://github.com/gitsense/gsc-cli/blob/main/internal/cli/r... จะเห็นว่าฉันระบุโมเดลที่ใช้ไว้ด้วย
  4.7 ไม่ค่อยเก่งกับโค้ด go เท่าไร เลยเริ่มเห็น Gemini 3 Flash โผล่มาใน attribution
  4.7 เป็นโมเดลที่ Cerebras ให้บริการ และสำหรับฉัน ความเร็วในการวนรอบพัฒนาสำคัญกว่ามาก
  หลังจากลองใช้ MiMo v2.5.0-Pro ฉันมั่นใจว่ามันน่าจะทำสิ่งที่ Gemini 3 Flash ทำได้ครบ 100%
  มีบางครั้งที่ติดขัดแล้วต้องให้ Sonnet ช่วยอธิบาย แต่ความลับสกปรกที่ Anthropic และ OpenAI คงไม่พูดก็คือ ถ้าคุณเขียนโค้ดเป็น โมเดลทุกวันนี้ก็ดีพออย่างตรงไปตรงมาแล้ว
  จากประสบการณ์กับ MiMo และการประเมินของคนอื่นต่อ GLM 5.1 ฉันมองว่าตอนนี้เราเข้าสู่การแข่งขันด้าน ฮาร์ดแวร์ แล้ว
  สำหรับคนที่เขียนโปรแกรมเป็นและอยากใช้ AI มาขยายสิ่งที่ตัวเองรู้อยู่แล้ว โมเดลจีนคือของทดแทน Claude ได้ 100%
  จากนี้คงต้องดูว่าใครคือผู้ให้บริการที่มี inference เร็วที่สุด
  MiMo-v2.5.0-Pro-Ultraspeed ให้ผลลัพธ์ดีและเร็ว พร้อมกับเผาเงินได้เร็วเหมือนกัน
- โมเดลเหล่านี้เป็น open weights แต่ในตอนนี้โมเดลเรือธงส่วนใหญ่เข้าถึงได้จริงผ่าน ผู้ให้บริการโมเดลบุคคลที่สาม เท่านั้น
  ข้อยกเว้นหลักคือโมเดลราว ๆ 30B พารามิเตอร์ ซึ่งยังพอรันบน GPU สำหรับผู้บริโภคได้
  แต่ GPU สำหรับผู้บริโภคเองก็แพงขึ้นเรื่อย ๆ ในช่วงไม่กี่ปีที่ผ่านมา จนยากจะหาเหตุผลมารองรับ
- ฉันพยายามย้ายไปใช้โมเดลจีนอยู่เรื่อย ๆ แต่สุดท้ายก็มักต้องเอาผลลัพธ์กลับไปให้ Claude ช่วยแก้อีกอยู่ดี ทั้งในแง่ฟังก์ชันและสไตล์ และสุดท้ายก็วนกลับไปหาเหมือนเดิม
  ฉันก็ยังลอง GPT อยู่เรื่อย ๆ เหมือนกัน ซึ่งก็แน่นพอตัว เร็วมากและเก่งเรื่องดีบักด้วย แต่โค้ดที่ได้มักฉลาดเกินไปจนปวดหัว
  อาจแก้ได้ด้วยพรอมป์ต์ ซึ่งดูเหมือนจะช่วยกับโมเดลจีนได้บ้าง แค่บอกให้เขียนอย่างสวย ๆ แบบยุค image AI ที่มี “+good -bad”
  ตอนนี้มนุษย์ยังจำเป็นต้องเข้าใจโค้ดได้อยู่ และมีแค่ Claude ที่ตอบโจทย์นั้นได้อย่างสม่ำเสมอ
  ถึงอย่างนั้นก็หวังว่าสักวันหนึ่งสถาบันวิจัยจีนแห่งใดแห่งหนึ่งจะค้นพบเคล็ดลับพิเศษบางอย่าง
  สำหรับการแก้ไขเล็ก ๆ DeepSeek Flash ดีมาก ให้ความรู้สึกเหมือนมี AI แบบแทบไม่จำกัดติดอยู่ข้างตัวตลอดเวลา ซึ่งเจ๋งมาก
- ตั้งแต่ dwarf star ออกมา ฉันใช้ DeepSeek v4 flash เป็นโมเดลหลักสำหรับแทบทุกงาน
  รันบน M4 Max MacBook Pro ที่มีหน่วยความจำ 128GB
  ปกติฉันรันมันเป็นเซิร์ฟเวอร์ แล้วบนเครื่องที่ใช้เขียนโค้ดก็เชื่อมผ่าน Tailscale เพื่อใช้ Pi coding agent
  มันคือก้าวกระโดดครั้งใหญ่เมื่อเทียบกับตอนใช้โมเดล Qwen แต่ไม่มีความสามารถด้าน vision ดังนั้นเวลาต้องใช้ vision ฉันก็ยังรันโมเดลฝั่งนั้นอยู่
  ก่อนหน้านี้ฉันใช้ GLM 4.7 flash เป็นตัวหลักสำหรับเขียนโค้ด แต่ตอนนี้งานทุกอย่างที่ไม่ใช่ vision ย้ายมา DeepSeek หมดแล้ว
สงสัยว่ามีใครเคยลองเอา องค์ประกอบของ CCP ออกจากโมเดล open weights จากจีนบ้างไหม ไม่ได้ถามเชิงประชดนะ แต่อยากรู้ว่ามีการตรวจสอบอย่างจริงจังด้วยเทคนิคอย่างการทดสอบความทนทานของ weights หรือการกระตุ้นแนวคิดหรือไม่
เช่น ถ้า CCP พยายามฝังพฤติกรรมตามบริบทไว้จริง ก็อยากดูว่ามันตอบสนองต่ออินพุตที่อาจชักนำให้เกิดพฤติกรรมหลอกลวงหรือมุ่งร้ายอย่างไร
ฉันไม่รู้เหมือนกันว่าข้อสงสัยอย่างการสร้างโค้ดที่มีช่องโหว่เมื่อถูกใช้ในแอปพลิเคชันของรัฐบาลสหรัฐนั้นเคยมีการพิสูจน์จริงหรือไม่
ในช่วงเวลาที่การแข่งขันทางภูมิรัฐศาสตร์รุนแรงแบบนี้ คำถามลักษณะนี้ก็ไม่ใช่เรื่องไร้เหตุผล ใช้ได้กับไม่ว่าคุณจะอยู่ประเทศไหน
- น่าลองดู TNG ของ Hugging Face
  เป็นบริษัทที่ปรึกษาจากเยอรมนี ฉันเคยเห็นพวกเขาพูดถึงการปรับแต่งและลบอคติออกจากโมเดล DeepSeek น่าสนใจทีเดียว
  https://www.tngtech.com/en/about-us/news/release-of-deepseek...
  สิ่งที่ควรกังวลไม่ใช่แค่โค้ด แต่รวมถึงอย่างอื่น เช่น ข้อความแฝงที่อาจซ่อนอยู่ด้วย
- ฟังดูเหมือนเป็นงานที่เครื่องมืออย่าง heretic อาจมีประโยชน์
  https://github.com/p-e-w/heretic
- แม้แต่ LLM ที่บริษัทสร้างขึ้นก็อาจมีอคติแบบเข้าข้างองค์กรของตัวเองได้ ไม่มีอะไรปลอดภัยจริง

Kimi K2.7-Code: โมเดลโค้ดดิ้งโอเพนซอร์สที่ปรับปรุงประสิทธิภาพการใช้โทเค็น

ภาพรวมโมเดล

สรุปโมเดล

ผลการประเมิน

เบนช์มาร์กด้านโค้ดดิ้ง

เบนช์มาร์กด้านเอเจนต์

เงื่อนไขการประเมิน

องค์ประกอบของเบนช์มาร์ก

Native INT4 quantization

การดีพลอย

วิธีใช้งาน

เงื่อนไขพื้นฐานของการเรียก API

Chat Completion

อินพุตคอนเทนต์ภาพ

Preserve Thinking

Interleaved Thinking และการเรียกเครื่องมือหลายขั้นตอน

เฟรมเวิร์กเอเจนต์โค้ดดิ้ง

ตัวอย่างการรันแบบโลคัล

Transformers

vLLM

SGLang

ไลเซนส์

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News