- เป็น โมเดลโค้ดดิ้งแบบเอเจนต์ ที่รองรับงานเขียนโค้ดระยะยาวและเวิร์กโฟลว์วิศวกรรมซอฟต์แวร์ที่ซับซ้อน โดยพัฒนาต่อยอดจาก Kimi K2.6 ให้มีความสามารถในการทำงานแบบ end-to-end จนเสร็จสมบูรณ์และมีประสิทธิภาพการใช้โทเค็นสูงขึ้น
- เมื่อเทียบกับ Kimi K2.6 ใช้โทเค็นสำหรับการให้เหตุผลลดลงประมาณ 30% และคะแนน Kimi Code Bench v2 เพิ่มจาก 50.9 เป็น 62.0, MCP Mark Verified เพิ่มจาก 72.8 เป็น 81.1
- โครงสร้างโมเดลเป็นแบบ MoE มีพารามิเตอร์รวม 1T, พารามิเตอร์ที่ทำงานจริง 32B, รองรับคอนเท็กซ์ยาว 256K และมีตัวเข้ารหัสวิชัน MoonViT
- การดีพลอยรองรับทั้ง API ทางการและ vLLM, SGLang, KTransformers และเนื่องจากมีสถาปัตยกรรมแบบเดียวกับ Kimi-K2.5/Kimi-K2.6 จึงสามารถนำวิธีดีพลอยเดิมกลับมาใช้ได้
- ระหว่างใช้งานจะบังคับเปิดโหมด Thinking และ preserve_thinking รองรับอินพุตภาพ และอินพุตวิดีโอรองรับแบบทดลองผ่าน API ทางการเท่านั้นในตอนนี้
ภาพรวมโมเดล
- Kimi K2.7-Code เป็นโมเดลเอเจนต์ที่เน้นงานโค้ดดิ้งบนพื้นฐานของ Kimi K2.6 และได้รับการปรับปรุงสำหรับงานโค้ดดิ้งระยะยาวที่ใกล้เคียงการใช้งานจริง
- เสริมความสามารถในการ ทำงานแบบ end-to-end จนเสร็จสมบูรณ์ ตลอดทั้งเวิร์กโฟลว์วิศวกรรมซอฟต์แวร์ที่ซับซ้อน
- เมื่อเทียบกับ Kimi K2.6 ใช้โทเค็นสำหรับการให้เหตุผลน้อยลงประมาณ 30% ทำให้ประสิทธิภาพการใช้โทเค็นดีขึ้น
- มาพร้อมแท็ก image-text input, Transformers, Safetensors, conversational, custom_code เป็นต้น
สรุปโมเดล
- สถาปัตยกรรมเป็นแบบ Mixture-of-Experts(MoE) โดยมีพารามิเตอร์รวม 1T และพารามิเตอร์ที่ทำงานจริง 32B
- มีทั้งหมด 61 เลเยอร์รวม Dense layer และมี Dense layer 1 เลเยอร์
- Attention Hidden Dimension เท่ากับ 7168 และ MoE Hidden Dimension เท่ากับ 2048 ต่อผู้เชี่ยวชาญหนึ่งตัว
- มี Attention Head 64 ตัว, Expert 384 ตัว, เลือก Expert ต่อโทเค็น 8 ตัว และมี Shared Expert 1 ตัว
- ขนาดคำศัพท์ 160K และรองรับคอนเท็กซ์ยาว 256K
- กลไก Attention คือ MLA และฟังก์ชัน activation คือ SwiGLU
- ตัวเข้ารหัสวิชันคือ MoonViT และมีพารามิเตอร์ 400M
ผลการประเมิน
-
เบนช์มาร์กด้านโค้ดดิ้ง
- ใน Kimi Code Bench v2 นั้น Kimi K2.6 ได้ 50.9, Kimi K2.7 Code ได้ 62.0, GPT-5.5 ได้ 69.0, Claude Opus 4.8 ได้ 67.4
- ใน Program Bench นั้น Kimi K2.6 ได้ 48.3, Kimi K2.7 Code ได้ 53.6, GPT-5.5 ได้ 69.1, Claude Opus 4.8 ได้ 63.8
- ใน MLS Bench Lite นั้น Kimi K2.6 ได้ 26.7, Kimi K2.7 Code ได้ 35.1, GPT-5.5 ได้ 35.5, Claude Opus 4.8 ได้ 42.8
-
เบนช์มาร์กด้านเอเจนต์
- ใน Kimi Claw 24/7 Bench นั้น Kimi K2.6 ได้ 42.9, Kimi K2.7 Code ได้ 46.9, GPT-5.5 ได้ 52.8, Claude Opus 4.8 ได้ 50.4
- ใน MCP Atlas นั้น Kimi K2.6 ได้ 69.4, Kimi K2.7 Code ได้ 76.0, GPT-5.5 ได้ 79.4, Claude Opus 4.8 ได้ 81.3
- ใน MCP Mark Verified นั้น Kimi K2.6 ได้ 72.8, Kimi K2.7 Code ได้ 81.1, GPT-5.5 ได้ 92.9, Claude Opus 4.8 ได้ 76.4
-
เงื่อนไขการประเมิน
- หากไม่ได้ระบุเป็นอย่างอื่น Kimi K2.7 Code และ K2.6 จะถูกทดสอบใน Kimi Code CLI โดยเปิดโหมด Thinking ใช้ temperature 1.0, top-p 0.95 และคอนเท็กซ์ยาว 262,144 โทเค็น
- GPT-5.5 ทำงานในโหมด xhigh ของ Codex และ Opus 4.8 ทำงานในโหมด xhigh ของ Claude Code
- นอกเหนือจากความแตกต่างดังกล่าว เบนช์มาร์กทั้งหมดประเมินภายใต้เงื่อนไขเดียวกัน
-
องค์ประกอบของเบนช์มาร์ก
- Kimi Code Bench V2 เป็นเบนช์มาร์กภายในสำหรับประเมินเอเจนต์โค้ดดิ้งในงานที่ใกล้เคียงความเป็นจริง ครอบคลุมภาษาโปรแกรมหลักมากกว่า 10 ภาษาและทั้ง production tech stack
- Kimi Code Bench V2 รวมกรณีใช้งานทางวิศวกรรมภายใน, เหตุขัดข้องในระบบโปรดักชัน และงานจากโปรเจ็กต์โอเพนซอร์สจริง
- Program Bench กำหนดให้จำลองพฤติกรรมของโปรแกรมใหม่โดยมีเพียงไบนารีที่คอมไพล์แล้วและเอกสารเท่านั้น และใช้ 200 งานพร้อมการทดสอบพฤติกรรมที่สร้างด้วย fuzz มากกว่า 248,000 รายการ
- MLS-Bench ใช้ประเมินว่าระบบ AI สามารถสร้างวิธีการ ML ที่ generalize ได้และขยายต่อได้หรือไม่ โดย MLS-Bench-Lite เป็นชุดย่อยอย่างเป็นทางการ 30 งาน
- Kimi Claw 24/7 Bench เป็นเบนช์มาร์กภายในที่ประเมินประสิทธิภาพเอเจนต์ระยะยาวในการทำงานร่วมกันแบบหลายวันอย่างต่อเนื่อง ครอบคลุม 17 สถานการณ์เฉพาะทางและ 610 จุดประเมิน
- MCP-Atlas ใช้ประเมินประสิทธิภาพของ LLM ในงานใช้เครื่องมือที่ใกล้เคียงโลกจริงผ่าน MCP ที่ขยายขนาดได้
- MCPMark-Verified เป็นเวอร์ชันที่มีการตรวจสอบโดยมนุษย์ของ MCPMark และประเมินการใช้เครื่องมือ MCP ในสภาพแวดล้อมเซิร์ฟเวอร์จริง 5 แบบ ได้แก่ Notion, GitHub, Filesystem, Postgres และ Playwright
Native INT4 quantization
- Kimi-K2.7-Code ใช้วิธี native int4 quantization แบบเดียวกับ Kimi-K2-Thinking
การดีพลอย
- สามารถเข้าถึง API ของ Kimi-K2.7-Code ได้ที่ https://platform.moonshot.ai
- API ทางการรองรับ OpenAI/Anthropic compatible API
- เอนจินสำหรับ inference ที่แนะนำคือ vLLM, SGLang, KTransformers
- Kimi-K2.7-Code มีสถาปัตยกรรมแบบเดียวกับ Kimi-K2.5/Kimi-K2.6 จึงสามารถนำวิธีดีพลอยเดิมกลับมาใช้ได้โดยตรง
- เวอร์ชันที่ต้องการของ
transformersคือ>=4.57.1, <5.0.0 - ดูตัวอย่างการดีพลอยได้ที่ Model Deployment Guide
วิธีใช้งาน
-
เงื่อนไขพื้นฐานของการเรียก API
- เดโมการใช้งานอ้างอิงวิธีเรียก API ทางการ
- Kimi-K2.7-Code บังคับเปิด Thinking และตั้ง
preserve_thinkingเป็น True - สำหรับ API ของบุคคลที่สามที่ดีพลอยด้วย vLLM หรือ SGLang ฟีเจอร์แชตด้วยวิดีโอเป็นฟีเจอร์ทดลองที่ตอนนี้รองรับเฉพาะใน API ทางการเท่านั้น
- ค่า
temperatureที่แนะนำสำหรับโหมด Thinking คือ1.0และค่าtop_pที่แนะนำคือ0.95 - ไม่รองรับโหมด Instant
-
Chat Completion
- ตัวอย่าง Chat Completion เป็นการเรียก K2.7-Code API ในโหมด Thinking
- โค้ดตัวอย่างเรียก
client.chat.completions.createผ่านไคลเอนต์openaiและตั้งค่าmax_tokens=4096 - ในผลลัพธ์จะพิมพ์
response.choices[0].message.reasoningและresponse.choices[0].message.content
-
อินพุตคอนเทนต์ภาพ
- K2.7-Code รองรับ อินพุตภาพและวิดีโอ
- ตัวอย่างอินพุตภาพจะเข้ารหัสภาพเป็น base64 แล้วส่งผ่าน
image_urlพร้อมสร้างคำตอบด้วยmax_tokens=8192 - ตัวอย่างอินพุตวิดีโอจะเข้ารหัสไฟล์ mp4 เป็น base64 แล้วส่งผ่าน
video_url - การแชตด้วยวิดีโอเป็นฟีเจอร์ทดลองที่ตอนนี้รองรับเฉพาะใน API ทางการเท่านั้น
-
Preserve Thinking
- Kimi K2.7 Code บังคับใช้โหมด
preserve_thinkingและเก็บเนื้อหา reasoning ทั้งหมดไว้ตลอดการโต้ตอบหลายรอบ preserve_thinkingช่วยเพิ่มประสิทธิภาพในสถานการณ์เอเจนต์โค้ดดิ้ง- ฟีเจอร์นี้เปิดใช้งานเป็นค่าเริ่มต้นและไม่สามารถปิดได้
- API บางตัวอาจไม่รองรับ
reasoning_contentจึงอาจลองใช้reasoningได้
- Kimi K2.7 Code บังคับใช้โหมด
-
Interleaved Thinking และการเรียกเครื่องมือหลายขั้นตอน
- K2.7-Code ใช้การออกแบบ Interleaved Thinking และ Multi-Step Tool Call แบบเดียวกับ K2 Thinking
- ตัวอย่างการใช้งานอ้างอิงได้จาก K2 Thinking documentation
-
เฟรมเวิร์กเอเจนต์โค้ดดิ้ง
- Kimi K2.7-Code ทำงานได้ดีที่สุดเมื่อใช้ร่วมกับ Kimi Code CLI เป็นเฟรมเวิร์กเอเจนต์
- Kimi Code CLI ให้บริการที่ https://www.kimi.com/code
ตัวอย่างการรันแบบโลคัล
-
Transformers
- ใน Transformers สามารถสร้างไฮเลเวลไปป์ไลน์ได้ด้วย
pipeline("image-text-to-text", model="moonshotai/Kimi-K2.7-Code", trust_remote_code=True) - การโหลดโมเดลโดยตรงทำได้ด้วย
AutoModel.from_pretrained("moonshotai/Kimi-K2.7-Code", trust_remote_code=True, dtype="auto")
- ใน Transformers สามารถสร้างไฮเลเวลไปป์ไลน์ได้ด้วย
-
vLLM
- ติดตั้ง vLLM ด้วย
pip install vllmและเริ่มเซิร์ฟเวอร์ด้วยvllm serve "moonshotai/Kimi-K2.7-Code" - ตัวอย่างการเรียกใช้ใช้ OpenAI compatible API endpoint ที่
http://localhost:8000/v1/chat/completions - ใน Docker Model Runner สามารถรันด้วย
docker model run hf.co/moonshotai/Kimi-K2.7-Code
- ติดตั้ง vLLM ด้วย
-
SGLang
- ติดตั้ง SGLang ด้วย
pip install sglangและเริ่มเซิร์ฟเวอร์ด้วยpython3 -m sglang.launch_server --model-path "moonshotai/Kimi-K2.7-Code" - ตัวอย่างการเรียกใช้ใช้ OpenAI compatible API endpoint ที่
http://localhost:30000/v1/chat/completions - ตัวอย่างการรันด้วย Docker มีการตั้งค่า GPU, shared memory, Hugging Face cache และตัวแปรสภาพแวดล้อม
HF_TOKEN
- ติดตั้ง SGLang ด้วย
ไลเซนส์
- โค้ดรีโพซิทอรีและน้ำหนักโมเดลเผยแพร่ภายใต้ Modified MIT License
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
อ่านเงื่อนไขไลเซนส์ที่แก้ไขแล้วก็ขำดี จริง ๆ แล้วมันแทบจะเป็น MIT license ที่เอาเงื่อนไขโฆษณาแบบ BSD เก่ามาแปะเพิ่มหนึ่งข้อ และไม่เกี่ยวว่าจะมีผู้ใช้ต่อเดือนหรือรายได้เท่าไร ถ้าเอาไปใช้ในผลิตภัณฑ์ก็เหมือนแค่ขอให้ช่วย “โฆษณา” ให้พวกเขา
พูดตรง ๆ ว่าดูเป็นคำขอที่สมเหตุสมผล
ลองให้คำสั่งค่อนข้างง่ายกับ Kimi K2.7-code เพื่อ rebase Fil-C OpenSSL patch จาก 3.3.1 ไปเป็น 3.5.7 แล้ว ดูเหมือนว่าจะทำได้ดี
แพตช์มีขนาด 177KB เลยไม่ใช่การเปลี่ยนแปลงเล็ก ๆ และตอนแรกก็ apply ไม่ผ่านแบบเนียน ๆ ดังนั้นเอเจนต์ต้องลงมือทำงานจริงพอสมควร
ผมให้แค่แพตช์สำหรับ 3.3.1, คำสั่ง build, path ของ 3.5.7 และลิงก์เอกสารการเปลี่ยนแปลง(https://fil-c.org/constant_time_crypto)
แต่ก็ใช้ T800 ซึ่งเป็น coding agent ภายในของตัวเอง มันยังไม่เปิดเผยสู่สาธารณะ และก่อนหน้านี้ก็ทดสอบกับ K2.5 และปรับจูนไว้พอสมควรแล้ว
ค่าใช้ API น่าจะอยู่ราว ๆ $5~$10 แก้ไข: เป็น OpenSSL ไม่ใช่ OpenSSH
โดยส่วนตัวเวลาใช้ open code หรือ router ผมรู้สึกว่าพอเกินระดับหนึ่งไปแล้ว ความต่างระหว่างโมเดลไม่ได้ชัดมาก ยกเว้นโมเดลแบบ Gemini ที่ทั้งแพงและก้ำกึ่ง
ในแง่นั้นโมเดลจากจีนก็ค่อนข้างดีทีเดียว ปกติจะให้มันเขียนโค้ดเป็นระดับฟังก์ชันหรือเมธอดก่อน แล้วค่อยออกแบบและประกอบเข้าด้วยกัน
ตระกูล GPT จะละเอียดกว่าและดีกว่าอยู่บ้าง แต่ก็ไม่แน่ใจว่าต่างกันมากขนาดนั้นไหม มันอาจขึ้นกับ workflow แต่ถ้าคุมเข้มพอ ก็สงสัยเหมือนกันว่าความต่างมันมากจริงหรือเปล่า
การรัน Qwen 3.6 35B A3B MTP จน MacBook M1 Pro กลายเป็นแผ่นให้ความร้อนนั้นถือว่าค่อนข้างได้ผล
พอพยายามใช้โมเดล Gemini ให้เหมือนเป็น “local” ก็เจอปัญหาคล้ายกัน คือแบ่ง effort เป็นช่วงสั้นเกินไป ทำให้พลาดบ่อยและจำนวน turn เพิ่มขึ้น
ในทางกลับกัน พอเห็นว่า Fable พูดเรื่องความ “proactive” แบบไม่ลดละ ก็เลยรู้สึกว่าถ้ามี branding ที่แข็งแรงและระบบคิดเงินที่ได้ผล มันก็อาจไปได้ในทิศตรงข้ามเลย
ถ้ามีการออกแบบที่สอดคล้องกันอยู่แล้ว ซึ่งนั่นแหละคือส่วนที่ยาก พอใส่ให้โมเดลที่เล็กกว่ามาก ๆ ก็ยังได้คุณภาพแทบเท่ากัน
มันอาจทำไม่เสร็จในรอบเดียว แต่เร็วกว่าและถูกกว่า สุดท้ายเลยออกมาคุ้มกว่า แถมยังทำแบบ local ได้ด้วย
เพราะงั้นเลยต้องตั้งใจทำให้เทสต์ที่ถูกคอมเมนต์ไว้สามารถทำให้ build พังได้อย่างชัดเจน สำหรับโมเดลของ Anthropic หรือ OpenAI ส่วนตัวผมไม่ค่อยเจอปัญหาแบบนั้น
มันคล้ายกับเมื่อก่อนที่คนเรียกรถว่า “รถญี่ปุ่น” ซึ่งตอนนี้แทบไม่สื่ออะไรแล้ว และก็มักจะเรียกกันไปเลยว่า Toyota, Honda, Lexus
ถ้ามีใครเคยลองใช้ opencode + Kimi K2.6/2.7 เทียบกับ Claude Code แล้ว อยากรู้มากว่าอะไรดีกว่าอะไรแย่กว่า และค่าใช้จ่ายเทียบกันเป็นอย่างไร
ตอนนี้จ่าย $100 สำหรับแพลน 5x Max อยู่ แต่ Fable กินโควตาการใช้งานค่อนข้างเร็ว และก็พูดได้ยากเหมือนกันว่ามันต่างจาก Opus แบบกลางวันกับกลางคืน
เพราะส่วนใหญ่ใช้กับโปรเจกต์ส่วนตัว บิล $100 ก็รู้สึกว่าใหญ่พอสมควรแล้ว และไม่อยากจ่ายเพิ่ม
Claude Code ดีกว่าจริง แต่จุดสำคัญคือ opencode + Kimi 2.6 ก็ใช้งานได้ดีพอตัว
ถ้ารู้ชัดว่าอยากได้อะไรและสั่งให้เขียนโค้ดง่าย ๆ โมเดลยอดนิยมอย่าง DeepSeek, Kimi ก็โอเคเป็นส่วนใหญ่ และให้ความรู้สึกว่าไม่ได้ต่างจากโมเดลของ Anthropic มากนัก
แต่ Opus เข้าใจเจตนาได้ดีกว่า DeepSeek มาก เวลาใช้ DeepSeek ต้องเขียนพรอมป์ต์ให้แม่นกว่ามาก และถ้าเขียนหลวม ๆ ก็มักจะพาออกนอกทางบ่อย
Kimi อยู่ตรงกลาง มันช่วยคืนเวิร์กโฟลว์แบบ “พรอมป์ต์หลวม ๆ” ได้ระดับหนึ่ง และทำให้เชื่อถือแผนที่มันเสนอได้มากกว่า DeepSeek
ทำเวิร์กโฟลว์คล้าย Claude Code ได้ แต่โดยรวมด้อยกว่านิดหน่อยทุกด้าน ทั้งความยาวคอนเท็กซ์ จำนวนข้อผิดพลาด การตัดสินใจ คำแนะนำ และความสามารถในการดีบัก
ในแง่การใช้งาน แพลน Claude $100 คุ้มค่าจริง ๆ ราคาต่อโทเค็นของ Kimi ถูกกว่ามาก แต่การสมัคร Claude ดูเหมือนจะมีการอุดหนุนเยอะ ทำให้ $100 ได้โทเค็นมากกว่าที่จะซื้อผ่าน API ได้มาก
สุดท้ายแล้ว ถ้าใช้ในรูปแบบใกล้เคียงกัน ค่าใช้จ่ายของ opencode + Kimi กับ Claude Code อาจออกมาใกล้กัน
DeepSeek ถูกกว่า และ cache token ก็ถูกแบบไม่น่าเชื่อ แต่ถ้าย้ายมาจาก Claude Code อาจต้องปรับวิธีทำงานตามนิสัยการใช้งานเดิม
ถ้าเป็นโปรเจกต์ส่วนตัว คิดว่าชุด $10 Opencode Go plan บวก DeepSeek v4 เครดิต $10 จากที่อย่าง OpenRouter ค่อนข้างใช้งานได้จริง
Kimi ให้ความรู้สึกเหมือนนักพัฒนาที่กำลังสัมภาษณ์งาน เลยสนุกกว่า การดูมันไล่เหตุผลเพื่อแก้ปัญหาคล้ายกับวิธีที่ฉันอธิบายใน whiteboard session มาก มันพูดคำว่า “wait” บ่อยเกินจนขำ
Claude คล้ายพนักงานที่รับเข้าทำงานแล้ว หรือเหมือนทั้งทีมพนักงานมากกว่า มันไม่อธิบายยาวตั้งแต่แรก แต่จะถามเฉพาะตอนจำเป็นแล้วค่อยส่งรายงานหรือแผนงานที่ครบถ้วนออกมา
มองว่า OpenCode เป็น harness ที่ดีกว่า เรื่องค่าใช้จ่ายเปรียบเทียบตรง ๆ ไม่ได้ เพราะไม่เคยรันพรอมป์ต์เดียวกันเป๊ะทั้งสองฝั่ง
ช่วงนี้เพิ่งให้ Kimi สร้าง libpq wrapper สำหรับภาษาโปรแกรม ZenC (https://github.com/nobleach/zenc-postgres) ใช้เวลาประมาณหนึ่งชั่วโมง และเสียค่าใช้จ่าย ประมาณ $4
DeepSeek-V4-Pro ดีพอมาก และงานเล็ก ๆ หรืองานที่ปกติจะโยนให้ Haiku หรือ Sonnet ก็ใช้ DS4-Flash ได้เลย สมัครแบบเติมเงิน $10 ก็พอ
OpenCode Go สมัครเดือนละ $5 แล้วใช้ Qwen-3.7-Max สำหรับงานออกแบบ วางแผน สถาปัตยกรรม และแก้ปัญหายาก ๆ ได้เลย มันให้ความรู้สึกใกล้ Opus 3.6 หรือ 3.7 มากกว่า DeepSeek และเป็นตัวที่ใกล้ที่สุดเท่าที่เคยเจอ
OpenAI Codex มีแพลน $20 ต่อเดือนที่ใช้ GPT-5.5 ผ่าน API สำหรับงานออกแบบ วางแผน สถาปัตยกรรม แก้ปัญหา และเขียนคอมมิตได้ ถ้าเป็นปัญหาที่ยากจริง ๆ ก็จ่าย $100 แล้วคัดลอกไปใส่แชต GPT-5.5-Pro ได้
Xiaomi MiMo-2.5-Pro รับเครดิตฟรี 72 เซ็นต์ได้จากโค้ดแนะนำเพื่อน $2 ราคาพอ ๆ กับ DeepSeek และความสามารถก็อยู่ระหว่าง Sonnet กับ Opus ค่อนข้างเก่งทีเดียว UltraSpeed beta ก็น่าลองสมัคร
จะใช้ OpenCode หรือ ohmypi สลับโมเดลเหล่านี้ไปมาแบบทันทีเพื่อหาตัวที่เหมาะกับตัวเองที่สุดก็ได้ ใช้ CodexBar ดูการใช้งานแทบจะเรียลไทม์
ถ้าเป็นผู้ใช้เบา ๆ หรือเพิ่งเริ่มเขียนโปรแกรม แพลน $20 ของ Cursor เหมาะสำหรับเริ่มต้นกับ Composer-2.5 และ Composer-2.5-Fast และยังมีโควตา API ทำให้เข้าถึง Opus-4.x หรือ GPT-5.5-Pro จาก OpenCode หรือ ohmypi ได้นอกเหนือจากใน Cursor เอง
ถ้าใช้ Grok หรือ Twitter อยู่ SuperGrok เดือนละ $30 มีโมเดล vision ที่ดี และเคยเอาไปใช้กับการทดสอบ frontend อัตโนมัติ แต่ตอนนี้กำลังย้ายไปใช้ Qwen-3-VL แบบรันโลคัลบน Mac ทั่วไปแทน ถ้าไม่ถนัดเทคนิคมาก unreach ช่วยให้โฮสต์โมเดลโลคัลบน Mac ได้ง่าย
ถ้ามี GPU แรง ๆ อย่าง RTX 5090 ก็ลอง Qwen-3.6 แบบโลคัลได้เหมือนกัน ใช้ ollama หรือ llama-swap ก็ถือว่าค่อนข้างง่าย
ยังไม่ได้ลอง Kimi ตัวใหม่ แต่ตอนนี้ดูแลทีมที่มีนักพัฒนามืออาชีพ 3 คน, กราฟิกดีไซเนอร์ 1 คนที่ใช้ Midjourney กับ Grok Imagine หนักมาก, และผู้ใช้ที่ไม่ใช่สายเทคนิค 1 คนที่ใช้ ohmypi เก็บ requirement และติดตามการ implement โดยคุมค่าใช้จ่ายไว้ต่ำกว่า $200 ต่อคนต่อเดือน
ถ้าพยายามอีกนิดก็น่าจะกดลงมาใกล้ $75 ต่อคนต่อเดือน ได้
ฟีเจอร์เดียวที่ใช้ไม่ได้คือ webfetch กับ web search แต่แทนด้วยการอ้อม agent ผ่าน ddg MCP และ pre-hook สำหรับดึง/ค้นหาเว็บ
memory, caching และอย่างอื่นที่เหลือทำงานได้ดี
Qwen ใกล้ Opus ในด้านการวางแผน แต่ Fable เหนือกว่าชัดเจน
เรื่องการเขียนโค้ด ถ้า Opus เขียนแผนให้ก่อน ผลลัพธ์จาก Kimi และ DeepSeek แทบแยกจาก Opus ไม่ออก
ความต่างใหญ่ที่สุดคือจังหวะการตอบ เช่น Kimi จะคิดอยู่นานแล้วค่อยพ่นข้อความจำนวนมากออกมาอย่างรวดเร็ว
ตอนนี้กำลังทดสอบใช้ Fable สำหรับงานวิจัยและวางแผน และใช้ DeepSeek v4 flash สำหรับการเขียนโค้ด ผลลัพธ์คล้าย Opus + DeepSeek v4 pro แต่ค่าใช้จ่ายรวมดูจะต่ำกว่า
ดี และจัดการงานส่วนใหญ่ที่โยนให้ได้ดี แต่ล้มเหลวกับงานที่ซับซ้อนในเชิงการรับรู้ มักติดบ่อย ถึงอย่างนั้นก็แค่ประมาณ $6 ต่อเดือน
มีจุดวิกฤตที่โมเดล “ที่ดีที่สุด” จะไม่สำคัญอีกต่อไป และคิดว่าเราอยู่ไม่ไกลจากจุดนั้น Fable ตอนนี้ดีมากจริง ๆ แต่ถ้าอีกประมาณ 1 ปี Kimi ไล่ทัน ต่อให้ Fable6 ดีกว่ามาก ถ้าราคาเหลือ 1/10 ก็น่าจะเลือกใช้ Kimi
ก่อนหน้านี้ตอนมอง Opus 4.5 ก็เคยคิดว่า “ถ้าดีได้ขนาดนี้ ภายใน 6~12 เดือน โมเดลจีนก็น่าจะดีและถูกลงมาถึงระดับนี้ แล้วฉันก็จะใช้พวกนั้น” แต่คิดผิดไป ตอนนี้ก็ยังยอมจ่ายพรีเมียมให้ Opus 4.7/8 และ Fable อยู่
ถึงอย่างนั้น สักวันมันก็คงไปถึงระดับที่แค่ทำงานที่ต้องการได้ และจากจุดนั้นการแข่งขันแบบ ตัดราคาลง ก็น่าจะเริ่มขึ้น
ตอนนี้บริษัทจีนเริ่มเข้าถึง Fable token ที่ดีมากได้แล้ว ก็หวังว่าการแข่งขันนั้นจะเร็วขึ้น
เพราะงั้น ต่อให้ราคาต่อโทเค็นสูงกว่า โมเดลที่ดีกว่าอาจถูกกว่าในทางปฏิบัติ
ถ้า Opus แพงกว่า 5 เท่า เมื่อเทียบกับ Kimi K2.6 หรือโมเดลจีนอื่น ๆ แต่ดีกว่าแค่นิดหน่อย ก็สงสัยว่าบริษัทอย่าง Anthropic ยังรักษาความสามารถในการแข่งขันไว้ได้อย่างไร
สมมติฐานของฉันคือบริษัทอเมริกันส่งข้อมูลไปฝั่งจีนไม่ได้ ซึ่งก็เข้าใจได้ แต่สิ่งนั้นเป็น “คูเมือง” จริงหรือ?
พูดในฐานะคนที่ใช้โมเดล Kimi ค่อนข้างบ่อยและโดยรวมก็ชอบมัน
บนเบนช์มาร์กอย่าง DeepSWE ที่ยังไม่ถูก game กัน Kimi K2.6 ตามหลัง Claude Sonnet 4.6($3/$15) อยู่มาก และยังตามหลัง GPT 5.4 Mini($0.75/$4.50) เล็กน้อย
ชัดเจนว่าโมเดล Kimi ดีมากสำหรับงานเขียนโค้ดหลายประเภท และมีคุณภาพดีที่สุดในบรรดาโมเดล open-weight
แต่ถ้าจะให้ได้ผลลัพธ์รวมใกล้เคียง Sonnet/Opus โดยเฉลี่ยแล้วต้องใช้โทเค็นมากกว่าเยอะ และต้องคอยจัดการโมเดลมากกว่า
สิ่งที่ควรมองไม่ใช่ราคาต่อโทเค็น แต่คือจ่ายเท่าไรสำหรับทั้งกระบวนการ
อีกทั้งในกรณีที่มีการใช้เงินเยอะ ก็มีผู้เล่นที่มีเหตุผลมากพอและรันการประเมินจริง ๆ อยู่ ดังนั้น “ดีกว่านิดหน่อย” อาจไม่ใช่แค่ความรู้สึกล้วน ๆ
แต่ชุดประเมินที่ฉันมองเห็นเองก็มีแค่บางส่วนเท่านั้น อาจเป็นไปได้เหมือนกันว่าทุกคนไม่ค่อยมีเหตุผลและ Anthropic ก็อาศัยจุดนั้น
Kimi และโมเดลโอเพนซอร์สอื่น ๆ อาจทำคะแนนได้ดีในที่อย่าง SWE-bench แต่พอใช้จริงจะรู้สึกถึงช่องว่างนั้นได้
แปลกตรงที่ทุกคนชอบอ้างราคา API แล้วบอกว่า Claude subscription ได้รับการอุดหนุน แต่จริง ๆ ไม่มีใครรู้ต้นทุน inference ของ Claude และผู้ให้บริการจีนเองก็อาจให้ inference ราคาถูกได้ ถ้าอย่างนั้นก็สงสัยว่าทำไมถึงคิดว่า Claude ทำไม่ได้
สำหรับลูกค้าองค์กรก็อาจมีสัญญาราคา API แบบอื่นที่ไม่เปิดเผยต่อสาธารณะ สิ่งที่เราเห็นอาจมีแค่ราคาหน้าป้ายที่สูงเท่านั้น
ในงานแบบนั้นความต่างห่างกันเหมือนหน้าผา
พอลองทดสอบจริงจังก็ดูเป็นการปรับปรุงที่ค่อนข้างดี แค่ ใช้โทเค็นน้อยลง สำหรับงานเดียวกัน ก็เป็นเหตุผลเพียงพอแล้วที่จะใช้แทน K2.6 เวลาที่ต้องการโมเดลเปิด
ถ้าโมเดลใหม่ไม่ได้ดีกว่า DeepSeek v4 อย่างชัดเจนสัก 20~30% แต่กลับมีราคาต่อโทเค็นสูงกว่า DeepSeek ก็คิดว่าแทบจะถูกผลักไปเป็น โมเดลที่มีการใช้งานต่ำ โดยอัตโนมัติ อาจพอใช้สำหรับงานวางแผนได้บ้าง
ยังไม่ค่อยคุ้นกับ โมเดล open weights/open-source มากนัก ถ้ามีใครใช้แบบจริงจังเป็นงานหลัก อยากฟังเรื่องการตั้งค่าและประสิทธิภาพ เพราะกำลังพิจารณาจะย้ายทั้งองค์กรออกจากผลิตภัณฑ์ของ Anthropic
ในแง่คุณภาพของโมเดลไม่ได้ต่างกันมาก แต่เรื่องต้นทุนนั้นต่างกันแบบเหลือเชื่อ อย่างน้อยก็ในวิธีที่ฉันใช้เอเจนต์
เมื่อวานยกตัวอย่าง ฉันกำลังพัฒนา DSL ขนาดเล็กสำหรับค้นหาเอกสารทางเทคนิคที่ซับซ้อน และลองใช้ Fable เพื่อเพิ่ม operator เล็ก ๆ ตัวหนึ่ง
Fable เผาเงินไป $13 และแม้จะให้คำตอบออกมา แต่ก็ไม่ได้ดีกว่าสิ่งที่ DeepSeek v4 ทำงานเดียวกันนี้ด้วย $1.7 อย่างเป็นรูปธรรม
อย่างไรก็ตาม ฉันมอบงานย่อย ๆ ให้เอเจนต์ทำ ในกรณีของ DSL ฉันเป็นคนออกแบบ operator แล้วให้เอเจนต์ลงมือ implement ทีละตัว
ถ้าฉันเริ่มจากเอกสารที่ซับซ้อนแล้วสั่งให้ออกแบบทั้งระบบ Fable อาจจะได้เฉิดฉายก็ได้
แต่ทุกครั้งที่ให้งานขอบเขตกว้างขึ้นกับเอเจนต์ มันก็เผาโทเค็นระดับหลายล้านและสร้างโค้ดที่ชวนกังขา สุดท้ายฉันก็ต้องเสียเวลาไปทำความเข้าใจเองอยู่ดี
ตัวอย่างเช่น ถ้าดูไฟล์อย่าง https://github.com/gitsense/gsc-cli/blob/main/internal/cli/r... จะเห็นว่าฉันระบุโมเดลที่ใช้ไว้ด้วย
4.7 ไม่ค่อยเก่งกับโค้ด
goเท่าไร เลยเริ่มเห็นGemini 3 Flashโผล่มาใน attribution4.7 เป็นโมเดลที่ Cerebras ให้บริการ และสำหรับฉัน ความเร็วในการวนรอบพัฒนาสำคัญกว่ามาก
หลังจากลองใช้ MiMo v2.5.0-Pro ฉันมั่นใจว่ามันน่าจะทำสิ่งที่ Gemini 3 Flash ทำได้ครบ 100%
มีบางครั้งที่ติดขัดแล้วต้องให้ Sonnet ช่วยอธิบาย แต่ความลับสกปรกที่ Anthropic และ OpenAI คงไม่พูดก็คือ ถ้าคุณเขียนโค้ดเป็น โมเดลทุกวันนี้ก็ดีพออย่างตรงไปตรงมาแล้ว
จากประสบการณ์กับ MiMo และการประเมินของคนอื่นต่อ GLM 5.1 ฉันมองว่าตอนนี้เราเข้าสู่การแข่งขันด้าน ฮาร์ดแวร์ แล้ว
สำหรับคนที่เขียนโปรแกรมเป็นและอยากใช้ AI มาขยายสิ่งที่ตัวเองรู้อยู่แล้ว โมเดลจีนคือของทดแทน Claude ได้ 100%
จากนี้คงต้องดูว่าใครคือผู้ให้บริการที่มี inference เร็วที่สุด
MiMo-v2.5.0-Pro-Ultraspeed ให้ผลลัพธ์ดีและเร็ว พร้อมกับเผาเงินได้เร็วเหมือนกัน
ข้อยกเว้นหลักคือโมเดลราว ๆ 30B พารามิเตอร์ ซึ่งยังพอรันบน GPU สำหรับผู้บริโภคได้
แต่ GPU สำหรับผู้บริโภคเองก็แพงขึ้นเรื่อย ๆ ในช่วงไม่กี่ปีที่ผ่านมา จนยากจะหาเหตุผลมารองรับ
ฉันก็ยังลอง GPT อยู่เรื่อย ๆ เหมือนกัน ซึ่งก็แน่นพอตัว เร็วมากและเก่งเรื่องดีบักด้วย แต่โค้ดที่ได้มักฉลาดเกินไปจนปวดหัว
อาจแก้ได้ด้วยพรอมป์ต์ ซึ่งดูเหมือนจะช่วยกับโมเดลจีนได้บ้าง แค่บอกให้เขียนอย่างสวย ๆ แบบยุค image AI ที่มี “+good -bad”
ตอนนี้มนุษย์ยังจำเป็นต้องเข้าใจโค้ดได้อยู่ และมีแค่ Claude ที่ตอบโจทย์นั้นได้อย่างสม่ำเสมอ
ถึงอย่างนั้นก็หวังว่าสักวันหนึ่งสถาบันวิจัยจีนแห่งใดแห่งหนึ่งจะค้นพบเคล็ดลับพิเศษบางอย่าง
สำหรับการแก้ไขเล็ก ๆ DeepSeek Flash ดีมาก ให้ความรู้สึกเหมือนมี AI แบบแทบไม่จำกัดติดอยู่ข้างตัวตลอดเวลา ซึ่งเจ๋งมาก
รันบน M4 Max MacBook Pro ที่มีหน่วยความจำ 128GB
ปกติฉันรันมันเป็นเซิร์ฟเวอร์ แล้วบนเครื่องที่ใช้เขียนโค้ดก็เชื่อมผ่าน Tailscale เพื่อใช้ Pi coding agent
มันคือก้าวกระโดดครั้งใหญ่เมื่อเทียบกับตอนใช้โมเดล Qwen แต่ไม่มีความสามารถด้าน vision ดังนั้นเวลาต้องใช้ vision ฉันก็ยังรันโมเดลฝั่งนั้นอยู่
ก่อนหน้านี้ฉันใช้ GLM 4.7 flash เป็นตัวหลักสำหรับเขียนโค้ด แต่ตอนนี้งานทุกอย่างที่ไม่ใช่ vision ย้ายมา DeepSeek หมดแล้ว
สงสัยว่ามีใครเคยลองเอา องค์ประกอบของ CCP ออกจากโมเดล open weights จากจีนบ้างไหม ไม่ได้ถามเชิงประชดนะ แต่อยากรู้ว่ามีการตรวจสอบอย่างจริงจังด้วยเทคนิคอย่างการทดสอบความทนทานของ weights หรือการกระตุ้นแนวคิดหรือไม่
เช่น ถ้า CCP พยายามฝังพฤติกรรมตามบริบทไว้จริง ก็อยากดูว่ามันตอบสนองต่ออินพุตที่อาจชักนำให้เกิดพฤติกรรมหลอกลวงหรือมุ่งร้ายอย่างไร
ฉันไม่รู้เหมือนกันว่าข้อสงสัยอย่างการสร้างโค้ดที่มีช่องโหว่เมื่อถูกใช้ในแอปพลิเคชันของรัฐบาลสหรัฐนั้นเคยมีการพิสูจน์จริงหรือไม่
ในช่วงเวลาที่การแข่งขันทางภูมิรัฐศาสตร์รุนแรงแบบนี้ คำถามลักษณะนี้ก็ไม่ใช่เรื่องไร้เหตุผล ใช้ได้กับไม่ว่าคุณจะอยู่ประเทศไหน
เป็นบริษัทที่ปรึกษาจากเยอรมนี ฉันเคยเห็นพวกเขาพูดถึงการปรับแต่งและลบอคติออกจากโมเดล DeepSeek น่าสนใจทีเดียว
https://www.tngtech.com/en/about-us/news/release-of-deepseek...
สิ่งที่ควรกังวลไม่ใช่แค่โค้ด แต่รวมถึงอย่างอื่น เช่น ข้อความแฝงที่อาจซ่อนอยู่ด้วย
https://github.com/p-e-w/heretic