Kimi K2.6 ชนะ Claude, GPT-5.5 และ Gemini ในการแข่งขันเขียนโค้ด

(thinkpol.ca)

5 คะแนน โดย GN⁺ 2 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Kimi K2.6 โมเดลโอเพนน้ำหนักจาก Moonshot AI คว้าแชมป์ AI Coding Contest Day 12 ในโจทย์ Word Gem Puzzle ด้วย 22 แมตช์พอยต์และสถิติ 7-1-0
MiMo V2-Pro ของ Xiaomi ได้อันดับ 2 ด้วย 20 คะแนน, ChatGPT GPT-5.5 อันดับ 3 ด้วย 16 คะแนน, GLM 5.1 อันดับ 4 ด้วย 15 คะแนน, Claude Opus 4.7 อันดับ 5 ด้วย 12 คะแนน และโมเดลจาก Anthropic, OpenAI, Google, xAI ต่างก็ทำผลงานต่ำกว่าสองโมเดลแรกทั้งหมด
Word Gem Puzzle เป็นพัซเซิลตัวอักษรแบบสไลด์บนกระดานขนาด 10×10 ถึง 30×30 โดยคำที่สั้นกว่า 7 ตัวอักษรจะถูกหักคะแนน และคำที่ยาว 7 ตัวอักษรขึ้นไปจะคิดเป็น ความยาว - 6 คะแนน ส่วนโมเดลแต่ละคู่จะเล่น 5 รอบตามขนาดกริดภายใต้เวลาจำกัด 10 วินาที
Kimi K2.6 ทำคะแนนสะสม 77 คะแนนด้วยกลยุทธ์สไลด์แบบ greedy ที่เลือกการขยับซ้ำ ๆ เพื่อเปิดคำที่มีมูลค่าบวก ขณะที่ MiMo V2-Pro ไม่ได้สไลด์จริง แต่ส่งคำยาว 7 ตัวอักษรขึ้นไปจากกริดเริ่มต้นรวดเดียวและจบที่อันดับ 2 ด้วยคะแนนสะสม 43 คะแนน
ผลลัพธ์ครั้งนี้ไม่ได้หมายความว่าพัซเซิลเดียวจะล้มล้าง benchmark ทั่วไป แต่ก็สะท้อนว่าการแข่งขันเริ่มแคบลง เพราะ Kimi K2.6 ซึ่งเป็น โมเดลที่ดาวน์โหลดได้ ทำได้ 54 คะแนนใน Artificial Analysis Intelligence Index ใกล้กับ GPT-5.5 ที่ 60 คะแนน และ Claude ที่ 57 คะแนน

โครงสร้างการแข่งขันและโมเดลที่เข้าร่วม

GLM 5.1 ของ Zhipu AI ได้อันดับ 4 ส่วน DeepSeek V4 จบเพียงอันดับ 8
โค้ดที่สร้างโดย Nemotron Super 3 ของ Nvidia มี syntax error และเชื่อมต่อกับเกมเซิร์ฟเวอร์ไม่ได้ ทำให้การแข่งขันจริงมีเพียง 9 โมเดล
Kimi K2.6 เป็นโมเดลโอเพนน้ำหนักที่เปิดให้ใช้งานสาธารณะจากสตาร์ตอัปจีน Moonshot AI ซึ่งก่อตั้งในปี 2023 ส่วน MiMo V2-Pro เปิดให้ใช้ผ่าน API เท่านั้นในตอนนี้
Xiaomi ยืนยัน ว่าจะเปิดน้ำหนักของโมเดล V2.5 Pro ที่ใหม่กว่านี้ในเร็ว ๆ นี้
ผลลัพธ์ครั้งนี้ไม่ใช่แค่ภาพรวมแบบ “จีนชนะตะวันตก” แต่สรุปได้ว่าเป็นชัยชนะของสองโมเดลเฉพาะคือ Kimi K2.6 และ MiMo V2-Pro

กติกาของ Word Gem Puzzle

Word Gem Puzzle เป็นพัซเซิลตัวอักษรแบบสไลด์ที่เล่นบนกริดสี่เหลี่ยมซึ่งเต็มไปด้วยไทล์ตัวอักษรและช่องว่างหนึ่งช่อง
ขนาดกริดจะเป็นหนึ่งใน 10×10, 15×15, 20×20, 25×25, 30×30 และบอตสามารถเลื่อนไทล์ที่ติดกับช่องว่างเข้าไปได้
บอตสามารถส่งคำภาษาอังกฤษที่ถูกต้องซึ่งเรียงเป็นเส้นตรงแนวนอนหรือแนวตั้งได้ทุกเมื่อ
ไม่นับคำแนวทแยงและคำย้อนกลับ
ระบบคะแนนถูกออกแบบให้ให้รางวัลกับคำยาวและลงโทษคำสั้น
- คำที่สั้นกว่า 7 ตัวอักษรจะเสียคะแนน
- คำ 5 ตัวอักษรถูกหัก 1 คะแนน และคำ 3 ตัวอักษรถูกหัก 3 คะแนน
- คำที่ยาว 7 ตัวอักษรขึ้นไปจะคิดเป็น ความยาว - 6 คะแนน ดังนั้นคำ 8 ตัวอักษรจะได้ 2 คะแนน
คำเดียวกันส่งได้เพียงครั้งเดียว และหากบอตอื่นส่งคำนั้นไปก่อนจะไม่ได้คะแนน
โมเดลแต่ละคู่เล่นทั้งหมด 5 รอบ รอบละหนึ่งขนาดกริด โดยเวลาจำกัดต่อรอบแบบ wall-clock คือ 10 วินาที
กริดถูกสร้างโดยวางคำจากพจนานุกรมจริงแบบคล้าย crossword จากนั้นเติมช่องที่เหลือด้วยตัวอักษรตามความถี่ของไทล์ Scrabble และสุดท้ายค่อยสับตำแหน่งช่องว่าง
กระดานที่ใหญ่กว่าจะถูกสับแรงกว่า ดังนั้นใน 10×10 คำตั้งต้นจำนวนมากยังคงอยู่ แต่ใน 30×30 แทบไม่เหลือ

พฤติกรรมของแต่ละโมเดลและปัจจัยความสำเร็จหรือล้มเหลว

Kimi K2.6
- Kimi K2.6 ชนะด้วยการเลื่อนไทล์อย่างจริงจัง และทำคะแนนรวมสูงสุดของรายการที่ 77 คะแนน
- กลยุทธ์เป็นแบบ greedy โดยให้คะแนนทุกการขยับที่เป็นไปได้ตามคำมูลค่าบวกใหม่ที่มันเปิดขึ้น แล้วเลือกการขยับที่ดีที่สุดและทำซ้ำ
- หากไม่มีการขยับที่เปิดคำมูลค่าบวก ก็จะเลือกทิศทางที่ถูกต้องตามกฎตัวแรกตามลำดับตัวอักษร
- วิธีนี้บางครั้งทำให้เกิดความไม่มีประสิทธิภาพแบบ 2-cycle ที่ช่องว่างเด้งไปเด้งมาบริเวณขอบโดยไม่เกิดความคืบหน้า
- บนกริดเล็ก ความไม่มีประสิทธิภาพนี้สร้างผลเสียเพราะคำตั้งต้นยังเหลืออยู่มาก แต่บน 30×30 คำแทบทั้งหมดแตกกระจายและต้องประกอบใหม่ ทำให้จำนวนครั้งของการสไลด์จำนวนมากกลายเป็นคะแนนในที่สุด
MiMo V2-Pro
- แม้โค้ดสำหรับการสไลด์ของ MiMo จะมีอยู่ใน repository แต่เงื่อนไข “ค่าสูงสุดมากกว่า 0” ไม่เคยทำงาน จึงไม่ได้สไลด์เลยแม้แต่ครั้งเดียว
- มันสแกนหาคำยาว 7 ตัวอักษรขึ้นไปจากกริดเริ่มต้น แล้วส่งคำทั้งหมดใน TCP packet เดียว
- กลยุทธ์นี้เปราะบางเพราะพึ่งพาอย่างเต็มที่ว่าหลังการสับแล้วคำตั้งต้นยังคงอยู่หรือไม่
- บนกริดที่คำยังเหลืออยู่ มันทำคะแนนได้เร็ว แต่บนกริดที่ไม่เหลือก็ไม่ได้คะแนนเลย
- คะแนนสะสมสุดท้ายคือ 43 คะแนน และจบอันดับ 2
Claude Opus 4.7
- Claude ก็ไม่ได้สไลด์เช่นกัน
- จาก log การขยับ บนกระดาน 25×25 มันทนได้เพราะความหนาแน่นของการสับยังพอรับมือได้ แต่พอถึง 30×30 ที่ต้องมีการขยับไทล์จริงก็พังลง
- การไม่สไลด์ในพัซเซิลแบบสไลด์กลายเป็นข้อจำกัดที่ชัดเจน
GPT-5.5
- GPT-5.5 ใช้วิธีที่อนุรักษ์นิยมกว่า โดยสไลด์ราว 120 ครั้งต่อรอบ และตั้งเพดานไว้เพื่อหลีกเลี่ยงการวนไปวนมาไม่รู้จบ
- มันทำตัวเลขได้ดีที่สุดบนกริด 15×15 และ 30×30
Grok Expert 4.2 และ GLM 5.1
- Grok ไม่ได้สไลด์ แต่ทำคะแนนได้ค่อนข้างดีบนกระดานใหญ่
- GLM เป็นโมเดลที่สไลด์ดุดันที่สุดในทั้งรายการ โดยจำนวนการสไลด์รวมเกิน 800,000 ครั้ง
- GLM มักหยุดชะงักอย่างหนักทุกครั้งที่ไม่เหลือการขยับเชิงบวก
DeepSeek V4
- DeepSeek ส่งข้อมูลผิดรูปแบบในทุกรอบ
- แม้ไม่มีผลลัพธ์ที่เป็นประโยชน์ แต่มันก็ไม่ได้เล่นจนทำให้คะแนนแย่ลงกว่าเดิม
Muse Spark
- Muse ส่งทุกคำที่หาเจอโดยไม่สนใจความยาว
- กติกาคะแนนถูกออกแบบให้ลงโทษคำสั้นเพื่อกันกลยุทธ์ส่งคำสั้นแบบหว่าน เช่น “the”, “and”, “it” และโมเดลที่แข่งขันได้จริงต่างก็กรองพจนานุกรมให้เหลือคำยาว 7 ตัวอักษรขึ้นไป
- Muse กลับหาคำสั้นที่ถูกต้องหลายร้อยคำที่มองเห็นได้ในทุกช่วงเวลาบนกริด 30×30 แล้วส่งทั้งหมด
- คะแนนสะสมคือ −15,309 คะแนน แพ้ทั้ง 8 แมตช์ และไม่ชนะสักรอบ
- หากมี Muse เวอร์ชันที่แค่เชื่อมต่อเซิร์ฟเวอร์แล้วไม่ทำอะไรเลย มันจะได้ 0 คะแนน ซึ่งเท่ากับสูงกว่า Muse จริงอยู่ 15,309 คะแนน
- ช่องว่างระหว่าง Muse กับอันดับ 8 ยังมากกว่าช่องว่างระหว่างอันดับ 8 กับอันดับ 1

ความแตกต่างที่เกิดจากกริด 30×30

กริด 30×30 คือจุดที่แยกความต่างของโมเดลได้ชัดที่สุด
บนกระดานเล็ก ความต่างระหว่างตัวสแกนแบบคงที่กับตัวสไลด์เชิงรุกยังไม่มาก แต่เมื่อถึงขนาดสูงสุด โมเดลที่หาได้แค่คำที่มีอยู่แล้วจะไม่มีคำให้ส่งอีกต่อไป
แม้ลูป greedy ของ Kimi จะมีข้อบกพร่อง แต่มันก็ยังสร้างผลลัพธ์ต่อได้ในสถานการณ์ที่ตัวสแกนแบบคงที่หมดคำให้ส่งแล้ว
MiMo กับ Kimi ใช้กลยุทธ์ที่แทบตรงข้ามกัน แต่คะแนนสุดท้ายต่างกันเพียง 2 คะแนน
ช่องว่างระหว่างอันดับ 1 กับอันดับ 2 ไม่ได้มาจากความสามารถอย่างเดียว แต่มี seed variability ร่วมอยู่ด้วยบางส่วน

ความเสี่ยงที่ปรากฏในงานแบบมีโครงสร้าง

ผลลัพธ์ผิดรูปแบบของ DeepSeek เป็นสัญญาณถึงวิธีที่โมเดลรับมือกับสเปกของโปรโตคอลที่ไม่คุ้นเคยภายใต้แรงกดดันด้านเวลา
Muse สามารถหาคำที่ถูกต้องและส่งได้ แต่ไม่สามารถตีความความหมายของ “ถูกต้อง” ให้รวมถึงกติกาคะแนนด้วย
ความล้มเหลวของ Muse ปรากฏในรูปแบบของการอ่านโจทย์เพียงบางส่วน แล้วลงมือทำตามความเข้าใจที่ไม่ครบถ้วนจนสุดทาง
เมื่อนำโมเดลไปใช้กับงานแบบมีโครงสร้างที่มีบทลงโทษ การปฏิบัติการที่สะท้อนกติกาได้ไม่ครบอาจนำไปสู่ความเสียหายอย่างมาก

ข้อจำกัดและความหมายของการตีความผลลัพธ์

ระบบคะแนนนี้ให้รางวัลกับการส่งคำเชิงรุก และโมเดลที่ถูกปรับให้ปลอดภัยอย่างเข้มอาจระมัดระวังมากกว่ากับพฤติกรรมแบบส่งหว่านเช่นนี้
ในกรณีนั้น ผลลัพธ์อาจสะท้อนความไม่สอดคล้องกันระหว่างการออกแบบโจทย์กับพฤติกรรมของโมเดลที่ถูกจัดแนว มากกว่าจะเป็นความต่างด้านความสามารถล้วน ๆ
ความท้าทายเพียงรายการเดียวไม่ได้ล้มล้าง benchmark ทั่วไป
พัซเซิลนี้ทดสอบการตัดสินใจแบบเรียลไทม์ ความสามารถในการเชื่อมต่อ TCP server และการเขียนโค้ดพฤติกรรมที่เล่นเกมใหม่ได้ถูกต้อง
มันไม่ใช่งานที่ทดสอบการให้เหตุผลแบบบริบทยาวหรือการสร้างโค้ดตามสเปกโดยรวม
Kimi K2.6 ได้ 54 คะแนน ใน Artificial Analysis Intelligence Index, GPT-5.5 ได้ 60 คะแนน, และ Claude ได้ 57 คะแนน
คะแนนเหล่านี้ยังไม่ใช่การเสมอกันเต็มรูปแบบ แต่ก็อยู่ในระดับใกล้เคียง และการที่ Kimi K2.6 เป็นโมเดลที่ใครก็ดาวน์โหลดได้ทำให้ภาพการแข่งขันเปลี่ยนไป
เมื่อสามารถรันโมเดลในเครื่องได้อย่างอิสระซึ่งตามหลัง frontier อยู่เพียงไม่กี่คะแนน สถานการณ์การแข่งขันก็ไม่เหมือนเมื่อหนึ่งปีก่อนอีกต่อไป
โจทย์ท้าทายครั้งนี้เป็นอีกหนึ่ง data point ที่ชี้ให้เห็นว่าช่องว่างได้แคบลงจนผลลัพธ์แบบนี้เกิดขึ้นได้

1 ความคิดเห็น

GN⁺ 2 시간 전

ความคิดเห็นจาก Hacker News

ดูเหมือนว่าอีก 1 ปีข้างหน้าจะยังมีบทความแบบนี้ออกมาเรื่อย ๆ เพราะไม่มีวิธีเปรียบเทียบโมเดลแบบเป็นกลางอย่างแท้จริง นอกจากตัวเลขระดับล่างอย่างความเร็วในการสร้างโทเคน จำนวนโทเคนสำหรับการให้เหตุผลโดยเฉลี่ย จำนวนพารามิเตอร์ หรือจำนวน expert ที่ถูกใช้งานจริงแล้ว การใช้งานของแต่ละโมเดลก็แตกต่างกัน ผู้ใช้ก็ต่างกัน และผลลัพธ์ก็ไม่แน่นอน
เพราะงั้นจะยังมีทั้งเบนช์มาร์กและคำประกาศว่า “โมเดลนี้ชนะโมเดลนั้น” ออกมาเรื่อย ๆ แต่ความจริงคือไม่มีโมเดลที่ดีที่สุด มีแค่โมเดลที่เหมาะกับเกณฑ์ของแต่ละคนเท่านั้น และสุดท้ายก็น่าจะกลายเป็นโลกแบบ Windows vs MacOS vs Linux ที่แต่ละคนอยู่ในค่ายของตัวเอง
- ประเด็นสำคัญไม่ใช่วิธีเปรียบเทียบโมเดล แต่คือการที่ Kimi K2.6 และ DeepSeek v4 Pro เกือบอยู่ระดับเดียวกับ Opus ซึ่งตัวมันเองถือว่าใหญ่มาก
  พวกนี้เป็นโอเพนซอร์สและมีต้นทุนต่อโทเคนต่ำกว่าโมเดลสหรัฐฯ มาก ตอนนี้ผมใช้งานผ่านแผน Ollama cloud ราคา $20 และสามารถทำงานโปรเจกต์ส่วนตัวที่บนแผน Claude Pro $20 จะชนลิมิตหลังจากพรอมป์ต์แค่หนึ่งหรือสองครั้งได้จริง ๆ ที่เลือก Ollama ก็แค่เพราะ CLI ใช้ง่าย และก็มีผู้ให้บริการหลายเจ้าที่มีโมเดลพวกนี้ เลยไม่ต้องติดกับเงื่อนไขแย่ ๆ หรือกฎการใช้งานที่บีบคั้น มองว่าเป็นสัญญาณที่ค่อนข้างแย่ต่อเศรษฐกิจสหรัฐฯ
- มี วิธีเชิงวัตถุวิสัย ในการเปรียบเทียบโมเดลอยู่ ต้องใช้การสุ่มตัวอย่างซ้ำและการวิเคราะห์ทางสถิติ เพื่อตัดสินว่าผลลัพธ์จะยังคงอยู่ในอนาคตหรือเป็นแค่ความบังเอิญ
  ถ้าปรับแต่งแต่ละโมเดลให้ดึงประสิทธิภาพสูงสุดตามงานที่คาดไว้ อันดับในเบนช์มาร์กต่าง ๆ จะสอดคล้องกันค่อนข้างมาก: https://arxiv.org/abs/2507.05195
  แต่ผู้เขียนบทความนี้ไม่ได้ทำแบบนั้น เขาแค่รันแต่ละโมเดลกับโจทย์ 13 ข้ออย่างละครั้ง แล้วไปเน้นผลของข้อที่ 12 เท่านั้น แบบนี้เรียกว่า p-hacking ยังแทบไม่ได้เลย เพราะไม่ได้แม้แต่คิดถึงค่า p-value คุณภาพของ large language model แกว่งมากในแต่ละรัน ดังนั้นการรันแต่ละโมเดลแค่ครั้งเดียวก็คล้ายกับโยนเหรียญสองเหรียญครั้งเดียว แล้วเหรียญหนึ่งออกหัว อีกเหรียญออกก้อย จากนั้นบอกว่าเหรียญไหนเอนเอียงกว่ากัน
- เห็นด้วยบางส่วน แต่ตอนนี้ก็มีความพยายาม ทำให้เมตริกเปรียบเทียบกันได้ อยู่ เช่น: https://ghzhang233.github.io/blog/2026/03/05/train-before-te...
  ตอนนี้ยังไม่ได้รับการยอมรับอย่างกว้างขวาง และสำหรับผู้มีส่วนได้ส่วนเสียแต่ละฝ่าย การปล่อยให้เป็นแบบนี้ไปอีกพักหนึ่งอาจจะได้เปรียบกว่า ซึ่งก็แทบจะคล้าย p-hacking
- เคสการใช้งาน large language model และสภาพแวดล้อมการรันแบบเอเจนต์ของผมค่อนข้างจำกัด ดังนั้นเวลาโมเดลใหม่หรือเครื่องมือรันใหม่ออกมา ผมก็แค่ลองกับเคสใช้งานของตัวเองสักหนึ่งหรือสองอย่าง ตัดสินแบบอัตวิสัย แล้วก็ไม่สนใจ เบนช์มาร์ก ส่วนใหญ่
  บล็อกและงานเขียนเป็นธุรกิจในตัวเอง หรือเป็นธุรกิจรอบเทคโนโลยีที่เอาไว้ดึงทราฟฟิก และบทความรีวิวจำนวนมากก็เขียนเพื่อเรียกความสนใจ มันไม่ใช่เรื่องแย่ในตัวเอง แต่มีสัญญาณรบกวนเยอะมาก
- สุดท้ายแล้วมันคงไปอยู่ในจุดคล้ายการจ้างคน เราดูเรซูเม่หรือ เบนช์มาร์ก ได้ แต่จะมั่นใจจริง ๆ ไม่ได้จนกว่าจะได้ทำงานด้วยกันสัก 6 เดือน
  วงการนี้แทบไม่มีทางตัดสินได้เลยว่าวิศวกรซอฟต์แวร์คนหนึ่งดีกว่าอีกคนหนึ่งแบบเป็นกลางในมิติไหนบ้าง แล้วทำไมเราถึงคิดว่าสามารถจัดอันดับโมเดลแบบเป็นกลางได้ก็ไม่รู้
รู้สึกยินดีที่เห็นการขยับไปสู่การทดสอบที่ ให้คะแนนได้อย่างเป็นกลาง
พวกเราทำแบบนี้ในสเกลใหญ่ที่ https://gertlabs.com/rankings และแม้ผู้เขียนดูเหมือนจะรันจากตัวอย่างครั้งเดียว แต่ผลงานของ Kimi K2.6 ที่ออกมาดีก็ไม่น่าแปลกใจ ตามเกณฑ์ทดสอบของเรา โดยเฉพาะด้านโค้ด Kimi อยู่ในช่วงความไม่แน่นอนทางสถิติเดียวกับ MiMo V2.5 Pro ซึ่งเป็นโมเดล open weight ชั้นนำ และในด้านการใช้เครื่องมือก็ดีกว่า DeepSeek V4 Pro มาก GPT 5.5 ยังนำอยู่สบาย ๆ แต่ Kimi เทียบชั้นหรือดีกว่า Opus 4.6 ได้ อย่างไรก็ตาม ปัญหาของ Kimi 2.6 คือมันเป็นหนึ่งในโมเดลที่ช้าที่สุดที่เราทดสอบ
- มันอาจ ให้คะแนนแบบเป็นกลาง ได้ แต่ก็ไม่ได้แปลว่ามันสะท้อน ความสามารถในการเขียนโค้ด ของใคร การทดสอบนี้ใกล้เคียงกับการวัดว่าโมเดลไหนบังเอิญคิดกลยุทธ์ที่ดีที่สุดในการเจอบอทตัวอื่น ๆ ได้มากกว่า
  ถ้าจะให้เป็นตัวแทนของการเขียนโค้ดจริง ๆ ก็ควรต้องมีปริศนาแบบนี้มากกว่า 100 ข้อ ครอบคลุมสเปกตรัมของปริศนา เพื่อดูว่าใครหากลยุทธ์ที่ใช้พจนานุกรมภาษาอังกฤษได้ดีกว่ากัน
- ในเวิร์กโฟลว์แบบเอเจนต์ Qwen Flash กับโมเดล DeepSeek Flash ดูเหมือนจะดีพอตัว
  มันสอดคล้องกับคอมเมนต์เมื่อวานนี้ที่บอกว่า Flash model เรียกใช้เครื่องมือได้ดีกว่า ชุดผสมอย่างวางแผนด้วย GPT 5.5 แล้วให้ Flash model ลงมือทำ อาจเป็นเส้นทางที่คุ้มค่าดี
- จากประสบการณ์ของผม เบนช์มาร์กแทบไม่มีความหมายเท่าไร
  ประสิทธิภาพขึ้นกับทั้งภาษา งาน พรอมป์ต์ที่ใช้ และผลลัพธ์ที่คาดหวัง ในการทดสอบภายในของเรา มันยากมากที่จะตัดสินว่า GPT 5.5 หรือ Opus 4.7 ดีกว่ากันจริง ๆ สไตล์ต่างกัน และสุดท้ายก็คล้ายเรื่องรสนิยม บางครั้งผมให้โมเดลหนึ่งชนะ แล้วพอคิดใหม่ก็เปลี่ยนใจ สุดท้ายผมชอบ Opus 4.7 มากกว่านิดหน่อย
- การทดสอบกับผลลัพธ์เป็น โอเพนซอร์ส ไหม?
- สงสัยว่าทำไมถึงไม่มีการวัด ขนาดคอนเท็กซ์ สำหรับมนุษย์บ้าง ดูเหมือนน่าจะมีวิทยาศาสตร์มากพอให้สร้างค่าประมาณที่ดีได้
จากงานวิจัยที่ผมอ่านเมื่อไม่กี่วันก่อน ถ้ายังเป็นไปในความเร็วตอนนี้ โมเดลโอเพนซอร์ส น่าจะแซงโมเดลคลาวด์ได้ภายในไม่กี่ปี
ถ้าย้อนดู ChatGPT กับ Claude เมื่อหลายปีก่อน จะเห็นว่าแม้แต่ Qwen ตัวเล็กมากก็แทบทำงานเขียนโค้ดได้เทียบเท่าโมเดลคลาวด์ในตอนนั้นแล้ว ถ้าคิดตาม scaling laws ด้วย การขยับจาก 9B ไป 18B คือเพิ่มราว 40% แต่จาก 18B ไป 35B แค่ราว 20% ดังนั้นอย่างน้อยโมเดลคลาวด์ก็น่าจะต้องมีการเปลี่ยนแปลงด้านราคา Adobe เองเมื่อก่อนก็เคยเดือนละ $600 แต่พอสเกลการกระจายใหญ่ขึ้นก็เหลือ $20
- นั่นฟังไม่สมเหตุสมผล และมีกลิ่นของการ ลากเส้นแนวโน้มออกไปไกลเกินเงื่อนไขที่ใช้ได้
  ความจริงง่าย ๆ คือโมเดลคลาวด์สามารถเหนือกว่าโมเดลเปิดได้เสมอแบบเคร่งครัด เพราะผู้ให้บริการโมเดลคลาวด์ก็รันโมเดลเปิดแบบเดียวกันได้อยู่แล้ว แถมยังมี economy of scale และประสิทธิภาพจากการรันดาต้าเซ็นเตอร์ขนาดใหญ่ที่เต็มไปด้วยฮาร์ดแวร์เฉพาะทาง พวกเขาสามารถให้บริการโมเดลเปิดได้ในราคาต่อโทเคนที่ต่ำกว่าค่าไฟของใครก็ตามเสียอีก และเหนือจากนั้นยังมีคนทำวิจัยทั้งตัวโมเดลและระบบแวดล้อม รวมถึงมีทรัพยากรจ้างวิศวกรชั้นนำให้คอยรักษาสภาพแวดล้อมการรันให้ล้ำกว่าเครื่องมือที่กำลังฮิตบน GitHub อยู่เสมอ
- อาจจะจริง แต่สิ่งที่กังวลคือฝั่ง ฮาร์ดแวร์
  ต่อให้มีโมเดลที่ดีพอแล้ว ถ้าผู้ให้บริการโมเดลคลาวด์จัดหา hardware สำหรับ inference ได้เก่งกว่า จะเกิดอะไรขึ้น?
- ไม่แน่ใจว่าที่บอกว่า “Adobe เคยราคาเดือนละ $600 แล้วลดมาเหลือ $20 เมื่อสเกลการกระจายขยายขึ้น” หมายถึงสินค้าตัวไหน ผมไม่เคยได้ยินว่า Adobe มีอะไรแพงขนาดนั้น
- เดือนละ $600? หมายถึงไลเซนส์ตลอดชีพแบบซื้อครั้งเดียว $600 หรือเปล่า? ผมไม่เคยได้ยินแผน Adobe ที่แพงขนาดนั้น
- ถ้ามี ลิงก์งานวิจัย ที่พูดถึงก็อยากให้แชร์
Kimi ดีมากจริง ๆ
ผมลองใช้ Sonnet, DeepSeek, ChatGPT, MiniMax, Qwen ฯลฯ กับโปรเจกต์คอมไพเลอร์/เวอร์ชวลแมชชีน และแผน Claude Pro นี่แทบใช้กับงานเขียนโค้ดจริงจังไม่ได้เลย ดังนั้นผมเลยใช้ในโหมดแชตผ่านเบราว์เซอร์ เพื่อกันไม่ให้มันอ่านทั้งโปรเจกต์โดยไม่จำเป็น ส่วน Kimi ผมใช้ผ่านแผน OpenCode Go ร่วมกับ pi ในโปรเจกต์ C+Python นั้น Kimi แซง Sonnet ได้สม่ำเสมอ และผมไม่เคยกังวลว่ามันจะทำสิ่งที่ไม่ได้ขอ GLM เคยพังหนัก ๆ ไปหนึ่งหรือสองครั้ง แต่ Kimi ไม่เคยเป็นแบบนั้น
- อยากรู้ว่าทำไมถึงบอกว่า “แผน Claude Pro แทบใช้กับงานเขียนโค้ดจริงจังไม่ได้” เพราะมันดูตรงข้ามกับความเห็นกระแสหลักที่มักมองว่า Claude Pro เหมาะกับงานโค้ดจริงจังที่สุด
นี่เป็นผลจากงานเดี่ยวเพียงงานเดียว วัดแค่จากประสิทธิภาพของคำตอบ
Kimi K2.6 เป็นโมเดลที่ขนาดระดับฟรอนเทียร์อยู่แล้ว ดังนั้นการที่มันยืนเคียงกับโมเดลฟรอนเทียร์แบบปิดจึงไม่ได้น่าตกใจมากนัก การที่มันเปิดก็ดีอยู่ แต่สำหรับผมที่มีแค่ consumer GPU ใบเดียว มันไม่ได้มีความหมายมากขนาดนั้น
- คุณค่าของโอเพนซอร์สไม่ได้อยู่ที่ผมรันมันบนเครื่องตัวเองได้ แต่อยู่ที่ มีใครสักคนรันมันได้
  ถึงคุณจะไม่มีเงินซื้อฮาร์ดแวร์มารันโมเดลโอเพนซอร์สขนาดใหญ่ ก็จะมีคนอื่นที่ซื้อได้ และพวกเขายังทำกำไรได้แม้ตั้งราคาที่ครึ่งหนึ่งของโมเดลปิด เหตุผลเดียวที่ตอนนี้ยังไม่เห็นชัด คือผู้ให้บริการโทเคนเจ้าตลาดกำลังอุดหนุนต้นทุน inference อยู่ พอเมื่อไรพวกเขาเริ่มลดคุณภาพและกดดันเรื่องหารายได้ ตลาดทางเลือกก็จะเกิดขึ้นได้ ถ้าไม่มีโมเดลโอเพนซอร์ส ก็จะไม่มีทางเลือกที่แท้จริงเลย ต่อให้พยายามคิดค่าใช้จ่ายนักพัฒนาแค่ 80% ของเดิม การมีอยู่ของโมเดลโอเพนซอร์สที่ตามหลังไม่มากก็ทำหน้าที่กดดันพวกเขาแล้ว พวกเขาไม่มีคูเมืองป้องกันตัว
- มันมีความหมายแน่นอน เพราะแบบนี้ถึงมี แผนที่ถูกกว่ามาก เมื่อเทียบกับแผนเขียนโค้ดของ Anthropic และ OpenAI
  ตอนนี้ผมใช้แผนเขียนโค้ดของ GLM 5.1, Kimi K2.6, MiniMax M2.7, Xiaomi MiMo V2.5 Pro สำหรับงานส่วนตัว และคุ้มค่ามาก
- เรื่องนี้สำคัญมาก
  การลดคุณภาพอาจจะไม่ชัดในตอนแรก แต่ตอนนี้ผมเห็นแล้วว่าโมเดลฟรอนเทียร์ที่เคยชอบหลายตัวอ่อนลงอย่างมาก และเริ่มทำเรื่องโง่ ๆ ที่เมื่อก่อนไม่เคยทำ ยิ่งเราพึ่งพาพวกมันมากขึ้นเท่าไร เราก็ยิ่งต้องการโมเดล open weight ที่ทำหน้าที่เป็น แพลตฟอร์ม ที่เสถียร
- อนาคตอยู่ทางนี้แหละ โมเดล open weight ที่รันบน H200 เปิดโอกาสให้สร้างทั้งผลิตภัณฑ์และโครงสร้างพื้นฐานจริงได้มากกว่าเยอะ
  ถ้าจะเอาไว้ใช้กับ RTX เล็ก ๆ ที่บ้าน ก็ค่อย distill ลงมาเมื่อไรก็ได้ แต่โมเดลที่ออกแบบมาเพื่อฮาร์ดแวร์ผู้บริโภคโดยเฉพาะ ยากที่จะถูกยอมรับในวงกว้างหรือรักษาความสามารถแข่งขันกับห้องแล็บฟรอนเทียร์ได้ นี่คือรูปแบบที่พอจะแข่งขันได้ และจะทั้งต้องอาศัยและกระตุ้นโครงสร้างพื้นฐานคลาวด์แบบเปิดรุ่นใหม่สำหรับรัน inference ระยะแรกเราคงได้เห็นสินค้าประเภท “กดปุ่มแล้ว deploy”, “กดปุ่มแล้ว fine-tune” ก่อน แล้วต่อไปก็อาจมีสินค้าที่ล้ำกว่านั้นมาก ซึ่งทำได้เฉพาะกับ open weight ที่ไม่ถูกล็อกไว้หลัง API ตอนนี้เหลือแค่รอโมเดลที่เทียบชั้น open weight Nano Banana Pro / GPT Image 2, Seedance 2.0 เท่านั้น สมรภูมิและโฟกัสควรหันไปที่ open weight สำหรับดาต้าเซ็นเตอร์
ตอนแรกเห็นอันดับแล้วแปลกใจ แต่พออ่านรายละเอียดการทดสอบก็เข้าใจได้ มันดูไม่ค่อยเกี่ยวกับการเขียนโค้ดเท่าไร
อันดับปัจจุบันของการทดสอบทั้งหมดดูสมเหตุสมผลกว่า ยกเว้นแค่ระดับที่ Gemini ทำได้: https://aicc.rayonnant.ai
- ถ้าดูรายละเอียดอันดับ Kimi K2.6 เพิ่งเข้าร่วมแค่ 5 ชาเลนจ์ล่าสุด ก่อนหน้านั้น Claude ครองมาตลอด และถ้านับเฉพาะ 5 รายการล่าสุด Kimi ก็เป็นที่ 1
- อันดับเหรียญทองจะมีความหมายก็ต่อเมื่อทุกโมเดลเข้าร่วมทุกการทดสอบ
  DNP แปลว่าไม่ได้เข้าร่วม จากมุมนี้ Kimi ได้เหรียญมากกว่าและดีกว่า Claude
- น่าขันที่เว็บซึ่งจัดการโมเดลเยอะขนาดนั้นกลับไม่ทำ responsive สำหรับมือถือ
- ลิงก์ที่ให้มาจริง ๆ แล้วแทบจะยืนยันความเหนือกว่าของ Kimi
เป็นเรื่องเล่าส่วนตัว แต่หลังจากใช้ Claude Code อย่างเดียวมาหลายเดือน ผมก็ประทับใจกับความสามารถของ Pi + Kimi K2.6 มาก แบบประทับใจเกินคาด ถ้าใช้ผ่าน OpenRouter จะเร็วกว่าเยอะและถูกกว่ามากด้วย
น่าเสียดายที่ Kimi ยังไม่เข้าใกล้ GPT หรือ Opus เลย อยากให้เป็นแบบนั้นจริง ๆ แต่ยังไม่ใช่
ผมกำลังรันการประเมินที่ให้โมเดลสร้างโค้ดสำหรับสร้างโมเดล 3D และเห็นชัดว่ามันขาด ความเข้าใจเชิงพื้นที่ และเขียนโค้ดพลาดบ่อยกว่ามากก่อนจะสำเร็จ มันอาจจะดีกว่าในบางกรณีเฉพาะทาง และผมคิดว่าบล็อกโพสต์นี้ก็น่าจะเป็นตัวอย่างแบบนั้น
- ออกนอกประเด็นนิดหน่อย แต่หลังจากลองใช้ DeepSeek V4 Pro อยู่หลายสัปดาห์ ผมว่าโดยรวมมันอยู่ระดับเดียวกับ Opus ยกเว้นตอนทำงานกับ Blender
  นี่ไม่ใช่ปัญหาเรื่องภาพด้วยนะ DeepSeek ไม่ได้เป็นมัลติโหมดอยู่แล้ว แต่ไม่รู้เพราะอะไร Opus เข้าใจ Blender API ได้ดีกว่ามาก ดูเหมือนจะมีพื้นที่เล็ก ๆ บางส่วนที่โมเดลฟรอนเทียร์แบบปิดยังทำได้ดีกว่าเสมอ
- ถ้าจะพูดกันอย่างยุติธรรม ไม่ใช่ทุกคนที่ต้องการ โมเดล 3D
นี่ดูเหมือนจะไม่ใช่ว่า Kimi เขียนโค้ดได้ดีกว่า Claude แต่ใกล้เคียงกับการที่ Kimi หา กลยุทธ์ที่ถูกต้องสำหรับเกมเฉพาะเกมหนึ่ง เจอมากกว่า
ถึงอย่างนั้นก็น่าสนใจอยู่ดี เพราะประเด็นสำคัญจริง ๆ อาจเป็นการที่โมเดล open weight เข้าใกล้จนช่องว่างนั้นมีความหมายแล้ว
ผมไม่ได้รู้เรื่องวงการ AI ลึกมาก แต่การพยายามฝึกโมเดลเดียวให้ทำได้ทุกอย่างสำหรับทุกคน ดูเป็นความคิดที่โง่มากจริง ๆ
มันต้องใช้ทรัพยากรมหาศาล และทำให้เกิดภาวะขาดแคลนรุนแรงกับการบิดเบือนตลาดในทรัพยากรทุกอย่างที่บริษัท AI ใช้ ไม่ว่าจะเป็น RAM, SSD, ดาต้าเซ็นเตอร์ ฯลฯ ในโลกจริงเราจ้างช่างประปาแล้วไม่ได้คาดหวังให้เขาทำภูมิทัศน์ ซ่อมรถ และเย็บเสื้อผ้าไปด้วย ตัวอย่างเช่น ถ้าดาวน์โหลดแอปที่เชี่ยวชาญด้านเชลล์, Python, C ได้ หรือแม้แต่มีแอป 3 ตัวแบบนั้นคุยกันเอง ก็ดูจะใช้ทรัพยากรได้ดีกว่ามากด้วยซ้ำ อาจรันได้บนเครื่องทั่วไปที่มี RAM 16GB ก็ได้ ไม่จำเป็นต้องมีโมเดลยักษ์ตัวเดียวที่เขียนได้ทั้ง Fortran, COBOL, Lisp มนุษย์ทำได้ดีมากด้วยความเชี่ยวชาญเฉพาะทาง และผมอยากเห็นการสำรวจโมเดล AI ที่เล็กกว่าและโฟกัสมากกว่า แทนเส้นทางปัจจุบันที่ “โมเดลเดียวครองทุกอย่างและรันได้แค่ในดาต้าเซ็นเตอร์ระดับประเทศ”
- โดยพื้นฐานก็จริง แต่ก็มีบางกรณีที่ไม่ใช่แบบนั้น
  นับตั้งแต่ GPT-3 ผู้คนพูดกันมาตลอดว่าไม่มีโมเดลไหนจะทั่วไปได้ขนาดนั้น ดังนั้น การทำ fine-tune จึงดีกว่า แต่พอผ่านไปแต่ละเจเนอเรชัน คำพูดนี้ก็ยิ่งจริงน้อยลง

Kimi K2.6 ชนะ Claude, GPT-5.5 และ Gemini ในการแข่งขันเขียนโค้ด

โครงสร้างการแข่งขันและโมเดลที่เข้าร่วม

กติกาของ Word Gem Puzzle

พฤติกรรมของแต่ละโมเดลและปัจจัยความสำเร็จหรือล้มเหลว

Kimi K2.6

MiMo V2-Pro

Claude Opus 4.7

GPT-5.5

Grok Expert 4.2 และ GLM 5.1

DeepSeek V4

Muse Spark

ความแตกต่างที่เกิดจากกริด 30×30

ความเสี่ยงที่ปรากฏในงานแบบมีโครงสร้าง

ข้อจำกัดและความหมายของการตีความผลลัพธ์

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News