MAI-Code-1-Flash
(microsoft.ai)- MAI-Code-1-Flash คือโมเดลเขียนโค้ดใหม่ของ Microsoft ที่มุ่งช่วยงานเขียนโค้ดได้รวดเร็วและมีประสิทธิภาพในเวิร์กโฟลว์ประจำวันของนักพัฒนา และกำลังทยอยเปิดให้ผู้ใช้ GitHub Copilot แบบบุคคลทั่วไปบน VS Code ใช้งาน
- Microsoft ฝึกโมเดลนี้โดยตรงบน GitHub Copilot harness เพื่อให้ออกแบบมาสำหรับการโต้ตอบกับเครื่องมือและระบบในสภาพแวดล้อมการพัฒนาจริงได้ดียิ่งขึ้น
- ด้วย การควบคุมความยาวคำตอบแบบปรับตามสถานการณ์ โมเดลจะตอบสั้นสำหรับคำขอที่เรียบง่าย และใช้ budget การให้เหตุผลมากขึ้นกับงานที่ซับซ้อนกว่า โดยแก้ปัญหาที่ยากขึ้นได้ด้วยโทเค็นน้อยลงสูงสุด 60% {p:60}
- ในการประเมิน production harness ของ Microsoft โมเดลนี้มีอัตราผ่านสูงกว่า Claude Haiku 4.5 ใน benchmark การเขียนโค้ดหลักทั้ง 4 รายการ และใน SWE-Bench Pro นำอยู่ 16 จุดที่ 51.2% เทียบกับ 35.2%
- ใน benchmark การให้เหตุผลเชิงปฏิปักษ์แยกต่างหาก โมเดลทำ ความแม่นยำแบบปรับค่า 85.8% จาก 186 ข้อใน 34 หมวดหมู่ แต่ในหมวดปฏิปักษ์สำคัญอย่าง Einstellung trap ยังมีความแม่นยำต่ำกว่า 50% จึงยังมีพื้นที่ให้ปรับปรุง
การเปิดตัวและการปล่อยใช้งาน
- MAI-Code-1-Flash คือโมเดลเขียนโค้ดใหม่ของ Microsoft ที่สร้างมาเพื่อช่วยงานนักพัฒนาในชีวิตประจำวันได้อย่างรวดเร็วและมีประสิทธิภาพ
- Microsoft สร้างขึ้นเองทั้งหมดตั้งแต่ต้นจนจบ และใช้ข้อมูลที่สะอาดและมีไลเซนส์เหมาะสม
- กำลังทยอยเปิดให้ผู้ใช้ GitHub Copilot แบบบุคคลทั่วไปบน VS Code ใช้งาน โดยเข้าถึงได้จากตัวเลือกโมเดลและภายใต้ Auto picker เริ่มต้น
- ไม่ต้องตั้งค่าเพิ่มเติม และเมื่อการปล่อยใช้งานมาถึง GitHub Copilot จะ route งานไปยัง MAI-Code-1-Flash ผ่าน Auto picker หรือแสดงโมเดลนี้ในตัวเลือกโมเดลโดยตรง
- จะเปิดรับความคิดเห็นผ่าน GitHub Community
การออกแบบที่ยึดเวิร์กโฟลว์นักพัฒนาเป็นศูนย์กลาง
- MAI-Code-1-Flash ไม่ได้ถูกสร้างมาเพื่อปรับแต่ง benchmark อย่างเดียว แต่ให้เวิร์กโฟลว์การทำงานจริงที่นักพัฒนาใช้ทุกวันเป็นแกนหลัก
- โมเดลถูกฝึกโดยตรงด้วย GitHub Copilot harness ที่ใช้ใน production เพื่อให้เรียนรู้วิธีจัดการเครื่องมือและระบบรอบข้างในงานเขียนโค้ดแบบเอเจนต์
- ระหว่างการฝึก มีการประเมิน checkpoint ด้วยงานด้านวิศวกรรมซอฟต์แวร์หลัก การถามตอบกับ repository การรีแฟกเตอร์ และงานจาก telemetry ที่ดัดแปลงมาจากการใช้งาน GitHub Copilot จริง
- เป้าหมายของแนวทางนี้คือทำให้สภาพแวดล้อมการฝึก การประเมิน และ production สอดคล้องกัน เพื่อให้การปรับปรุงแบบออฟไลน์ส่งผลต่อคุณภาพที่นักพัฒนาสัมผัสได้จริง
ประสิทธิภาพการใช้โทเค็นและรูปแบบการตอบ
- โมเดลเรียนรู้การควบคุมความยาวของคำตอบแบบปรับตามลักษณะงาน เพื่อปรับระดับความลึกของคำตอบตามความยากของโจทย์
- สำหรับคำขอที่เรียบง่ายจะตอบอย่างกระชับ ส่วนปัญหาที่ต้องการการวิเคราะห์ลึกขึ้นหรือการแก้ไขโค้ดในวงกว้างจะใช้ budget การให้เหตุผลมากขึ้น
- นักพัฒนาจึงสามารถเริ่มเห็นผลลัพธ์ที่มีประโยชน์ได้เร็วขึ้น
- MAI-Code-1-Flash แก้ปัญหาที่ยากกว่าได้ด้วยโทเค็นน้อยลงสูงสุด 60% โดยมุ่งลด latency ลดต้นทุน ปรับปรุงผลตอบแทนต่อโทเค็น และทำให้เวิร์กโฟลว์แบบโต้ตอบลื่นไหลขึ้น
ผลลัพธ์บน benchmark การเขียนโค้ด
- Microsoft ประเมิน MAI-Code-1-Flash และ Claude Haiku 4.5 ด้วย production harness เดียวกันบน SWE-Bench Verified, SWE-Bench Pro, SWE-Bench Multilingual และ Terminal Bench 2
- การประเมินวัดทั้งอัตราความสำเร็จของงานและจำนวนโทเค็นเฉลี่ยของคำตอบที่ใช้เพื่อทำแต่ละงานให้เสร็จ
- MAI-Code-1-Flash มีอัตราผ่านสูงกว่า Claude Haiku 4.5 ใน benchmark การเขียนโค้ดหลักทั้ง 4 รายการที่ทดสอบ
- ในงานจริงที่หลากหลายของ SWE-Bench Pro โมเดลนำอยู่ 16 จุดที่ 51.2% เทียบกับ 35.2%
- ใน SWE-Bench Verified โมเดลแก้ปัญหาที่ยากกว่าได้ด้วยโทเค็นน้อยลงสูงสุด 60% แสดงให้เห็นว่าความแม่นยำและประสิทธิภาพสามารถดีขึ้นพร้อมกันได้
การทำตามคำสั่ง การให้เหตุผล และข้อจำกัด
- MAI-Code-1-Flash ทำได้ดีกว่า Claude Haiku 4.5 ในทุก benchmark ที่อยู่ในตาราง และในด้านการทำตามคำสั่งอย่างแม่นยำของ IF Bench มีช่องว่างมากที่สุดที่ +28.9
- ในการประเมินแบบ rubric-based ของ Advanced IF มีช่องว่างแคบที่สุดที่ +14.5
- ความสามารถด้านการทำตามคำสั่งที่แข็งแกร่งยังต่อยอดไปถึงการใช้เครื่องมือแบบเอเจนต์
- โมเดลยังทำได้ดีกว่า Claude Haiku 4.5 ในความสามารถการให้เหตุผลหลักสำหรับคณิตศาสตร์ วิทยาศาสตร์ และการเขียนโค้ดเพื่อการสร้างภาพ
- benchmark มาตรฐานอาจให้รางวัลกับการท่องจำพอ ๆ กับการให้เหตุผล เช่น โมเดลที่เคยเห็นโจทย์ Monty Hall อาจตอบถูก แต่ถ้าพลิกเงื่อนไขรางวัลกลับด้านอาจล้มเหลวได้
- Microsoft ได้สร้าง benchmark จำนวน 186 ข้อใน 34 หมวดหมู่ โดยเน้นกับดักเชิงปฏิปักษ์อย่าง inverted classics, impossible tasks และ underdetermined scenarios
- MAI-Code-1-Flash ทำได้ดีกว่า Claude Haiku 4.5 โดยรวมบน benchmark เชิงปฏิปักษ์นี้ และทำความแม่นยำแบบปรับค่าได้ 85.8%
- โมเดลโดดเด่นเป็นพิเศษด้านการให้เหตุผล การทำตามคำสั่ง และการรับรู้ปัญหาที่เป็นไปไม่ได้ แต่ในหมวดปฏิปักษ์สำคัญอย่าง Einstellung trap ยังมีความแม่นยำต่ำกว่า 50% จึงยังมีพื้นที่ให้ปรับปรุง
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ตาม model card นี่คือโมเดลขนาด 137B พารามิเตอร์ โดยรวมแล้วประสิทธิภาพดูไม่ได้ดีนัก: MAI-Code-1-Flash (137B-A5B) ได้ SWE-bench pro 51%, ส่วน Qwen3.6-35B-A3B ได้ SWE-bench pro 49.5%(https://huggingface.co/Qwen/Qwen3.6-35B-A3B)
เขาเอาไปเทียบกับ Claude Haiku แต่ Haiku ก็ไม่ใช่โมเดลที่ดีนัก และยังสู้โมเดลเปิดขนาดเล็กที่รันได้ทั้งแบบ local หรือผ่าน API ด้วยต้นทุนราว 10% ไม่ได้
ก่อนหน้านี้สงสัยมาตลอดว่าทำไม Microsoft ถึงช้ามากในการเอาโมเดลที่ตัวเองทำมาใส่ใน Copilot ตอนนี้เลยคิดว่าอาจเป็นส่วนหนึ่งของข้อตกลงกับ OpenAI ก็ได้
ถือว่าเป็นการเริ่มต้นที่ดีและการแข่งขันก็เป็นเรื่องน่ายินดี แต่แทบไม่เคยใช้ โมเดลคลาวด์ขนาดเล็ก อย่าง Haiku 4.5 สำหรับงานเขียนโค้ดเลย
มันดูน่ารักดีแต่สำหรับการเขียนโค้ดแบบจริงจังมักเสียเวลาอันมีค่าของผมไปเปล่า ๆ และยังไม่มากพอจะทำให้กลับไปใช้ GitHub Copilot ที่เพิ่งยกเลิกไปเมื่อวาน
GitHub Copilot ก่อนหน้านี้ถึงเมื่อวานยังถือว่าคุ้มราคา แต่ตอนนี้เปลี่ยนเป็นระบบโควตาต่อโทเค็นในกลุ่มที่แพงที่สุดแบบคิดเงินตามคำขอ ถ้าอยากขำก็ไปดูซับเรดดิตที่กำลังลุกเป็นไฟได้: https://www.reddit.com/r/GithubCopilot
หลังจากนั้นก็เปลี่ยนไปใช้ DeepSeek Flash high ที่แทบจะฟรีและระดับ Sonnet+ และถ้าต้องการโมเดลที่ฉลาดกว่านี้ก็คงสมัคร Codex เดือนละ $20 เพื่อใช้ GPT 5.5 ที่มองว่าตอนนี้ดีที่สุดเท่าที่เข้าถึงได้
ในวิธีนี้ผมใช้ Haiku กับงานประจำวันค่อนข้างบ่อย และแม้งานซับซ้อนสูงที่กินเวลาหลายชั่วโมงก็ทำได้ผลลัพธ์ดีกว่าและต้นทุนต่ำกว่ามาก โดยมีตัว orchestrator หลักคอยจัดระเบียบงาน ตรวจคุณภาพ และรวมผลในจุดที่จำเป็น ทำให้เกิดแรงงานขนาดมหาศาลภายใน context window เดียว
ผมไม่ได้ใช้ Haiku โดยตรง แต่บ่อยครั้งมันกิน 30~40% ของการใช้โทเค็นในงานใหญ่ ๆ ทั้งเวลาเสร็จงานและต้นทุนก็ดีขึ้น และ Haiku ดีกว่าในแง่การทำตามคำสั่งและแผนแบบตรงตัวโดยไม่ “ตีความใหม่” ขณะที่โมเดลระดับ Opus มักจะคอยตั้งข้อสงสัยและย้อนถามระหว่างกระบวนการคิด
เพราะงั้น Haiku ไม่ได้เสียเวลา แต่ช่วยประหยัดเวลาอย่างมหาศาล เพียงแต่กว่าจะมาถึงจุดนี้ก็ต้องใช้เวลามากในการสร้างระบบ orchestration ขึ้นมาก่อน แล้วค่อย ๆ ปรับปรุงซ้ำต่อเนื่อง ที่น่าสนใจก็คือประสบการณ์จากการเป็น director และต่อมาเป็น distinguished engineer ช่วยให้มีเครื่องมือพอจะทำให้สิ่งนี้เดินได้อย่างเสถียรจนสุดทาง และโฟลว์ multi-agent ที่มีความสามารถหลากหลายก็แทบไม่ต่างจากพลวัตขององค์กรวิศวกร 1,000 คน
Qwen 3.6 27B ที่โฮสต์เองทำได้ดีกว่าทั้งสองตัวอย่างสม่ำเสมอในการตรวจจับ security bug ซึ่งเป็นผลลัพธ์ที่ค่อนข้างน่าตกใจ เดิมคิดว่า Qwen น่าจะอยู่ระดับเดียวกับ Haiku หรือด้อยกว่านิดหน่อย และน่าจะแพ้ Sonnet ชัดเจน
DeepSeek และ MiMo ทำได้ดีกว่า Haiku และ Sonnet มาก ในขณะที่ต้นทุนเป็นเพียงเศษเสี้ยว และเข้าใกล้ระดับ Opus/GPT 5.5
ถ้าไม่ได้ใช้ฟรีหรือไม่ได้รวมอยู่ในค่าสมาชิกที่ปกติก็ใช้ไม่หมดอยู่แล้ว ก็ดูแทบไม่มีเหตุผลให้ใช้ Haiku หรือ Sonnet
ต่อให้ Copilot ลดราคา 90% ก็คงไม่กลับไปใช้
มีโมเดลที่แข่งกับ Haiku ได้อีกมาก และบางตัวก็เล็กและถูกกว่ามาก เช่น Qwen 3.6 35B-A3B แบบนี้รันบนโน้ตบุ๊กได้ จึงไม่จำเป็นต้องไปเช่าจาก Microsoft
ผมตกใจกับบิล Copilot แบบใหม่เหมือนกัน แต่มันอาจยังเป็นตัวเลือกสำหรับคนที่อยากอยู่ใน ecosystem ต่อไป ทว่าสำหรับคนส่วนใหญ่มีตัวเลือกที่ดีกว่าอยู่เต็มไปหมด
แค่มี ChatGPT แบบพรีเมียมก็ใช้งานได้ดี แม้จะชนลิมิตการใช้งานเป็นประจำ แต่สำหรับงานส่วนใหญ่ก็ยังเอาอยู่
มีใครใช้ โมเดลเล็กแบบนี้กับงานเขียนโค้ด จริง ๆ ไหม? ถ้ามี อยากรู้ว่าใช้งานกันยังไง
ปกติผมจัดการทุกอย่างด้วย Opus ทั้งหมด อยากฟังความเห็นจากคนที่ลองทั้งสองแบบและทดสอบมาแล้ว ว่าใช้โมเดลที่หนักกว่าสำหรับวางแผน/ออกแบบ/สถาปัตยกรรม แล้วมอบงานที่มีโครงสร้างให้โมเดลเล็กทำต่อหรือเปล่า
น่าเสียดายที่ตอนนี้ยังเทียบกันไม่ได้
กับ Opus คุณสามารถเชื่อใจให้มันช่วยออกแบบ เสนอแนวทางสถาปัตยกรรม และแก้โค้ดได้ แม้ในโค้ดเบสที่ซับซ้อน
ส่วนโมเดลเล็ก ๆ จะให้ความรู้สึกว่าแค่ “พยายาม” ทำอยู่ งานเล็ก ๆ พอไหว แต่พอเป็นงานซับซ้อนก็มักกลายเป็นว่ามีงานเพิ่มมากกว่าทำเอง
ก็หวังว่ามันจะต่างออกไป และอีก 1~2 ปีข้างหน้าอาจจะต่างก็ได้
ใน claude code มี opusplan ซึ่งจะใช้ Opus ตอนอยู่ในโหมดวางแผน แล้วสลับไปใช้ Sonnet ตอนลงมือทำ
https://code.claude.com/docs/en/model-config#opusplan-model-...
แก้ไข: จะตั้งเป็นให้วางแผนด้วย Sonnet แล้วให้ Haiku ลงมือทำ หรือจัดชุดอื่นตามต้องการก็ได้
https://code.claude.com/docs/en/model-config#control-the-mod...
ถ้าเป็นฟีเจอร์ง่าย ๆ ก็ไม่ได้วางแผนแบบเต็มรูปแบบ แค่เขียนโค้ดไปนิดหน่อย แล้วใช้พรอมป์สั้น ๆ บรรทัดเดียวบอกโมเดลว่าต้องทำอะไร บางครั้งก็ใส่คอมเมนต์ชั่วคราวในโค้ดเพื่อบอกทิศทาง
โดยทั่วไป ถ้าการแก้โค้ดยังอยู่ในไฟล์หรือแพ็กเกจเดียว Haiku ก็พอตามคำขอได้และไม่เละเทะเกินไป ช่วงเวลาที่ใช้ GitHub Copilot หลายเดือนนั้น ผมยังพัฒนาทักษะในการคอยชี้ทิศทางมันไปเรื่อย ๆ ด้วย และบางครั้งก็เคยรีบใช้เครดิตที่เหลือตอนสิ้นเดือนแบบลน ๆ
แค่การเติมโค้ดอัตโนมัติด้วย AI อย่างเดียวก็มีหลายครั้งที่ดีใช้ได้ แค่เขียนคอมเมนต์ชั่วคราวว่าโค้ดต้องทำอะไร แล้วกด Tab-Tab-Tab ก็อาจได้ทั้งฟังก์ชันออกมาเลย
คนมักโน้มไปหาโมเดลระดับสูงกว่าเพราะคิดว่ามันจะพังน้อยกว่า แต่ถ้าคุณเข้าใจโค้ดจริง ๆ การทำงานแบบโต้ตอบกับโมเดลระดับล่างกลับง่ายกว่า
ตั้งแชตหลักให้ Opus เป็น “orchestrator” กำหนดเป้าหมาย แล้วให้มันผลักไปจนกว่าจะถึงเป้าหมายโดยใช้ sub-agent ต่อไปนี้ตามลำดับ
ทำซ้ำ: ดำเนินต่อไปจนกว่า budget โทเคนของเซสชัน orchestrator จะหมด ตั้งไว้เป็น 1M อะไรทำนองนั้นได้
ตรรกะพื้นฐานคือรักษาให้แต่ละขั้นมีขนาดที่จัดการได้ เพื่อเพิ่มอัตราการทำตามคำสั่งและลดต้นทุน เพราะแม้แต่โทเคนที่แคชไว้ก็ยังมีค่าใช้จ่าย โทเคนในพรอมป์ต์ถูกกว่าโทเคนที่สร้างออกมามาก ดังนั้นยิ่งทำให้ Opus เน้นตรวจทานมากกว่านำลงมือเอง ก็ยิ่งประหยัดค่าใช้จ่ายได้มาก
ขั้น self-improvement แพงมาก แต่การปรับปรุงจะสะสม ถ้าคุณจะรันงานที่กินเวลาหลายวันหรือหลายสัปดาห์ การไม่ทำขั้นนี้จะแพงกว่ามาก
แก้ไข: ทำทั้งกับโมเดล Anthropic ใน Claude Code และกับโมเดลสาย Qwen สำหรับการใช้งานออฟไลน์
โมเดลนี้ อัตราหลอนต่ำ จึงเหมาะกับงานสำรวจ และดูเหมือนโมเดลนี้ก็น่าจะเหมาะกับการใช้งานคล้ายกัน งานหลายอย่างเริ่มจากปล่อย agent สำรวจหลายตัวก่อนวางแผนหรือแก้ไข และหลังจากนั้นมักจบด้วยการเรียกเครื่องมือไม่กี่ครั้ง เลยใช้โทเคนเยอะด้วย
กำลังเอาโมเดลนี้ไปเทียบกับ Haiku 4.5
ไม่ใช่ทั้ง Opus หรือ Sonnet แต่เป็น Haiku ซึ่งเป็นโมเดลที่เล็กที่สุดของ Anthropic แถมยังเป็นเวอร์ชันเมื่อ 3 รุ่นก่อนด้วย
ทำไมทุกคนถึงชอบเอาการเลื่อนหน้าต่างมาทำใหม่แบบเละเทะแบบนี้กันนะ?
แปลกมากที่ benchmark ยังต่ำขนาดนี้ แต่กลับทำการตลาดเหมือนโมเดลปฏิวัติวงการ
ถ้าจะบอกว่าแม้ความสามารถด้านโค้ดจะต่ำก็ไม่เป็นไร งั้นก็ควรดูคู่กับการขึ้นราคาโทเคนและการตั้งให้เป็นโมเดล “ใช้งานทั่วไป”
ทำไมไม่ขายมันเป็นเอเจนต์คณิตศาสตร์ไปเลยล่ะ? ทำไมผมต้องตั้ง เอเจนต์ 4 ตัว ให้คอยตรวจงานกันเองด้วย?
ถ้าได้คะแนนระดับนั้นจาก 5B พารามิเตอร์ ก็ถือว่าดีมาก และเมื่อไม่นานมานี้ยังแทบไม่น่าเชื่ออยู่เลย
ผมคิดว่าโมเดลเล็กจะยิ่งดีขึ้นเรื่อย ๆ และโมเดลล้ำหน้าบนคลาวด์ก็จะเล็กลงด้วย
นี่ก็เป็นอีกเหตุผลหนึ่งที่การขยายโครงสร้างพื้นฐานขนาดใหญ่ตอนนี้ให้ความรู้สึกเหมือนทางรถไฟ
บล็อกโพสต์เปิดตัวมีข้อมูลเยอะกว่ามาก
https://microsoft.ai/news/introducingmai-code-1-flash/
และก็มี model card ด้วย
https://microsoft.ai/pdf/MAI-Code-1-Flash-Model-Card.PDF
active 5B ในชื่อเรื่องน่าจะมาจากประกาศที่กว้างกว่านั้นเกี่ยวกับ MAI ทั้ง 7 โมเดล
https://microsoft.ai/news/building-a-hillclimbing-machine-la...
ต้องนึกย้อนกลับไปก่อนว่าเดิมที Haiku ถูกสร้างมาเพื่ออะไร
ช่วงหลัง Anthropic ไม่ได้ทุ่มแรงกับการทำตลาดให้ Haiku มากนัก
ถ้าต้องการโมเดลเบา ๆ ก็ใช้ Sonnet ได้เลย ในแพ็กเกจ Max แทบจะฟรีและก็ค่อนข้างเร็ว สำหรับงานเขียนโค้ดทั่วไปยังมองไม่ค่อยเห็นว่ามีตรงไหนที่ Haiku จะมีที่ยืน
ดูเหมือนว่า Haiku จะเป็นโมเดลที่ใช้ตอนต้องการ สรุป/จัดประเภท ในปริมาณมาก
การที่ Microsoft ใช้ Haiku เป็นจุดอ้างอิงถือว่าเป็นมาตรฐานที่ต่ำ
อยากให้ทดสอบเว็บไซต์บน Safari ด้วย
ผู้ใช้ iOS แทบทั้งหมดใช้ Safari เป็นค่าเริ่มต้นอยู่แล้ว และประสบการณ์บนเดสก์ท็อปก็คล้ายกับบนมือถือพอสมควร เลยทดสอบได้ง่าย
เอฟเฟกต์การเลื่อนนั้นกระตุกหนักมากในสภาพแวดล้อมของฉัน เข้าใจนะว่าใน Chrome/Edge มันทำงานได้ดี
ถ้าเปิดตัวตั้งแต่เมื่อวาน อย่างน้อยก็คงเลี่ยงไม่ให้ระบบเลือกโมเดลอัตโนมัติของ Copilot ไปใช้ โมเดลที่แพงกว่า 9 เท่า จนเผาโควตารายเดือนไปเงียบ ๆ ภายในบ่ายเดียวได้