- Devstral คือ Agentic LLM สำหรับงานวิศวกรรมซอฟต์แวร์ พัฒนาขึ้นจากความร่วมมือระหว่าง Mistral AI และ All Hands AI
- ทำผลงานได้ 46.8% สูงกว่ารุ่นโอเพนซอร์สเดิมมากกว่า 6% บนเบนช์มาร์ก SWE-Bench Verified
- แสดง ประสิทธิภาพเหนือกว่ารุ่นคู่แข่ง (เช่น Deepseek-V3, Qwen3) และบางรุ่นคลোজด์ซอร์ส (เช่น GPT-4.1-mini)
- ใช้งานแบบโลคัลได้ แม้บน RTX 4090 หรือ Mac ที่มี RAM 32GB เหมาะกับทั้งสภาพแวดล้อมระดับองค์กรและโคไพลอต
- แจกฟรีภายใต้ไลเซนส์ Apache 2.0 พร้อมใช้งานและปรับแต่งได้ทันทีบนหลายแพลตฟอร์ม
แนะนำ Devstral
- Devstral เป็น Agentic LLM (Agentic Large Language Model) สำหรับ งานวิศวกรรมซอฟต์แวร์ เช่น การเขียนโค้ด การแก้ไขโค้ด และการแก้ปัญหา issue
- พัฒนาขึ้นจากความร่วมมือระหว่าง Mistral AI และ All Hands AI
- Devstral ถูกฝึกให้แก้ GitHub issue ในโลกจริงได้จริง และทำงานบนโครงสร้างโค้ดเอเจนต์อย่าง OpenHands หรือ SWE-Agent
ประสิทธิภาพของ Devstral บนเบนช์มาร์ก SWE-Bench Verified
- Devstral ทำคะแนนได้ 46.8% บน SWE-Bench Verified ซึ่ง สูงกว่ารุ่นโอเพนซอร์สที่ดีที่สุดมากกว่า 6 จุดเปอร์เซ็นต์
- เมื่อวัดบน test scaffold เดียวกัน (OpenHands) ยังให้ผลลัพธ์ เหนือกว่ารุ่นที่ใหญ่กว่า อย่าง Deepseek-V3-0324(671B) และ Qwen3 232B-A22B
- ในสภาพแวดล้อมทดสอบแบบคัสตอม Devstral ยังทำผลงานได้ดีกว่า โมเดลทางเลือกแบบคลोजด์ซอร์ส หลายรุ่น
- ตัวอย่างเช่น มีความแม่นยำ สูงกว่า GPT-4.1-mini รุ่นล่าสุดมากกว่า 20%
ความหลากหลายและการประยุกต์ใช้
- Devstral สามารถทำงานได้อย่างราบรื่นแม้บน RTX 4090 หรือ Mac ที่มี RAM 32GB จึงเหมาะกับการดีพลอยแบบโลคัลและการใช้งานบนอุปกรณ์
- บนแพลตฟอร์มอย่าง OpenHands สามารถ เชื่อมต่อกับ codebase ในเครื่อง เพื่อแก้ issue ได้อย่างรวดเร็ว
- เหมาะกับ รีโพซิทอรีโค้ดในระดับองค์กรที่ต้องการการปกป้องความเป็นส่วนตัว
- สามารถนำไปใช้กับ สภาพแวดล้อมการพัฒนาที่หลากหลาย เช่น copilot หรือ agent IDE plugin
การเผยแพร่และการใช้งาน
- Devstral ใช้ ไลเซนส์ Apache 2.0 ทำให้ทุกคนสามารถใช้งาน ปรับแต่ง และแจกจ่ายต่อได้ฟรี
- มีคู่มือการใช้งานโมเดลและบทช่วยสอน พร้อมให้ดาวน์โหลดบนหลายแพลตฟอร์ม เช่น HuggingFace, Ollama, Kaggle, Unsloth และ LM Studio
- มีให้ใช้งานบน API อย่างเป็นทางการของ Mistral ในนาม
devstral-small-2505 และใช้นโยบายค่าบริการเดียวกับ Mistral Small 3.1
- หากต้องการการปรับแต่งขั้นสูงในสภาพแวดล้อมองค์กร เช่น การไฟน์จูนที่เจาะจงกับ private codebase สามารถติดต่อสอบถามได้
แผนในอนาคต
- ขณะนี้ Devstral อยู่ในขั้น research preview
- ในอนาคตมีแผนจะเปิดตัว โมเดล agentic coding ขนาดใหญ่กว่าเดิม
- หากต้องการสอบถามเกี่ยวกับการใช้งาน Devstral หรือโมเดลและโซลูชันต่าง ๆ ของ Mistral สามารถติดต่อผ่านช่องทางทางการได้
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
ช่วงนี้ผมเช็กขนาดไฟล์ก่อนด้วย Ollama เป็นประจำ แล้วก็พบว่าโมเดลนี้อยู่ที่ราว 14GB ดูได้ที่ https://ollama.com/library/devstral/tags บน M2 Mac ปกติจะต้องใช้หน่วยความจำเพิ่มจากขนาดไฟล์โมเดลอีกราว 10% เลยช่วยให้ประเมินได้ว่ามี RAM เหลือพอจะเปิดแอปอะไรควบคู่กันได้บ้าง โมเดลที่ต่ำกว่า 20GB โดยมากแทบไม่กระทบการใช้งานโปรแกรมอื่น รุ่นนี้เลยค่อนข้างน่าคาดหวัง
อยากได้คำแนะนำซอฟต์แวร์พัฒนาแบบ agentic ที่ทำงานกับโมเดลรันในเครื่องได้ดี เคยลอง Cursor แล้วแต่ไม่ค่อยประทับใจ กลับรู้สึกว่าสลับใช้ editor กับ ChatGPT ยังดีกว่า ยังลอง Localforge กับ aider ด้วย แต่บนโมเดลโลคัลจะค่อนข้างช้านิดหน่อย
เห็นด้วย ผมก็ลองรันโมเดลนี้บนเครื่องตัวเองแล้วและประทับใจพอสมควร จัดการโค้ด tricky ที่เกี่ยวกับ Ruby หรือ rspec ได้ดีด้วย ตั้งใจจะลองทดสอบกับ aider ต่อในสถานการณ์ที่มีคอนเท็กซ์ใหญ่
คะแนน SWE-Bench สูงมากเมื่อเทียบกับขนาดของโมเดลโอเพนซอร์ส 46.8% สูงกว่า o3-mini (พร้อม Agentless-lite) หรือ Claude 3.6 (ใช้กับ AutoCodeRover) และต่ำกว่า Claude 3.6 ที่มี scaffold แบบปิดของ Anthropic เพียงเล็กน้อย พอนึกว่ารันได้แทบฟรีก็ถือว่าน่าทึ่งมาก
มันชวนให้คิดว่า “น่าทึ่ง” หรือไม่ก็ benchmark อาจไม่ได้ทำหน้าที่อย่างที่ควร
นี่หมายถึง Claude 3.7 หรือเปล่า น่าจะต้องเช็กให้แน่ใจ
เผื่อเป็นข้อมูลสำหรับคนที่ไม่มีการ์ดจอ RAM 24GB ผมใช้งานโมเดลนี้กับ Ollama ในเครื่อง 8GB RAM สำหรับงานง่าย ๆ อยู่ ถ้าเป็นงานที่คอนเท็กซ์วินโดว์ใหญ่และอ่อนไหวต่อเวลา แนะนำให้จ่ายใช้ API
ผมอยู่ฝั่งที่ไม่ค่อยเชื่อ benchmark ที่ยกมา ถึงจะยังไม่ได้ลองใช้เอง แต่ในผลลัพธ์ของผม โมเดลตระกูล Mistral มักอยู่ระดับล่าง ๆ พอ ๆ กับ Llama เลยไม่ได้คาดหวังว่าประสิทธิภาพจริงจะออกมาระดับนี้
ช่วงหลังผมได้ใช้โมเดล All Hands ซึ่งก็น่าจะอิง Mistral เหมือนกัน ความรู้สึกคือยังเทียบ Claude 3.7 Sonnet ไม่ได้ แต่ค่อนข้างนิ่งและเสถียร ใช้เป็น "AI pair-coding assistant" ได้สบาย และงานโครงสร้างใหญ่ก็ทำได้ถ้าแตกขั้นตอนย่อยให้มันทำ
ผมก็ไม่ค่อยเชื่อเหมือนกัน ของแบบนี้ต้องลองเอง เช่น Qwen3 สำหรับผมถือว่าถอยหลังด้วยซ้ำ และตอนนี้ GLM4 คือมาตรฐาน ส่วนโมเดล 70b cogito ก็ดีมากแต่ไม่ค่อยมีคนพูดถึง ผมว่ามันต่างกันเยอะตามโปรเจกต์ ภาษา และงานที่ใช้ ถึงอย่างนั้นโมเดลนี้ก็ยังตั้งใจจะลองแน่นอน
ชอบที่เป็นไลเซนส์ Apache 2.0 ไม่ใช่ไลเซนส์แนว "open weight" ที่มีเงื่อนไขซับซ้อน ใช้เงื่อนไขชัดเจน แบบนี้ถือเป็นข้อดี
มีไอเดียว่าอยากให้ EU ออกค่าใช้จ่ายในการสร้างเอเจนต์/โมเดลนี้ ถ้ามันทำได้ดีอย่างที่หวังจริง Mistral ก็จะได้โฟกัสกับงานของตัวเองต่อไป และสำหรับฝั่งยุโรปก็ถือเป็นการใช้งบที่ฉลาด
ถ้าภาษีของผมไปลงกับการพัฒนาโมเดลไลเซนส์ apache/mit ผมเห็นด้วย อย่างน้อยก็ช่วยรักษาทางเลือกและคานอำนาจการผูกขาดของบริษัทยักษ์ใหญ่ สุดท้ายมันสำคัญต่อการกันไม่ให้มีแค่ไม่กี่บริษัทครองเกม
จริง ๆ แล้ว EU ก็ใช้เงินสร้างซูเปอร์คอมพิวเตอร์ให้สตาร์ตอัป AI ใช้อยู่แล้ว และ Mistral ก็เข้าร่วมโปรแกรมนี้ในฐานะพาร์ตเนอร์ด้วย
ผมเจอโมเดลนี้โดยบังเอิญตอนกำลังทดสอบการรองรับเครื่องมือของ LlamaIndex ตอนนี้กำลังทดลองเอาหลายโมเดลมาต่อกับโซลูชัน agentic coding ของตัวเอง แล้วก็กำลังจะใช้แนว ReAct พอดี เลยแปลกใจที่โมเดลนี้โผล่มา
แต่ในระบบเอเจนต์ของผม โมเดลนี้คืนค่าแค่ "ไม่มีเครื่องมือ" ตลอด ลองใส่คำสั่งชัด ๆ ในหลายเอเจนต์พรอมป์ต์แล้ว เช่น ให้ "ใช้เครื่องมือ foo ทำงาน bar" ก็ยังแก้ไม่ได้ ToolSpec เป็นอ็อบเจ็กต์ Pydantic มาตรฐานพร้อม annotation และก่อนหน้านี้โมเดลอื่นก็มักหาเครื่องมือที่ต้องใช้ได้เอง
สามารถบังคับ schema ของเครื่องมือได้ด้วยการจำกัดรูปแบบเอาต์พุต ถ้าช่วยมันนิดหน่อยก็ใช้ได้กับแทบทุกโมเดล
ดีใจที่ Mistral กลับมาปล่อยโมเดลโอเพนซอร์สจริง ๆ อีกครั้ง ยังรู้สึกอยู่เสมอว่ายุโรปจำเป็นต้องมีบริษัท AI ที่แข่งขันได้
อยากได้คำแนะนำเกี่ยวกับโมเดลรันในเครื่องรุ่นใหม่หรือข้อมูลที่เกี่ยวข้อง สำหรับเครื่องสเปกไม่แรงอย่าง MacBook Air อยากรู้ล่วงหน้าโดยไม่ต้องลองเองว่าโมเดลไหน “พอใช้งานจริงได้” บนสเปกไหน และยังอยากตัดสินใจด้วยว่าจำเป็นไหมที่จะต้องเก็บโมเดลไว้ใน Ollama งานละ 2–3 ตัว Apple Intelligence ยังไม่ใช่คำตอบตอนนี้
ถ้าเป็นโมเดลอเนกประสงค์ที่เหมาะกับการรันในเครื่อง แนะนำ Gemma 3 หรือ Mistral Small รุ่นล่าสุด บน Windows คอขวดเรื่องความเร็วคือ VRAM แต่บน Mac ตระกูล M จะเร็วกว่าเพราะเป็นหน่วยความจำบนชิป ขนาดโมเดลที่รันได้จะขึ้นอยู่กับ RAM จริงหลังหักส่วนที่ MacOS และแอปอื่นใช้ไปแล้ว
การลองด้วยตัวเองยังมีประสิทธิภาพที่สุด ขอแค่มีพื้นที่พอสำหรับขนาดโมเดล ก็สามารถติดตั้งและ build llama.cpp(https://github.com/ggml-org/llama.cpp) ได้ไม่ยาก และรองรับ MacBook Air ตระกูล M ได้ดีมาก ส่วนตัวผมใช้ LMStudio(https://lmstudio.ai/) เป็นหลัก อินเทอร์เฟซใช้ง่ายคล้าย ChatGPT หรือ Claude และค้นหา/ดาวน์โหลดโมเดลได้จากในโปรแกรมเลย สำหรับมือใหม่ใช้แค่ LMStudio ก็พอแล้ว ผมเองก็ใช้บน M2 MacBook Air บ่อยมาก
สงสัยว่าในงานจริงโมเดลนี้เทียบกับ hosted LLM อย่าง Claude 3.7 ได้แค่ไหน