Devstral - Agentic LLM ของ Mistral

(mistral.ai)

4 คะแนน โดย GN⁺ 2025-05-22 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Devstral คือ Agentic LLM สำหรับงานวิศวกรรมซอฟต์แวร์ พัฒนาขึ้นจากความร่วมมือระหว่าง Mistral AI และ All Hands AI
ทำผลงานได้ 46.8% สูงกว่ารุ่นโอเพนซอร์สเดิมมากกว่า 6% บนเบนช์มาร์ก SWE-Bench Verified
แสดง ประสิทธิภาพเหนือกว่ารุ่นคู่แข่ง (เช่น Deepseek-V3, Qwen3) และบางรุ่นคลোজด์ซอร์ส (เช่น GPT-4.1-mini)
ใช้งานแบบโลคัลได้ แม้บน RTX 4090 หรือ Mac ที่มี RAM 32GB เหมาะกับทั้งสภาพแวดล้อมระดับองค์กรและโคไพลอต
แจกฟรีภายใต้ไลเซนส์ Apache 2.0 พร้อมใช้งานและปรับแต่งได้ทันทีบนหลายแพลตฟอร์ม

แนะนำ Devstral

Devstral เป็น Agentic LLM (Agentic Large Language Model) สำหรับ งานวิศวกรรมซอฟต์แวร์ เช่น การเขียนโค้ด การแก้ไขโค้ด และการแก้ปัญหา issue
พัฒนาขึ้นจากความร่วมมือระหว่าง Mistral AI และ All Hands AI
Devstral ถูกฝึกให้แก้ GitHub issue ในโลกจริงได้จริง และทำงานบนโครงสร้างโค้ดเอเจนต์อย่าง OpenHands หรือ SWE-Agent

ประสิทธิภาพของ Devstral บนเบนช์มาร์ก SWE-Bench Verified

Devstral ทำคะแนนได้ 46.8% บน SWE-Bench Verified ซึ่ง สูงกว่ารุ่นโอเพนซอร์สที่ดีที่สุดมากกว่า 6 จุดเปอร์เซ็นต์
เมื่อวัดบน test scaffold เดียวกัน (OpenHands) ยังให้ผลลัพธ์ เหนือกว่ารุ่นที่ใหญ่กว่า อย่าง Deepseek-V3-0324(671B) และ Qwen3 232B-A22B
ในสภาพแวดล้อมทดสอบแบบคัสตอม Devstral ยังทำผลงานได้ดีกว่า โมเดลทางเลือกแบบคลोजด์ซอร์ส หลายรุ่น
- ตัวอย่างเช่น มีความแม่นยำ สูงกว่า GPT-4.1-mini รุ่นล่าสุดมากกว่า 20%

ความหลากหลายและการประยุกต์ใช้

Devstral สามารถทำงานได้อย่างราบรื่นแม้บน RTX 4090 หรือ Mac ที่มี RAM 32GB จึงเหมาะกับการดีพลอยแบบโลคัลและการใช้งานบนอุปกรณ์
บนแพลตฟอร์มอย่าง OpenHands สามารถ เชื่อมต่อกับ codebase ในเครื่อง เพื่อแก้ issue ได้อย่างรวดเร็ว
เหมาะกับ รีโพซิทอรีโค้ดในระดับองค์กรที่ต้องการการปกป้องความเป็นส่วนตัว
สามารถนำไปใช้กับ สภาพแวดล้อมการพัฒนาที่หลากหลาย เช่น copilot หรือ agent IDE plugin

การเผยแพร่และการใช้งาน

Devstral ใช้ ไลเซนส์ Apache 2.0 ทำให้ทุกคนสามารถใช้งาน ปรับแต่ง และแจกจ่ายต่อได้ฟรี
มีคู่มือการใช้งานโมเดลและบทช่วยสอน พร้อมให้ดาวน์โหลดบนหลายแพลตฟอร์ม เช่น HuggingFace, Ollama, Kaggle, Unsloth และ LM Studio
มีให้ใช้งานบน API อย่างเป็นทางการของ Mistral ในนาม devstral-small-2505 และใช้นโยบายค่าบริการเดียวกับ Mistral Small 3.1
หากต้องการการปรับแต่งขั้นสูงในสภาพแวดล้อมองค์กร เช่น การไฟน์จูนที่เจาะจงกับ private codebase สามารถติดต่อสอบถามได้

แผนในอนาคต

ขณะนี้ Devstral อยู่ในขั้น research preview
ในอนาคตมีแผนจะเปิดตัว โมเดล agentic coding ขนาดใหญ่กว่าเดิม
หากต้องการสอบถามเกี่ยวกับการใช้งาน Devstral หรือโมเดลและโซลูชันต่าง ๆ ของ Mistral สามารถติดต่อผ่านช่องทางทางการได้

1 ความคิดเห็น

GN⁺ 2025-05-22

ความคิดเห็นบน Hacker News

ช่วงนี้ผมเช็กขนาดไฟล์ก่อนด้วย Ollama เป็นประจำ แล้วก็พบว่าโมเดลนี้อยู่ที่ราว 14GB ดูได้ที่ https://ollama.com/library/devstral/tags บน M2 Mac ปกติจะต้องใช้หน่วยความจำเพิ่มจากขนาดไฟล์โมเดลอีกราว 10% เลยช่วยให้ประเมินได้ว่ามี RAM เหลือพอจะเปิดแอปอะไรควบคู่กันได้บ้าง โมเดลที่ต่ำกว่า 20GB โดยมากแทบไม่กระทบการใช้งานโปรแกรมอื่น รุ่นนี้เลยค่อนข้างน่าคาดหวัง
- อยากได้คำแนะนำซอฟต์แวร์พัฒนาแบบ agentic ที่ทำงานกับโมเดลรันในเครื่องได้ดี เคยลอง Cursor แล้วแต่ไม่ค่อยประทับใจ กลับรู้สึกว่าสลับใช้ editor กับ ChatGPT ยังดีกว่า ยังลอง Localforge กับ aider ด้วย แต่บนโมเดลโลคัลจะค่อนข้างช้านิดหน่อย
- เห็นด้วย ผมก็ลองรันโมเดลนี้บนเครื่องตัวเองแล้วและประทับใจพอสมควร จัดการโค้ด tricky ที่เกี่ยวกับ Ruby หรือ rspec ได้ดีด้วย ตั้งใจจะลองทดสอบกับ aider ต่อในสถานการณ์ที่มีคอนเท็กซ์ใหญ่
คะแนน SWE-Bench สูงมากเมื่อเทียบกับขนาดของโมเดลโอเพนซอร์ส 46.8% สูงกว่า o3-mini (พร้อม Agentless-lite) หรือ Claude 3.6 (ใช้กับ AutoCodeRover) และต่ำกว่า Claude 3.6 ที่มี scaffold แบบปิดของ Anthropic เพียงเล็กน้อย พอนึกว่ารันได้แทบฟรีก็ถือว่าน่าทึ่งมาก
- มันชวนให้คิดว่า “น่าทึ่ง” หรือไม่ก็ benchmark อาจไม่ได้ทำหน้าที่อย่างที่ควร
- นี่หมายถึง Claude 3.7 หรือเปล่า น่าจะต้องเช็กให้แน่ใจ
เผื่อเป็นข้อมูลสำหรับคนที่ไม่มีการ์ดจอ RAM 24GB ผมใช้งานโมเดลนี้กับ Ollama ในเครื่อง 8GB RAM สำหรับงานง่าย ๆ อยู่ ถ้าเป็นงานที่คอนเท็กซ์วินโดว์ใหญ่และอ่อนไหวต่อเวลา แนะนำให้จ่ายใช้ API
- แชร์ตัวเลขละเอียด เช่น เวลารวม การโหลด และอัตราประเมินโทเค็น:
  - ตัวอย่าง 1: ใช้เวลา 35 วินาที ประมวลผล 6.27 โทเค็นต่อวินาที
  - ตัวอย่าง 2: ใช้เวลา 4 นาที 44 วินาที ประมวลผล 5.79 โทเค็นต่อวินาที
- โดยความรู้สึกแล้วช้ากว่าการเรียก API ราว 20% คิดว่าเพราะไม่มีการ์ดจอที่แนะนำ
- ประสิทธิภาพ benchmark ดูเหมือนจะถูกจูนมาได้ดีผิดปกติเมื่อเทียบกับขนาด และผมคิดว่าน่าจะเป็นเพราะมีการทดสอบเพื่อ optimize benchmark ซ้ำ ๆ ระหว่างพัฒนา ซึ่งมองว่า LLM ส่วนใหญ่ที่ทำการตลาดในสายไอทีก็ใช้กลยุทธ์คล้ายกัน สุดท้ายการ “พิสูจน์ว่าใช้งานได้จริงโดยไม่ต้องเสียเวลาทดสอบมาก” ก็เป็นจุดประนีประนอมที่ไม่ได้แย่
ผมอยู่ฝั่งที่ไม่ค่อยเชื่อ benchmark ที่ยกมา ถึงจะยังไม่ได้ลองใช้เอง แต่ในผลลัพธ์ของผม โมเดลตระกูล Mistral มักอยู่ระดับล่าง ๆ พอ ๆ กับ Llama เลยไม่ได้คาดหวังว่าประสิทธิภาพจริงจะออกมาระดับนี้
- ช่วงหลังผมได้ใช้โมเดล All Hands ซึ่งก็น่าจะอิง Mistral เหมือนกัน ความรู้สึกคือยังเทียบ Claude 3.7 Sonnet ไม่ได้ แต่ค่อนข้างนิ่งและเสถียร ใช้เป็น "AI pair-coding assistant" ได้สบาย และงานโครงสร้างใหญ่ก็ทำได้ถ้าแตกขั้นตอนย่อยให้มันทำ
- ผมก็ไม่ค่อยเชื่อเหมือนกัน ของแบบนี้ต้องลองเอง เช่น Qwen3 สำหรับผมถือว่าถอยหลังด้วยซ้ำ และตอนนี้ GLM4 คือมาตรฐาน ส่วนโมเดล 70b cogito ก็ดีมากแต่ไม่ค่อยมีคนพูดถึง ผมว่ามันต่างกันเยอะตามโปรเจกต์ ภาษา และงานที่ใช้ ถึงอย่างนั้นโมเดลนี้ก็ยังตั้งใจจะลองแน่นอน
ชอบที่เป็นไลเซนส์ Apache 2.0 ไม่ใช่ไลเซนส์แนว "open weight" ที่มีเงื่อนไขซับซ้อน ใช้เงื่อนไขชัดเจน แบบนี้ถือเป็นข้อดี
- ผมมองว่านี่คือจุดแข็งเชิงกลยุทธ์ของ Mistral ถ้าเป็นงานที่ยอมรับได้ในเชิงจริยธรรม ผมจะแนะนำ Gemma 3 แต่ถ้าไม่ใช่ ก็มีตัวเลือกเป็น LLM ที่ใช้ไลเซนส์ Apache
มีไอเดียว่าอยากให้ EU ออกค่าใช้จ่ายในการสร้างเอเจนต์/โมเดลนี้ ถ้ามันทำได้ดีอย่างที่หวังจริง Mistral ก็จะได้โฟกัสกับงานของตัวเองต่อไป และสำหรับฝั่งยุโรปก็ถือเป็นการใช้งบที่ฉลาด
- ถ้าภาษีของผมไปลงกับการพัฒนาโมเดลไลเซนส์ apache/mit ผมเห็นด้วย อย่างน้อยก็ช่วยรักษาทางเลือกและคานอำนาจการผูกขาดของบริษัทยักษ์ใหญ่ สุดท้ายมันสำคัญต่อการกันไม่ให้มีแค่ไม่กี่บริษัทครองเกม
- จริง ๆ แล้ว EU ก็ใช้เงินสร้างซูเปอร์คอมพิวเตอร์ให้สตาร์ตอัป AI ใช้อยู่แล้ว และ Mistral ก็เข้าร่วมโปรแกรมนี้ในฐานะพาร์ตเนอร์ด้วย
ผมเจอโมเดลนี้โดยบังเอิญตอนกำลังทดสอบการรองรับเครื่องมือของ LlamaIndex ตอนนี้กำลังทดลองเอาหลายโมเดลมาต่อกับโซลูชัน agentic coding ของตัวเอง แล้วก็กำลังจะใช้แนว ReAct พอดี เลยแปลกใจที่โมเดลนี้โผล่มา
- แต่ในระบบเอเจนต์ของผม โมเดลนี้คืนค่าแค่ "ไม่มีเครื่องมือ" ตลอด ลองใส่คำสั่งชัด ๆ ในหลายเอเจนต์พรอมป์ต์แล้ว เช่น ให้ "ใช้เครื่องมือ foo ทำงาน bar" ก็ยังแก้ไม่ได้ ToolSpec เป็นอ็อบเจ็กต์ Pydantic มาตรฐานพร้อม annotation และก่อนหน้านี้โมเดลอื่นก็มักหาเครื่องมือที่ต้องใช้ได้เอง
- สามารถบังคับ schema ของเครื่องมือได้ด้วยการจำกัดรูปแบบเอาต์พุต ถ้าช่วยมันนิดหน่อยก็ใช้ได้กับแทบทุกโมเดล
ดีใจที่ Mistral กลับมาปล่อยโมเดลโอเพนซอร์สจริง ๆ อีกครั้ง ยังรู้สึกอยู่เสมอว่ายุโรปจำเป็นต้องมีบริษัท AI ที่แข่งขันได้
- โมเดลใหม่ ๆ ของ Mistral ช่วงหลังน่าประทับใจ ผมจ่ายใช้ Le Chat Pro อยู่ นอกจากนี้ Mistral Small ก็ใช้งานได้ดีมากเหมือนกัน และตอนนี้ก็กำลังพัฒนาสตาร์ตอัปโดยผสาน Mistral เข้าไป
อยากได้คำแนะนำเกี่ยวกับโมเดลรันในเครื่องรุ่นใหม่หรือข้อมูลที่เกี่ยวข้อง สำหรับเครื่องสเปกไม่แรงอย่าง MacBook Air อยากรู้ล่วงหน้าโดยไม่ต้องลองเองว่าโมเดลไหน “พอใช้งานจริงได้” บนสเปกไหน และยังอยากตัดสินใจด้วยว่าจำเป็นไหมที่จะต้องเก็บโมเดลไว้ใน Ollama งานละ 2–3 ตัว Apple Intelligence ยังไม่ใช่คำตอบตอนนี้
- ถ้าเป็นโมเดลอเนกประสงค์ที่เหมาะกับการรันในเครื่อง แนะนำ Gemma 3 หรือ Mistral Small รุ่นล่าสุด บน Windows คอขวดเรื่องความเร็วคือ VRAM แต่บน Mac ตระกูล M จะเร็วกว่าเพราะเป็นหน่วยความจำบนชิป ขนาดโมเดลที่รันได้จะขึ้นอยู่กับ RAM จริงหลังหักส่วนที่ MacOS และแอปอื่นใช้ไปแล้ว
  - การประเมินหน่วยความจำของแต่ละโมเดล ให้ดูขนาดโมเดลแบบ quantized (ความแม่นยำต่ำ) ที่ HuggingFace หรือแหล่งอื่นให้ไว้ โดยใช้ Q4_K_M เป็นค่ามาตรฐานเบื้องต้นได้
  - สำหรับ Devstral คือ 14.3GB และต้องเผื่อเพิ่มอีก 1–8GB สำหรับเก็บคอนเท็กซ์
  - ตัวอย่าง:
    - MacBook Air 32GB → Devstral (14.3GB)+4GB เหลือราว 14GB ให้ระบบ/แอปอื่น
    - MacBook Air 16GB → Gemma 3 12B (7.3GB)+2GB เหลือราว 7GB
    - Mac 8GB → Gemma 3 4B (2.5GB)+1GB ซึ่งจริง ๆ ไม่แนะนำสำหรับการใช้งานจริง
- การลองด้วยตัวเองยังมีประสิทธิภาพที่สุด ขอแค่มีพื้นที่พอสำหรับขนาดโมเดล ก็สามารถติดตั้งและ build llama.cpp(https://github.com/ggml-org/llama.cpp) ได้ไม่ยาก และรองรับ MacBook Air ตระกูล M ได้ดีมาก ส่วนตัวผมใช้ LMStudio(https://lmstudio.ai/) เป็นหลัก อินเทอร์เฟซใช้ง่ายคล้าย ChatGPT หรือ Claude และค้นหา/ดาวน์โหลดโมเดลได้จากในโปรแกรมเลย สำหรับมือใหม่ใช้แค่ LMStudio ก็พอแล้ว ผมเองก็ใช้บน M2 MacBook Air บ่อยมาก
สงสัยว่าในงานจริงโมเดลนี้เทียบกับ hosted LLM อย่าง Claude 3.7 ได้แค่ไหน
- จริง ๆ แล้วการใช้งานคนละแบบกันโดยสิ้นเชิง เลยเทียบกันตรง ๆ ไม่ค่อยมีความหมาย

Devstral - Agentic LLM ของ Mistral

แนะนำ Devstral

ประสิทธิภาพของ Devstral บนเบนช์มาร์ก SWE-Bench Verified

ความหลากหลายและการประยุกต์ใช้

การเผยแพร่และการใช้งาน

แผนในอนาคต

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News