4 คะแนน โดย GN⁺ 2025-05-22 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Devstral คือ Agentic LLM สำหรับงานวิศวกรรมซอฟต์แวร์ พัฒนาขึ้นจากความร่วมมือระหว่าง Mistral AI และ All Hands AI
  • ทำผลงานได้ 46.8% สูงกว่ารุ่นโอเพนซอร์สเดิมมากกว่า 6% บนเบนช์มาร์ก SWE-Bench Verified
  • แสดง ประสิทธิภาพเหนือกว่ารุ่นคู่แข่ง (เช่น Deepseek-V3, Qwen3) และบางรุ่นคลোজด์ซอร์ส (เช่น GPT-4.1-mini)
  • ใช้งานแบบโลคัลได้ แม้บน RTX 4090 หรือ Mac ที่มี RAM 32GB เหมาะกับทั้งสภาพแวดล้อมระดับองค์กรและโคไพลอต
  • แจกฟรีภายใต้ไลเซนส์ Apache 2.0 พร้อมใช้งานและปรับแต่งได้ทันทีบนหลายแพลตฟอร์ม

แนะนำ Devstral

  • Devstral เป็น Agentic LLM (Agentic Large Language Model) สำหรับ งานวิศวกรรมซอฟต์แวร์ เช่น การเขียนโค้ด การแก้ไขโค้ด และการแก้ปัญหา issue
  • พัฒนาขึ้นจากความร่วมมือระหว่าง Mistral AI และ All Hands AI
  • Devstral ถูกฝึกให้แก้ GitHub issue ในโลกจริงได้จริง และทำงานบนโครงสร้างโค้ดเอเจนต์อย่าง OpenHands หรือ SWE-Agent

ประสิทธิภาพของ Devstral บนเบนช์มาร์ก SWE-Bench Verified

  • Devstral ทำคะแนนได้ 46.8% บน SWE-Bench Verified ซึ่ง สูงกว่ารุ่นโอเพนซอร์สที่ดีที่สุดมากกว่า 6 จุดเปอร์เซ็นต์
  • เมื่อวัดบน test scaffold เดียวกัน (OpenHands) ยังให้ผลลัพธ์ เหนือกว่ารุ่นที่ใหญ่กว่า อย่าง Deepseek-V3-0324(671B) และ Qwen3 232B-A22B
  • ในสภาพแวดล้อมทดสอบแบบคัสตอม Devstral ยังทำผลงานได้ดีกว่า โมเดลทางเลือกแบบคลोजด์ซอร์ส หลายรุ่น
    • ตัวอย่างเช่น มีความแม่นยำ สูงกว่า GPT-4.1-mini รุ่นล่าสุดมากกว่า 20%

ความหลากหลายและการประยุกต์ใช้

  • Devstral สามารถทำงานได้อย่างราบรื่นแม้บน RTX 4090 หรือ Mac ที่มี RAM 32GB จึงเหมาะกับการดีพลอยแบบโลคัลและการใช้งานบนอุปกรณ์
  • บนแพลตฟอร์มอย่าง OpenHands สามารถ เชื่อมต่อกับ codebase ในเครื่อง เพื่อแก้ issue ได้อย่างรวดเร็ว
  • เหมาะกับ รีโพซิทอรีโค้ดในระดับองค์กรที่ต้องการการปกป้องความเป็นส่วนตัว
  • สามารถนำไปใช้กับ สภาพแวดล้อมการพัฒนาที่หลากหลาย เช่น copilot หรือ agent IDE plugin

การเผยแพร่และการใช้งาน

  • Devstral ใช้ ไลเซนส์ Apache 2.0 ทำให้ทุกคนสามารถใช้งาน ปรับแต่ง และแจกจ่ายต่อได้ฟรี
  • มีคู่มือการใช้งานโมเดลและบทช่วยสอน พร้อมให้ดาวน์โหลดบนหลายแพลตฟอร์ม เช่น HuggingFace, Ollama, Kaggle, Unsloth และ LM Studio
  • มีให้ใช้งานบน API อย่างเป็นทางการของ Mistral ในนาม devstral-small-2505 และใช้นโยบายค่าบริการเดียวกับ Mistral Small 3.1
  • หากต้องการการปรับแต่งขั้นสูงในสภาพแวดล้อมองค์กร เช่น การไฟน์จูนที่เจาะจงกับ private codebase สามารถติดต่อสอบถามได้

แผนในอนาคต

  • ขณะนี้ Devstral อยู่ในขั้น research preview
  • ในอนาคตมีแผนจะเปิดตัว โมเดล agentic coding ขนาดใหญ่กว่าเดิม
  • หากต้องการสอบถามเกี่ยวกับการใช้งาน Devstral หรือโมเดลและโซลูชันต่าง ๆ ของ Mistral สามารถติดต่อผ่านช่องทางทางการได้

1 ความคิดเห็น

 
GN⁺ 2025-05-22
ความคิดเห็นบน Hacker News
  • ช่วงนี้ผมเช็กขนาดไฟล์ก่อนด้วย Ollama เป็นประจำ แล้วก็พบว่าโมเดลนี้อยู่ที่ราว 14GB ดูได้ที่ https://ollama.com/library/devstral/tags บน M2 Mac ปกติจะต้องใช้หน่วยความจำเพิ่มจากขนาดไฟล์โมเดลอีกราว 10% เลยช่วยให้ประเมินได้ว่ามี RAM เหลือพอจะเปิดแอปอะไรควบคู่กันได้บ้าง โมเดลที่ต่ำกว่า 20GB โดยมากแทบไม่กระทบการใช้งานโปรแกรมอื่น รุ่นนี้เลยค่อนข้างน่าคาดหวัง

    • อยากได้คำแนะนำซอฟต์แวร์พัฒนาแบบ agentic ที่ทำงานกับโมเดลรันในเครื่องได้ดี เคยลอง Cursor แล้วแต่ไม่ค่อยประทับใจ กลับรู้สึกว่าสลับใช้ editor กับ ChatGPT ยังดีกว่า ยังลอง Localforge กับ aider ด้วย แต่บนโมเดลโลคัลจะค่อนข้างช้านิดหน่อย

    • เห็นด้วย ผมก็ลองรันโมเดลนี้บนเครื่องตัวเองแล้วและประทับใจพอสมควร จัดการโค้ด tricky ที่เกี่ยวกับ Ruby หรือ rspec ได้ดีด้วย ตั้งใจจะลองทดสอบกับ aider ต่อในสถานการณ์ที่มีคอนเท็กซ์ใหญ่

  • คะแนน SWE-Bench สูงมากเมื่อเทียบกับขนาดของโมเดลโอเพนซอร์ส 46.8% สูงกว่า o3-mini (พร้อม Agentless-lite) หรือ Claude 3.6 (ใช้กับ AutoCodeRover) และต่ำกว่า Claude 3.6 ที่มี scaffold แบบปิดของ Anthropic เพียงเล็กน้อย พอนึกว่ารันได้แทบฟรีก็ถือว่าน่าทึ่งมาก

    • มันชวนให้คิดว่า “น่าทึ่ง” หรือไม่ก็ benchmark อาจไม่ได้ทำหน้าที่อย่างที่ควร

    • นี่หมายถึง Claude 3.7 หรือเปล่า น่าจะต้องเช็กให้แน่ใจ

  • เผื่อเป็นข้อมูลสำหรับคนที่ไม่มีการ์ดจอ RAM 24GB ผมใช้งานโมเดลนี้กับ Ollama ในเครื่อง 8GB RAM สำหรับงานง่าย ๆ อยู่ ถ้าเป็นงานที่คอนเท็กซ์วินโดว์ใหญ่และอ่อนไหวต่อเวลา แนะนำให้จ่ายใช้ API

    • แชร์ตัวเลขละเอียด เช่น เวลารวม การโหลด และอัตราประเมินโทเค็น:
      • ตัวอย่าง 1: ใช้เวลา 35 วินาที ประมวลผล 6.27 โทเค็นต่อวินาที
      • ตัวอย่าง 2: ใช้เวลา 4 นาที 44 วินาที ประมวลผล 5.79 โทเค็นต่อวินาที
    • โดยความรู้สึกแล้วช้ากว่าการเรียก API ราว 20% คิดว่าเพราะไม่มีการ์ดจอที่แนะนำ
    • ประสิทธิภาพ benchmark ดูเหมือนจะถูกจูนมาได้ดีผิดปกติเมื่อเทียบกับขนาด และผมคิดว่าน่าจะเป็นเพราะมีการทดสอบเพื่อ optimize benchmark ซ้ำ ๆ ระหว่างพัฒนา ซึ่งมองว่า LLM ส่วนใหญ่ที่ทำการตลาดในสายไอทีก็ใช้กลยุทธ์คล้ายกัน สุดท้ายการ “พิสูจน์ว่าใช้งานได้จริงโดยไม่ต้องเสียเวลาทดสอบมาก” ก็เป็นจุดประนีประนอมที่ไม่ได้แย่
  • ผมอยู่ฝั่งที่ไม่ค่อยเชื่อ benchmark ที่ยกมา ถึงจะยังไม่ได้ลองใช้เอง แต่ในผลลัพธ์ของผม โมเดลตระกูล Mistral มักอยู่ระดับล่าง ๆ พอ ๆ กับ Llama เลยไม่ได้คาดหวังว่าประสิทธิภาพจริงจะออกมาระดับนี้

    • ช่วงหลังผมได้ใช้โมเดล All Hands ซึ่งก็น่าจะอิง Mistral เหมือนกัน ความรู้สึกคือยังเทียบ Claude 3.7 Sonnet ไม่ได้ แต่ค่อนข้างนิ่งและเสถียร ใช้เป็น "AI pair-coding assistant" ได้สบาย และงานโครงสร้างใหญ่ก็ทำได้ถ้าแตกขั้นตอนย่อยให้มันทำ

    • ผมก็ไม่ค่อยเชื่อเหมือนกัน ของแบบนี้ต้องลองเอง เช่น Qwen3 สำหรับผมถือว่าถอยหลังด้วยซ้ำ และตอนนี้ GLM4 คือมาตรฐาน ส่วนโมเดล 70b cogito ก็ดีมากแต่ไม่ค่อยมีคนพูดถึง ผมว่ามันต่างกันเยอะตามโปรเจกต์ ภาษา และงานที่ใช้ ถึงอย่างนั้นโมเดลนี้ก็ยังตั้งใจจะลองแน่นอน

  • ชอบที่เป็นไลเซนส์ Apache 2.0 ไม่ใช่ไลเซนส์แนว "open weight" ที่มีเงื่อนไขซับซ้อน ใช้เงื่อนไขชัดเจน แบบนี้ถือเป็นข้อดี

    • ผมมองว่านี่คือจุดแข็งเชิงกลยุทธ์ของ Mistral ถ้าเป็นงานที่ยอมรับได้ในเชิงจริยธรรม ผมจะแนะนำ Gemma 3 แต่ถ้าไม่ใช่ ก็มีตัวเลือกเป็น LLM ที่ใช้ไลเซนส์ Apache
  • มีไอเดียว่าอยากให้ EU ออกค่าใช้จ่ายในการสร้างเอเจนต์/โมเดลนี้ ถ้ามันทำได้ดีอย่างที่หวังจริง Mistral ก็จะได้โฟกัสกับงานของตัวเองต่อไป และสำหรับฝั่งยุโรปก็ถือเป็นการใช้งบที่ฉลาด

    • ถ้าภาษีของผมไปลงกับการพัฒนาโมเดลไลเซนส์ apache/mit ผมเห็นด้วย อย่างน้อยก็ช่วยรักษาทางเลือกและคานอำนาจการผูกขาดของบริษัทยักษ์ใหญ่ สุดท้ายมันสำคัญต่อการกันไม่ให้มีแค่ไม่กี่บริษัทครองเกม

    • จริง ๆ แล้ว EU ก็ใช้เงินสร้างซูเปอร์คอมพิวเตอร์ให้สตาร์ตอัป AI ใช้อยู่แล้ว และ Mistral ก็เข้าร่วมโปรแกรมนี้ในฐานะพาร์ตเนอร์ด้วย

  • ผมเจอโมเดลนี้โดยบังเอิญตอนกำลังทดสอบการรองรับเครื่องมือของ LlamaIndex ตอนนี้กำลังทดลองเอาหลายโมเดลมาต่อกับโซลูชัน agentic coding ของตัวเอง แล้วก็กำลังจะใช้แนว ReAct พอดี เลยแปลกใจที่โมเดลนี้โผล่มา

    • แต่ในระบบเอเจนต์ของผม โมเดลนี้คืนค่าแค่ "ไม่มีเครื่องมือ" ตลอด ลองใส่คำสั่งชัด ๆ ในหลายเอเจนต์พรอมป์ต์แล้ว เช่น ให้ "ใช้เครื่องมือ foo ทำงาน bar" ก็ยังแก้ไม่ได้ ToolSpec เป็นอ็อบเจ็กต์ Pydantic มาตรฐานพร้อม annotation และก่อนหน้านี้โมเดลอื่นก็มักหาเครื่องมือที่ต้องใช้ได้เอง

    • สามารถบังคับ schema ของเครื่องมือได้ด้วยการจำกัดรูปแบบเอาต์พุต ถ้าช่วยมันนิดหน่อยก็ใช้ได้กับแทบทุกโมเดล

  • ดีใจที่ Mistral กลับมาปล่อยโมเดลโอเพนซอร์สจริง ๆ อีกครั้ง ยังรู้สึกอยู่เสมอว่ายุโรปจำเป็นต้องมีบริษัท AI ที่แข่งขันได้

    • โมเดลใหม่ ๆ ของ Mistral ช่วงหลังน่าประทับใจ ผมจ่ายใช้ Le Chat Pro อยู่ นอกจากนี้ Mistral Small ก็ใช้งานได้ดีมากเหมือนกัน และตอนนี้ก็กำลังพัฒนาสตาร์ตอัปโดยผสาน Mistral เข้าไป
  • อยากได้คำแนะนำเกี่ยวกับโมเดลรันในเครื่องรุ่นใหม่หรือข้อมูลที่เกี่ยวข้อง สำหรับเครื่องสเปกไม่แรงอย่าง MacBook Air อยากรู้ล่วงหน้าโดยไม่ต้องลองเองว่าโมเดลไหน “พอใช้งานจริงได้” บนสเปกไหน และยังอยากตัดสินใจด้วยว่าจำเป็นไหมที่จะต้องเก็บโมเดลไว้ใน Ollama งานละ 2–3 ตัว Apple Intelligence ยังไม่ใช่คำตอบตอนนี้

    • ถ้าเป็นโมเดลอเนกประสงค์ที่เหมาะกับการรันในเครื่อง แนะนำ Gemma 3 หรือ Mistral Small รุ่นล่าสุด บน Windows คอขวดเรื่องความเร็วคือ VRAM แต่บน Mac ตระกูล M จะเร็วกว่าเพราะเป็นหน่วยความจำบนชิป ขนาดโมเดลที่รันได้จะขึ้นอยู่กับ RAM จริงหลังหักส่วนที่ MacOS และแอปอื่นใช้ไปแล้ว

      • การประเมินหน่วยความจำของแต่ละโมเดล ให้ดูขนาดโมเดลแบบ quantized (ความแม่นยำต่ำ) ที่ HuggingFace หรือแหล่งอื่นให้ไว้ โดยใช้ Q4_K_M เป็นค่ามาตรฐานเบื้องต้นได้
      • สำหรับ Devstral คือ 14.3GB และต้องเผื่อเพิ่มอีก 1–8GB สำหรับเก็บคอนเท็กซ์
      • ตัวอย่าง:
        • MacBook Air 32GB → Devstral (14.3GB)+4GB เหลือราว 14GB ให้ระบบ/แอปอื่น
        • MacBook Air 16GB → Gemma 3 12B (7.3GB)+2GB เหลือราว 7GB
        • Mac 8GB → Gemma 3 4B (2.5GB)+1GB ซึ่งจริง ๆ ไม่แนะนำสำหรับการใช้งานจริง
    • การลองด้วยตัวเองยังมีประสิทธิภาพที่สุด ขอแค่มีพื้นที่พอสำหรับขนาดโมเดล ก็สามารถติดตั้งและ build llama.cpp(https://github.com/ggml-org/llama.cpp) ได้ไม่ยาก และรองรับ MacBook Air ตระกูล M ได้ดีมาก ส่วนตัวผมใช้ LMStudio(https://lmstudio.ai/) เป็นหลัก อินเทอร์เฟซใช้ง่ายคล้าย ChatGPT หรือ Claude และค้นหา/ดาวน์โหลดโมเดลได้จากในโปรแกรมเลย สำหรับมือใหม่ใช้แค่ LMStudio ก็พอแล้ว ผมเองก็ใช้บน M2 MacBook Air บ่อยมาก

  • สงสัยว่าในงานจริงโมเดลนี้เทียบกับ hosted LLM อย่าง Claude 3.7 ได้แค่ไหน

    • จริง ๆ แล้วการใช้งานคนละแบบกันโดยสิ้นเชิง เลยเทียบกันตรง ๆ ไม่ค่อยมีความหมาย