9 คะแนน โดย GN⁺ 2025-12-10 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Devstral 2 คือโมเดลเขียนโค้ดโอเพนซอร์สรุ่นถัดไปขนาด 123B พารามิเตอร์ ทำผลงานได้ 72.2% บน SWE-bench Verified และมีประสิทธิภาพสูงกว่าเมื่อเทียบกับโมเดลคู่แข่ง
  • Devstral Small 2 มีขนาด 24B พารามิเตอร์และสามารถรันบนฮาร์ดแวร์สำหรับผู้ใช้ทั่วไปได้ พร้อมเผยแพร่ภายใต้ ไลเซนส์ Apache 2.0
  • Mistral Vibe CLI คือ เอเจนต์เทอร์มินัลโอเพนซอร์ส ที่ทำงานบนพื้นฐานของ Devstral สามารถสำรวจ แก้ไข และรันโค้ดด้วยภาษาธรรมชาติ
  • Devstral 2 มี ความคุ้มค่าด้านต้นทุนสูงสุดถึง 7 เท่าเมื่อเทียบกับ Claude Sonnet และแม้จะเล็กกว่า DeepSeek V3.2 ถึง 5 เท่า ก็ยังคงรักษาประสิทธิภาพระดับสูงไว้ได้
  • ถูกมองว่าเป็นเครื่องมือสำคัญสำหรับ การทำงานอัตโนมัติของโค้ดในวงกว้างและการเร่งปัญญาแบบกระจาย ในระบบนิเวศโอเพนซอร์ส

ภาพรวมของ Devstral 2

  • Devstral 2 เป็น โมเดล dense transformer ขนาด 123B พารามิเตอร์ ที่รองรับ context window 256K
    • ทำผลงานได้ 72.2% บน SWE-bench Verified และอยู่ในกลุ่มโมเดลโอเพนเวตที่มีประสิทธิภาพระดับแนวหน้า
    • เปิดเผยภายใต้ ไลเซนส์ MIT แบบปรับแก้ และนำเสนอเกณฑ์ใหม่สำหรับเอเจนต์เขียนโค้ดโอเพนซอร์ส
  • Devstral Small 2 ทำคะแนน 68.0% บน SWE-bench Verified และยังรักษาระดับใกล้เคียงกับโมเดลที่ใหญ่กว่าถึง 5 เท่า
    • สามารถรันแบบโลคัลบนฮาร์ดแวร์สำหรับผู้ใช้ทั่วไปได้ พร้อมการอนุมานที่รวดเร็วและวงจรฟีดแบ็กแบบปรับให้เหมาะกับผู้ใช้
    • รองรับอินพุตภาพและ สามารถขับเคลื่อนเอเจนต์แบบมัลติโหมดได้
  • Devstral 2 (123B) และ Small 2 (24B) มีขนาดเล็กกว่า DeepSeek V3.2 อยู่ 5 เท่าและ 28 เท่าตามลำดับ และเล็กกว่า Kimi K2 อยู่ 8 เท่าและ 41 เท่าตามลำดับ
    • ด้วย สถาปัตยกรรมโมเดลที่กะทัดรัดลง จึงนำไปติดตั้งใช้งานบนฮาร์ดแวร์ที่มีข้อจำกัดได้ง่าย

รองรับเวิร์กโฟลว์ระดับโปรดักชัน

  • Devstral 2 รองรับ การสำรวจโค้ดเบสและการจัดการการเปลี่ยนแปลงหลายไฟล์ โดยยังคงรักษาบริบทในระดับสถาปัตยกรรมไว้ได้
    • มีความสามารถติดตาม dependency ของเฟรมเวิร์ก ตรวจจับความล้มเหลว และลองใหม่โดยอัตโนมัติ
    • สามารถทำงาน แก้บั๊กและปรับระบบ legacy ให้ทันสมัย ได้
  • รองรับ การ fine-tune ให้เหมาะกับภาษาเฉพาะหรือโค้ดเบสองค์กรขนาดใหญ่
  • ในการเปรียบเทียบ การประเมินโดยมนุษย์ กับ DeepSeek V3.2 และ Claude Sonnet 4.5 พบว่าเหนือกว่า DeepSeek (อัตราชนะ 42.8%)
    • อย่างไรก็ตาม ยังมีช่องว่างด้านประสิทธิภาพเมื่อเทียบกับ Claude Sonnet 4.5
  • Cline ประเมินว่า Devstral 2 เป็น “โมเดลเขียนโค้ดโอเพนซอร์สระดับท็อป” และระบุว่า อัตราความสำเร็จในการเรียกใช้เครื่องมือใกล้เคียงกับโมเดลปิด
  • Kilo Code ประกาศว่าภายใน 24 ชั่วโมงแรกหลังเปิดตัว มี การใช้งานโทเคน 17B

Mistral Vibe CLI

  • ผู้ช่วยเขียนโค้ดแบบ CLI โอเพนซอร์สที่ทำงานบน Devstral สามารถสำรวจ แก้ไข และรันโค้ดผ่านคำสั่งภาษาธรรมชาติได้
    • เปิดเผยภายใต้ ไลเซนส์ Apache 2.0
    • ใช้งานได้ทั้งในเทอร์มินัลหรือ IDE (เชื่อมต่อผ่าน Agent Communication Protocol)
  • ความสามารถหลัก
    • บริบทที่รับรู้โปรเจกต์: สแกนโครงสร้างไฟล์และสถานะ Git โดยอัตโนมัติ
    • การอ้างอิงอัจฉริยะ: เติมข้อความอัตโนมัติด้วย @, รันคำสั่งด้วย !, และเปลี่ยนการตั้งค่าด้วยคำสั่งแบบสแลช
    • การ orchestration หลายไฟล์: อนุมานในระดับสถาปัตยกรรมจากความเข้าใจทั้งโค้ดเบส
    • รองรับ ประวัติแบบต่อเนื่อง การเติมข้อความอัตโนมัติ และการปรับแต่งธีม
  • สามารถปรับเวิร์กโฟลว์ให้เหมาะกับงานได้ เช่น การรันสคริปต์ การสลับเปิดปิดการอนุมัติอัตโนมัติ การตั้งค่าโมเดลโลคัล และการควบคุมสิทธิ์

การติดตั้งใช้งานและการใช้งาน

  • ขณะนี้ Devstral 2 ให้บริการผ่าน API ฟรี และในภายหลังมีแผนคิดค่าบริการ $0.40/$2.00 ต่ออินพุต/เอาต์พุต
    • Devstral Small 2 มีค่าบริการ $0.10/$0.30
  • สามารถใช้งานร่วมกับเครื่องมือเอเจนต์แบบเปิดอย่าง Kilo Code และ Cline
  • ใช้งาน Vibe CLI ได้โดยตรงผ่าน ส่วนขยาย Zed IDE
  • Devstral 2 ต้องใช้ GPU ระดับดาต้าเซ็นเตอร์ (อย่างน้อย 4×H100) และสามารถทดลองได้ที่ build.nvidia.com
    • ส่วน Devstral Small 2 สามารถรันได้แม้ในสภาพแวดล้อมที่มี GPU เดี่ยวหรือ CPU
    • มีแผนรองรับ NVIDIA NIM
  • เพื่อให้ได้ประสิทธิภาพสูงสุด แนะนำให้ตั้งค่า temperature 0.2 และปฏิบัติตามแนวทางที่ดีที่สุดของ Vibe CLI

ชุมชนและการรับสมัครงาน

  • Mistral สนับสนุนให้ผู้ใช้ แชร์โปรเจกต์และเข้าร่วมให้ฟีดแบ็ก โดยใช้ Devstral 2, Small 2 และ Vibe CLI
    • สามารถสื่อสารผ่านช่องทาง X/Twitter, Discord และ GitHub
  • กำลัง เปิดรับบุคลากรด้านการวิจัยโอเพนซอร์สและการพัฒนาอินเทอร์เฟซ โดยสมัครได้ผ่านหน้ารับสมัครงานอย่างเป็นทางการของ Mistral

1 ความคิดเห็น

 
GN⁺ 2025-12-10
ความคิดเห็นบน Hacker News
  • ติดตั้ง โมเดล Mistral ด้วยคำสั่ง llm install llm-mistral แล้วหลังจาก llm mistral refresh ก็สร้างภาพ SVG ด้วย llm -m mistral/devstral-2512 "Generate an SVG of a pelican riding a bicycle"
    ดูผลลัพธ์ได้ที่ลิงก์นี้. สำหรับโมเดล 123B ถือว่าผลออกมาดีทีเดียว
    ID ของโมเดลอาจไม่ถูกต้องเป๊ะ เลยไปถาม Mistral โดยตรง

    • ตอนนี้ก็มีความเป็นไปได้ว่าพรอมป์ต์อย่าง “สร้าง SVG ของนกกระทุงขี่จักรยาน” อาจถูกรวมอยู่ใน ข้อมูลฝึก แล้ว แบบนี้ใช้เป็นเบนช์มาร์กได้ก็จริง แต่ถ้าอยากหลีกเลี่ยง benchmaxxing ก็น่าจะต้องมีการทดสอบแบบสุ่มด้วย
    • เลยสงสัยขึ้นมาว่าโมเดลนี้จะสามารถสร้างเว็บไซต์ Space Jam ปี 1996ขึ้นมาใหม่ได้ไหม
    • SVG ถึงจะเป็นโค้ด แต่ก็ไม่ใช่ โค้ดที่รันได้ ดังนั้นอาจทำให้การประเมินโมเดลโค้ดดิ้งค่อนข้างชวนให้เข้าใจผิดได้ ถึงอย่างนั้นผลลัพธ์ก็ยังน่าประทับใจ
    • สงสัยว่าไปหาเครื่องมือ llm มาจากไหน
    • เหมือนจะข้ามจักรยานไปแล้วอัปเกรดเป็น มอเตอร์ไซค์ เท่ ๆ แทน
  • แม้ Mistral จะตามหลัง SOTA อยู่ราว 1 ปี แต่ตอนนี้ ความเร็วและความคุ้มค่าด้านราคา เริ่มดีขึ้นแล้ว ยังไม่พอสำหรับการใช้งานของฉัน แต่กำลังไล่ตามมาเร็วมาก โมเดลคู่แข่งที่นึกออกก็มี Haiku 4.5, Gemini 3 Pro Fast และโมเดลเบารุ่นใหม่ของ OpenAI (GPT 5.1 Codex Max Extra High Fast?)

    • ได้ยินมาว่าโมเดลใหม่ของ OpenAI จะชื่อ Garlic แต่คงไม่ปล่อยชื่อนี้จริงหรอกมั้ง?
    • ถ้าเทียบกับ Deepseek-v3.2 แล้ว ความสามารถทั่วไป ด้อยกว่ามาก และราคาก็แพงกว่า 5 เท่า
  • ลองรัน Devstral 2 บน CLI เพื่อรีวิวโปรเจกต์ส่วนตัวขนาด 500KB
    มันเข้าใจการทำงานของโปรแกรมได้อย่างแม่นยำ, แก้บั๊ก 2 จุด, ปรับปรุงโค้ด และเพิ่มฟีเจอร์เล็ก ๆ อีก 2 อย่าง
    มันสร้างบั๊กใหม่ขึ้นมา 1 จุด แต่พอทักก็แก้ให้ทันที
    การแก้โค้ดค่อนข้างน้อยและไม่มีการเขียนใหม่โดยไม่จำเป็น
    ยังเร็วเกินไปที่จะสรุป แต่ดูเป็น โมเดลที่มีความสามารถ มาก

    • อยากรู้ว่าใช้รันบนฮาร์ดแวร์อะไร
  • กำลังคิดจะลองใช้ Devstral ด้วยตัวเอง โมเดลก่อนหน้านี้ก็ใช้กับ การเขียนโค้ดแบบเอเจนต์บนเครื่องโลคัล ได้โอเค
    แต่ชื่อ “Vibe CLI” ให้ความรู้สึก เบา ๆ เกินไป
    ‘Vibe-coding’ สนุกดีถ้าจะใช้ทดลองขีดจำกัดของโมเดล แต่ไม่เหมาะกับ งานโปรที่ต้องมีการควบคุมคุณภาพ
    ช่วงนี้ทุกคนมัวแต่สนใจ vibe-coding แต่ก็อดสงสัยไม่ได้ว่าเครื่องมือ LLM สำหรับงานมืออาชีพ ที่เอาไว้ช่วยเสริมสติปัญญามนุษย์จริง ๆ อยู่ที่ไหน

    • เอเจนต์ CLI ตัวใหม่ mistral-vibe เขียนด้วย Python และรองรับ โปรโตคอล ACP ของ Zed
    • แอปจำนวนมากถูกสร้างขึ้นเป็น บริการชั่วคราว เพื่อจุดประสงค์ทางธุรกิจระยะสั้น ดังนั้น agentic coding จึงมีประโยชน์มากพอกับ “บริการกระดาษแข็ง” แบบนั้น แต่ไม่เหมาะกับโครงสร้างพื้นฐานข้อมูลระดับอุตสาหกรรม
    • Brokk ที่เรากำลังสร้างอยู่นี่แหละคือ เครื่องมือสำหรับงานมืออาชีพ แบบนั้น ดูคำแนะนำได้ในบล็อกโพสต์นี้
    • บางคนก็ตอบกลับว่า “งั้นหมายความว่า Claude Code ยังไม่ดีพอเหรอ?”
    • ตอนนี้ก็มีความเห็นว่า คุณภาพของ สเปกและการทดสอบ สำคัญกว่าคุณภาพของโค้ดเสียอีก
  • กำลังคิดเรื่อง ชุดฮาร์ดแวร์ราคา $5,000 สำหรับรัน Devstral Small 2
    อยากรู้ ความเร็วในการประมวลผลโทเค็น บน Mac 32GB, RTX 4090, DGX Spark, RTX 5090, external GPU (Oculink) ฯลฯ

    • $5,000 เป็นงบที่ค่อนข้างก้ำกึ่ง เลยแนะนำให้เช่า cloud GPU แทน
      ถ้าอยากได้แรงมากก็ RTX 5090, ถ้าต้องการความเข้ากันได้กับ CUDA ก็ DGX Spark, ถ้าจะรันโมเดลใหญ่ก็เหมาะกับ Strix Halo 128GB หรือ M3 Ultra
      ถ้าอยากดูเบนช์มาร์กจริง แนะนำให้หาในr/LocalLLaMA
    • ชุด 3090 คู่ (24GB×2) ตอนนี้คุ้มค่าที่สุดในแง่ราคา/ประสิทธิภาพ
      ถ้าจะขยับขึ้นไปอีกก็มีเซิร์ฟเวอร์ 8×V100 (32GB×8, RAM 512GB, NVLink) ด้วย แต่ต้องใช้ไฟ 240V
    • ฉันใช้ชุด 7900XTX + 128GB DDR4 และก็ ไม่ชอบ NVIDIA
  • ชื่อ “Vibe CLI” ฟังดูเหมือน เครื่องมือเบา ๆ เกินไป
    ฉันใช้ Claude Code บ่อย แต่ไม่ได้เรียกมันว่า vibe-coding

    • ชื่อแบบนี้อาจเป็น มีมเพื่อการตลาด ก็ได้ เหมือนอยากให้คนสนใจด้วยพาดหัวแนว “บริษัทฝรั่งเศสออกเครื่องมือสำหรับ ‘เขียนโค้ดด้วย vibe’!”
    • ฉันคิดว่าการให้ LLM เขียนโค้ดนั้นโดยเนื้อแท้แล้วเหมาะกับ งานเบา ๆ มากกว่า
    • ถ้าคุณให้ Claude เขียนโค้ดแทน นั่นก็คือ vibe-coding อยู่ดี
    • หรืออาจจะแค่ ตั้งชื่อให้ขำ ๆ ก็ได้
  • ดีใจที่เป็น CLI ที่ไม่ได้ใช้ React
    Vibe-cli สร้างด้วย เฟรมเวิร์ก Textual

    • แต่พอเป็น Python ก็แอบกังวลว่า ความเร็วการแสดงผล จะช้า เพราะเคยเจอปัญหาแบบเดียวกันใน Aider มาก่อน
  • ถ้า Mistral ถูกกว่า Claude 10 เท่าต่อโทเค็น ก็ถือว่าน่าสนใจมาก
    ตราบใดที่ประสิทธิภาพไม่ได้แย่กว่า 10 เท่าด้วย

    • GPT 5-mini ก็ถูกกว่า Haiku มากเหมือนกัน แต่พอลองใช้จริงแล้วรู้สึกว่า เสียเวลาเปล่า
      ที่บริษัทเราใช้ Haiku, Sonnet, Opus แต่ถ้าเป็นงบส่วนตัวฉันใช้ minimax m2
    • ถ้าถูกกว่า 10 เท่าแต่ช้ากว่า 2 เท่า สุดท้ายอาจ เปลืองโทเค็น จนแพงกว่าเดิมก็ได้
    • ตอนนี้แม้แต่โมเดล SOTA ก็ยังไม่ได้เก่งเรื่องโค้ดดิ้งแบบสมบูรณ์แบบ ดังนั้นจึงไม่เห็นเหตุผลว่าต้องไปเน้น การปรับราคาให้เหมาะที่สุด มากนัก
  • ทำ แพ็กเกจ AUR สำหรับ Mistral-vibe ไว้แล้ว
    ลิงก์แพ็กเกจ

  • ถ้าเป็นผู้ใช้ Nix ก็รันได้ทันทีด้วยคำสั่งด้านล่าง

    nix run github:numtide/llm-agents.nix#mistral-vibe
    

    รีโพซิทอรีจะอัปเดตทุกวัน

    • คิดว่าเป็นโปรเจกต์ที่เจ๋งมาก ขอบคุณที่เอามาแชร์