Mistral Medium 3.5
(mistral.ai)- โมเดล 128B dense รองรับ instruction-following, reasoning และ coding ภายใต้น้ำหนักชุดเดียว และเปิดให้ใช้งานแบบ public preview
- รองรับ context window 256k และการตั้งค่า reasoning effort แยกตามแต่ละคำขอ ทำให้ใช้โมเดลเดียวกันได้ทั้งกับการตอบแชตสั้น ๆ และการทำงานแบบ agentic ที่ซับซ้อน
- เซสชัน Vibe coding ทำงาน แบบอะซิงโครนัสบนคลาวด์ และรันหลายเซสชันแบบขนานได้ ขณะที่เซสชัน CLI บนเครื่องสามารถ teleport ไปยังคลาวด์พร้อม history, task state และ approval ได้
- Work mode ของ Le Chat เป็น agentic mode ที่ขับเคลื่อนด้วย Mistral Medium 3.5 โดยใช้ context จาก connected tools, documents, mailboxes และ calendars และจะขอการอนุมัติแบบชัดเจนสำหรับงานที่มีความอ่อนไหว
- โมเดลนี้จะเป็น โมเดลพื้นฐานของ Le Chat และมาแทนที่ Devstral 2 ใน Vibe CLI โดยราคา API อยู่ที่ $1.5 ต่อ 1 ล้าน input token และ $7.5 ต่อ 1 ล้าน output token
เปิดตัว Mistral Medium 3.5
- vision encoder ถูกฝึกขึ้นใหม่ตั้งแต่ scratch เพื่อรองรับภาพหลายขนาดและหลาย aspect ratio
- ทำคะแนนได้ 77.6% บน SWE-Bench Verified แซงหน้าโมเดลอย่าง Devstral 2 และ Qwen3.5 397B A17B
- บน τ³-Telecom ทำคะแนนได้ 91.4 และมุ่งเน้นการเรียกใช้หลายเครื่องมือ รวมถึงการสร้าง structured output ที่ downstream code สามารถนำไปใช้ต่อได้
เอเจนต์เขียนโค้ดระยะไกลของ Vibe
- ตอนนี้เซสชันเขียนโค้ดทำงาน แบบอะซิงโครนัสบนคลาวด์ ได้แล้ว ทำให้งานที่ใช้เวลานานสามารถดำเนินต่อได้ขณะผู้ใช้ไม่อยู่หน้าจอ
- สามารถ รันหลายเซสชันแบบขนาน ได้ ทำให้นักพัฒนาไม่กลายเป็นคอขวดในแต่ละขั้นตอนที่เอเจนต์กำลังทำงาน
- เอเจนต์บนคลาวด์เริ่มใช้งานได้จาก Mistral Vibe CLI หรือ Le Chat
- ระหว่างการทำงานสามารถดู file diff, tool call, progress state และคำถามจากเอเจนต์ได้
- เซสชัน CLI บนเครื่องสามารถ teleport ไปยังคลาวด์ได้ โดยจะย้ายทั้ง session history, task state และ approval ไปพร้อมกัน
โครงสร้างที่ผสานเข้ากับเวิร์กโฟลว์การพัฒนา
- Vibe ทำงานอยู่ระหว่างระบบต่าง ๆ ที่ทีมพัฒนาใช้อยู่แล้ว และคง human-in-the-loop ไว้ในทุกจุดที่จำเป็น
- เชื่อมต่อกับ GitHub ผ่าน code และ pull request และเชื่อมกับ Linear และ Jira ผ่าน issue
- เชื่อมกับ Sentry สำหรับการจัดการ incident และเชื่อมกับแอปอย่าง Slack และ Teams สำหรับการรายงาน
- แต่ละเซสชันเขียนโค้ดทำงานใน isolated sandbox และอาจรวมถึงการแก้ไขและติดตั้งในวงกว้าง
- เมื่องานเสร็จ เอเจนต์สามารถเปิด GitHub pull request และส่งการแจ้งเตือนได้ ทำให้นักพัฒนาตรวจทานผลลัพธ์แทนการต้องตามดูทุก keystroke
งานเขียนโค้ดที่เหมาะสมและการทำงานผ่าน Le Chat
- เอเจนต์ระยะไกลของ Vibe เหมาะกับ well-defined work ที่ยังต้องใช้วิจารณญาณของนักพัฒนา แต่กินเวลามาก
- งานที่เหมาะรวมถึง module refactor, test generation, dependency upgrade, การตรวจสอบ CI และ bug fix
- สามารถ orchestrate Workflows ใน Mistral Studio เพื่อให้ใช้งาน Mistral Vibe ผ่าน Le Chat ได้
- ฟีเจอร์นี้ถูกสร้างขึ้นสำหรับสภาพแวดล้อมเขียนโค้ดภายในก่อน แล้วจึงนำไปใช้กับ enterprise customers
- ตอนนี้สามารถเริ่มงานเขียนโค้ดจากบนเว็บได้ และรันหลายงานแบบขนานโดยไม่ต้องผูกติดกับเทอร์มินัลบนเครื่อง
- งานที่สร้างใน Le Chat จะรันบน remote runtime เดียวกับที่ CLI และเว็บใช้ร่วมกัน และจะกลับมาเป็น finished branch หรือ draft PR ในภายหลัง
Work mode ของ Le Chat
- Work mode เป็น agentic mode ใน Le Chat สำหรับจัดการงานที่ซับซ้อน โดยขับเคลื่อนด้วย harness ใหม่และ Mistral Medium 3.5
- เอเจนต์ทำหน้าที่เป็น execution backend ของตัว assistant เอง ทำให้ Le Chat สามารถอ่านและเขียน ใช้หลายเครื่องมือพร้อมกัน และจัดการโปรเจ็กต์หลายขั้นตอนได้
-
เวิร์กโฟลว์ข้ามเครื่องมือ
- ติดตาม email, message และ calendar ได้ภายในการรันครั้งเดียว
- เตรียมการประชุมได้ด้วย context ของผู้เข้าร่วม ข่าวล่าสุด และ talking point ที่ดึงมาจาก source
-
การสืบค้นและการสังเคราะห์
- สามารถค้นคว้าหัวข้อผ่าน web, internal docs และ connected tools ต่าง ๆ ได้
- สร้าง brief หรือ report แบบ structured ที่สามารถแก้ไข แล้ว export หรือส่งต่อได้
-
กล่องจดหมายเข้าและงานของทีม
- คัดแยก inbox และร่าง reply ได้
- สร้าง Jira issue จากการพูดคุยกับทีมและลูกค้า และส่ง summary ให้ทีมผ่าน Slack ได้
- เซสชันจะคงอยู่นานกว่าการตอบแชตทั่วไป และสามารถดำเนินต่อหลาย turn ผ่าน trial-and-error จนกว่างานจะเสร็จ
- ใน Work mode ตัว connector จะเปิดใช้งานเป็นค่าเริ่มต้น ไม่ต้องเลือกด้วยตนเอง ทำให้เข้าถึง context จาก documents, mailboxes, calendars และระบบอื่น ๆ ได้
- ทุกการกระทำของเอเจนต์สามารถมองเห็นได้ และตรวจสอบแต่ละ tool call กับ thinking rationale ได้
- งานที่มีความอ่อนไหว เช่น การส่งข้อความ การเขียนเอกสาร หรือการแก้ไขข้อมูล Le Chat จะขอการอนุมัติแบบชัดเจนตามสิทธิ์ที่มี
การให้บริการและราคา
- Mistral Medium 3.5 ให้บริการบน Mistral Vibe และ Le Chat
- remote coding agents และ Work mode ของ Le Chat ขับเคลื่อนด้วย Mistral Medium 3.5 ในแพ็กเกจ Pro, Team, Enterprise
- ราคา API คือ $1.5 ต่อ 1 ล้าน input token และ $7.5 ต่อ 1 ล้าน output token
- open weights เปิดให้ใช้บน Hugging Face ภายใต้ modified MIT license
- สำหรับการทำต้นแบบ มีการโฮสต์ไว้บน NVIDIA GPU-accelerated endpoint ของ build.nvidia.com
- มีให้ใช้งานผ่าน NVIDIA NIM ซึ่งเป็น scalable containerized inference microservice เช่นกัน
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ไม่รู้เหมือนกันว่าทุกคนในคอมเมนต์กำลังมองอะไรกันอยู่ โมเดลนี้อาจไม่ได้ชนะโมเดลอื่น ๆ แต่ในแง่ ความสามารถต่อขนาด ถือว่าแข่งขันได้ชัดเจน
GLM 5.1 ยอดเยี่ยมก็จริง แต่แม้ที่ Q4 ก็ยังต้องใช้ราว 400GB และ Kimi K2.5 ก็ดีเช่นกัน แต่ถ้าควอนไทซ์ที่ Q4 ก็แทบจะต้องใช้ 600GB
โมเดลนี้รันแบบ Q4 ได้บน VRAM 70GB ทำให้เริ่มเข้าใกล้กลุ่มผู้ใช้ทั่วไปมากขึ้นแล้ว ระดับที่ซื้อ Mac Studio พร้อม RAM 128GB ได้ในราคาราว 3,500 ดอลลาร์
คนที่ติด Claude นี่ไม่รู้ว่าใช้แต่ Opus กันหรือเปล่า แต่ Sonnet ในแพ็ก Pro ก็เก่งมากอยู่แล้ว โมเดลนี้รันในเครื่องได้ แถมชนะ Sonnet รุ่นล่าสุด และไม่ได้คิดเงินเพิ่มหรือแบนบัญชีแบบสุ่มเพียงเพราะใน repo มี HERMES.md
Mistral อาจไม่เคยเป็นตัวเต็งในกลุ่ม frontier มาก่อน แต่บางทีนั่นอาจไม่ใช่บทบาทที่เราควรคาดหวังจาก Mistral ก็ได้ ถ้ามันเป็น โมเดลแบบ Pareto ที่ให้ประสิทธิภาพระดับ 80% ของ frontier ด้วยต้นทุน/ขนาดแค่ 20% ก็ถือว่าดีพอมากแล้ว
คุณอาจรันโมเดลแบบนี้บน Mac 128GB ได้ แต่ก่อนอื่นต้องดูว่า Q4 ยังรักษาคุณภาพไว้ได้ดีพอไหม เพราะแต่ละโมเดลมี ความไวต่อการควอนไทซ์ ต่างกัน และความเร็วจริงก็สำคัญมาก
สำหรับงาน async หรือ background ความเร็วในการประมวลผลพรอมป์ต์และการสร้างโทเค็นอาจสำคัญน้อยลง แต่คนที่ซื้อ Mac Studio จำนวนมากก็มารู้ทีหลังแบบเจ็บ ๆ ว่าความตอบสนองมันสู้โมเดลที่โฮสต์บนฮาร์ดแวร์คลาวด์จริง ๆ ไม่ได้
สำหรับคนส่วนใหญ่ที่ไม่ได้มีข้อกำหนดเรื่อง on-premises ที่เข้มงวด การใช้โมเดลนี้ผ่านผู้ให้บริการโฮสต์บน OpenRouter แล้วจ่ายตามโทเค็น อาจเป็นวิธีใช้งานที่เหมาะที่สุด
เกือบทุกโมเดล open-weight ที่ออกมาในปีนี้ถูกบอกว่าเทียบ Sonnet ได้หรือดีกว่า แต่ถึงจะนำใน benchmark อย่างชัดเจน ก็ยังไม่เคยรู้สึกแบบนั้นจริง ๆ ในการใช้งาน
ชอบคำว่า Claude Pilled
benchmark ใช้ค่า F8_E4M3 และไม่มี Mac รุ่นไหนรันแบบนั้นได้
Sonnet มี คอนเท็กซ์ 1M โทเค็น แต่โมเดลนี้มี 256k และพอรันในเครื่องก็มีโอกาสสูงว่าจะใช้ได้ไม่เต็มที่ด้วยซ้ำ
Sonnet เร็วแม้จะเข้าผ่านเครือข่าย แต่โมเดลนี้จะช้ากว่ามาก
น่าเสียดายที่โมเดลโอเพนซอร์สนอกจีนดูเหมือนจะตามหลังอย่างน้อยหนึ่งเจเนอเรชัน
เชียร์ Mistral เสมอ ความหลากหลายของโมเดลและประเทศ เป็นเรื่องสำคัญ
โมเดลรอบนี้ดูเหมือนเป็นฐานที่แข็งแรงสำหรับการต่อยอด และหวังว่าจะมีการปรับปรุงมากขึ้นใน 3.6/3.7 พอดู benchmark ด้าน computer use แล้ว pipeline ด้าน vision ดูยังมีพื้นที่ให้พัฒนา แต่ก็เป็นแค่การคาดเดา
เมื่อเห็นผล benchmark บางส่วนออกมาต่างไปจากที่คาด ก็ให้ความรู้สึกว่านี่เป็นโมเดลที่ฝึกอย่างอิสระจริง ๆ ไม่ใช่แค่ดึง log จาก frontier มาใช้ ซึ่งเรื่องนี้สำคัญมาก
การมี weight architecture ที่ต่างออกไปอยู่ในโมเดลใดโมเดลหนึ่ง ดูเหมือนจะเป็นข้อดีในตัวเองเมื่อมองจากมุมสถาปัตยกรรมระบบระดับโลก
การที่ Mistral ยังปล่อย โมเดลที่เชื่อถือได้ ออกมาเรื่อย ๆ เป็นผลดีต่อตลาด
ถ้าผู้ซื้อต้องการอำนาจต่อรองทั้งด้านราคาและการดีลเรื่อง deployment ตลาดก็ต้องก้าวข้ามโครงสร้างที่มีให้เลือกจริง ๆ แค่สองบริษัท
เทียบกับ LLM แบบโฮสต์ตัวอื่นที่ฉันทดลองมา ดูเหมือนมีแค่ Mistral ที่ใช้ CSP header ค่อนข้างเข้มงวด
ถ้าขอให้สร้างเว็บไซต์ที่มี JavaScript library อยู่ข้างใน ต่อให้ Le Chat มี canvas mode ก็ยัง preview ไม่ได้
บางครั้งฉันก็แค่อยากลองทดสอบอะไรบนเว็บนิดหน่อยเวลาออกรีลีสใหม่ แต่ถ้าไม่จ่ายเงินหรือไม่ใช้ agent harness ก็ทำได้ยาก
วาด SVG ได้แย่มากจริง ๆ https://chat.mistral.ai/chat/23214adb-5530-4af9-bb47-90f5219...
ตอนให้มันช่วยตั้งค่า MCP server ใน Vibe มันอธิบายอย่างมั่นใจว่า MCP คือ MineCraft Protocol แล้วก็เริ่มหาตัว Minecraft binary บนคอมพิวเตอร์
ทุกโมเดลทำเรื่องนี้ได้แย่กันทั้งนั้น บางตัวแค่ล้มเหลวได้น่าสนใจกว่าเท่านั้นเอง
ฉันกำลังใช้ mistral-medium-2508 สำหรับงานแปลงข้อความ และสำหรับงานของฉันมันให้ผลดีกว่า mistral-large
อยากลองโมเดลใหม่เหมือนกัน แต่ราคาสูงกว่ามาก และถูกวางตำแหน่งเป็นโมเดลสำหรับ coding/agentic เลยไม่แน่ใจว่าตั้งใจจะมาแทน medium รุ่นก่อนหรือเปล่า
mistral-medium-2508 ราคา $0.4/$2 ต่อ 1M โทเค็น และ mistral-medium-3.5 คือ $1.5/$7.5
ผลลัพธ์แทบจะระดับเดียวกับ Sonnet แต่ถูกกว่าถึง 90% ฉันคงไม่ใช้มันเขียนโค้ดแน่ แต่สำหรับงานวิเคราะห์ข้อความนี้มันดีมาก ดีกว่าโมเดลจีนรุ่นล่าสุดหลายตัวด้วย
เพราะแบบนี้จึงรอรีลีสนี้อยู่ แต่กลับแพงกว่า Mistral Large รุ่นล่าสุดถึง 5 เท่า ตอนนี้เลยกังวลว่าพอเปลี่ยนไปใช้รีลีสใหม่นี้แล้ว ตัว Large ราคาถูกจะถูกยกเลิก
ปัญหาของโมเดลนี้คือ DeepSeek v4 Flash รันได้ค่อนข้างดีด้วยการควอนไทซ์ 2 บิต https://github.com/antirez/llama.cpp-deepseek-v4-flash
บน M3 Ultra ได้ความเร็วสร้าง 30 t/s และ prefill 400 t/s และบน MacBook Pro M3 Max 128GB ก็ไม่ได้ช้าลงมากนัก
ใช้ร่วมกับ opencode/pi แล้วทำงานเป็น coding agent ได้ดี และ tool calling ก็เสถียรมาก ความเร็วระดับนี้เป็นสิ่งที่โมเดล dense 120B ทำไม่ได้แน่
ดังนั้นมันจึงต้องแข่งไม่ใช่แค่กับโมเดลขนาดใกล้กันที่ควอนไทซ์ 4 บิต แต่ยังต้องแข่งกับ DeepSeek v4 Flash ที่เป็นไฟล์ GGUF ขนาด 86GB ด้วย และในมุมใช้งาน local inference จริง ๆ ก็ชนะได้ยาก
ยังมีการปรับปรุงความเร็วที่ยังไม่ได้ commit และจะ push เร็ว ๆ นี้ tree ปัจจุบันอาจยังช้าอยู่บ้าง แต่ก็ยังใช้งานได้ดีมาก
ฉันอยู่ยุโรปและเป็นแฟน Mistral แต่มีจุดหนึ่งที่ไม่เข้าใจ Mistral เป็นคนเปิดกระแส open-weight MoE ด้วย Mixtral แล้วทำไมตอนนี้ถึงออก โมเดล dense ที่ค่อนข้างใหญ่มา
ด้วยแนวทางแบบนี้ มันยากที่จะสู้ได้อย่างน่าเชื่อถือทั้งใน local inference และ remote inference เพราะโมเดลก็ห่างจาก SOTA และต้นทุนการเสิร์ฟก็ไม่ได้ถูก
โมเดล dense ยังมีที่ยืนถ้าอยู่ระดับหลายหมื่นล้านพารามิเตอร์แบบ Qwen 3.6 27B แต่พอไปถึง 5 เท่าของนั้นก็ไม่ค่อยสมเหตุสมผล เว้นแต่จะเหนือกว่าโมเดลอื่นที่ต้องใช้ VRAM เท่ากันอย่างชัดเจนในด้านความสามารถ
เรื่องนี้แทบไม่เกี่ยวกับการทำงานใน agentic workflow เลย เรารู้อยู่แล้วว่าหลายครั้งคุณภาพตกลงหนักมากเมื่อควอนไทซ์แบบ Q2
ถ้า Flash ที่ควอนไทซ์แบบนี้ยังรักษาคุณภาพและประสิทธิภาพที่เหมาะสมได้ในคอนเท็กซ์ยาวขึ้นด้วย จนยังคงจุดเด่นหลักของซีรีส์ V4 ไว้ได้ มันก็อาจเป็นคู่แข่งที่สมเหตุสมผลพอสมควรของโมเดลคลาส weight เดียวกันอย่าง Qwen 3 Coder-Next 80B
รีลีส Mistral รอบนี้ทำให้รู้สึกถึง ช่องว่าง ระหว่าง frontier lab กับผู้เล่นรายอื่นอีกครั้ง
ก่อนยุค agent ความต่างระหว่างโมเดลไม่ได้ชัดเจนเสมอไป และแต่ละโมเดลก็มีเสน่ห์ของตัวเอง
ตอนนี้ฉันไม่อยากใช้สิ่งที่ด้อยกว่า frontier model แล้ว ความต่างด้านความสามารถมันมหาศาล และการเลือกโมเดลที่ด้อยกว่ามีต้นทุนจริงต่อประสิทธิภาพการทำงาน
ฉันเคยชอบ lab เล็ก ๆ อย่าง Mistral และโดยเฉพาะ Cohere แต่ก็ไม่ค่อยตื่นเต้นกับรีลีสจากสองบริษัทนี้มาสักพักแล้ว
ถึงอย่างนั้น mistral voxtral realtime ก็ยังเป็นสิ่งที่ฉันใช้ทุกวันและมันยอดเยี่ยมมาก
ถ้าย้อนกลับไปสองปีก็ยิ่งไม่ต้องพูดถึง
แต่ Claude Code ดีกว่า Codex มากพอสมควร และ Codex ก็เหนือกว่า Gemini-cli อย่างชัดเจน
ในบริบทนี้ การที่ Claude Code ดีกว่าโมเดล non-frontier มากในงาน agentic coding จึงไม่ใช่เรื่องน่าแปลก และในงาน agentic เฉพาะทางมันยังดีกว่า frontier model อื่น ๆ อย่างชัดเจนด้วย
สำหรับงานส่วนใหญ่ รวมถึงงานโค้ดที่ซับซ้อน ความต่างระหว่าง frontier model กับโมเดลอย่าง GPT-4.1 แทบแยกไม่ออก
คุณต้องโฟกัสมากจริง ๆ กับเรื่องอย่าง context window, tool calling หรือบางแง่มุมของ reasoning step ถึงจะเห็นความต่าง
ยิ่งไปกว่านั้น frontier model มักใช้แนว brute force เพื่อให้ได้ผลลัพธ์ ทำให้ต้นทุนในการรันสูงกว่ามาก ไม่ใช่แค่ค่าใช้จ่ายที่ปรากฏในบิล แต่รวมถึงเวลาที่ต้องรอให้ได้ผลลัพธ์อะไรก็ตามออกมาด้วย
ยังไม่นับเรื่องโมเดลในเครื่องเลย
ดูเหมือน Mistral กำลังเล่น เกมระยะยาว ที่นี่ คือทำโมเดลให้เล็กลง ต้นทุนต่ำลง และให้ประสิทธิภาพที่โดยรวมดีพอ
โอเคอยู่ แต่ไม่ได้พิเศษอะไร ถึงอย่างนั้น ข่าวของโมเดลที่ไม่ใช่จากอเมริกาหรือจีนก็ยังเป็นข่าวดีเสมอ
ตลกดีที่ตอนนี้ 128B ถูกมองว่าเป็น Medium
เมื่อก่อนสมัย GPT-2 นั้น 355M พารามิเตอร์ยังถูกมองว่าเป็น medium อยู่เลย
บางทีการตัดสินแบบนั้นอาจถูกต้องก็ได้