2 คะแนน โดย GN⁺ 2026-04-30 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • โมเดล 128B Dense ที่รวมการทำตามคำสั่ง การให้เหตุผล และการเขียนโค้ดไว้ในน้ำหนักชุดเดียว พร้อมรองรับคอนเท็กซ์วินโดว์ 256k
  • สามารถ ปรับระดับความพยายามในการให้เหตุผล ได้ตามแต่ละคำขอ จึงรองรับได้ด้วยโมเดลเดียวตั้งแต่แชตง่าย ๆ ไปจนถึง งานแบบเอเจนต์ ที่ซับซ้อน
  • ทำได้ SWE-Bench Verified 77.6% และ τ³-Telecom 91.4 คะแนน สูงกว่า Devstral 2 และ Qwen3.5 397B A17B
  • ฝึกวิชันเอนโค้ดเดอร์ขึ้นใหม่ ทำให้รองรับ ขนาดภาพและอัตราส่วนภาพที่หลากหลาย ได้
  • ด้วย Vibe remote agent สามารถรันเซสชันการเขียนโค้ดแบบอะซิงก์บนคลาวด์ หมุนหลายเซสชันแบบขนาน และรับการแจ้งเตือนเมื่อเสร็จสิ้น
  • เริ่มใช้งานได้จาก CLI หรือ Le Chat และหาก เทเลพอร์ต เซสชันโลคัลขึ้นคลาวด์ ก็จะย้ายประวัติ สถานะ และรายการการอนุมัติไปได้ครบถ้วน
  • แต่ละเซสชันทำงานใน แซนด์บ็อกซ์แบบแยกขาด และเมื่อเสร็จแล้วจะสร้าง GitHub PR ให้อัตโนมัติ
  • ผสานการทำงานกับเครื่องมือพัฒนาเดิม เช่น GitHub, Linear, Jira, Sentry, Slack และ Teams
  • เหมาะกับ งานที่ทำซ้ำและกำหนดขอบเขตชัดเจน เช่น รีแฟกเตอร์โมดูล สร้างเทสต์ อัปเกรดดีเพนเดนซี ตรวจสอบ CI และแก้บั๊ก
  • โหมด Work ของ Le Chat (พรีวิว) ใช้หลายเครื่องมือพร้อมกัน เช่น อีเมล ปฏิทิน และข้อความ เพื่อทำงานหลายขั้นตอนให้เสร็จโดยอัตโนมัติ
    • เปิดใช้งานคอนเน็กเตอร์เป็นค่าเริ่มต้น แสดงการเรียกใช้เครื่องมือทั้งหมดและเหตุผลประกอบการคิด และจะขอการอนุมัติแบบชัดเจนสำหรับงานที่อ่อนไหว
  • ราคา API คืออินพุต $1.5 ต่อ 1 ล้านโทเค็น และเอาต์พุต $7.5 ต่อ 1 ล้านโทเค็น
  • เปิดเผยโอเพนเวตภายใต้ไลเซนส์ MIT แบบดัดแปลง และสามารถ โฮสต์เองด้วย GPU อย่างน้อย 4 ตัว ได้

1 ความคิดเห็น

 
GN⁺ 2026-04-30
ความคิดเห็นจาก Hacker News
  • ไม่รู้เหมือนกันว่าทุกคนในคอมเมนต์กำลังมองอะไรกันอยู่ โมเดลนี้อาจไม่ได้ชนะโมเดลอื่น ๆ แต่ในแง่ ความสามารถต่อขนาด ถือว่าแข่งขันได้ชัดเจน
    GLM 5.1 ยอดเยี่ยมก็จริง แต่แม้ที่ Q4 ก็ยังต้องใช้ราว 400GB และ Kimi K2.5 ก็ดีเช่นกัน แต่ถ้าควอนไทซ์ที่ Q4 ก็แทบจะต้องใช้ 600GB
    โมเดลนี้รันแบบ Q4 ได้บน VRAM 70GB ทำให้เริ่มเข้าใกล้กลุ่มผู้ใช้ทั่วไปมากขึ้นแล้ว ระดับที่ซื้อ Mac Studio พร้อม RAM 128GB ได้ในราคาราว 3,500 ดอลลาร์
    คนที่ติด Claude นี่ไม่รู้ว่าใช้แต่ Opus กันหรือเปล่า แต่ Sonnet ในแพ็ก Pro ก็เก่งมากอยู่แล้ว โมเดลนี้รันในเครื่องได้ แถมชนะ Sonnet รุ่นล่าสุด และไม่ได้คิดเงินเพิ่มหรือแบนบัญชีแบบสุ่มเพียงเพราะใน repo มี HERMES.md
    Mistral อาจไม่เคยเป็นตัวเต็งในกลุ่ม frontier มาก่อน แต่บางทีนั่นอาจไม่ใช่บทบาทที่เราควรคาดหวังจาก Mistral ก็ได้ ถ้ามันเป็น โมเดลแบบ Pareto ที่ให้ประสิทธิภาพระดับ 80% ของ frontier ด้วยต้นทุน/ขนาดแค่ 20% ก็ถือว่าดีพอมากแล้ว

    • ถ้าใครสนใจ local LLM ควรรู้ไว้ว่า การที่โมเดล “รันได้” กับ “รันได้เร็ว” เป็นคนละมาตรฐานกันโดยสิ้นเชิง
      คุณอาจรันโมเดลแบบนี้บน Mac 128GB ได้ แต่ก่อนอื่นต้องดูว่า Q4 ยังรักษาคุณภาพไว้ได้ดีพอไหม เพราะแต่ละโมเดลมี ความไวต่อการควอนไทซ์ ต่างกัน และความเร็วจริงก็สำคัญมาก
      สำหรับงาน async หรือ background ความเร็วในการประมวลผลพรอมป์ต์และการสร้างโทเค็นอาจสำคัญน้อยลง แต่คนที่ซื้อ Mac Studio จำนวนมากก็มารู้ทีหลังแบบเจ็บ ๆ ว่าความตอบสนองมันสู้โมเดลที่โฮสต์บนฮาร์ดแวร์คลาวด์จริง ๆ ไม่ได้
      สำหรับคนส่วนใหญ่ที่ไม่ได้มีข้อกำหนดเรื่อง on-premises ที่เข้มงวด การใช้โมเดลนี้ผ่านผู้ให้บริการโฮสต์บน OpenRouter แล้วจ่ายตามโทเค็น อาจเป็นวิธีใช้งานที่เหมาะที่สุด
      เกือบทุกโมเดล open-weight ที่ออกมาในปีนี้ถูกบอกว่าเทียบ Sonnet ได้หรือดีกว่า แต่ถึงจะนำใน benchmark อย่างชัดเจน ก็ยังไม่เคยรู้สึกแบบนั้นจริง ๆ ในการใช้งาน
    • ไม่เคยรู้จัก HERMES.md มาก่อน ใครสงสัยดูข้อมูลได้ที่นี่ https://github.com/anthropics/claude-code/issues/53262
    • ก่อนเดือนกุมภาพันธ์ ฉันใช้ Opus High ในแพ็ก Max ได้ต่อเนื่องแบบไม่มีปัญหา แต่ตอนนี้ใช้ Sonnet High อยู่ และมันก็เก่งมากทีเดียว
      ชอบคำว่า Claude Pilled
    • ที่บอกว่า “รันในเครื่องแล้วชนะ Sonnet รุ่นล่าสุด” นั้นไม่จริง
      benchmark ใช้ค่า F8_E4M3 และไม่มี Mac รุ่นไหนรันแบบนั้นได้
      Sonnet มี คอนเท็กซ์ 1M โทเค็น แต่โมเดลนี้มี 256k และพอรันในเครื่องก็มีโอกาสสูงว่าจะใช้ได้ไม่เต็มที่ด้วยซ้ำ
      Sonnet เร็วแม้จะเข้าผ่านเครือข่าย แต่โมเดลนี้จะช้ากว่ามาก
    • อย่าลืม Qwen 35B A3B MoE ด้วย โมเดลนี้ทำได้ดีกว่าทุกตัวชี้วัดเมื่อเทียบกับตัวนี้ และใช้ต้นทุนหน่วยความจำ/คอมพิวต์น้อยกว่ามาก
      น่าเสียดายที่โมเดลโอเพนซอร์สนอกจีนดูเหมือนจะตามหลังอย่างน้อยหนึ่งเจเนอเรชัน
  • เชียร์ Mistral เสมอ ความหลากหลายของโมเดลและประเทศ เป็นเรื่องสำคัญ
    โมเดลรอบนี้ดูเหมือนเป็นฐานที่แข็งแรงสำหรับการต่อยอด และหวังว่าจะมีการปรับปรุงมากขึ้นใน 3.6/3.7 พอดู benchmark ด้าน computer use แล้ว pipeline ด้าน vision ดูยังมีพื้นที่ให้พัฒนา แต่ก็เป็นแค่การคาดเดา
    เมื่อเห็นผล benchmark บางส่วนออกมาต่างไปจากที่คาด ก็ให้ความรู้สึกว่านี่เป็นโมเดลที่ฝึกอย่างอิสระจริง ๆ ไม่ใช่แค่ดึง log จาก frontier มาใช้ ซึ่งเรื่องนี้สำคัญมาก
    การมี weight architecture ที่ต่างออกไปอยู่ในโมเดลใดโมเดลหนึ่ง ดูเหมือนจะเป็นข้อดีในตัวเองเมื่อมองจากมุมสถาปัตยกรรมระบบระดับโลก

  • การที่ Mistral ยังปล่อย โมเดลที่เชื่อถือได้ ออกมาเรื่อย ๆ เป็นผลดีต่อตลาด
    ถ้าผู้ซื้อต้องการอำนาจต่อรองทั้งด้านราคาและการดีลเรื่อง deployment ตลาดก็ต้องก้าวข้ามโครงสร้างที่มีให้เลือกจริง ๆ แค่สองบริษัท

  • เทียบกับ LLM แบบโฮสต์ตัวอื่นที่ฉันทดลองมา ดูเหมือนมีแค่ Mistral ที่ใช้ CSP header ค่อนข้างเข้มงวด
    ถ้าขอให้สร้างเว็บไซต์ที่มี JavaScript library อยู่ข้างใน ต่อให้ Le Chat มี canvas mode ก็ยัง preview ไม่ได้
    บางครั้งฉันก็แค่อยากลองทดสอบอะไรบนเว็บนิดหน่อยเวลาออกรีลีสใหม่ แต่ถ้าไม่จ่ายเงินหรือไม่ใช้ agent harness ก็ทำได้ยาก
    วาด SVG ได้แย่มากจริง ๆ https://chat.mistral.ai/chat/23214adb-5530-4af9-bb47-90f5219...

    • SVG อาจไม่ใช่ benchmark ที่ดีที่สุด แต่ก็สอดคล้องกับประสบการณ์ที่เคยใช้โมเดล Mistral รุ่นก่อนใน Mistral Vibe
      ตอนให้มันช่วยตั้งค่า MCP server ใน Vibe มันอธิบายอย่างมั่นใจว่า MCP คือ MineCraft Protocol แล้วก็เริ่มหาตัว Minecraft binary บนคอมพิวเตอร์
    • ไม่เคยอยาก ต้องการ หรือคาดหวังให้ LLM วาด SVG
      ทุกโมเดลทำเรื่องนี้ได้แย่กันทั้งนั้น บางตัวแค่ล้มเหลวได้น่าสนใจกว่าเท่านั้นเอง
  • ฉันกำลังใช้ mistral-medium-2508 สำหรับงานแปลงข้อความ และสำหรับงานของฉันมันให้ผลดีกว่า mistral-large
    อยากลองโมเดลใหม่เหมือนกัน แต่ราคาสูงกว่ามาก และถูกวางตำแหน่งเป็นโมเดลสำหรับ coding/agentic เลยไม่แน่ใจว่าตั้งใจจะมาแทน medium รุ่นก่อนหรือเปล่า
    mistral-medium-2508 ราคา $0.4/$2 ต่อ 1M โทเค็น และ mistral-medium-3.5 คือ $1.5/$7.5

    • ในโปรดักชันฉันใช้ Mistral Large จัดการข้อความก้อนใหญ่
      ผลลัพธ์แทบจะระดับเดียวกับ Sonnet แต่ถูกกว่าถึง 90% ฉันคงไม่ใช้มันเขียนโค้ดแน่ แต่สำหรับงานวิเคราะห์ข้อความนี้มันดีมาก ดีกว่าโมเดลจีนรุ่นล่าสุดหลายตัวด้วย
      เพราะแบบนี้จึงรอรีลีสนี้อยู่ แต่กลับแพงกว่า Mistral Large รุ่นล่าสุดถึง 5 เท่า ตอนนี้เลยกังวลว่าพอเปลี่ยนไปใช้รีลีสใหม่นี้แล้ว ตัว Large ราคาถูกจะถูกยกเลิก
  • ปัญหาของโมเดลนี้คือ DeepSeek v4 Flash รันได้ค่อนข้างดีด้วยการควอนไทซ์ 2 บิต https://github.com/antirez/llama.cpp-deepseek-v4-flash
    บน M3 Ultra ได้ความเร็วสร้าง 30 t/s และ prefill 400 t/s และบน MacBook Pro M3 Max 128GB ก็ไม่ได้ช้าลงมากนัก
    ใช้ร่วมกับ opencode/pi แล้วทำงานเป็น coding agent ได้ดี และ tool calling ก็เสถียรมาก ความเร็วระดับนี้เป็นสิ่งที่โมเดล dense 120B ทำไม่ได้แน่
    ดังนั้นมันจึงต้องแข่งไม่ใช่แค่กับโมเดลขนาดใกล้กันที่ควอนไทซ์ 4 บิต แต่ยังต้องแข่งกับ DeepSeek v4 Flash ที่เป็นไฟล์ GGUF ขนาด 86GB ด้วย และในมุมใช้งาน local inference จริง ๆ ก็ชนะได้ยาก
    ยังมีการปรับปรุงความเร็วที่ยังไม่ได้ commit และจะ push เร็ว ๆ นี้ tree ปัจจุบันอาจยังช้าอยู่บ้าง แต่ก็ยังใช้งานได้ดีมาก
    ฉันอยู่ยุโรปและเป็นแฟน Mistral แต่มีจุดหนึ่งที่ไม่เข้าใจ Mistral เป็นคนเปิดกระแส open-weight MoE ด้วย Mixtral แล้วทำไมตอนนี้ถึงออก โมเดล dense ที่ค่อนข้างใหญ่มา
    ด้วยแนวทางแบบนี้ มันยากที่จะสู้ได้อย่างน่าเชื่อถือทั้งใน local inference และ remote inference เพราะโมเดลก็ห่างจาก SOTA และต้นทุนการเสิร์ฟก็ไม่ได้ถูก
    โมเดล dense ยังมีที่ยืนถ้าอยู่ระดับหลายหมื่นล้านพารามิเตอร์แบบ Qwen 3.6 27B แต่พอไปถึง 5 เท่าของนั้นก็ไม่ค่อยสมเหตุสมผล เว้นแต่จะเหนือกว่าโมเดลอื่นที่ต้องใช้ VRAM เท่ากันอย่างชัดเจนในด้านความสามารถ

    • ลิงก์ GitHub เขียนไว้แค่ว่า “โมเดลที่ควอนไทซ์ด้วยวิธีนี้ทำงานในแชตได้ดีมากและให้ความรู้สึกแบบ frontier-model vibes แต่ยังไม่ได้ทดสอบอย่างกว้างขวาง”
      เรื่องนี้แทบไม่เกี่ยวกับการทำงานใน agentic workflow เลย เรารู้อยู่แล้วว่าหลายครั้งคุณภาพตกลงหนักมากเมื่อควอนไทซ์แบบ Q2
      ถ้า Flash ที่ควอนไทซ์แบบนี้ยังรักษาคุณภาพและประสิทธิภาพที่เหมาะสมได้ในคอนเท็กซ์ยาวขึ้นด้วย จนยังคงจุดเด่นหลักของซีรีส์ V4 ไว้ได้ มันก็อาจเป็นคู่แข่งที่สมเหตุสมผลพอสมควรของโมเดลคลาส weight เดียวกันอย่าง Qwen 3 Coder-Next 80B
  • รีลีส Mistral รอบนี้ทำให้รู้สึกถึง ช่องว่าง ระหว่าง frontier lab กับผู้เล่นรายอื่นอีกครั้ง
    ก่อนยุค agent ความต่างระหว่างโมเดลไม่ได้ชัดเจนเสมอไป และแต่ละโมเดลก็มีเสน่ห์ของตัวเอง
    ตอนนี้ฉันไม่อยากใช้สิ่งที่ด้อยกว่า frontier model แล้ว ความต่างด้านความสามารถมันมหาศาล และการเลือกโมเดลที่ด้อยกว่ามีต้นทุนจริงต่อประสิทธิภาพการทำงาน
    ฉันเคยชอบ lab เล็ก ๆ อย่าง Mistral และโดยเฉพาะ Cohere แต่ก็ไม่ค่อยตื่นเต้นกับรีลีสจากสองบริษัทนี้มาสักพักแล้ว
    ถึงอย่างนั้น mistral voxtral realtime ก็ยังเป็นสิ่งที่ฉันใช้ทุกวันและมันยอดเยี่ยมมาก

    • ไม่เห็นด้วยเลย เมื่อแค่ปีที่แล้ว ช่องว่างด้านประสิทธิภาพการทำงาน ระหว่าง frontier model กับ non-frontier model กว้างกว่านี้มาก
      ถ้าย้อนกลับไปสองปีก็ยิ่งไม่ต้องพูดถึง
    • สำหรับงานที่ไม่ใช่ agentic ไม่มีผู้ชนะชัดเจนโดยรวมระหว่าง Gemini, ChatGPT และ Claude ถ้ามองในแง่ chatbot interface อย่างเดียว มันเทียบกันตรง ๆ ไม่ได้
      แต่ Claude Code ดีกว่า Codex มากพอสมควร และ Codex ก็เหนือกว่า Gemini-cli อย่างชัดเจน
      ในบริบทนี้ การที่ Claude Code ดีกว่าโมเดล non-frontier มากในงาน agentic coding จึงไม่ใช่เรื่องน่าแปลก และในงาน agentic เฉพาะทางมันยังดีกว่า frontier model อื่น ๆ อย่างชัดเจนด้วย
    • การบอกว่าไม่อยากใช้สิ่งที่ด้อยกว่า frontier model เป็นมุมมองที่ค่อนข้างไร้เดียงสาและตัดสินผิด
      สำหรับงานส่วนใหญ่ รวมถึงงานโค้ดที่ซับซ้อน ความต่างระหว่าง frontier model กับโมเดลอย่าง GPT-4.1 แทบแยกไม่ออก
      คุณต้องโฟกัสมากจริง ๆ กับเรื่องอย่าง context window, tool calling หรือบางแง่มุมของ reasoning step ถึงจะเห็นความต่าง
      ยิ่งไปกว่านั้น frontier model มักใช้แนว brute force เพื่อให้ได้ผลลัพธ์ ทำให้ต้นทุนในการรันสูงกว่ามาก ไม่ใช่แค่ค่าใช้จ่ายที่ปรากฏในบิล แต่รวมถึงเวลาที่ต้องรอให้ได้ผลลัพธ์อะไรก็ตามออกมาด้วย
      ยังไม่นับเรื่องโมเดลในเครื่องเลย
  • ดูเหมือน Mistral กำลังเล่น เกมระยะยาว ที่นี่ คือทำโมเดลให้เล็กลง ต้นทุนต่ำลง และให้ประสิทธิภาพที่โดยรวมดีพอ

  • โอเคอยู่ แต่ไม่ได้พิเศษอะไร ถึงอย่างนั้น ข่าวของโมเดลที่ไม่ใช่จากอเมริกาหรือจีนก็ยังเป็นข่าวดีเสมอ

    • นี่คงเป็นค่าเฉลี่ยมาตรฐานของยุโรปสินะ
  • ตลกดีที่ตอนนี้ 128B ถูกมองว่าเป็น Medium
    เมื่อก่อนสมัย GPT-2 นั้น 355M พารามิเตอร์ยังถูกมองว่าเป็น medium อยู่เลย

    • GPT-2 1.5B เคยถูกมองว่าอันตรายเกินกว่าจะเผยแพร่
      บางทีการตัดสินแบบนั้นอาจถูกต้องก็ได้