Magistral — Mistral AI เปิดตัวโมเดล reasoning รุ่นแรก

(mistral.ai)

3 คะแนน โดย GN⁺ 2025-06-11 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Magistral คือโมเดล reasoning รุ่นแรกที่ Mistral AI เปิดตัว โดยเน้น ความเชี่ยวชาญเฉพาะโดเมน, ความโปร่งใส, และการให้เหตุผลหลายภาษา
เปิดตัว 2 รุ่นคือ Magistral Small (24B พารามิเตอร์) แบบโอเพนซอร์ส และ Magistral Medium เวอร์ชันเอนเทอร์ไพรส์สำหรับองค์กร
ใช้การให้เหตุผลหลายภาษาบนพื้นฐาน Chain of Thought และแสดงกระบวนการตรรกะแบบเป็นขั้นตอนอย่างโปร่งใสในภาษาของผู้ใช้
บน AIME2024 ทำผลงานได้ที่ Magistral Medium 73.6% (สูงสุด 90%) และ Small 70.7% (สูงสุด 83.3%)
รองรับ การไล่เหตุผลแบบแม่นยำทีละขั้น และ ความเร็วตอบสนองเร็วขึ้น 10 เท่า สำหรับหลายภาษาและหลายอุตสาหกรรม เช่น กฎหมาย การเงิน เฮลท์แคร์, data engineering, software development และคอนเทนต์เชิงสร้างสรรค์

Magistral — Mistral AI เปิดตัวโมเดล reasoning รุ่นแรก

Magistral เป็นโมเดล reasoning ที่มุ่งเน้น ความสามารถในการแก้ปัญหาในโลกจริง และ การปรับปรุงจากฟีดแบ็ก
เปิดตัวแบบคู่ขนาน โดย Magistral Small เป็นเวอร์ชันโอเพนซอร์ส 24B พารามิเตอร์ และ Magistral Medium เป็นเวอร์ชันเอนเทอร์ไพรส์ที่ทรงพลังกว่า
ตัวชี้วัดประสิทธิภาพ:
- Magistral Medium: AIME2024 73.6%, และทำได้ 90% ตามเกณฑ์ majority vote
- Magistral Small: 70.7% และ 83.3% ตามลำดับ
ใช้การให้เหตุผลแบบ Chain of Thought บนพื้นฐานภาษาและอักษรทั่วโลก ทำให้สามารถลำดับความคิดได้ในระดับภาษาแม่
เหมาะกับงานหลากหลาย เช่น การคำนวณเชิงโครงสร้าง, programming logic, decision tree, และระบบ rule-based
ฟีเจอร์ Think mode และ Flash Answers ของ Le Chat ช่วยเพิ่มความเร็วตอบสนองได้ 10 เท่าเมื่อเทียบกับคู่แข่ง
ในงานวิจัยอย่างเป็นทางการมีการประเมินครอบคลุม อัลกอริทึม, โครงสร้างพื้นฐานการฝึก, เทคนิค reinforcement learning, และอินไซต์จากการฝึก

รายละเอียดของโมเดลและเทคโนโลยี

กระบวนการให้เหตุผลที่โปร่งใส:
- Magistral ถูกปรับแต่งมาสำหรับ ตรรกะหลายขั้นตอน ทำให้ผู้ใช้สามารถ ดูและติดตามกระบวนการให้เหตุผลในภาษาของตนเอง ได้
- แตกต่างจากโมเดลทั่วไปด้วยการเสริม ความสามารถในการตีความ และการตรวจสอบความถูกต้อง
- ตั้งเป้าอัปเดตโมเดลอย่างต่อเนื่องและปรับปรุงอย่างรวดเร็ว
การให้เหตุผลหลายภาษา: มีความแม่นยำสูงและคงตรรกะได้ดีในภาษาอังกฤษ ฝรั่งเศส สเปน เยอรมัน อิตาลี อาหรับ รัสเซีย จีน และภาษาอื่น ๆ
ความเร็วในการตอบสนอง:
- Magistral Medium รองรับ การให้เหตุผลและฟีดแบ็กแบบเรียลไทม์ ผ่านฟีเจอร์ Flash Answers ของ Le Chat ด้วย ความเร็วประมวลผลโทเคนสูงกว่าคู่แข่ง 10 เท่า
- แสดงให้เห็นถึง ความโดดเด่นด้านความเร็ว เมื่อเทียบกับโมเดลคู่แข่งหลักอย่าง ChatGPT

โอเพนซอร์สและการมีส่วนร่วมของชุมชน

Magistral Small เปิดเผยภายใต้ Apache 2.0 license
ผู้ใช้สามารถ วิเคราะห์ แก้ไข และประกอบโครงสร้างกับวิธีการให้เหตุผลใหม่ ได้ด้วยตนเอง
โมเดลโอเพนซอร์สก่อนหน้านี้ถูกนำไปใช้ใน โครงการวิจัยเชิงนวัตกรรม เช่น ether0 และ DeepHermes 3

กรณีการใช้งานที่ครอบคลุมกว้าง

Magistral ถูกปรับให้เหมาะกับงานที่ การให้เหตุผลแบบละเอียดทีละขั้น และ ความโปร่งใส มีความสำคัญ เช่น กฎหมาย การเงิน การพัฒนาซอฟต์แวร์ และการเล่าเรื่อง
กลยุทธ์และการดำเนินงานทางธุรกิจ
- สามารถทำงานอย่าง การวางแผนเชิงกลยุทธ์, การประเมินความเสี่ยง, การตัดสินใจบนพื้นฐานข้อมูล, และ การคำนวณคำตอบที่เหมาะสมที่สุด ภายใต้ข้อจำกัดที่ซับซ้อน
อุตสาหกรรมกำกับดูแลและภาครัฐ
- ผู้เชี่ยวชาญด้านกฎหมาย การเงิน เฮลท์แคร์ และภาครัฐ สามารถ ติดตามเส้นทางการให้เหตุผลเชิงตรรกะ และ สร้างความสามารถในการตรวจสอบย้อนหลัง ได้
- ช่วยรองรับ ความสามารถในการตรวจสอบผลลัพธ์และการปฏิบัติตามข้อกำหนด
งานด้านระบบ ซอฟต์แวร์ และ data engineering
- ปรับปรุงคุณภาพการสนับสนุนในงาน programming, การออกแบบโปรเจกต์, backend architecture, และ data engineering เมื่อเทียบกับ LLM ที่ไม่เน้น reasoning
- มีประสิทธิภาพกับ งานหลายขั้นตอน เช่น การเชื่อมต่อเครื่องมือภายนอกและ API
การสร้างคอนเทนต์และการสื่อสาร
- Magistral ให้ผลลัพธ์ที่ยอดเยี่ยมในด้าน การเขียนเชิงสร้างสรรค์และการเล่าเรื่อง
- ไม่เพียงสร้างข้อความที่สอดคล้องกัน แต่ยัง สร้างไอเดียที่แปลกใหม่และชาญฉลาด ได้ด้วย

วิธีใช้งานและช่องทางการให้บริการ

รุ่น Small สามารถ ดาวน์โหลดแล้วนำไป deploy เองได้
รุ่น Medium พร้อมใช้งานทันทีบน Le Chat (เว็บ), API, และ Amazon SageMaker
จะรองรับเพิ่มเติมบน IBM WatsonX, Azure AI และ Google Cloud Marketplace ในเร็ว ๆ นี้
การติดตั้งแบบปรับแต่งสำหรับองค์กรและแบบ on-premises ต้องติดต่อแยกต่างหาก

1 ความคิดเห็น

GN⁺ 2025-06-11

ความคิดเห็นจาก Hacker News

ฉันอยากแชร์ประสบการณ์ที่สร้างและอัปโหลด Magistral Small รุ่น GGUF ไปยัง HuggingFace ด้วยตัวเอง สามารถรันใน ollama ได้ด้วยคำสั่ง ollama run hf.co/unsloth/Magistral-Small-2506-GGUF:UD-Q4_K_XL และสำหรับ llama.cpp อยากย้ำว่าควรใส่ออปชันอย่าง --jinja, --temp 0.7, --top-p 0.95 ด้วย แนะนำให้เพิ่ม context length ของ Ollama เป็น 8192 ขึ้นไป และดูคำแนะนำเพิ่มเติมได้จากเอกสารทางการ
- ส่วนที่น่าสนใจคือการเปรียบเทียบ benchmark กับ DeepSeek งานวิจัย Magistral เดิมเปรียบเทียบกับ DeepSeek-V3 (ธันวาคม 2023) และ DeepSeek-R1 (มกราคม 2024) แต่จริง ๆ แล้วรู้สึกว่า DeepSeek-R1-0528 รุ่นล่าสุดน่าจะเป็นคู่เทียบที่ยุติธรรมกว่า ตัวอย่างเช่น R1 ได้ 79.8 คะแนนใน AIME 2024 ส่วน R1-0528 ได้ 91.4 และใน AIME 2025 ก็ห่างกันมากที่ 70 กับ 87.5 ตามลำดับ ดู benchmark ล่าสุดของ DeepSeek ได้ที่นี่
- งานวิจัย Magistral(PDF) น่าประทับใจมาก ในงานวิจัยมีการพูดถึง GRPO พร้อมการปรับปรุงหลายอย่าง เช่น 1) ตัด KL Divergence ออก 2) ทำ normalization ด้วยความยาวทั้งหมด 3) ทำ normalization ของ advantage minibatch 4) ผ่อนคลาย trust region เป็นต้น
- แม้การยืนยันอายุจะมีความเสี่ยง แต่ขอชมว่าโมเดลของ Unsloth นั้น "สุดยอด" จริง ๆ พอใจมากที่โมเดลทำงานได้ดีสม่ำเสมอ และสงสัยว่าใน llama.cpp ถ้าไม่มี "jinja" จะใช้ค่าเริ่มต้นเป็นอะไร
- มีนัยว่าอย่าคิดมากเกินไป พร้อมแนบลิงก์ gist ไว้เป็นข้อมูลอ้างอิง
ถ้าดูเฉพาะผล benchmark ก็จะเห็นว่า Magistral Small และ Medium ยังตามหลัง DeepSeek-R1 รุ่นล่าสุดในทุกการทดสอบแบบ one-shot ในบทความก็ไม่ได้พูดถึง DeepSeek-R1 รุ่นล่าสุดเลย แถมยังมีต้นทุนแพงกว่ามากกว่า 2 เท่า ทำให้รู้สึกว่าบริษัท AI ชั้นนำของยุโรปเองก็ดูจะตามเทรนด์เทคโนโลยีปัจจุบันได้อย่างยากลำบาก
- DeepSeek R1 รุ่นแรกทำผลงานได้มหาศาลด้วย compute ที่น้อยมากอยู่แล้ว เลยแปลกใจที่ R1 รุ่นใหม่ไม่ได้ถล่ม o3, 2.5 Pro และตัวอื่น ๆ ในทุก benchmark เช่น Magistral Small (24B) ได้ 70.7% ใน AIME 2024 ส่วน R1 distill (32B) ได้ 72.6% และเมื่อใช้ Majority voting@64 Magistral Small ขึ้นไปได้ถึง 83.3% จนเหนือกว่า R1 ตัวเต็มด้วยซ้ำ ข้อดีคือโมเดล 24B รันได้บน GPU สำหรับเกมทั่วไป จึงเข้าถึงง่ายกว่ามาก เพิ่มลิงก์ไปยังโมเดล Distillที่เกี่ยวข้อง
- ในสถานการณ์ที่การแข่งขันของโมเดล AI ดุเดือดแบบนี้ ต่อให้ปล่อยช้ากว่าโมเดลล่าสุด 6–12 เดือน แต่ถ้าไม่ต้องใช้ต้นทุนระดับดาราศาสตร์ก็ยังมีความหมายมากในเชิงวิศวกรรม แน่นอนว่าเข้าใจตรรกะของลูกค้าที่อยากใช้แต่ของ "ดีที่สุด" ในแง่ส่วนแบ่งตลาด แต่ก็อดสงสัยไม่ได้ว่าส่วนแบ่งตลาดของธุรกิจที่ขาดทุนไปตลอดจะสำคัญแค่ไหน
- ถ้าดูโครงสร้างนักลงทุนของ Mistral จะเห็นว่าในทางปฏิบัติแล้วไม่ใช่บริษัทยุโรปอย่างแท้จริง เพราะทุนอเมริกันเป็นผู้ถือหุ้นหลัก ดูรายละเอียดได้จากข้อมูลนักลงทุน
- แม้ความสามารถในการแข่งขันจะด้อยกว่าอยู่บ้าง แต่การที่แต่ละภูมิภาคมีโมเดลของตัวเองที่ควบคุมการฝึกได้ก็เป็นสิ่งจำเป็นเชิงยุทธศาสตร์ อย่างไรก็ตาม หากช่องว่างทางเทคโนโลยีกว้างเกินไป ก็เสี่ยงที่ผู้ใช้จะมองว่าใช้งานไม่ได้
- น่าสนใจที่ Mistral สร้าง training pipeline แบบ “independent” ได้อย่างสมบูรณ์ ขณะที่คู่แข่งอย่าง Deepseek น่าจะฝึกจากข้อมูลของ GPT-4, o1 และอื่น ๆ
มีการสรุปบันทึกการทดลองใช้งาน Magistral ผ่าน Ollama, API และปลั๊กอิน llm-mistral ไว้ที่ลิงก์บันทึก
- มีคนถาม Simon ว่าความแตกต่างที่แท้จริงของ "นกกระทุงสองตัวขี่จักรยาน" คืออะไร โดยเดาว่ารุ่นเล็กถูกรันแบบโลคัล ส่วนรุ่นใหญ่ที่ประสิทธิภาพดีกว่ารันผ่าน API
ตอนที่โมเดล OCR ของ Mistral ถูกโปรโมตอย่างหนัก ฉันมีประสบการณ์ใช้งานจริงที่ต้องทำ OCR กับ PDF 600 หน้า ซึ่งทั้งหมดเป็นข้อความ monospace แต่ผล OCR กลับมองว่า 80% เป็นภาพและแสดงออกมาแทบเป็นช่องว่างล้วน ๆ แย่กว่า tesseract มาก หนึ่งเดือนต่อมาต้องจ่ายบิลทั้งที่ผลลัพธ์ย่ำแย่และสุดท้ายลบบัญชีไป แม้ผลิตภัณฑ์ใหม่นี้อาจดีกว่าของเดิม แต่ตอนนี้ความคาดหวังต่อการตลาดที่เกินจริงของ Mistral ลดลงมากแล้ว
สับสนว่าทำไมการคัดเลือกตัวอย่าง benchmark ถึงกระจัดกระจายและจำกัดขนาดนี้ เปรียบเทียบ Magistral Medium แค่กับ Deepseek V3, R1 และ Mistral Medium 3 แล้วทำไม Magistral Small, Alibaba Qwen หรือรุ่น mini ของ o3/o4 ถึงหายไปก็ไม่เข้าใจ
เพื่อทดสอบทั้งการให้เหตุผลเชิงตรรกะและความรู้ทั่วไประดับ Wikipedia มีการถาม Mistral AI ว่า "พลเมืองบราซิลที่เดินทางจากเซาเปาลูไปปารีสโดยต่อเครื่องที่ลิสบอน จะผ่านตม.ขาเข้าและขาออกที่ไหน" Mistral AI ตอบว่า "ที่ปารีสเท่านั้น" แต่เมื่อให้ดูบทความ Wikipedia ก็แก้เป็น "ที่ลิสบอน" ส่วน Meta AI (Llama 4) กลับตอบว่าไม่ต้องทั้งสองที่ แสดงให้เห็นปัญหาความแม่นยำ อยากรู้เหมือนกันว่า LLM อื่นจะตอบอย่างไร
- มีความเห็นว่าคำถามนี้แทบจะเป็นคำถามหลอก เพราะในความเป็นจริงนอกจากจะต้องผ่านด่านเข้าของเชงเก้นที่ลิสบอนแล้ว ก็น่าจะต้องผ่านขั้นตอนขาออกจากบราซิล/เมร์โกซูร์ที่เซาเปาลูด้วย
- คำตอบจาก Gemini(2.5 Flash) น่าประทับใจ โดยสรุปคือ พลเมืองบราซิลได้รับการยกเว้นวีซ่าเชงเก้นสูงสุด 90 วัน ต้องผ่านตม.ขาเข้าที่ลิสบอน และเที่ยวบินไปปารีสจะถือเป็นเที่ยวบินภายในเชงเก้นจึงไม่มีการตรวจเพิ่มที่ปารีส แม้จะมีการนำระบบอนุญาตเดินทางอิเล็กทรอนิกส์ ETIAS มาใช้ในปี 2026 แต่สิ่งนี้เป็นเพียงการอนุมัติก่อนเดินทางและไม่กระทบต่อจุดที่มีการตรวจ
- มีคนชี้ว่าคนที่ถามเองก็ยังสับสนกับคำตอบอยู่ และมองว่านี่เป็นมุมที่น่าสนุกของการทดสอบแบบนี้ เพราะทำให้เปรียบเทียบได้ง่ายว่า LLM ตัวไหนตอบได้น่าเชื่อถือกว่ากัน
- ยังเผื่อความเป็นไปได้ว่า Llama 4 อาจตอบถูกก็ได้ เพราะอาจมีข้อตกลงยกเว้นวีซ่าพิเศษระหว่างบราซิลกับโปรตุเกส
ฉันอยากให้เอา Qwen3 ใส่เข้าไปในกราฟ benchmark ด้วย เพราะแค่ Qwen3-4B ก็มีประสิทธิภาพเกือบเท่า Magistral-22B แล้ว และ Qwen3-30B-A3B ก็ให้ผลลัพธ์เหนือกว่ามาก
- รุ่น 30-A3B ยอดเยี่ยมจริง ๆ ถ้ารันเองแบบโลคัลโดยไม่เสียค่า API ก็ให้ประสิทธิภาพเหนือกว่าโมเดลปิดเมื่อ 1–2 ปีก่อนเสียอีก โดยเฉพาะงานเขียนโปรแกรมที่มองว่าดีกว่า gpt-4o
- สงสัยว่ามีเว็บไซต์ที่ทำ benchmark โมเดลหลากหลายแบบอัตโนมัติหรือไม่ เจ้าตัวลองทดสอบเองแล้ว และ Qwen3-30B-A3B ยังเป็นตัวที่ดีที่สุดภายใต้เงื่อนไขพารามิเตอร์/หน่วยความจำใกล้เคียงกัน
- คิดว่า Qwen3 เป็น reasoning model ที่น่าประทับใจที่สุดเท่าที่เคยลองมา
- Mistral มักไม่มีประโยชน์ใช้งานจริงเพราะมีโมเดลอื่นที่ดีกว่าเสมอ แต่ก็ยังมีความหมายเพราะเป็นของยุโรป ไม่ว่าประสิทธิภาพจะเป็นอย่างไร ชื่อของ Mistral ก็น่าจะถูกพูดถึงต่อไป
มีเรื่องชวนสนุกด้านนิรุกติศาสตร์ คำว่า "mistral" และ "magistral" ต่างก็มีรากความหมายประมาณ "เชี่ยวชาญแบบครูใหญ่/ระดับมาสเตอร์" คำว่า mistral เดิมมาจากภาษาอ็อกซีต็อง และในอังกฤษปัจจุบันมักใช้เรียกลมแถบเมดิเตอร์เรเนียน ส่วน magistral เป็นรูปคำคุณศัพท์ของ "magister" ถ้าหาคำที่เกี่ยวข้องได้อีกและจดโดเมนไว้ อาจกลายเป็นโอกาสทำเงินได้
สงสัยว่ายังมี open-weight reasoning model แบบนี้อีกมากแค่ไหน จินตนาการถึงการรันหลายโมเดลกับโจทย์เดียวกันพร้อมกันได้ อีกจุดที่น่าสนใจคือปล่อยรุ่น Small ออกมา แต่เก็บ Medium ไว้เป็นบริการแบบเสียเงิน เลยสงสัยว่าพอจะเอา Medium ไปใช้งานเหมือนเชนที่เชื่อม Small หลายรอบเข้าด้วยกันได้หรือไม่
- คิดว่าตอนนี้ open-weight reasoning model ที่ดีที่สุดคือ Qwen 3, DeepSeek R1 และ Phi-4 Reasoning
- ในทางปฏิบัติดูเหมือนจะมีแค่ตระกูล DeepSeek และถ้าใช้ distill model ก็สามารถรันบนฮาร์ดแวร์ผู้บริโภคทั่วไปได้
สงสัยว่าการใช้ en-dash จำนวนมากเกินไปในข้อความการตลาด สะท้อนสไตล์ผลลัพธ์ที่โมเดลสร้างด้วยหรือไม่ ถ้าใช่ก็ควรปรับปรุง
- ในข้อความจริงมีการเน้นว่า Magistral เป็นเพื่อนคู่คิดที่ยอดเยี่ยมสำหรับงานสร้างสรรค์ และหากต้องการก็สามารถสร้างข้อความที่ “แปลกประหลาดอย่างน่าพิศวง” ได้
- มีการนับว่าใช้ en-dash 49 ครั้ง และเครื่องหมายจุลภาค 59 ครั้ง ซึ่งเป็นสัดส่วนที่สูงสะดุดตา
- มีการวิเคราะห์ว่านี่เป็นเพียงสไตล์การตลาดของ Mistral เท่านั้น ไม่ได้พบการใช้ en-dash ในสัดส่วนเดียวกันในผลลัพธ์จริงของโมเดล
- มีคนแชร์ประสบการณ์ว่าบางครั้งใน LibreOffice พอพิมพ์ "-" แล้วกด spacebar มันจะกลายเป็น en-dash เลยตั้งใจแก้กลับเพื่อไม่ให้คนเข้าใจผิด
- มีการพูดติดตลกว่าในวงการกฎหมายกลับชอบ en-dash กันมาก

Magistral — Mistral AI เปิดตัวโมเดล reasoning รุ่นแรก

Magistral — Mistral AI เปิดตัวโมเดล reasoning รุ่นแรก

รายละเอียดของโมเดลและเทคโนโลยี

โอเพนซอร์สและการมีส่วนร่วมของชุมชน

กรณีการใช้งานที่ครอบคลุมกว้าง

กลยุทธ์และการดำเนินงานทางธุรกิจ

อุตสาหกรรมกำกับดูแลและภาครัฐ

งานด้านระบบ ซอฟต์แวร์ และ data engineering

การสร้างคอนเทนต์และการสื่อสาร

วิธีใช้งานและช่องทางการให้บริการ

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News