3 คะแนน โดย GN⁺ 2025-06-11 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Magistral คือโมเดล reasoning รุ่นแรกที่ Mistral AI เปิดตัว โดยเน้น ความเชี่ยวชาญเฉพาะโดเมน, ความโปร่งใส, และการให้เหตุผลหลายภาษา
  • เปิดตัว 2 รุ่นคือ Magistral Small (24B พารามิเตอร์) แบบโอเพนซอร์ส และ Magistral Medium เวอร์ชันเอนเทอร์ไพรส์สำหรับองค์กร
  • ใช้การให้เหตุผลหลายภาษาบนพื้นฐาน Chain of Thought และแสดงกระบวนการตรรกะแบบเป็นขั้นตอนอย่างโปร่งใสในภาษาของผู้ใช้
  • บน AIME2024 ทำผลงานได้ที่ Magistral Medium 73.6% (สูงสุด 90%) และ Small 70.7% (สูงสุด 83.3%)
  • รองรับ การไล่เหตุผลแบบแม่นยำทีละขั้น และ ความเร็วตอบสนองเร็วขึ้น 10 เท่า สำหรับหลายภาษาและหลายอุตสาหกรรม เช่น กฎหมาย การเงิน เฮลท์แคร์, data engineering, software development และคอนเทนต์เชิงสร้างสรรค์

Magistral — Mistral AI เปิดตัวโมเดล reasoning รุ่นแรก

  • Magistral เป็นโมเดล reasoning ที่มุ่งเน้น ความสามารถในการแก้ปัญหาในโลกจริง และ การปรับปรุงจากฟีดแบ็ก
  • เปิดตัวแบบคู่ขนาน โดย Magistral Small เป็นเวอร์ชันโอเพนซอร์ส 24B พารามิเตอร์ และ Magistral Medium เป็นเวอร์ชันเอนเทอร์ไพรส์ที่ทรงพลังกว่า
  • ตัวชี้วัดประสิทธิภาพ:
    • Magistral Medium: AIME2024 73.6%, และทำได้ 90% ตามเกณฑ์ majority vote
    • Magistral Small: 70.7% และ 83.3% ตามลำดับ
  • ใช้การให้เหตุผลแบบ Chain of Thought บนพื้นฐานภาษาและอักษรทั่วโลก ทำให้สามารถลำดับความคิดได้ในระดับภาษาแม่
  • เหมาะกับงานหลากหลาย เช่น การคำนวณเชิงโครงสร้าง, programming logic, decision tree, และระบบ rule-based
  • ฟีเจอร์ Think mode และ Flash Answers ของ Le Chat ช่วยเพิ่มความเร็วตอบสนองได้ 10 เท่าเมื่อเทียบกับคู่แข่ง
  • ในงานวิจัยอย่างเป็นทางการมีการประเมินครอบคลุม อัลกอริทึม, โครงสร้างพื้นฐานการฝึก, เทคนิค reinforcement learning, และอินไซต์จากการฝึก

รายละเอียดของโมเดลและเทคโนโลยี

  • กระบวนการให้เหตุผลที่โปร่งใส:
    • Magistral ถูกปรับแต่งมาสำหรับ ตรรกะหลายขั้นตอน ทำให้ผู้ใช้สามารถ ดูและติดตามกระบวนการให้เหตุผลในภาษาของตนเอง ได้
    • แตกต่างจากโมเดลทั่วไปด้วยการเสริม ความสามารถในการตีความ และการตรวจสอบความถูกต้อง
    • ตั้งเป้าอัปเดตโมเดลอย่างต่อเนื่องและปรับปรุงอย่างรวดเร็ว
  • การให้เหตุผลหลายภาษา: มีความแม่นยำสูงและคงตรรกะได้ดีในภาษาอังกฤษ ฝรั่งเศส สเปน เยอรมัน อิตาลี อาหรับ รัสเซีย จีน และภาษาอื่น ๆ
  • ความเร็วในการตอบสนอง:
    • Magistral Medium รองรับ การให้เหตุผลและฟีดแบ็กแบบเรียลไทม์ ผ่านฟีเจอร์ Flash Answers ของ Le Chat ด้วย ความเร็วประมวลผลโทเคนสูงกว่าคู่แข่ง 10 เท่า
    • แสดงให้เห็นถึง ความโดดเด่นด้านความเร็ว เมื่อเทียบกับโมเดลคู่แข่งหลักอย่าง ChatGPT

โอเพนซอร์สและการมีส่วนร่วมของชุมชน

  • Magistral Small เปิดเผยภายใต้ Apache 2.0 license
  • ผู้ใช้สามารถ วิเคราะห์ แก้ไข และประกอบโครงสร้างกับวิธีการให้เหตุผลใหม่ ได้ด้วยตนเอง
  • โมเดลโอเพนซอร์สก่อนหน้านี้ถูกนำไปใช้ใน โครงการวิจัยเชิงนวัตกรรม เช่น ether0 และ DeepHermes 3

กรณีการใช้งานที่ครอบคลุมกว้าง

  • Magistral ถูกปรับให้เหมาะกับงานที่ การให้เหตุผลแบบละเอียดทีละขั้น และ ความโปร่งใส มีความสำคัญ เช่น กฎหมาย การเงิน การพัฒนาซอฟต์แวร์ และการเล่าเรื่อง
  • กลยุทธ์และการดำเนินงานทางธุรกิจ

    • สามารถทำงานอย่าง การวางแผนเชิงกลยุทธ์, การประเมินความเสี่ยง, การตัดสินใจบนพื้นฐานข้อมูล, และ การคำนวณคำตอบที่เหมาะสมที่สุด ภายใต้ข้อจำกัดที่ซับซ้อน
  • อุตสาหกรรมกำกับดูแลและภาครัฐ

    • ผู้เชี่ยวชาญด้านกฎหมาย การเงิน เฮลท์แคร์ และภาครัฐ สามารถ ติดตามเส้นทางการให้เหตุผลเชิงตรรกะ และ สร้างความสามารถในการตรวจสอบย้อนหลัง ได้
    • ช่วยรองรับ ความสามารถในการตรวจสอบผลลัพธ์และการปฏิบัติตามข้อกำหนด
  • งานด้านระบบ ซอฟต์แวร์ และ data engineering

    • ปรับปรุงคุณภาพการสนับสนุนในงาน programming, การออกแบบโปรเจกต์, backend architecture, และ data engineering เมื่อเทียบกับ LLM ที่ไม่เน้น reasoning
    • มีประสิทธิภาพกับ งานหลายขั้นตอน เช่น การเชื่อมต่อเครื่องมือภายนอกและ API
  • การสร้างคอนเทนต์และการสื่อสาร

    • Magistral ให้ผลลัพธ์ที่ยอดเยี่ยมในด้าน การเขียนเชิงสร้างสรรค์และการเล่าเรื่อง
    • ไม่เพียงสร้างข้อความที่สอดคล้องกัน แต่ยัง สร้างไอเดียที่แปลกใหม่และชาญฉลาด ได้ด้วย

วิธีใช้งานและช่องทางการให้บริการ

  • รุ่น Small สามารถ ดาวน์โหลดแล้วนำไป deploy เองได้
  • รุ่น Medium พร้อมใช้งานทันทีบน Le Chat (เว็บ), API, และ Amazon SageMaker
  • จะรองรับเพิ่มเติมบน IBM WatsonX, Azure AI และ Google Cloud Marketplace ในเร็ว ๆ นี้
  • การติดตั้งแบบปรับแต่งสำหรับองค์กรและแบบ on-premises ต้องติดต่อแยกต่างหาก

1 ความคิดเห็น

 
GN⁺ 2025-06-11
ความคิดเห็นจาก Hacker News
  • ฉันอยากแชร์ประสบการณ์ที่สร้างและอัปโหลด Magistral Small รุ่น GGUF ไปยัง HuggingFace ด้วยตัวเอง สามารถรันใน ollama ได้ด้วยคำสั่ง ollama run hf.co/unsloth/Magistral-Small-2506-GGUF:UD-Q4_K_XL และสำหรับ llama.cpp อยากย้ำว่าควรใส่ออปชันอย่าง --jinja, --temp 0.7, --top-p 0.95 ด้วย แนะนำให้เพิ่ม context length ของ Ollama เป็น 8192 ขึ้นไป และดูคำแนะนำเพิ่มเติมได้จากเอกสารทางการ
    • ส่วนที่น่าสนใจคือการเปรียบเทียบ benchmark กับ DeepSeek งานวิจัย Magistral เดิมเปรียบเทียบกับ DeepSeek-V3 (ธันวาคม 2023) และ DeepSeek-R1 (มกราคม 2024) แต่จริง ๆ แล้วรู้สึกว่า DeepSeek-R1-0528 รุ่นล่าสุดน่าจะเป็นคู่เทียบที่ยุติธรรมกว่า ตัวอย่างเช่น R1 ได้ 79.8 คะแนนใน AIME 2024 ส่วน R1-0528 ได้ 91.4 และใน AIME 2025 ก็ห่างกันมากที่ 70 กับ 87.5 ตามลำดับ ดู benchmark ล่าสุดของ DeepSeek ได้ที่นี่
    • งานวิจัย Magistral(PDF) น่าประทับใจมาก ในงานวิจัยมีการพูดถึง GRPO พร้อมการปรับปรุงหลายอย่าง เช่น 1) ตัด KL Divergence ออก 2) ทำ normalization ด้วยความยาวทั้งหมด 3) ทำ normalization ของ advantage minibatch 4) ผ่อนคลาย trust region เป็นต้น
    • แม้การยืนยันอายุจะมีความเสี่ยง แต่ขอชมว่าโมเดลของ Unsloth นั้น "สุดยอด" จริง ๆ พอใจมากที่โมเดลทำงานได้ดีสม่ำเสมอ และสงสัยว่าใน llama.cpp ถ้าไม่มี "jinja" จะใช้ค่าเริ่มต้นเป็นอะไร
    • มีนัยว่าอย่าคิดมากเกินไป พร้อมแนบลิงก์ gist ไว้เป็นข้อมูลอ้างอิง
  • ถ้าดูเฉพาะผล benchmark ก็จะเห็นว่า Magistral Small และ Medium ยังตามหลัง DeepSeek-R1 รุ่นล่าสุดในทุกการทดสอบแบบ one-shot ในบทความก็ไม่ได้พูดถึง DeepSeek-R1 รุ่นล่าสุดเลย แถมยังมีต้นทุนแพงกว่ามากกว่า 2 เท่า ทำให้รู้สึกว่าบริษัท AI ชั้นนำของยุโรปเองก็ดูจะตามเทรนด์เทคโนโลยีปัจจุบันได้อย่างยากลำบาก
    • DeepSeek R1 รุ่นแรกทำผลงานได้มหาศาลด้วย compute ที่น้อยมากอยู่แล้ว เลยแปลกใจที่ R1 รุ่นใหม่ไม่ได้ถล่ม o3, 2.5 Pro และตัวอื่น ๆ ในทุก benchmark เช่น Magistral Small (24B) ได้ 70.7% ใน AIME 2024 ส่วน R1 distill (32B) ได้ 72.6% และเมื่อใช้ Majority voting@64 Magistral Small ขึ้นไปได้ถึง 83.3% จนเหนือกว่า R1 ตัวเต็มด้วยซ้ำ ข้อดีคือโมเดล 24B รันได้บน GPU สำหรับเกมทั่วไป จึงเข้าถึงง่ายกว่ามาก เพิ่มลิงก์ไปยังโมเดล Distillที่เกี่ยวข้อง
    • ในสถานการณ์ที่การแข่งขันของโมเดล AI ดุเดือดแบบนี้ ต่อให้ปล่อยช้ากว่าโมเดลล่าสุด 6–12 เดือน แต่ถ้าไม่ต้องใช้ต้นทุนระดับดาราศาสตร์ก็ยังมีความหมายมากในเชิงวิศวกรรม แน่นอนว่าเข้าใจตรรกะของลูกค้าที่อยากใช้แต่ของ "ดีที่สุด" ในแง่ส่วนแบ่งตลาด แต่ก็อดสงสัยไม่ได้ว่าส่วนแบ่งตลาดของธุรกิจที่ขาดทุนไปตลอดจะสำคัญแค่ไหน
    • ถ้าดูโครงสร้างนักลงทุนของ Mistral จะเห็นว่าในทางปฏิบัติแล้วไม่ใช่บริษัทยุโรปอย่างแท้จริง เพราะทุนอเมริกันเป็นผู้ถือหุ้นหลัก ดูรายละเอียดได้จากข้อมูลนักลงทุน
    • แม้ความสามารถในการแข่งขันจะด้อยกว่าอยู่บ้าง แต่การที่แต่ละภูมิภาคมีโมเดลของตัวเองที่ควบคุมการฝึกได้ก็เป็นสิ่งจำเป็นเชิงยุทธศาสตร์ อย่างไรก็ตาม หากช่องว่างทางเทคโนโลยีกว้างเกินไป ก็เสี่ยงที่ผู้ใช้จะมองว่าใช้งานไม่ได้
    • น่าสนใจที่ Mistral สร้าง training pipeline แบบ “independent” ได้อย่างสมบูรณ์ ขณะที่คู่แข่งอย่าง Deepseek น่าจะฝึกจากข้อมูลของ GPT-4, o1 และอื่น ๆ
  • มีการสรุปบันทึกการทดลองใช้งาน Magistral ผ่าน Ollama, API และปลั๊กอิน llm-mistral ไว้ที่ลิงก์บันทึก
    • มีคนถาม Simon ว่าความแตกต่างที่แท้จริงของ "นกกระทุงสองตัวขี่จักรยาน" คืออะไร โดยเดาว่ารุ่นเล็กถูกรันแบบโลคัล ส่วนรุ่นใหญ่ที่ประสิทธิภาพดีกว่ารันผ่าน API
  • ตอนที่โมเดล OCR ของ Mistral ถูกโปรโมตอย่างหนัก ฉันมีประสบการณ์ใช้งานจริงที่ต้องทำ OCR กับ PDF 600 หน้า ซึ่งทั้งหมดเป็นข้อความ monospace แต่ผล OCR กลับมองว่า 80% เป็นภาพและแสดงออกมาแทบเป็นช่องว่างล้วน ๆ แย่กว่า tesseract มาก หนึ่งเดือนต่อมาต้องจ่ายบิลทั้งที่ผลลัพธ์ย่ำแย่และสุดท้ายลบบัญชีไป แม้ผลิตภัณฑ์ใหม่นี้อาจดีกว่าของเดิม แต่ตอนนี้ความคาดหวังต่อการตลาดที่เกินจริงของ Mistral ลดลงมากแล้ว
  • สับสนว่าทำไมการคัดเลือกตัวอย่าง benchmark ถึงกระจัดกระจายและจำกัดขนาดนี้ เปรียบเทียบ Magistral Medium แค่กับ Deepseek V3, R1 และ Mistral Medium 3 แล้วทำไม Magistral Small, Alibaba Qwen หรือรุ่น mini ของ o3/o4 ถึงหายไปก็ไม่เข้าใจ
  • เพื่อทดสอบทั้งการให้เหตุผลเชิงตรรกะและความรู้ทั่วไประดับ Wikipedia มีการถาม Mistral AI ว่า "พลเมืองบราซิลที่เดินทางจากเซาเปาลูไปปารีสโดยต่อเครื่องที่ลิสบอน จะผ่านตม.ขาเข้าและขาออกที่ไหน" Mistral AI ตอบว่า "ที่ปารีสเท่านั้น" แต่เมื่อให้ดูบทความ Wikipedia ก็แก้เป็น "ที่ลิสบอน" ส่วน Meta AI (Llama 4) กลับตอบว่าไม่ต้องทั้งสองที่ แสดงให้เห็นปัญหาความแม่นยำ อยากรู้เหมือนกันว่า LLM อื่นจะตอบอย่างไร
    • มีความเห็นว่าคำถามนี้แทบจะเป็นคำถามหลอก เพราะในความเป็นจริงนอกจากจะต้องผ่านด่านเข้าของเชงเก้นที่ลิสบอนแล้ว ก็น่าจะต้องผ่านขั้นตอนขาออกจากบราซิล/เมร์โกซูร์ที่เซาเปาลูด้วย
    • คำตอบจาก Gemini(2.5 Flash) น่าประทับใจ โดยสรุปคือ พลเมืองบราซิลได้รับการยกเว้นวีซ่าเชงเก้นสูงสุด 90 วัน ต้องผ่านตม.ขาเข้าที่ลิสบอน และเที่ยวบินไปปารีสจะถือเป็นเที่ยวบินภายในเชงเก้นจึงไม่มีการตรวจเพิ่มที่ปารีส แม้จะมีการนำระบบอนุญาตเดินทางอิเล็กทรอนิกส์ ETIAS มาใช้ในปี 2026 แต่สิ่งนี้เป็นเพียงการอนุมัติก่อนเดินทางและไม่กระทบต่อจุดที่มีการตรวจ
    • มีคนชี้ว่าคนที่ถามเองก็ยังสับสนกับคำตอบอยู่ และมองว่านี่เป็นมุมที่น่าสนุกของการทดสอบแบบนี้ เพราะทำให้เปรียบเทียบได้ง่ายว่า LLM ตัวไหนตอบได้น่าเชื่อถือกว่ากัน
    • ยังเผื่อความเป็นไปได้ว่า Llama 4 อาจตอบถูกก็ได้ เพราะอาจมีข้อตกลงยกเว้นวีซ่าพิเศษระหว่างบราซิลกับโปรตุเกส
  • ฉันอยากให้เอา Qwen3 ใส่เข้าไปในกราฟ benchmark ด้วย เพราะแค่ Qwen3-4B ก็มีประสิทธิภาพเกือบเท่า Magistral-22B แล้ว และ Qwen3-30B-A3B ก็ให้ผลลัพธ์เหนือกว่ามาก
    • รุ่น 30-A3B ยอดเยี่ยมจริง ๆ ถ้ารันเองแบบโลคัลโดยไม่เสียค่า API ก็ให้ประสิทธิภาพเหนือกว่าโมเดลปิดเมื่อ 1–2 ปีก่อนเสียอีก โดยเฉพาะงานเขียนโปรแกรมที่มองว่าดีกว่า gpt-4o
    • สงสัยว่ามีเว็บไซต์ที่ทำ benchmark โมเดลหลากหลายแบบอัตโนมัติหรือไม่ เจ้าตัวลองทดสอบเองแล้ว และ Qwen3-30B-A3B ยังเป็นตัวที่ดีที่สุดภายใต้เงื่อนไขพารามิเตอร์/หน่วยความจำใกล้เคียงกัน
    • คิดว่า Qwen3 เป็น reasoning model ที่น่าประทับใจที่สุดเท่าที่เคยลองมา
    • Mistral มักไม่มีประโยชน์ใช้งานจริงเพราะมีโมเดลอื่นที่ดีกว่าเสมอ แต่ก็ยังมีความหมายเพราะเป็นของยุโรป ไม่ว่าประสิทธิภาพจะเป็นอย่างไร ชื่อของ Mistral ก็น่าจะถูกพูดถึงต่อไป
  • มีเรื่องชวนสนุกด้านนิรุกติศาสตร์ คำว่า "mistral" และ "magistral" ต่างก็มีรากความหมายประมาณ "เชี่ยวชาญแบบครูใหญ่/ระดับมาสเตอร์" คำว่า mistral เดิมมาจากภาษาอ็อกซีต็อง และในอังกฤษปัจจุบันมักใช้เรียกลมแถบเมดิเตอร์เรเนียน ส่วน magistral เป็นรูปคำคุณศัพท์ของ "magister" ถ้าหาคำที่เกี่ยวข้องได้อีกและจดโดเมนไว้ อาจกลายเป็นโอกาสทำเงินได้
  • สงสัยว่ายังมี open-weight reasoning model แบบนี้อีกมากแค่ไหน จินตนาการถึงการรันหลายโมเดลกับโจทย์เดียวกันพร้อมกันได้ อีกจุดที่น่าสนใจคือปล่อยรุ่น Small ออกมา แต่เก็บ Medium ไว้เป็นบริการแบบเสียเงิน เลยสงสัยว่าพอจะเอา Medium ไปใช้งานเหมือนเชนที่เชื่อม Small หลายรอบเข้าด้วยกันได้หรือไม่
    • คิดว่าตอนนี้ open-weight reasoning model ที่ดีที่สุดคือ Qwen 3, DeepSeek R1 และ Phi-4 Reasoning
    • ในทางปฏิบัติดูเหมือนจะมีแค่ตระกูล DeepSeek และถ้าใช้ distill model ก็สามารถรันบนฮาร์ดแวร์ผู้บริโภคทั่วไปได้
  • สงสัยว่าการใช้ en-dash จำนวนมากเกินไปในข้อความการตลาด สะท้อนสไตล์ผลลัพธ์ที่โมเดลสร้างด้วยหรือไม่ ถ้าใช่ก็ควรปรับปรุง
    • ในข้อความจริงมีการเน้นว่า Magistral เป็นเพื่อนคู่คิดที่ยอดเยี่ยมสำหรับงานสร้างสรรค์ และหากต้องการก็สามารถสร้างข้อความที่ “แปลกประหลาดอย่างน่าพิศวง” ได้
    • มีการนับว่าใช้ en-dash 49 ครั้ง และเครื่องหมายจุลภาค 59 ครั้ง ซึ่งเป็นสัดส่วนที่สูงสะดุดตา
    • มีการวิเคราะห์ว่านี่เป็นเพียงสไตล์การตลาดของ Mistral เท่านั้น ไม่ได้พบการใช้ en-dash ในสัดส่วนเดียวกันในผลลัพธ์จริงของโมเดล
    • มีคนแชร์ประสบการณ์ว่าบางครั้งใน LibreOffice พอพิมพ์ "-" แล้วกด spacebar มันจะกลายเป็น en-dash เลยตั้งใจแก้กลับเพื่อไม่ให้คนเข้าใจผิด
    • มีการพูดติดตลกว่าในวงการกฎหมายกลับชอบ en-dash กันมาก