9 คะแนน โดย GN⁺ 2024-04-18 | 6 ความคิดเห็น | แชร์ทาง WhatsApp
  • "ถูกกว่า ดีกว่า เร็วกว่า และทรงพลังกว่า"
  • เป็นโมเดล Sparse Mixture-of-Experts(SMoE) ที่ใช้พารามิเตอร์ที่ทำงานจริงเพียง 39B จากพารามิเตอร์ทั้งหมด 141B ทำให้มีความคุ้มค่าด้านต้นทุนสูงมากเมื่อเทียบกับขนาดโมเดล

คุณสมบัติเด่นของ Mixtral 8x22B

  • ใช้งานภาษาอังกฤษ ฝรั่งเศส อิตาลี เยอรมัน และสเปนได้อย่างคล่องแคล่ว
  • มีความสามารถด้านคณิตศาสตร์และการเขียนโค้ดที่ยอดเยี่ยม
  • รองรับการเรียกใช้ฟังก์ชันได้โดยพื้นฐาน และเมื่อใช้ร่วมกับโหมดจำกัดผลลัพธ์ที่ติดตั้งบน la Plateforme ก็สามารถพัฒนาแอปพลิเคชันขนาดใหญ่และปรับปรุงเทคโนโลยีสแตกให้ทันสมัยได้
  • หน้าต่างคอนเท็กซ์ 64K โทเค็นช่วยให้ดึงข้อมูลที่ถูกต้องกลับมาได้จากเอกสารจำนวนมาก

โมเดลโอเพนอย่างแท้จริง

  • Mistral AI เชื่อในพลังของความเปิดกว้างและการกระจายการใช้งานในวงกว้าง เพื่อส่งเสริมนวัตกรรมและความร่วมมือใน AI
  • Mixtral 8x22B เผยแพร่ภายใต้ Apache 2.0 ซึ่งเป็นไลเซนส์โอเพนซอร์สที่เปิดกว้างมากที่สุด ทำให้ทุกคนสามารถใช้งานโมเดลได้โดยไม่มีข้อจำกัด

ประสิทธิภาพสูงสุด

  • Mistral AI สร้างโมเดลที่ให้ประสิทธิภาพสูงสุดต่อค่าใช้จ่ายในแต่ละขนาดโมเดล จึงให้สัดส่วนประสิทธิภาพต่อราคาที่ดีที่สุดในบรรดาโมเดลจากชุมชน
  • Mixtral 8x22B เป็นส่วนขยายตามธรรมชาติของตระกูลโมเดลโอเพนของ Mistral AI ด้วยรูปแบบการทำงานแบบ sparse จึงเร็วกว่าโมเดล Dense 70B และยังมอบความสามารถมากกว่าโมเดล open-weight อื่น ๆ ที่เผยแพร่ภายใต้ทั้งไลเซนส์แบบเปิดกว้างหรือแบบจำกัด อีกทั้งการเข้าถึงโมเดลพื้นฐานยังทำให้เหมาะอย่างยิ่งสำหรับงานใช้งานด้านการ fine-tuning

ประสิทธิภาพโอเพนที่ไม่มีใครเทียบ

การให้เหตุผลและความรู้

  • Mixtral 8x22B ถูกปรับให้เหมาะกับงานด้านการให้เหตุผล
  • แสดงประสิทธิภาพสูงสุดในกลุ่มโมเดล LLM แบบโอเพนระดับแนวหน้าบนเบนช์มาร์กด้านสามัญสำนึก การให้เหตุผล และความรู้ (MMLU, HellaSwag, Wino Grande, Arc Challenge, TriviaQA, NaturalQS)

ความสามารถหลายภาษา

  • Mixtral 8x22B มีความสามารถหลายภาษาในตัว
  • เหนือกว่า LLaMA 2 70B อย่างชัดเจนบนเบนช์มาร์ก HellaSwag, Arc Challenge, MMLU ในภาษาฝรั่งเศส เยอรมัน สเปน และอิตาลี

คณิตศาสตร์และการเขียนโค้ด

  • Mixtral 8x22B แสดงประสิทธิภาพด้านการเขียนโค้ดและงานคณิตศาสตร์ได้ดีที่สุดเมื่อเทียบกับโมเดลโอเพนอื่น ๆ
  • ทำผลงานสูงสุดในกลุ่มโมเดลโอเพนชั้นนำบนเบนช์มาร์กด้านโค้ดและคณิตศาสตร์ (HumanEval pass@1, MBPP pass@1, GSM8K maj@1/8, Math maj@4)
  • เวอร์ชัน Instructed ของ Mixtral 8x22B ที่ประกาศวันนี้มีความสามารถด้านคณิตศาสตร์ดียิ่งขึ้น โดยทำคะแนน GSM8K maj@8 ได้ 90.8% และ Math maj@4 ได้ 44.6%

ความเห็นของ GN⁺

  • Mixtral 8x22B เป็นโมเดลโอเพนที่มีขนาดใหญ่ที่สุดของ Mistral และยังใช้ประโยชน์จาก sparsity เพื่อให้คุ้มค่าต่อค่าใช้จ่ายอย่างมาก ซึ่งน่าจับตาในฐานะหนึ่งในทิศทางการพัฒนาของโมเดล LLM แบบโอเพนซอร์ส
  • ประสิทธิภาพหลายภาษาที่โดดเด่นเมื่อเทียบกับขนาดโมเดล รวมถึงความสามารถด้านคณิตศาสตร์/การเขียนโค้ด ดูจะเป็นจุดแตกต่างของ Mixtral 8x22B อย่างไรก็ตาม สำหรับภาษาที่ไม่ใช่อังกฤษ ช่วงภาษาที่รองรับยังค่อนข้างแคบ และเมื่อเทียบกับ LLM รุ่นล่าสุดอย่าง GPT-4 ความสามารถด้านโค้ดหรือคณิตศาสตร์ก็ยังตามหลังอยู่
  • การใช้ไลเซนส์ Apache 2.0 ที่เปิดให้ทุกคนนำไปใช้งานได้อย่างเสรีเป็นข้อดี แต่ก็ดูมีความเป็นไปได้ในการนำไปใช้ในทางที่ผิดสูงเช่นกัน จึงดูจำเป็นต้องมีความพยายามจากชุมชนมากขึ้นเพื่อการพัฒนาและใช้งานโมเดล AI โอเพนซอร์สอย่างมีความรับผิดชอบ
  • ความสามารถในการพัฒนาแอปพลิเคชันด้วยโมเดล Mixtral และการปรับปรุงเทคโนโลยีสแตกให้ทันสมัยเป็นจุดที่น่าสนใจ แต่สำหรับการนำไปใช้กับบริการขนาดใหญ่ ดูเหมือนว่ายังมีข้อจำกัดด้านเทคนิคและต้นทุนอยู่ อย่างไรก็ตาม คาดว่าจะได้เห็นกรณีนวัตกรรมบนพื้นฐานโอเพนซอร์สเพิ่มขึ้น
  • ในเกาหลีเอง KakaoBrain, NAVER, LG AI Research ก็กำลังพัฒนา LLM ของตนเองอยู่เช่นกัน และในแง่ความเฉพาะทางต่อตลาดเกาหลี เช่น ประสิทธิภาพการประมวลผลภาษาเกาหลี โมเดลเหล่านี้ก็น่าจะมีความสามารถในการแข่งขัน

6 ความคิดเห็น

 
ninebow 2024-04-19
 
dormis 2024-04-19

เหมือนว่าถูกลงทะเบียนไว้ให้ใช้งานได้แล้วใน Azure AI Studio ครับ (mistralai-Mixtral-8x7B-v01, mistral-community-Mixtral-8x22B-v0-1)

 
vkehfdl1 2024-04-18

Polyglot ไม่ได้สร้างโดย Kakao Brain แต่สร้างโดย TUNiB ai และ EleutherAI คงมีอาการหลอนนะ ฮือ

 
xguru 2024-04-19

อ้อ ใช่เลยครับ แก้ไขไว้แล้ว ขอบคุณครับ

 
xguru 2024-04-18

พอให้ Claude Opus ออกความเห็น บางทีก็แทรกเรื่องในประเทศแบบนี้เข้ามาด้วยนะครับ น่าสนใจดี ฮ่า

 
GN⁺ 2024-04-18
ความเห็นจาก Hacker News

สรุป:

  • ลองถาม ChatGPT เรื่องภาษีแล้วกลับได้โฆษณาบริการเขียนเรียงความออกมา
  • ขอคำอธิบายแนวคิด "Mixture-of-Experts" แบบเข้าใจง่าย
    • เข้าใจแนวคิดที่ว่ามีผู้เชี่ยวชาญย่อยอยู่แล้ว แต่สงสัยว่าระหว่างการฝึก ระบบตัดสินอย่างไรว่าแต่ละตัวจะเชี่ยวชาญด้านไหน
  • รู้สึกเสียดายเรื่องขนาด context window 64K โทเค็น
    • การที่ยังเทียบกับ 128K ของ GPT-4 Turbo ไม่ได้ อาจกลายเป็นเรื่องให้ล้อกันต่อไปได้ในอนาคต
    • คาดว่าในอนาคตจะเพิ่มไปถึงระดับ 1 ล้านล้านโทเค็น
  • ถามหาวิธีที่ดีที่สุดในการรัน LLM บน MacBook Pro
    • ไม่ชอบอินเทอร์เฟซของ LMStudio และรู้สึกว่า Ollama ใช้งานผ่าน CLI ไม่สะดวก
    • อยากได้โซลูชันที่ปรับตั้งค่าได้ละเอียดแบบ OpenAI และแก้ไขพรอมป์ต์ได้ง่าย
  • ข้อจำกัดของโมเดลแบบเปิด
    • ถ้าเข้าถึงข้อมูลฝึกไม่ได้ ก็ไม่สามารถทำซ้ำโมเดลนั้นได้
  • ผลการเปรียบเทียบระหว่างซีรีส์ Mistral กับประสิทธิภาพ
  • ข้อดีของการทำสตาร์ทอัป AI
    • ทุกครั้งที่มีโมเดลขนาดใหญ่ตัวใหม่ออกมา ผลิตภัณฑ์ก็ดีขึ้นโดยอัตโนมัติ
  • ถามว่า LLM เวอร์ชัน "non-instructed" คือเวอร์ชันที่ไม่มีการกำกับของเวอร์ชัน "instructed" หรือไม่
  • LLM ทำให้ความสำคัญของ RAM กลับมาโดดเด่นอีกครั้ง
    • เสียดายที่ไม่ได้เพิ่ม RAM อีก 32GB ให้ MacBook Pro
  • คาดหวังกับโมเดลที่ถูก quantize
    • หวังว่าจะมีโมเดล 3 บิตที่รันได้บน MacBook Pro 64GB