6 คะแนน โดย GN⁺ 2024-07-25 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Mistral Large 2 รองรับ context window ขนาด 128k และรองรับหลายภาษา รวมถึงภาษาฝรั่งเศส เยอรมัน สเปน อิตาลี จีน ญี่ปุ่น และเกาหลี
    • นอกจากนี้ยังรองรับภาษาเขียนโปรแกรมมากกว่า 80 ภาษา รวมถึง Python, Java, C, C++, JavaScript และ Bash
  • ถูกออกแบบมาสำหรับการทำ inference บนโหนดเดียว และประกอบด้วยพารามิเตอร์ 123 พันล้านตัว จึงสามารถให้ throughput สูงบนโหนดเดียวได้
  • เผยแพร่ภายใต้ Mistral Research License ซึ่งอนุญาตให้ใช้งานและดัดแปลงได้เพื่อการวิจัยและการใช้งานที่ไม่ใช่เชิงพาณิชย์ หากต้องการใช้งานเชิงพาณิชย์ต้องได้รับ Mistral Commercial License

ประสิทธิภาพทั่วไป

  • Mistral Large 2 สร้างมาตรฐานใหม่ในตัวชี้วัดการประเมินด้านประสิทธิภาพ/ต้นทุน
  • โดยเฉพาะใน MMLU เวอร์ชันที่ผ่านการ pretrain ทำความแม่นยำได้ 84.0% และสร้างจุดใหม่บน performance/cost Pareto front

โค้ดและการให้เหตุผล

  • จากประสบการณ์ของ Codestral 22B และ Codestral Mamba ทำให้ Mistral Large 2 ได้รับการฝึกด้วยโค้ดจำนวนมาก
  • Mistral Large 2 เหนือกว่า Mistral Large รุ่นก่อนอย่างมาก และแสดงประสิทธิภาพทัดเทียมกับโมเดลชั้นนำอย่าง GPT-4o, Claude 3 Opus และ Llama 3 405B
  • มีการทุ่มเทความพยายามอย่างมากเพื่อปรับปรุงความสามารถด้านการให้เหตุผลของโมเดล และทำการ fine-tune โมเดลเพื่อลดแนวโน้มการสร้างข้อมูลที่ไม่ตรงกับข้อเท็จจริงให้น้อยที่สุด
  • โมเดลได้รับการฝึกให้ยอมรับเมื่อไม่สามารถหาคำตอบได้ หรือเมื่อมีข้อมูลไม่เพียงพอ

การทำตามคำสั่งและการจัดแนว

  • Mistral Large 2 ได้รับการปรับปรุงอย่างมากในด้านการทำตามคำสั่งและความสามารถด้านการสนทนา
  • เนื่องจากความกระชับมีความสำคัญในแอปพลิเคชันทางธุรกิจจำนวนมาก จึงได้ทุ่มเทอย่างมากเพื่อให้สร้างคำตอบที่กระชับและตรงประเด็นที่สุดเท่าที่จะเป็นไปได้

ความหลากหลายของภาษา

  • Mistral Large 2 ได้รับการฝึกด้วยข้อมูลหลายภาษาจำนวนมาก จึงแสดงประสิทธิภาพยอดเยี่ยมในภาษาอังกฤษ ฝรั่งเศส เยอรมัน สเปน อิตาลี โปรตุเกส ดัตช์ รัสเซีย จีน ญี่ปุ่น เกาหลี อาหรับ และฮินดี

การใช้เครื่องมือและการเรียกฟังก์ชัน

  • Mistral Large 2 มีความสามารถด้าน function calling และการค้นหาที่ดีขึ้น และได้รับการฝึกให้สามารถทำหน้าที่เป็นเอนจินขับเคลื่อนสำหรับแอปพลิเคชันทางธุรกิจที่ซับซ้อนได้

การเข้าถึงโมเดล Mistral ผ่านผู้ให้บริการคลาวด์

  • ขยายความร่วมมือกับ Google Cloud Platform เพื่อนำเสนอโมเดลของ Mistral AI บน Vertex AI
  • โมเดลของ Mistral AI ยังสามารถใช้งานได้บน Azure AI Studio, Amazon Bedrock และ IBM watsonx.ai

สรุปโดย GN⁺

  • Mistral Large 2 รองรับทั้งหลายภาษาและภาษาเขียนโปรแกรมหลากหลาย พร้อมให้ throughput สูงบนโหนดเดียว
  • ความสามารถด้านการสร้างโค้ดและการให้เหตุผลดีขึ้นอย่างมาก และลดแนวโน้มการสร้างข้อมูลที่ไม่ตรงกับข้อเท็จจริงให้น้อยที่สุด
  • ได้รับการฝึกด้วยข้อมูลหลายภาษาจำนวนมาก จึงแสดงประสิทธิภาพยอดเยี่ยมในหลายภาษา
  • ให้บริการแก่ผู้ใช้ทั่วโลกผ่านความร่วมมือกับ Google Cloud Platform, Azure AI Studio, Amazon Bedrock และ IBM watsonx.ai
  • ถูกออกแบบมาให้สร้างคำตอบที่กระชับและตรงประเด็นสำหรับแอปพลิเคชันทางธุรกิจ

1 ความคิดเห็น

 
GN⁺ 2024-07-25
ความเห็นจาก Hacker News
  • จากการทดสอบ Mistral Large 2 และ Llama 3.1 405b พบว่ายากที่จะตัดสินได้ชัดเจนว่ารุ่นไหนเหนือกว่า
  • ถ้าใช้งาน Claude อยู่แล้ว ก็ควรใช้ต่อไป
  • สิ่งที่อยากได้จาก Claude:
    • ฉลาดกว่านี้
    • context window ที่ยาวขึ้น (1M+)
    • รองรับเสียงแบบเนทีฟและเข้าใจน้ำเสียง
    • เวลาปฏิเสธ อยากให้ตัดสินเชิงศีลธรรมน้อยลง
    • เร็วกว่านี้
    • เพิ่มจำนวน output token
  • การแข่งขันของโมเดลกำลังดุเดือดขึ้น
  • Claude 3.5 Sonnet เหนือกว่าทุกโมเดลอื่นอย่างชัดเจน
  • ไม่ค่อยรู้ว่าจะใช้ Mistral หรือ Llama ในชีวิตประจำวันอย่างไร
  • กำลังพัฒนา AI coding assistant และหลังจากลองหลายโมเดลแล้ว พบว่า Mistral Large 2 น่าผิดหวังที่สุด
  • ไลเซนส์แบบไม่ใช่เชิงพาณิชย์น่าผิดหวัง
  • แข่งขันกับ Llama 3.1 405b ได้ แต่ไลเซนส์มีข้อจำกัดมากกว่า
  • ความแตกต่างระหว่างโมเดลกำลังลดลง ดังนั้นการ fine-tune Llama 405B ให้เหมาะกับ use case เฉพาะอาจดีกว่า
  • ถ้าไม่มีการก้าวกระโดดด้านคุณภาพ ก็ไม่น่าจะมีความแตกต่างมากนักจากสภาพปัจจุบัน
  • ดีใจที่การแข่งขันเข้มข้นขึ้น
  • มีการใช้ต้นทุนสูงเพื่อสร้างโมเดล SOTA แต่ก็ยังอยู่แค่ระดับ GPT-4o และ Claude Opus
  • การใส่ข้อมูลและ GPU เพิ่มเข้าไปอย่างเดียวเริ่มชนข้อจำกัดแล้ว
  • ประสบการณ์ผู้ใช้และ "บุคลิก" จะยิ่งสำคัญขึ้น
  • ชอบ Claude Sonnet และรู้สึกว่ามันคมกว่ารุ่นอื่น
  • อย่าลืมว่าในแต่ละก้าวต้องใช้พลังงานและทรัพยากรมากขึ้น
  • แชร์ผล benchmark โมเดลล่าสุดของ PyLLMs
    • ทึ่งกับความเร็วและคุณภาพของ Nemo
    • Mistral Large ดี แต่ช้ามาก
  • สับสนว่าระหว่าง Opus กับ Sonnet 3.5 ในตระกูล Claude รุ่นไหนมีความสามารถมากกว่ากัน
  • Mistral Large 2 มีความสามารถด้าน function calling และการค้นหาที่ดีขึ้น
  • สงสัยว่าความแม่นยำของ function calling ราว 50% หมายความว่าในงานซับซ้อนจะล้มเหลวครึ่งหนึ่งหรือไม่
  • ชอบ ChatGPT-4o มากกว่า และจะใช้ Claude เมื่อมีปัญหา แต่ก็ไม่ได้ผลลัพธ์ที่ดีกว่า