- เปิดตัว Mistral NeMo โมเดลขนาด 12 พันล้านพารามิเตอร์ที่พัฒนาร่วมกับ NVIDIA
- รองรับหน้าต่างบริบทขนาดใหญ่สูงสุด 128k โทเค็น
- มีความสามารถด้านการให้เหตุผล ความรู้เกี่ยวกับโลก และความแม่นยำในการเขียนโค้ดอยู่ในระดับแนวหน้าของรุ่นเดียวกัน
- ใช้สถาปัตยกรรมมาตรฐาน จึงนำไปใช้กับระบบที่ใช้ Mistral 7B ได้อย่างง่ายดาย
- เปิดเผยเช็กพอยต์ทั้งรุ่นพื้นฐานที่ผ่านการพรีเทรนและรุ่น instruction-tuned ภายใต้ไลเซนส์ Apache 2.0 เพื่อส่งเสริมการนำไปใช้โดยนักวิจัยและองค์กร
- ฝึกด้วยการรับรู้การควอนไทซ์ ทำให้ทำ inference แบบ FP8 ได้โดยไม่สูญเสียประสิทธิภาพ
โมเดลหลายภาษา
- ออกแบบมาสำหรับแอปพลิเคชันหลายภาษาระดับโลก
- ฝึกมาเพื่อรองรับการเรียกใช้ฟังก์ชัน และมีหน้าต่างบริบทขนาดใหญ่
- แข็งแกร่งเป็นพิเศษในภาษาอังกฤษ ฝรั่งเศส เยอรมัน สเปน อิตาลี โปรตุเกส จีน ญี่ปุ่น เกาหลี อาหรับ และฮินดี
- มีเป้าหมายเพื่อมอบโมเดล AI ระดับล้ำสมัยให้แก่ผู้ใช้ทุกภาษา
Tekken, โทเค็นไนเซอร์ที่มีประสิทธิภาพมากขึ้น
- ใช้ Tekken โทเค็นไนเซอร์ใหม่ที่พัฒนาบนพื้นฐานของ Tiktoken
- บีบอัดทั้งข้อความภาษาธรรมชาติและซอร์สโค้ดในกว่า 100 ภาษาได้มีประสิทธิภาพกว่าโทเค็นไนเซอร์ SentencePiece
- มีประสิทธิภาพดีกว่าประมาณ 30% สำหรับซอร์สโค้ด ภาษาจีน อิตาลี ฝรั่งเศส เยอรมัน สเปน และรัสเซีย
- มีประสิทธิภาพดีกว่า 2 เท่าและ 3 เท่าตามลำดับสำหรับภาษาเกาหลีและอาหรับ
- เมื่อเทียบกับโทเค็นไนเซอร์ของ Llama 3 ให้ประสิทธิภาพการบีบอัดที่ดีกว่าในราว 85% ของภาษา
การปรับจูน instruction
- Mistral NeMo ผ่านขั้นตอนการ fine-tuning และ alignment ขั้นสูง
- เมื่อเทียบกับ Mistral 7B มีความสามารถที่ดีกว่ามากในการทำตามคำสั่งอย่างแม่นยำ ให้เหตุผล จัดการบทสนทนาหลายเทิร์น และสร้างโค้ด
ลิงก์
- น้ำหนักของโมเดลพื้นฐานและโมเดล instruction โฮสต์อยู่บน HuggingFace
- สามารถทดลองใช้ Mistral NeMo ได้ด้วย
mistral-inference และปรับจูนได้ด้วย mistral-finetune
- แพ็กเกจมาในรูป NVIDIA NIM inference microservice และใช้งานได้ที่ ai.nvidia.com
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
Mistral NeMo เป็นโมเดล 12B ที่พัฒนาร่วมกับ NVIDIA โดยมีหน้าต่างคอนเท็กซ์ขนาดใหญ่สูงสุด 128k โทเคน
Mistral NeMo ใช้โทเคไนเซอร์ใหม่ชื่อ Tekken ซึ่งฝึกด้วยข้อมูลมากกว่า 100 ภาษา และบีบอัดข้อความกับซอร์สโค้ดได้มีประสิทธิภาพกว่า SentencePiece
บนบล็อกของ NVIDIA ก็มีโพสต์เกี่ยวกับ Mistral NeMo เช่นกัน
โมเดลขนาดใหญ่กำลังถูกปล่อยออกมาอย่างรวดเร็ว ซึ่งหมายความว่าบริษัทต่าง ๆ ได้ค้นพบวิธีขยายกระบวนการที่ปรับสเกลได้แล้ว
มีความเห็นว่าประสบการณ์การสมัคร NVIDIA Enterprise เพื่อทดลองเวอร์ชันแพ็กเกจ "NIM" นั้นไม่สะดวก
มีความเห็นว่าหาก Mistral จริงจังกับการพัฒนาโอเพนซอร์ส ก็ควรแชร์คอร์ปัสที่ใช้ฝึกโมเดลด้วย
มีคำถามว่าการฝึกแบบหลายภาษามอบ "crossover" ได้หรือไม่
ยังไม่เข้าใจโมเดลธุรกิจของการปล่อยโมเดล generative AI แบบโอเพนซอร์สให้ใช้ฟรี