เปิดตัว Mistral NeMo

(mistral.ai)

6 คะแนน โดย GN⁺ 2024-07-19 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

เปิดตัว Mistral NeMo โมเดลขนาด 12 พันล้านพารามิเตอร์ที่พัฒนาร่วมกับ NVIDIA
รองรับหน้าต่างบริบทขนาดใหญ่สูงสุด 128k โทเค็น
มีความสามารถด้านการให้เหตุผล ความรู้เกี่ยวกับโลก และความแม่นยำในการเขียนโค้ดอยู่ในระดับแนวหน้าของรุ่นเดียวกัน
ใช้สถาปัตยกรรมมาตรฐาน จึงนำไปใช้กับระบบที่ใช้ Mistral 7B ได้อย่างง่ายดาย
เปิดเผยเช็กพอยต์ทั้งรุ่นพื้นฐานที่ผ่านการพรีเทรนและรุ่น instruction-tuned ภายใต้ไลเซนส์ Apache 2.0 เพื่อส่งเสริมการนำไปใช้โดยนักวิจัยและองค์กร
ฝึกด้วยการรับรู้การควอนไทซ์ ทำให้ทำ inference แบบ FP8 ได้โดยไม่สูญเสียประสิทธิภาพ

โมเดลหลายภาษา

ออกแบบมาสำหรับแอปพลิเคชันหลายภาษาระดับโลก
ฝึกมาเพื่อรองรับการเรียกใช้ฟังก์ชัน และมีหน้าต่างบริบทขนาดใหญ่
แข็งแกร่งเป็นพิเศษในภาษาอังกฤษ ฝรั่งเศส เยอรมัน สเปน อิตาลี โปรตุเกส จีน ญี่ปุ่น เกาหลี อาหรับ และฮินดี
มีเป้าหมายเพื่อมอบโมเดล AI ระดับล้ำสมัยให้แก่ผู้ใช้ทุกภาษา

Tekken, โทเค็นไนเซอร์ที่มีประสิทธิภาพมากขึ้น

ใช้ Tekken โทเค็นไนเซอร์ใหม่ที่พัฒนาบนพื้นฐานของ Tiktoken
บีบอัดทั้งข้อความภาษาธรรมชาติและซอร์สโค้ดในกว่า 100 ภาษาได้มีประสิทธิภาพกว่าโทเค็นไนเซอร์ SentencePiece
มีประสิทธิภาพดีกว่าประมาณ 30% สำหรับซอร์สโค้ด ภาษาจีน อิตาลี ฝรั่งเศส เยอรมัน สเปน และรัสเซีย
มีประสิทธิภาพดีกว่า 2 เท่าและ 3 เท่าตามลำดับสำหรับภาษาเกาหลีและอาหรับ
เมื่อเทียบกับโทเค็นไนเซอร์ของ Llama 3 ให้ประสิทธิภาพการบีบอัดที่ดีกว่าในราว 85% ของภาษา

การปรับจูน instruction

Mistral NeMo ผ่านขั้นตอนการ fine-tuning และ alignment ขั้นสูง
เมื่อเทียบกับ Mistral 7B มีความสามารถที่ดีกว่ามากในการทำตามคำสั่งอย่างแม่นยำ ให้เหตุผล จัดการบทสนทนาหลายเทิร์น และสร้างโค้ด

ลิงก์

น้ำหนักของโมเดลพื้นฐานและโมเดล instruction โฮสต์อยู่บน HuggingFace
สามารถทดลองใช้ Mistral NeMo ได้ด้วย mistral-inference และปรับจูนได้ด้วย mistral-finetune
แพ็กเกจมาในรูป NVIDIA NIM inference microservice และใช้งานได้ที่ ai.nvidia.com

1 ความคิดเห็น

GN⁺ 2024-07-19

ความคิดเห็นจาก Hacker News

Mistral NeMo เป็นโมเดล 12B ที่พัฒนาร่วมกับ NVIDIA โดยมีหน้าต่างคอนเท็กซ์ขนาดใหญ่สูงสุด 128k โทเคน
- ใช้สถาปัตยกรรมมาตรฐาน จึงใช้งานได้ง่าย และสามารถใช้แทนในระบบที่ใช้ Mistral 7B ได้โดยสะดวก
- มีการให้เช็กพอยต์ที่พรีเทรนแล้วภายใต้ไลเซนส์ Apache 2.0 เพื่อส่งเสริมการนำไปใช้โดยนักวิจัยและองค์กร
- รองรับการอนุมานแบบ FP8 โดยไม่สูญเสียประสิทธิภาพผ่านการตระหนักรู้ด้านการควอนไทซ์
Mistral NeMo ใช้โทเคไนเซอร์ใหม่ชื่อ Tekken ซึ่งฝึกด้วยข้อมูลมากกว่า 100 ภาษา และบีบอัดข้อความกับซอร์สโค้ดได้มีประสิทธิภาพกว่า SentencePiece
- มีการตั้งคำถามว่าทำไมถึงกลับไปใช้ SentencePiece ทั้งที่ byte-pair encoding ได้รับการพิสูจน์แล้วว่าเป็นวิธีเข้ารหัสที่มีประสิทธิภาพกว่า
บนบล็อกของ NVIDIA ก็มีโพสต์เกี่ยวกับ Mistral NeMo เช่นกัน
- ถูกแพ็กเกจเป็นไมโครเซอร์วิสสำหรับการอนุมาน NVIDIA NIM และให้การอนุมานที่ปรับจูนประสิทธิภาพผ่านเอนจิน NVIDIA TensorRT-LLM
- ออกแบบมาให้พอดีกับหน่วยความจำของ GPU NVIDIA L40S, NVIDIA GeForce RTX 4090 และ NVIDIA RTX 4500
- ฝึกด้วย Megatron-LM บน GPU Tensor Core H100 80GB จำนวน 3,072 ตัว
โมเดลขนาดใหญ่กำลังถูกปล่อยออกมาอย่างรวดเร็ว ซึ่งหมายความว่าบริษัทต่าง ๆ ได้ค้นพบวิธีขยายกระบวนการที่ปรับสเกลได้แล้ว
- มีการตั้งคำถามว่าการโพสต์โมเดลลง HuggingFace นับเป็นธุรกิจหรือไม่
- การดาวน์โหลดไฟล์โมเดลมีขนาดราว 25GB และเป็นโมเดลควอนไทซ์ 8fp
มีความเห็นว่าประสบการณ์การสมัคร NVIDIA Enterprise เพื่อทดลองเวอร์ชันแพ็กเกจ "NIM" นั้นไม่สะดวก
- มีความเห็นว่าการเปิดให้ดาวน์โหลดไฟล์โมเดลได้อย่างอิสระจะดีกว่า
- มีการแสดงความไม่พอใจที่ NVIDIA เรียกให้ผ่านขั้นตอนซับซ้อน ทั้งที่มีการผูกขาดด้านฮาร์ดแวร์อยู่แล้ว
มีความเห็นว่าหาก Mistral จริงจังกับการพัฒนาโอเพนซอร์ส ก็ควรแชร์คอร์ปัสที่ใช้ฝึกโมเดลด้วย
- มีการตั้งคำถามว่าทำไมถึงไม่เตรียมเวอร์ชัน GGUF ให้พร้อมตั้งแต่วันเปิดตัว
มีคำถามว่าการฝึกแบบหลายภาษามอบ "crossover" ได้หรือไม่
- มีความสงสัยว่าความรู้จากการฝึกภาษาเยอรมันสามารถถูกนำมาใช้เมื่อตอบพรอมป์ภาษาอังกฤษได้หรือไม่
ยังไม่เข้าใจโมเดลธุรกิจของการปล่อยโมเดล generative AI แบบโอเพนซอร์สให้ใช้ฟรี
- มีการตั้งคำถามว่าทำไมจึงให้โมเดลที่ฝึกด้วย H100 จำนวน 3072 ตัวฟรี

เปิดตัว Mistral NeMo

โมเดลหลายภาษา

Tekken, โทเค็นไนเซอร์ที่มีประสิทธิภาพมากขึ้น

การปรับจูน instruction

ลิงก์

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News