6 คะแนน โดย GN⁺ 2024-07-19 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • เปิดตัว Mistral NeMo โมเดลขนาด 12 พันล้านพารามิเตอร์ที่พัฒนาร่วมกับ NVIDIA
  • รองรับหน้าต่างบริบทขนาดใหญ่สูงสุด 128k โทเค็น
  • มีความสามารถด้านการให้เหตุผล ความรู้เกี่ยวกับโลก และความแม่นยำในการเขียนโค้ดอยู่ในระดับแนวหน้าของรุ่นเดียวกัน
  • ใช้สถาปัตยกรรมมาตรฐาน จึงนำไปใช้กับระบบที่ใช้ Mistral 7B ได้อย่างง่ายดาย
  • เปิดเผยเช็กพอยต์ทั้งรุ่นพื้นฐานที่ผ่านการพรีเทรนและรุ่น instruction-tuned ภายใต้ไลเซนส์ Apache 2.0 เพื่อส่งเสริมการนำไปใช้โดยนักวิจัยและองค์กร
  • ฝึกด้วยการรับรู้การควอนไทซ์ ทำให้ทำ inference แบบ FP8 ได้โดยไม่สูญเสียประสิทธิภาพ

โมเดลหลายภาษา

  • ออกแบบมาสำหรับแอปพลิเคชันหลายภาษาระดับโลก
  • ฝึกมาเพื่อรองรับการเรียกใช้ฟังก์ชัน และมีหน้าต่างบริบทขนาดใหญ่
  • แข็งแกร่งเป็นพิเศษในภาษาอังกฤษ ฝรั่งเศส เยอรมัน สเปน อิตาลี โปรตุเกส จีน ญี่ปุ่น เกาหลี อาหรับ และฮินดี
  • มีเป้าหมายเพื่อมอบโมเดล AI ระดับล้ำสมัยให้แก่ผู้ใช้ทุกภาษา

Tekken, โทเค็นไนเซอร์ที่มีประสิทธิภาพมากขึ้น

  • ใช้ Tekken โทเค็นไนเซอร์ใหม่ที่พัฒนาบนพื้นฐานของ Tiktoken
  • บีบอัดทั้งข้อความภาษาธรรมชาติและซอร์สโค้ดในกว่า 100 ภาษาได้มีประสิทธิภาพกว่าโทเค็นไนเซอร์ SentencePiece
  • มีประสิทธิภาพดีกว่าประมาณ 30% สำหรับซอร์สโค้ด ภาษาจีน อิตาลี ฝรั่งเศส เยอรมัน สเปน และรัสเซีย
  • มีประสิทธิภาพดีกว่า 2 เท่าและ 3 เท่าตามลำดับสำหรับภาษาเกาหลีและอาหรับ
  • เมื่อเทียบกับโทเค็นไนเซอร์ของ Llama 3 ให้ประสิทธิภาพการบีบอัดที่ดีกว่าในราว 85% ของภาษา

การปรับจูน instruction

  • Mistral NeMo ผ่านขั้นตอนการ fine-tuning และ alignment ขั้นสูง
  • เมื่อเทียบกับ Mistral 7B มีความสามารถที่ดีกว่ามากในการทำตามคำสั่งอย่างแม่นยำ ให้เหตุผล จัดการบทสนทนาหลายเทิร์น และสร้างโค้ด

ลิงก์

  • น้ำหนักของโมเดลพื้นฐานและโมเดล instruction โฮสต์อยู่บน HuggingFace
  • สามารถทดลองใช้ Mistral NeMo ได้ด้วย mistral-inference และปรับจูนได้ด้วย mistral-finetune
  • แพ็กเกจมาในรูป NVIDIA NIM inference microservice และใช้งานได้ที่ ai.nvidia.com

1 ความคิดเห็น

 
GN⁺ 2024-07-19
ความคิดเห็นจาก Hacker News
  • Mistral NeMo เป็นโมเดล 12B ที่พัฒนาร่วมกับ NVIDIA โดยมีหน้าต่างคอนเท็กซ์ขนาดใหญ่สูงสุด 128k โทเคน

    • ใช้สถาปัตยกรรมมาตรฐาน จึงใช้งานได้ง่าย และสามารถใช้แทนในระบบที่ใช้ Mistral 7B ได้โดยสะดวก
    • มีการให้เช็กพอยต์ที่พรีเทรนแล้วภายใต้ไลเซนส์ Apache 2.0 เพื่อส่งเสริมการนำไปใช้โดยนักวิจัยและองค์กร
    • รองรับการอนุมานแบบ FP8 โดยไม่สูญเสียประสิทธิภาพผ่านการตระหนักรู้ด้านการควอนไทซ์
  • Mistral NeMo ใช้โทเคไนเซอร์ใหม่ชื่อ Tekken ซึ่งฝึกด้วยข้อมูลมากกว่า 100 ภาษา และบีบอัดข้อความกับซอร์สโค้ดได้มีประสิทธิภาพกว่า SentencePiece

    • มีการตั้งคำถามว่าทำไมถึงกลับไปใช้ SentencePiece ทั้งที่ byte-pair encoding ได้รับการพิสูจน์แล้วว่าเป็นวิธีเข้ารหัสที่มีประสิทธิภาพกว่า
  • บนบล็อกของ NVIDIA ก็มีโพสต์เกี่ยวกับ Mistral NeMo เช่นกัน

    • ถูกแพ็กเกจเป็นไมโครเซอร์วิสสำหรับการอนุมาน NVIDIA NIM และให้การอนุมานที่ปรับจูนประสิทธิภาพผ่านเอนจิน NVIDIA TensorRT-LLM
    • ออกแบบมาให้พอดีกับหน่วยความจำของ GPU NVIDIA L40S, NVIDIA GeForce RTX 4090 และ NVIDIA RTX 4500
    • ฝึกด้วย Megatron-LM บน GPU Tensor Core H100 80GB จำนวน 3,072 ตัว
  • โมเดลขนาดใหญ่กำลังถูกปล่อยออกมาอย่างรวดเร็ว ซึ่งหมายความว่าบริษัทต่าง ๆ ได้ค้นพบวิธีขยายกระบวนการที่ปรับสเกลได้แล้ว

    • มีการตั้งคำถามว่าการโพสต์โมเดลลง HuggingFace นับเป็นธุรกิจหรือไม่
    • การดาวน์โหลดไฟล์โมเดลมีขนาดราว 25GB และเป็นโมเดลควอนไทซ์ 8fp
  • มีความเห็นว่าประสบการณ์การสมัคร NVIDIA Enterprise เพื่อทดลองเวอร์ชันแพ็กเกจ "NIM" นั้นไม่สะดวก

    • มีความเห็นว่าการเปิดให้ดาวน์โหลดไฟล์โมเดลได้อย่างอิสระจะดีกว่า
    • มีการแสดงความไม่พอใจที่ NVIDIA เรียกให้ผ่านขั้นตอนซับซ้อน ทั้งที่มีการผูกขาดด้านฮาร์ดแวร์อยู่แล้ว
  • มีความเห็นว่าหาก Mistral จริงจังกับการพัฒนาโอเพนซอร์ส ก็ควรแชร์คอร์ปัสที่ใช้ฝึกโมเดลด้วย

    • มีการตั้งคำถามว่าทำไมถึงไม่เตรียมเวอร์ชัน GGUF ให้พร้อมตั้งแต่วันเปิดตัว
  • มีคำถามว่าการฝึกแบบหลายภาษามอบ "crossover" ได้หรือไม่

    • มีความสงสัยว่าความรู้จากการฝึกภาษาเยอรมันสามารถถูกนำมาใช้เมื่อตอบพรอมป์ภาษาอังกฤษได้หรือไม่
  • ยังไม่เข้าใจโมเดลธุรกิจของการปล่อยโมเดล generative AI แบบโอเพนซอร์สให้ใช้ฟรี

    • มีการตั้งคำถามว่าทำไมจึงให้โมเดลที่ฝึกด้วย H100 จำนวน 3072 ตัวฟรี