ปรับปรุงความเร็วในการโหลดน้ำหนักโมเดลของ Llama.cpp ได้ 10–100 เท่า
(github.com/ggerganov)- ด้วยการเปลี่ยนฟอร์แมตไฟล์ ทำให้สามารถใช้
mmap()ได้โดยไม่ต้องread()จึงทำให้ความเร็วในการโหลดน้ำหนักเพิ่มขึ้น 10–100 เท่า - รองรับทั้ง 7B แบบไฟล์เดียว และ 13B แบบหลายไฟล์ เป็นต้น อีกทั้งโค้ดสำหรับการโหลดก็เรียบง่ายขึ้นมาก
- นอกจากนี้ จากการเปลี่ยนแปลงนี้ยังทำให้เทนเซอร์ถูกจัดแนวที่ขอบเขต 32 ไบต์ จึงอาจคาดหวังการปรับปรุงประสิทธิภาพเพิ่มเติมได้บนโปรเซสเซอร์บางรุ่น
1 ความคิดเห็น
LLaMA - LLM ขนาด 65B พารามิเตอร์ที่ Meta เปิดเผย
llama.cpp - รันการอนุมานโมเดล LLaMA ของ Facebook ด้วย C/C++ ล้วน