ปรับปรุงความเร็วในการโหลดน้ำหนักโมเดลของ Llama.cpp ได้ 10–100 เท่า

xguru · 2023-04-03T10:03:01+09:00

ด้วยการเปลี่ยนฟอร์แมตไฟล์ ทำให้สามารถใช้ mmap() ได้โดยไม่ต้อง read() จึงทำให้ความเร็วในการโหลดน้ำหนักเพิ่มขึ้น 10–100 เท่า รองรับทั้ง 7B แบบไฟล์เดียว และ 13B แบบหลายไฟล์ เป็นต้น อีกทั้งโค้ดสำหรับการโหลดก็เรียบง่ายขึ้นมาก นอกจากนี้ จากการเปลี่ยนแปลงนี้ยังทำให้เทนเซอร์ถูกจัดแนวที่ขอบเขต 32 ไบต์ จึงอาจคาดหวังการปรับปรุงประสิทธิภาพเพิ่มเติมได้บนโปรเซสเซอร์บางรุ่น

(github.com/ggerganov)

13 คะแนน โดย xguru 2023-04-03 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ด้วยการเปลี่ยนฟอร์แมตไฟล์ ทำให้สามารถใช้ mmap() ได้โดยไม่ต้อง read() จึงทำให้ความเร็วในการโหลดน้ำหนักเพิ่มขึ้น 10–100 เท่า
รองรับทั้ง 7B แบบไฟล์เดียว และ 13B แบบหลายไฟล์ เป็นต้น อีกทั้งโค้ดสำหรับการโหลดก็เรียบง่ายขึ้นมาก
นอกจากนี้ จากการเปลี่ยนแปลงนี้ยังทำให้เทนเซอร์ถูกจัดแนวที่ขอบเขต 32 ไบต์ จึงอาจคาดหวังการปรับปรุงประสิทธิภาพเพิ่มเติมได้บนโปรเซสเซอร์บางรุ่น

1 ความคิดเห็น

xguru 2023-04-03

LLaMA - LLM ขนาด 65B พารามิเตอร์ที่ Meta เปิดเผย
llama.cpp - รันการอนุมานโมเดล LLaMA ของ Facebook ด้วย C/C++ ล้วน

ปรับปรุงความเร็วในการโหลดน้ำหนักโมเดลของ Llama.cpp ได้ 10–100 เท่า

บทความที่เกี่ยวข้อง

1 ความคิดเห็น