- สามารถรันอินเฟอเรนซ์โมเดล Llama 2 ขนาดเล็กได้ด้วย C ล้วน
- โค้ดนี้ทำให้สามารถฝึกสถาปัตยกรรม Llama 2 LLM ใน PyTorch และบันทึกน้ำหนักเป็นไฟล์ไบนารีดิบได้
- จากนั้นสามารถโหลดน้ำหนักเข้าไปในไฟล์ C ได้
- ไฟล์ C สามารถรันโมเดลขนาดค่อนข้างใหญ่ได้ด้วยความเร็วสูงมาก
- โปรเจ็กต์นี้สร้างขึ้นเป็นโปรเจ็กต์ทำเล่นช่วงสุดสัปดาห์ ไม่ใช่ไลบรารีสำหรับงานโปรดักชัน
- สามารถดาวน์โหลดโมเดลที่ฝึกไว้ล่วงหน้าแล้วมารันใน C ได้
- โค้ด C จะสตรีมโทเค็นดิบ และสามารถแปลงเป็นข้อความได้ด้วยแรปเปอร์อย่างง่าย
- โค้ด C ทำงานได้ที่ความเร็วประมาณ 100 โทเค็นต่อวินาทีบน M1 MacBook Air
- เอาต์พุตของโค้ด C คือข้อความที่สร้างขึ้นจากโมเดล
- โปรเจ็กต์นี้มุ่งเน้นที่แอปพลิเคชันเฉพาะ และฝึกสถาปัตยกรรมเดียวกันนี้ขึ้นมาใหม่ตั้งแต่ต้น
- สามารถดาวน์โหลดชุดข้อมูลต้นฉบับ ทำการโทเค็นไนซ์ล่วงหน้า แล้วฝึกโมเดลได้
- สามารถปรับไฮเปอร์พารามิเตอร์เพื่อสร้างโมเดลที่ดีขึ้นได้
- ยังสามารถรันสคริปต์อินเฟอเรนซ์ของ PyTorch เพื่อใช้เปรียบเทียบได้
- สามารถทำการทดสอบแบบละเอียดได้ด้วยสคริปต์ทดสอบที่ให้มา
- โปรเจ็กต์นี้ต้องใช้ไฟล์
model.bin และ model.ckpt จากการฝึกด้วย PyTorch
- ในข้อความมีการกล่าวถึงงานที่ต้องทำและคำถามบางส่วน
- โปรเจ็กต์นี้เผยแพร่ภายใต้สัญญาอนุญาต MIT
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News