25 คะแนน โดย xguru 2023-04-03 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • โอเพนซอร์สที่พัฒนาแยกขึ้นมาใหม่ทั้งหมดบนพื้นฐานของ nanoGPT ภายใต้ไลเซนส์ Apache 2.0 แทนโค้ด LLaMA ที่ใช้ไลเซนส์ GPL
  • เรียบง่ายด้วยการอิมพลีเมนต์เป็นไฟล์เดียวโดยไม่มี boilerplate และให้ผลลัพธ์เชิงตัวเลขเหมือนกับโมเดลเดิม
  • รองรับ FlashAttention, การควอนไทซ์, การปรับจูน LoRA และการพรีเทรน
  • ปรับแต่งให้เหมาะสำหรับการรันบนฮาร์ดแวร์ระดับผู้บริโภค

1 ความคิดเห็น

 
xguru 2023-04-03

nanoGPT คือโค้ดที่ Andrej Karpathy อดีตหัวหน้าฝ่าย AI ของ Tesla เขียนขึ้นใหม่จาก minGPT
nanoGPT - โอเพนซอร์สสำหรับฝึก/ปรับจูน GPT ขนาดกลางให้ได้เร็วที่สุด

FlashAttention