- ปรับปรุง nanoGPT ของ Andrei Karpathy ซึ่งรองรับได้เพียง 100M (100 ล้าน) พารามิเตอร์ ให้สามารถฝึกได้ถึง 100B (100 พันล้าน) พารามิเตอร์
- ไม่พึ่งพาโค้ดอื่นหรือเฟรมเวิร์กของบุคคลที่สาม และใช้ประโยชน์จากหน่วยความจำขนาดใหญ่และความสามารถด้านการประมวลผลของ "ฮาร์ดแวร์ Cerebras" เพื่อให้สามารถฝึกขนาดใหญ่บนโค้ด
torch.nn แบบวานิลลาได้
- รองรับความยาวคอนเท็กซ์ที่ยาวได้โดยไม่ต้องแก้ไขเพิ่มเติม และทำงานร่วมกับเครื่องมือเพิ่มประสิทธิภาพต่างๆ ได้
- Cerebras เป็นผู้ผลิตชิปเซ็ต โดยมีความเร็วในการคูณเมทริกซ์ใกล้เคียงกับ GPU แต่สร้างชิปให้มีขนาดใหญ่กว่ามาก เพื่อบรรจุทรานซิสเตอร์และหน่วยความจำได้มากขึ้นในชิปเดียว
- ด้วยขนาดนี้ จึงไม่จำเป็นต้องทำงานอย่างการแชร์ดดิ้งข้ามหลายอุปกรณ์แล้วรวมกลับเข้าด้วยกัน ทำให้จำนวนบรรทัดโค้ดน้อยลงได้
ยังไม่มีความคิดเห็น