• ปรับปรุง nanoGPT ของ Andrei Karpathy ซึ่งรองรับได้เพียง 100M (100 ล้าน) พารามิเตอร์ ให้สามารถฝึกได้ถึง 100B (100 พันล้าน) พารามิเตอร์
  • ไม่พึ่งพาโค้ดอื่นหรือเฟรมเวิร์กของบุคคลที่สาม และใช้ประโยชน์จากหน่วยความจำขนาดใหญ่และความสามารถด้านการประมวลผลของ "ฮาร์ดแวร์ Cerebras" เพื่อให้สามารถฝึกขนาดใหญ่บนโค้ด torch.nn แบบวานิลลาได้
  • รองรับความยาวคอนเท็กซ์ที่ยาวได้โดยไม่ต้องแก้ไขเพิ่มเติม และทำงานร่วมกับเครื่องมือเพิ่มประสิทธิภาพต่างๆ ได้
  • Cerebras เป็นผู้ผลิตชิปเซ็ต โดยมีความเร็วในการคูณเมทริกซ์ใกล้เคียงกับ GPU แต่สร้างชิปให้มีขนาดใหญ่กว่ามาก เพื่อบรรจุทรานซิสเตอร์และหน่วยความจำได้มากขึ้นในชิปเดียว
    • ด้วยขนาดนี้ จึงไม่จำเป็นต้องทำงานอย่างการแชร์ดดิ้งข้ามหลายอุปกรณ์แล้วรวมกลับเข้าด้วยกัน ทำให้จำนวนบรรทัดโค้ดน้อยลงได้

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น