gigaGPT - โมเดล GPT-3 ที่สร้างด้วยโค้ด 565 บรรทัด

xguru · 2023-12-16T10:31:01+09:00

ปรับปรุง nanoGPT ของ Andrei Karpathy ซึ่งรองรับได้เพียง 100M (100 ล้าน) พารามิเตอร์ ให้สามารถฝึกได้ถึง 100B (100 พันล้าน) พารามิเตอร์ ไม่พึ่งพาโค้ดอื่นหรือเฟรมเวิร์กของบุคคลที่สาม และใช้ประโยชน์จากหน่วยความจำขนาดใหญ่และความสามารถด้านการประมวลผลของ "ฮาร์ดแวร์ Cerebras" เพื่อให้สามารถฝึกขนาดใหญ่บนโค้ด torch.nn แบบวานิลลาได้ รองรับความยาวคอนเท็กซ์ที่ยาวได้โดยไม่ต้องแก้ไขเพิ่มเติม และทำงานร่วมกับเครื่องมือเพิ่มประสิทธิภาพต่างๆ ได้ Cerebras เป็นผู้ผลิตชิปเซ็ต โดยมีความเร็วในการคูณเมทริกซ์ใกล้เคียงกับ GPU แต่สร้างชิปให้มีขนาดใหญ่กว่ามาก เพื่อบรรจุทรานซิสเตอร์และหน่วยความจำได้มากขึ้นในชิปเดียว ด้วยขนาดนี้ จึงไม่จำเป็นต้องทำงานอย่างการแชร์ดดิ้งข้ามหลายอุปกรณ์แล้วรวมกลับเข้าด้วยกัน ทำให้จำนวนบรรทัดโค้ดน้อยลงได้

(cerebras.net)

12 คะแนน โดย xguru 2023-12-16 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

ปรับปรุง nanoGPT ของ Andrei Karpathy ซึ่งรองรับได้เพียง 100M (100 ล้าน) พารามิเตอร์ ให้สามารถฝึกได้ถึง 100B (100 พันล้าน) พารามิเตอร์
ไม่พึ่งพาโค้ดอื่นหรือเฟรมเวิร์กของบุคคลที่สาม และใช้ประโยชน์จากหน่วยความจำขนาดใหญ่และความสามารถด้านการประมวลผลของ "ฮาร์ดแวร์ Cerebras" เพื่อให้สามารถฝึกขนาดใหญ่บนโค้ด torch.nn แบบวานิลลาได้
รองรับความยาวคอนเท็กซ์ที่ยาวได้โดยไม่ต้องแก้ไขเพิ่มเติม และทำงานร่วมกับเครื่องมือเพิ่มประสิทธิภาพต่างๆ ได้
Cerebras เป็นผู้ผลิตชิปเซ็ต โดยมีความเร็วในการคูณเมทริกซ์ใกล้เคียงกับ GPU แต่สร้างชิปให้มีขนาดใหญ่กว่ามาก เพื่อบรรจุทรานซิสเตอร์และหน่วยความจำได้มากขึ้นในชิปเดียว
- ด้วยขนาดนี้ จึงไม่จำเป็นต้องทำงานอย่างการแชร์ดดิ้งข้ามหลายอุปกรณ์แล้วรวมกลับเข้าด้วยกัน ทำให้จำนวนบรรทัดโค้ดน้อยลงได้

gigaGPT - โมเดล GPT-3 ที่สร้างด้วยโค้ด 565 บรรทัด

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น