ภาพรวมของโปรเจกต์ Dojo ของ Tesla

(perspectives.mvdirona.com)

11 คะแนน โดย xguru 2021-08-24 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

บทความของ James Hamilton รองประธาน AWS

ระบบแมชชีนเลิร์นนิง Dojo น่าสนใจใน 3 ด้าน

เครือข่ายขนาดใหญ่

→ ชิป D1 แต่ละตัวให้เครือข่าย 16,000Gbps (4Tbps 4 แชนเนล) และเมื่อรวมกันเป็น MCM (Multi-Chip Modules) แบบ 25 ชิป จะให้แบนด์วิดท์ 36,000Gbps (4x 9Tb)

อัตราส่วนหน่วยความจำต่อการประมวลผลที่เล็กมาก

→ ชิป D1 แต่ละตัวมี functional unit 354 ชุด โดยแต่ละชุดมี SRAM เพียง 1.25 เมกา และไม่มี DRAM ดังนั้นชิป D1 หนึ่งตัวจึงมีหน่วยความจำไม่ถึงครึ่งของ 1 กิกะไบต์ (442.5Mb)

→ วาง DRAM pool ขนาดใหญ่ไว้ที่ปลายของ rack ที่จัดเป็นหน่วยละ 5 ตัว และตัว rack สำหรับประมวลผลเองไม่มี DRAM

→ หากคิดว่าระบบทำงานได้อย่างไรด้วยหน่วยความจำที่น้อยขนาดนี้ ก็น่าจะเป็นการผสมกันของแบนด์วิดท์เครือข่ายมหาศาลกับระบบที่ออกแบบมาเพื่อรันโมเดลวิชันซึ่งใช้หน่วยความจำน้อยกว่างานเทรน ML ทั่วไปมาก

ความหนาแน่นพลังงานสูงมาก

→ ชิป D1 แต่ละตัวใช้พลังงานเพียง 400W ซึ่งถือว่าอยู่ในระดับคาดหมายล่าสุดสำหรับขนาดนี้ แต่เมื่อนำมารวมเป็น MCM แบบ 25 ชิปที่หนาแน่นมาก ก็ยังใช้พลังงานเพียง 15kW (10kW สำหรับ D1 และ 5kW สำหรับตัวปรับแรงดันไฟฟ้า)

→ ทำให้ระบบฝึก Dojo แบบ 10 rack ที่ติดตั้งเต็มมีขนาด 1.8 เมกะวัตต์

→ ในมุมของสเกล ดาต้าเซ็นเตอร์ขนาดกลางมักทำงานอยู่ในช่วง 30~40 เมกะวัตต์

แม้จะเป็นรายละเอียดเล็กน้อย แต่การวาง VRD (Voltage Regulator Down) ไว้บนไทล์โดยตรงดูเป็นความพยายามที่ดีในการจ่ายไฟ 52V ซึ่งสูงผิดปกติ แม้คิดจากการใช้พลังงาน 15kW ก็ยังคงกินกระแส 288A แม้ที่ 52V
functional unit 354 ชุดถูกรวมอยู่ในชิป D1 ขนาด 645mm^2 หนึ่งตัว ชิป D1 จำนวน 25 ตัวรวมกันเป็นมัลติชิปโมดูลที่เรียกว่า training tile, training tile 12 ชุดประกอบเป็น rack และ rack 10 ตัวเติมเต็ม Exapod
“เป็นระบบที่มีนวัตกรรมอย่างมาก”

1 ความคิดเห็น

xguru 2021-08-24

บทความ Tesla AI Day ที่น่าอ่านด้วยกัน

ความประทับใจจาก Tesla AI Day https://th.news.hada.io/topic?id=4859
สรุปเนื้อหา Tesla AI Day แบบย่อ.gif https://gall.dcinside.com/mgallery/board/…
Tesla AI Day เวอร์ชันเต็มตอนที่ 1 พร้อมซับไทย https://www.youtube.com/watch?v=Ah-TMrKSvic

ภาพรวมของโปรเจกต์ Dojo ของ Tesla

บทความที่เกี่ยวข้อง

1 ความคิดเห็น