ภาพรวมของโปรเจกต์ Dojo ของ Tesla
(perspectives.mvdirona.com)<p>บทความของ James Hamilton รองประธาน AWS<br />
- ระบบแมชชีนเลิร์นนิง Dojo น่าสนใจใน 3 ด้าน <br />
1. เครือข่ายขนาดใหญ่ <br />
→ ชิป D1 แต่ละตัวให้เครือข่าย 16,000Gbps (4Tbps 4 แชนเนล) และเมื่อรวมกันเป็น MCM (Multi-Chip Modules) แบบ 25 ชิป จะให้แบนด์วิดท์ 36,000Gbps (4x 9Tb)<br />
2. อัตราส่วนหน่วยความจำต่อการประมวลผลที่เล็กมาก <br />
→ ชิป D1 แต่ละตัวมี functional unit 354 ชุด โดยแต่ละชุดมี SRAM เพียง 1.25 เมกา และไม่มี DRAM ดังนั้นชิป D1 หนึ่งตัวจึงมีหน่วยความจำไม่ถึงครึ่งของ 1 กิกะไบต์ (442.5Mb)<br />
→ วาง DRAM pool ขนาดใหญ่ไว้ที่ปลายของ rack ที่จัดเป็นหน่วยละ 5 ตัว และตัว rack สำหรับประมวลผลเองไม่มี DRAM<br />
→ หากคิดว่าระบบทำงานได้อย่างไรด้วยหน่วยความจำที่น้อยขนาดนี้ ก็น่าจะเป็นการผสมกันของแบนด์วิดท์เครือข่ายมหาศาลกับระบบที่ออกแบบมาเพื่อรันโมเดลวิชันซึ่งใช้หน่วยความจำน้อยกว่างานเทรน ML ทั่วไปมาก<br />
3. ความหนาแน่นพลังงานสูงมาก <br />
→ ชิป D1 แต่ละตัวใช้พลังงานเพียง 400W ซึ่งถือว่าอยู่ในระดับคาดหมายล่าสุดสำหรับขนาดนี้ แต่เมื่อนำมารวมเป็น MCM แบบ 25 ชิปที่หนาแน่นมาก ก็ยังใช้พลังงานเพียง 15kW (10kW สำหรับ D1 และ 5kW สำหรับตัวปรับแรงดันไฟฟ้า)<br />
→ ทำให้ระบบฝึก Dojo แบบ 10 rack ที่ติดตั้งเต็มมีขนาด 1.8 เมกะวัตต์ <br />
→ ในมุมของสเกล ดาต้าเซ็นเตอร์ขนาดกลางมักทำงานอยู่ในช่วง 30~40 เมกะวัตต์<br />
<br />
- แม้จะเป็นรายละเอียดเล็กน้อย แต่การวาง VRD (Voltage Regulator Down) ไว้บนไทล์โดยตรงดูเป็นความพยายามที่ดีในการจ่ายไฟ 52V ซึ่งสูงผิดปกติ แม้คิดจากการใช้พลังงาน 15kW ก็ยังคงกินกระแส 288A แม้ที่ 52V<br />
- functional unit 354 ชุดถูกรวมอยู่ในชิป D1 ขนาด 645mm^2 หนึ่งตัว ชิป D1 จำนวน 25 ตัวรวมกันเป็นมัลติชิปโมดูลที่เรียกว่า training tile, training tile 12 ชุดประกอบเป็น rack และ rack 10 ตัวเติมเต็ม Exapod<br />
- “เป็นระบบที่มีนวัตกรรมอย่างมาก”</p>
1 ความคิดเห็น