- Tesla เปิดซอร์ส Tesla Transport Protocol over Ethernet (TTPoE) ที่งาน HotChips 2024
- Tesla เข้าร่วม Ultra Ethernet Consortium (UEC) เพื่อแบ่งปันโปรโตคอลนี้และผลักดันการทำมาตรฐานแฟบริกความเร็วสูง/หน่วงต่ำแบบใหม่สำหรับ AI/ML/ดาต้าเซ็นเตอร์
- TTPoE มุ่งเน้นความไม่เป็นกรรมสิทธิ์ ต้นทุนต่ำ การควบคุมความแออัดแบบกระจาย การใช้เฟรม EthernetII มาตรฐาน และโปรโตคอลเชื่อมต่อระหว่างกันแบบไม่รวมศูนย์
- คุณสมบัติของ TTPoE
- เช่นเดียวกับ TCP อนุญาตให้มีการสูญหายของแพ็กเก็ตและการส่งซ้ำได้ แต่ยังคงรับประกันการส่งข้อมูลครบถ้วน
- การนำ TTPoE ไปใช้งานในระยะแรกเกิดขึ้นในโครงการ Tesla Dojo v1
- โปรโตคอลนี้ทำงานทั้งหมดบนฮาร์ดแวร์ และถูกนำไปใช้กับซูเปอร์คอมพิวเตอร์มัลติเอ็กซาฟลอประดับมหึมา (fp16) ที่มีปลายทางพร้อมกันนับหมื่นจุดขึ้นไป
- โปรโตคอลนี้สามารถตั้งค่าและทำงานลิงก์ได้โดยไม่ต้องมีการแทรกแซงจาก CPU หรือ OS
- โปรโตคอลนี้ไม่ได้ซับซ้อนหรือพยายามฉลาดเกินไป แต่ยึดตามหลักการพื้นฐาน
- โดยแก่นแท้แล้ว การส่งผ่าน Ethernet คือการย้ายข้อมูลจาก A ไป B และควรถูกจำกัดเพียงด้วยข้อจำกัดทางกายภาพเท่านั้น
- ในระบบขนาดใหญ่มาก การจัดการความแออัดแบบรวมศูนย์เป็นความพยายามที่ไม่สมเหตุสมผล และแต่ละปลายทางควรมีความยืดหยุ่นและจัดการตัวเองได้
ความเห็นของ GN⁺
- TTPoE เป็นความพยายามที่น่าสนใจในการก้าวข้ามข้อจำกัดของโปรโตคอล TCP เดิมในสภาพแวดล้อมคอมพิวเตอร์สมรรถนะสูง
- เป้าหมายหลักดูเหมือนจะเป็นการลด latency ให้ต่ำที่สุดและเพิ่ม throughput ให้สูงสุดผ่านการ offload ไปยังฮาร์ดแวร์และ state machine ที่เรียบง่าย
- TTPoE มีศักยภาพในการปรับปรุงความเร็วและ latency ของการส่งข้อมูลในงานด้าน AI และ ML
- การที่ Tesla เปิดซอร์สโปรโตคอลนี้น่าจะช่วยเร่งนวัตกรรมในวงการ HPC
- อย่างไรก็ตาม TTPoE น่าจะยากที่จะมาแทนที่ TCP ได้อย่างสมบูรณ์ในเครือข่ายทั่วไป และเป็นโซลูชันที่เหมาะกับเครือข่ายเฉพาะทางคุณภาพสูงมากกว่า การทำมาตรฐานและการสร้าง ecosystem จะเป็นเรื่องสำคัญหากต้องการให้ TTPoE ถูกนำไปใช้อย่างแพร่หลาย
- โปรโตคอลที่มีความสามารถใกล้เคียงกัน ได้แก่ RoCE (RDMA over Converged Ethernet) และ NVLink
1 ความคิดเห็น
มีบทความอีกชิ้นที่อธิบายเกี่ยวกับ TTPoE ได้ละเอียดมากขึ้น
Tesla’s TTPoE at Hot Chips 2024: Replacing TCP for Low Latency Applications
ภาพรวมของ TTPoE
เหตุผลที่ต้องมี TTPoE
คุณลักษณะของ TTPoE
การควบคุมความคับคั่งของ TTPoE
การติดตั้งใช้งานฮาร์ดแวร์ของ TTPoE
Mojo NIC
สรุป