4 คะแนน โดย GN⁺ 2024-09-24 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Tesla เปิดซอร์ส Tesla Transport Protocol over Ethernet (TTPoE) ที่งาน HotChips 2024
  • Tesla เข้าร่วม Ultra Ethernet Consortium (UEC) เพื่อแบ่งปันโปรโตคอลนี้และผลักดันการทำมาตรฐานแฟบริกความเร็วสูง/หน่วงต่ำแบบใหม่สำหรับ AI/ML/ดาต้าเซ็นเตอร์
  • TTPoE มุ่งเน้นความไม่เป็นกรรมสิทธิ์ ต้นทุนต่ำ การควบคุมความแออัดแบบกระจาย การใช้เฟรม EthernetII มาตรฐาน และโปรโตคอลเชื่อมต่อระหว่างกันแบบไม่รวมศูนย์
  • คุณสมบัติของ TTPoE
    • เช่นเดียวกับ TCP อนุญาตให้มีการสูญหายของแพ็กเก็ตและการส่งซ้ำได้ แต่ยังคงรับประกันการส่งข้อมูลครบถ้วน
    • การนำ TTPoE ไปใช้งานในระยะแรกเกิดขึ้นในโครงการ Tesla Dojo v1
      • โปรโตคอลนี้ทำงานทั้งหมดบนฮาร์ดแวร์ และถูกนำไปใช้กับซูเปอร์คอมพิวเตอร์มัลติเอ็กซาฟลอประดับมหึมา (fp16) ที่มีปลายทางพร้อมกันนับหมื่นจุดขึ้นไป
    • โปรโตคอลนี้สามารถตั้งค่าและทำงานลิงก์ได้โดยไม่ต้องมีการแทรกแซงจาก CPU หรือ OS
  • โปรโตคอลนี้ไม่ได้ซับซ้อนหรือพยายามฉลาดเกินไป แต่ยึดตามหลักการพื้นฐาน
    • โดยแก่นแท้แล้ว การส่งผ่าน Ethernet คือการย้ายข้อมูลจาก A ไป B และควรถูกจำกัดเพียงด้วยข้อจำกัดทางกายภาพเท่านั้น
    • ในระบบขนาดใหญ่มาก การจัดการความแออัดแบบรวมศูนย์เป็นความพยายามที่ไม่สมเหตุสมผล และแต่ละปลายทางควรมีความยืดหยุ่นและจัดการตัวเองได้

ความเห็นของ GN⁺

  • TTPoE เป็นความพยายามที่น่าสนใจในการก้าวข้ามข้อจำกัดของโปรโตคอล TCP เดิมในสภาพแวดล้อมคอมพิวเตอร์สมรรถนะสูง
  • เป้าหมายหลักดูเหมือนจะเป็นการลด latency ให้ต่ำที่สุดและเพิ่ม throughput ให้สูงสุดผ่านการ offload ไปยังฮาร์ดแวร์และ state machine ที่เรียบง่าย
  • TTPoE มีศักยภาพในการปรับปรุงความเร็วและ latency ของการส่งข้อมูลในงานด้าน AI และ ML
  • การที่ Tesla เปิดซอร์สโปรโตคอลนี้น่าจะช่วยเร่งนวัตกรรมในวงการ HPC
  • อย่างไรก็ตาม TTPoE น่าจะยากที่จะมาแทนที่ TCP ได้อย่างสมบูรณ์ในเครือข่ายทั่วไป และเป็นโซลูชันที่เหมาะกับเครือข่ายเฉพาะทางคุณภาพสูงมากกว่า การทำมาตรฐานและการสร้าง ecosystem จะเป็นเรื่องสำคัญหากต้องการให้ TTPoE ถูกนำไปใช้อย่างแพร่หลาย
  • โปรโตคอลที่มีความสามารถใกล้เคียงกัน ได้แก่ RoCE (RDMA over Converged Ethernet) และ NVLink

1 ความคิดเห็น

 
xguru 2024-09-24

มีบทความอีกชิ้นที่อธิบายเกี่ยวกับ TTPoE ได้ละเอียดมากขึ้น
Tesla’s TTPoE at Hot Chips 2024: Replacing TCP for Low Latency Applications

ภาพรวมของ TTPoE

  • Tesla เปิดตัวซูเปอร์คอมพิวเตอร์ Dojo ในงาน Hot Chips 2023 และใช้งานสำหรับแมชชีนเลิร์นนิงที่มุ่งเน้นแอปพลิเคชันยานยนต์ เช่น รถยนต์ขับเคลื่อนอัตโนมัติ
  • ข้อมูลสำหรับการฝึกเป็นวิดีโอที่ต้องการแบนด์วิดท์ IO จำนวนมาก และขนาดของเทนเซอร์เดี่ยวอาจสูงถึง 1.7GB ในกรณีของแอปพลิเคชันด้านวิสัยทัศน์ของ Tesla
  • Tesla พบว่าปริมาณงานของซูเปอร์คอมพิวเตอร์ Dojo อาจถูกจำกัดด้วยความเร็วที่เครื่องโฮสต์สามารถพุชข้อมูลเข้าสู่ซูเปอร์คอมพิวเตอร์ได้

เหตุผลที่ต้องมี TTPoE

  • Tesla แก้ปัญหานี้ด้วยการเพิ่มโฮสต์ให้มากขึ้น และหาวิธีเชื่อมต่อโฮสต์เพิ่มเติมเหล่านี้เข้ากับซูเปอร์คอมพิวเตอร์ด้วยต้นทุนต่ำ
  • แทนที่จะใช้โซลูชันเครือข่ายซูเปอร์คอมพิวเตอร์ทั่วไปอย่าง InfiniBand ทาง Tesla เลือกปรับ Ethernet ให้เข้ากับความต้องการของตนด้วยเลเยอร์ขนส่งที่ดัดแปลง
  • TCP ถูกแทนที่ด้วย Tesla Transport Protocol over Ethernet (TTPoE) ซึ่งออกแบบมาเพื่อให้มี latency ระดับไมโครวินาทีและรองรับ hardware offload ที่เรียบง่าย

คุณลักษณะของ TTPoE

  • TTPoE ถูกออกแบบให้ประมวลผลทั้งหมดด้วยฮาร์ดแวร์ และให้ latency ที่ดีกว่าโปรโตคอล TCP มาตรฐาน
  • state machine ของ TTPoE ถูกทำให้ง่ายลงอย่างมากเมื่อเทียบกับ TCP
  • latency ลดลงด้วยการตัดสถานะรอคอยของ TCP ออก
  • TTP ลบสถานะ TIME_WAIT และเปลี่ยนลำดับการปิดการเชื่อมต่อจาก 3 ครั้งเหลือ 2 ครั้ง
  • เปลี่ยน 3-way handshake ของ TCP เป็น 2-way เพื่อลด latency ในการตั้งค่าการเชื่อมต่อ

การควบคุมความคับคั่งของ TTPoE

  • เช่นเดียวกับ TCP ทาง Tesla ใช้การสูญหายของแพ็กเก็ตเพื่อควบคุมความคับคั่ง
  • เพราะ Tesla ออกแบบให้ทำงานบนเครือข่ายพื้นฐานที่มี latency ต่ำ จึงสามารถใช้แนวทางแบบ brute-force กับปัญหานี้ได้
  • การติดตั้งใช้งาน TCP แบบดั้งเดิมจะคง sliding congestion window ไว้ แต่ TTP ไม่ทำเช่นนั้น
  • ฮาร์ดแวร์จะติดตามข้อมูลที่ส่งออกไปในบัฟเฟอร์ SRAM ซึ่งเป็นตัวกำหนดขนาด congestion window
  • อัลกอริทึมควบคุมความคับคั่งของ TCP แบบดั้งเดิมทำงานในสเกลเวลาที่ยาวเกินกว่าจะมีประสิทธิภาพกับงานของซูเปอร์คอมพิวเตอร์ Dojo ของ Tesla

การติดตั้งใช้งานฮาร์ดแวร์ของ TTPoE

  • Tesla จัดการโปรโตคอล TTP ในบล็อกฮาร์ดแวร์ที่วางอยู่ระหว่างชิปกับฮาร์ดแวร์ Ethernet มาตรฐาน
  • บล็อกฮาร์ดแวร์ MAC นี้ออกแบบโดยผู้ออกแบบ CPU และนำฟีเจอร์การออกแบบ CPU หลายอย่างมาใช้
  • ผู้บรรยายอธิบายว่ามันทำงานคล้าย shared cache โดยตัว arbitrator จะเลือกจากคำขอโดยคำนึงถึงความเสี่ยงด้านลำดับ
  • หนึ่งในทรัพยากรที่โดดเด่นที่สุดคือบัฟเฟอร์ SRAM สำหรับรับส่งข้อมูลขนาด 1MB ซึ่งอย่างที่กล่าวไว้ข้างต้น เป็นตัวกำหนด congestion window

Mojo NIC

  • TPP MAC ถูกนำไปใช้งานบนสิ่งที่ Tesla เรียกว่า "Dumb-NIC"
  • ที่เรียกว่า "dumb" เพราะมันถูกทำให้มีราคาถูกและเรียบง่ายที่สุดเท่าที่จะเป็นไปได้
  • Tesla ต้องการติดตั้งโฮสต์โหนดจำนวนมากเพื่อป้อนข้อมูลให้กับซูเปอร์คอมพิวเตอร์ Dojo และการใช้การ์ดเครือข่ายราคาถูกช่วยให้บรรลุเป้าหมายนี้ได้อย่างคุ้มค่า
  • ชื่อ Mojo มาจากแนวคิดที่ว่าโฮสต์โหนดเพิ่มเติมจะมอบ Mojo ให้กับ Dojo มากขึ้นเพื่อรักษาประสิทธิภาพ
  • การ์ด Mojo จะถูกติดตั้งในเครื่องโฮสต์ระยะไกล และหากวิศวกรต้องการแบนด์วิดท์เพิ่มเพื่อป้อนข้อมูลให้ซูเปอร์คอมพิวเตอร์ Dojo ก็สามารถดึงเครื่องโฮสต์ระยะไกลจากพูลมาใช้งานได้

สรุป

  • โปรโตคอล Mojo และ TTPoE ให้มุมมองที่น่าสนใจเกี่ยวกับวิธีที่ Transmission Control Protocol (TCP) ซึ่งเป็นที่รู้จักกันดี สามารถถูกทำให้ง่ายลงเพื่อใช้งานในเครือข่ายภายในซูเปอร์คอมพิวเตอร์คุณภาพสูง
  • ในทางทฤษฎีโปรโตคอลนี้อาจทำงานบนอินเทอร์เน็ตได้ แต่ความเรียบง่ายอย่าง congestion window แบบคงที่จะทำงานได้ไม่ดีบนลิงก์คุณภาพต่ำที่เชื่อมต่อไปยังผู้ให้บริการอินเทอร์เน็ตและไกลกว่านั้น
  • เมื่อเทียบกับโซลูชันเครือข่ายซูเปอร์คอมพิวเตอร์อื่นอย่าง InfiniBand โปรโตคอลขนส่งแบบปรับแต่งเองบน Ethernet อาจให้แบนด์วิดท์เพิ่มเติมเพียงพอที่จะตอบโจทย์ความต้องการของ Dojo ได้