- ทดลองใช้ฟีเจอร์ใหม่ RDMA (Remote Direct Memory Access) บนพื้นฐาน Thunderbolt 5 ที่เพิ่งเพิ่มเข้ามาใน macOS 26.2 เพื่อให้ Mac Studio หลายเครื่องทำงานเสมือนเป็นพูลหน่วยความจำขนาดใหญ่ก้อนเดียว
- ใช้เครื่องมือคลัสเตอร์โอเพนซอร์ส Exo 1.0 เพื่อสร้างหน่วยความจำรวม 1.5TB และเพิ่มความเร็วในการรันโมเดล AI ขนาดใหญ่
- M3 Ultra Mac Studio แสดงให้เห็นถึงประสิทธิภาพการประมวลผลและความคุ้มค่าสูงแม้ในโหนดเดี่ยว และเมื่อใช้ RDMA แล้ว เวลาแฝงในการเข้าถึงหน่วยความจำลดลงจาก 300μs เหลือต่ำกว่า 50μs
- อย่างไรก็ตาม ยังมี ข้อจำกัดในการดูแลคลัสเตอร์ เช่น ความซับซ้อนของสาย Thunderbolt 5 การไม่มีสวิตช์ และข้อจำกัดด้านการจัดการของ macOS
- การผสาน RDMA กับ Exo แสดงให้เห็นถึง ศักยภาพในการขยายสภาพแวดล้อม AI·HPC บน Mac แต่ยังต้องปรับปรุงด้านเสถียรภาพและความสามารถในการขยายระบบ
ภาพรวมการทดลอง RDMA over Thunderbolt 5
- ทดสอบ ฟีเจอร์ RDMA over Thunderbolt ของ macOS 26.2 โดยใช้คลัสเตอร์ Mac Studio ที่ Apple จัดให้
- RDMA ทำให้ Mac หลายเครื่องทำงานเหมือน RAM ขนาดใหญ่ก้อนเดียว ช่วยเพิ่มความเร็วในการประมวลผลโมเดล AI ขนาดใหญ่
- ในการทดสอบใช้เครื่องมือคลัสเตอร์ AI แบบโอเพนซอร์ส Exo 1.0
- Mac Studio 4 เครื่องที่รวมหน่วยความจำได้ 1.5TB มีราคารวมราว 40,000 ดอลลาร์
ประวัติ HPC ของ Apple และตำแหน่งของ M3 Ultra
- ความพยายามด้าน HPC ของ Apple แทบไม่มีให้เห็นอีกเลยนับตั้งแต่ยุค Xserve และ Xgrid
- M3 Ultra Mac Studio แสดงประสิทธิภาพที่เหมาะกับการรันโมเดล AI แบบโลคัล และด้วยการรองรับ RDMA ทำให้ เวลาแฝงเมื่อทำคลัสเตอร์ลดจาก 300μs เหลือต่ำกว่า 50μs
- ทำงานเงียบด้วยการใช้พลังงานต่ำกว่า 250W และเหมาะกับทั้งงานคำนวณทางวิทยาศาสตร์ขนาดเล็กและงานสร้างสรรค์
ฮาร์ดแวร์และระบบเครือข่าย
- เครื่อง 2 ตัวด้านล่างเป็นสเปก RAM 512GB / CPU 32 คอร์ ส่วน 2 ตัวด้านบนเป็น RAM 256GB
- Thunderbolt 5 ให้ แบนด์วิดท์ใช้งานจริง 50~60Gbps แต่เนื่องจาก ไม่มี Thunderbolt switch จึงต้องเชื่อมต่อ Mac แต่ละเครื่องเข้าหากันโดยตรง
- เมื่อเทียบกับ Nvidia DGX Spark ที่ใช้พอร์ต QSFP แล้ว ความเสถียรของเครือข่ายยังด้อยกว่า
- แม้จะมี ThunderLok-A สำหรับยึดสาย Thunderbolt แต่ไม่ได้ใช้งานเพราะต้องดัดแปลงตัวเครื่อง Mac Studio
เบนช์มาร์กประสิทธิภาพของ M3 Ultra Mac Studio
- ใน Geekbench ทำได้ดีกว่า Dell Pro Max (GB10) และ AMD AI Max+ 395 ทั้งแบบคอร์เดี่ยวและหลายคอร์
- ใน FP64 HPL benchmark ทำได้เกิน 1 Tflop หรือประมาณ 2 เท่าของ Nvidia GB10
- ยังทำผลงานได้ดีในการ อนุมานโมเดล AI ขนาดใหญ่ และมีประสิทธิภาพต่อพลังงานสูง
- M3 Ultra เครื่องเดียวมีทั้งประสิทธิภาพและความคุ้มค่านำหน้าคลัสเตอร์ Dell Pro Max แบบ 2 โหนด
การจัดการคลัสเตอร์และข้อจำกัดของ macOS
- macOS ไม่สามารถอัปเกรดระบบผ่าน SSH ได้ และต้องใช้การสั่งงานผ่าน GUI
- ใช้ Screen Sharing สำหรับการดูแลจากระยะไกล
- เมื่อเทียบกับ Linux แล้ว การทำระบบอัตโนมัติสำหรับการจัดการคลัสเตอร์ทำได้ยากกว่า และยังไม่สะดวกเพราะ ไม่มีเครื่องมือ MDM
การทดสอบ HPL และ Llama.cpp
- HPL แบบโหนดเดียวได้ 1.3 Tflops และเมื่อใช้ 4 โหนดได้ 3.7 Tflops หรือเพิ่มขึ้นราว 3 เท่า
- เมื่อเชื่อมต่อแบบ TCP บน Thunderbolt พบว่า ระบบแครช และหากไม่ใช้ RDMA จะไม่เสถียร
- ในการทดสอบ Llama.cpp พบว่า Thunderbolt 5 ให้เวลาแฝงต่ำกว่า Ethernet 2.5Gbps
การเปิดใช้ RDMA และการทดสอบ Exo 1.0
- ขั้นตอนเปิดใช้ RDMA: เข้าโหมดกู้คืน → รันคำสั่ง
rdma_ctl enable → รีบูต
- Exo 1.0 เป็นเครื่องมือเดียวที่รองรับ RDMA และสามารถกระจายการรัน โมเดลขนาดเกิน 600GB (เช่น Kimi K2 Thinking) ข้าม Mac หลายเครื่องได้
- Llama.cpp กระจายเลเยอร์ของโมเดลด้วยวิธี RPC แต่ไม่มีประสิทธิภาพนัก
- Exo มีประสิทธิภาพดีขึ้นเมื่อจำนวนโหนดเพิ่มขึ้น และสามารถทำได้ 32 โทเค็นต่อวินาทีบนโมเดล Qwen3 235B
- ยังรัน DeepSeek V3.1 และ Kimi K2 Thinking (1 ล้านล้านพารามิเตอร์) ได้สำเร็จ
ปัญหาเสถียรภาพและประเด็นโอเพนซอร์ส
- การทดสอบนี้ใช้ ซอฟต์แวร์ pre-release จึงยังมีความไม่เสถียร
- เมื่อ RDMA ทำงานได้ ประสิทธิภาพถือว่ายอดเยี่ยม แต่หากล้มเหลวต้องรีบูตทั้งคลัสเตอร์
- ทีมพัฒนา Exo เคยหยุดกิจกรรมไประยะหนึ่งก่อนกลับมาอีกครั้ง และเผยแพร่ภายใต้ Apache 2.0 license
- มีการกล่าวถึงความกังวลต่อ กระบวนการพัฒนาแบบไม่เปิดเผย จากความร่วมมือกับ Apple
งานในอนาคตและคำถามที่ยังไม่มีคำตอบ
- การเปิดตัว M5 Ultra จะมีหรือไม่ และจะช่วยเพิ่มประสิทธิภาพด้านแมชชีนเลิร์นนิงได้แค่ไหน
- ความจำเป็นในการปรับปรุงการทำคลัสเตอร์ผ่าน การกลับมาของการขยาย PCIe บน Mac Pro
- ความเป็นไปได้ของการแชร์ไฟล์ความเร็วสูงหากรองรับ SMB Direct
- ความคาดหวังว่า ซอฟต์แวร์อื่น เช่น Llama.cpp จะรองรับ RDMA เพิ่มขึ้น
บทสรุป
- การรวม RDMA กับ Exo ช่วยขยาย ความเป็นไปได้ในการใช้ Mac Studio สำหรับงาน AI·HPC อย่างมาก
- แต่ ข้อจำกัดเชิงโครงสร้างของ Thunderbolt 5 และข้อจำกัดด้านการจัดการของ macOS ยังเป็นคอขวดอยู่
- จำเป็นต้องปรับปรุงความสามารถในการขยายเครือข่าย เช่น การรองรับพอร์ต QSFP
- แม้กระแส AI จะผ่านไป Mac Studio ก็ยังคงมีคุณค่าในฐานะ เวิร์กสเตชันที่เงียบและทรงพลัง
2 ความคิดเห็น
นึกถึง impala เลย
ความคิดเห็นใน Hacker News
มีการสรุปสิ่งที่คาดหวังกับ M5 Max/Ultra ไว้
อยากให้รองรับ ลิงก์ QSFP ระดับ DGX (200Gb/s ขึ้นไป) แทน Thunderbolt โครงสร้าง RDMA ก็ดูเจ๋งอยู่ แต่ถ้าความเร็วไม่ถึงระดับนี้ก็ไม่ค่อยคุ้มค่า
อยากใช้ Neural accelerator เพื่อลดเวลา prefill ของพรอมป์ต์ ต่อให้ไม่ถึงระดับ RTX 6000 แค่ประมาณ 3090/4090 ก็พอแล้ว
คาดหวังว่า Mac Studio รุ่นท็อปจะมีหน่วยความจำแบบรวม 1TB คิดว่าการเพิ่มหน่วยความจำให้มากขึ้นมีประสิทธิภาพกว่าการใช้หลายเครื่อง
อยากให้แบนด์วิดท์เพิ่มเป็น +1TB/s ด้วย ช่วง 3 รุ่นหลังยังค้างอยู่ที่ 800GB/s
และหวังว่าจะมีฟังก์ชันโอเวอร์คล็อกได้ด้วย Mac Studio ไม่ใช่โน้ตบุ๊ก ดังนั้นกินไฟเกิน 600W ก็ยังรับได้ ตอนนี้ถูกจำกัดไว้ราว 250W
อีกอย่าง การตั้งค่า RDMA แบบนี้เชื่อมต่อ Mac ได้สูงสุดแค่ 4 เครื่อง เพราะทุกเครื่องต้องเชื่อมต่อกันโดยตรงทั้งหมด เลยคิดว่า Apple ควรลงทุนกับลิงก์ความเร็วสูงแบบ QSFP
และก็ยังสงสัยว่าจำเป็นต้องต่อ Mac ทุกเครื่องแบบ mesh ครบทั้งหมดจริงหรือไม่ รู้สึกว่า Thunderbolt น่าจะทำงานบน RDMA คล้ายกับ network interface
สงสัยว่าทำไม Apple ถึงปล่อยฟีเจอร์อย่าง RDMA ซึ่งเหมาะกับเซิร์ฟเวอร์คลัสเตอร์ แต่กลับเมินการปรับปรุงคุณภาพพื้นฐานอย่างการจัดการระยะไกลหรือการทำแร็กเมานต์
คิดว่าอาจเป็นเพราะภายในบริษัทเองก็ใช้ผลิตภัณฑ์เซิร์ฟเวอร์ตระกูล M อยู่ และฟีเจอร์นี้อาจเป็นผลพลอยได้จากสิ่งนั้น
งานของ Jeff เจ๋งมาก ข่าวเรื่อง RDMA บน Thunderbolt ก็น่าสนใจ
ที่สำคัญยิ่งกว่านั้นคืออยากขอบคุณ Jeff สำหรับ พลังบวก และการมีส่วนร่วมอย่างสม่ำเสมอ
Linux รองรับ RDMA แต่ตอนนี้ยังใช้บน Thunderbolt ไม่ได้ ดูแล้วคงต้องทำงานเพิ่มอีกเยอะกว่าจะรองรับได้
ถ้าสามารถเอา กล่อง Strix Halo ราคาประหยัด (128GB DDR5-8000, USB4 2 พอร์ต) มาจับ 2-3 เครื่องรวมกันเพื่อรันโมเดลใหญ่ได้ก็คงดี
ตอนนี้ Thunderbolt ยังไม่มี สวิตช์ เลยทำให้ขนาดของคลัสเตอร์ถูกจำกัด
แต่อยากรู้ว่าสามารถใช้ RoCE (RDMA over Converged Ethernet) แทนได้ไหม ได้ยินมาว่า RDMA เร็วกว่า TCP ประมาณ 7-10 เท่า
มีอะแดปเตอร์ Thunderbolt Ethernet ระดับ 10G~80G อยู่เหมือนกัน แต่ latency อาจเป็นปัญหา
ถ้ามีสล็อต PCIe ก็แค่เสียบการ์ด Infiniband เข้าไปจบเลย สุดท้ายประเด็นก็คือไดรเวอร์
ที่น่าประหลาดใจคือ Apple ใส่ไดรเวอร์ MLX5 มาถึงใน iPadOS ด้วย ดูบล็อกนี้
ibv_devicesจริงหรือเปล่าอยากเห็นข้อมูลที่วัดความเร็วขาเข้า (prefill) กับความเร็วขาออก (decode) แยกกัน
ในบทความของ Exoมีพูดไว้ว่าบนฮาร์ดแวร์ Mac ความเร็วสองส่วนนี้ต่างกันพอสมควร
กำลังคิดว่าจะเสนอให้ทีม Exo เพิ่ม ฟีเจอร์ benchmark
น่าสนใจที่ Thunderbolt 5 ไม่ได้ทิ้งห่างอย่างที่คิด
เมื่อเทียบกับ Ethernet 2.5Gbps แล้ว TB5 เร็วกว่าประมาณ 10% เท่านั้น M3 Studio รองรับ Ethernet 10Gbps แต่ไม่ได้ถูกทดสอบ
TB5 มีข้อจำกัดว่าทุก CPU ต้องเชื่อมต่อถึงกันโดยตรง เลยจำกัดไว้ที่ 4 เครื่อง ตรงกันข้าม ถ้าใช้ Ethernet switch ก็เชื่อมต่อโหนดได้มากกว่า
แต่ละโหนดในคลัสเตอร์มี RAM 512GB ส่วนโมเดล DeepSeek V3.1 ต้องใช้ RAM 700GB
เลยแปลกใจว่าจาก 1 โหนดเพิ่มเป็น 2 โหนด ความเร็ว inference ดีขึ้นแค่ 32% และแม้เป็น 4 โหนดก็ยังดีขึ้นไม่ถึง 50%
ดูเหมือนจะมีคอขวดบางอย่าง
โครงสร้างที่ทุกโหนดเชื่อมต่อถึงกันทั้งหมดทำให้นึกถึง NUMALink ของ SGI
ซูเปอร์คอมพิวเตอร์ของ SGI เชื่อมแต่ละโหนดเข้ากับทุกโหนดอื่นด้วยลิงก์ 2 เส้น แม้สายจะเยอะ แต่ก็ไม่ต้องกังวลเรื่อง framing หรือ congestion control
ทุกวันนี้ระบบเทรดความถี่สูงที่จัดวางโปรเซสโดยคำนึงถึงตำแหน่งของ CPU core และ DIMM ก็เป็นแนวคิดเดียวกัน
ชอบ รายละเอียดน่าสนใจ หลายอย่างที่เห็นในบทความ
ทั้งการหายตัวไปอย่างลึกลับของ Exo, การที่ Jeff อยากได้ SMB Direct บน Mac, ความเร็ว inference ของ M3 Ultra และ Framework AI Desktop ราคา $2100
ทำให้รู้สึกเหมือนได้เจอ โพรงกระต่าย (rabbit hole) ใหม่เลย