สร้าง VRAM ขนาด 1.5TB บน Mac Studio - RDMA บนพื้นฐาน Thunderbolt 5

(jeffgeerling.com)

6 คะแนน โดย GN⁺ 2025-12-19 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

ทดลองใช้ฟีเจอร์ใหม่ RDMA (Remote Direct Memory Access) บนพื้นฐาน Thunderbolt 5 ที่เพิ่งเพิ่มเข้ามาใน macOS 26.2 เพื่อให้ Mac Studio หลายเครื่องทำงานเสมือนเป็นพูลหน่วยความจำขนาดใหญ่ก้อนเดียว
ใช้เครื่องมือคลัสเตอร์โอเพนซอร์ส Exo 1.0 เพื่อสร้างหน่วยความจำรวม 1.5TB และเพิ่มความเร็วในการรันโมเดล AI ขนาดใหญ่
M3 Ultra Mac Studio แสดงให้เห็นถึงประสิทธิภาพการประมวลผลและความคุ้มค่าสูงแม้ในโหนดเดี่ยว และเมื่อใช้ RDMA แล้ว เวลาแฝงในการเข้าถึงหน่วยความจำลดลงจาก 300μs เหลือต่ำกว่า 50μs
อย่างไรก็ตาม ยังมี ข้อจำกัดในการดูแลคลัสเตอร์ เช่น ความซับซ้อนของสาย Thunderbolt 5 การไม่มีสวิตช์ และข้อจำกัดด้านการจัดการของ macOS
การผสาน RDMA กับ Exo แสดงให้เห็นถึง ศักยภาพในการขยายสภาพแวดล้อม AI·HPC บน Mac แต่ยังต้องปรับปรุงด้านเสถียรภาพและความสามารถในการขยายระบบ

ภาพรวมการทดลอง RDMA over Thunderbolt 5

ทดสอบ ฟีเจอร์ RDMA over Thunderbolt ของ macOS 26.2 โดยใช้คลัสเตอร์ Mac Studio ที่ Apple จัดให้
- RDMA ทำให้ Mac หลายเครื่องทำงานเหมือน RAM ขนาดใหญ่ก้อนเดียว ช่วยเพิ่มความเร็วในการประมวลผลโมเดล AI ขนาดใหญ่
ในการทดสอบใช้เครื่องมือคลัสเตอร์ AI แบบโอเพนซอร์ส Exo 1.0
Mac Studio 4 เครื่องที่รวมหน่วยความจำได้ 1.5TB มีราคารวมราว 40,000 ดอลลาร์

ประวัติ HPC ของ Apple และตำแหน่งของ M3 Ultra

ความพยายามด้าน HPC ของ Apple แทบไม่มีให้เห็นอีกเลยนับตั้งแต่ยุค Xserve และ Xgrid
M3 Ultra Mac Studio แสดงประสิทธิภาพที่เหมาะกับการรันโมเดล AI แบบโลคัล และด้วยการรองรับ RDMA ทำให้ เวลาแฝงเมื่อทำคลัสเตอร์ลดจาก 300μs เหลือต่ำกว่า 50μs
ทำงานเงียบด้วยการใช้พลังงานต่ำกว่า 250W และเหมาะกับทั้งงานคำนวณทางวิทยาศาสตร์ขนาดเล็กและงานสร้างสรรค์

ฮาร์ดแวร์และระบบเครือข่าย

เครื่อง 2 ตัวด้านล่างเป็นสเปก RAM 512GB / CPU 32 คอร์ ส่วน 2 ตัวด้านบนเป็น RAM 256GB
Thunderbolt 5 ให้ แบนด์วิดท์ใช้งานจริง 50~60Gbps แต่เนื่องจาก ไม่มี Thunderbolt switch จึงต้องเชื่อมต่อ Mac แต่ละเครื่องเข้าหากันโดยตรง
เมื่อเทียบกับ Nvidia DGX Spark ที่ใช้พอร์ต QSFP แล้ว ความเสถียรของเครือข่ายยังด้อยกว่า
แม้จะมี ThunderLok-A สำหรับยึดสาย Thunderbolt แต่ไม่ได้ใช้งานเพราะต้องดัดแปลงตัวเครื่อง Mac Studio

เบนช์มาร์กประสิทธิภาพของ M3 Ultra Mac Studio

ใน Geekbench ทำได้ดีกว่า Dell Pro Max (GB10) และ AMD AI Max+ 395 ทั้งแบบคอร์เดี่ยวและหลายคอร์
ใน FP64 HPL benchmark ทำได้เกิน 1 Tflop หรือประมาณ 2 เท่าของ Nvidia GB10
ยังทำผลงานได้ดีในการ อนุมานโมเดล AI ขนาดใหญ่ และมีประสิทธิภาพต่อพลังงานสูง
M3 Ultra เครื่องเดียวมีทั้งประสิทธิภาพและความคุ้มค่านำหน้าคลัสเตอร์ Dell Pro Max แบบ 2 โหนด

การจัดการคลัสเตอร์และข้อจำกัดของ macOS

macOS ไม่สามารถอัปเกรดระบบผ่าน SSH ได้ และต้องใช้การสั่งงานผ่าน GUI
ใช้ Screen Sharing สำหรับการดูแลจากระยะไกล
เมื่อเทียบกับ Linux แล้ว การทำระบบอัตโนมัติสำหรับการจัดการคลัสเตอร์ทำได้ยากกว่า และยังไม่สะดวกเพราะ ไม่มีเครื่องมือ MDM

การทดสอบ HPL และ Llama.cpp

HPL แบบโหนดเดียวได้ 1.3 Tflops และเมื่อใช้ 4 โหนดได้ 3.7 Tflops หรือเพิ่มขึ้นราว 3 เท่า
เมื่อเชื่อมต่อแบบ TCP บน Thunderbolt พบว่า ระบบแครช และหากไม่ใช้ RDMA จะไม่เสถียร
ในการทดสอบ Llama.cpp พบว่า Thunderbolt 5 ให้เวลาแฝงต่ำกว่า Ethernet 2.5Gbps

การเปิดใช้ RDMA และการทดสอบ Exo 1.0

ขั้นตอนเปิดใช้ RDMA: เข้าโหมดกู้คืน → รันคำสั่ง rdma_ctl enable → รีบูต
Exo 1.0 เป็นเครื่องมือเดียวที่รองรับ RDMA และสามารถกระจายการรัน โมเดลขนาดเกิน 600GB (เช่น Kimi K2 Thinking) ข้าม Mac หลายเครื่องได้
Llama.cpp กระจายเลเยอร์ของโมเดลด้วยวิธี RPC แต่ไม่มีประสิทธิภาพนัก
Exo มีประสิทธิภาพดีขึ้นเมื่อจำนวนโหนดเพิ่มขึ้น และสามารถทำได้ 32 โทเค็นต่อวินาทีบนโมเดล Qwen3 235B
ยังรัน DeepSeek V3.1 และ Kimi K2 Thinking (1 ล้านล้านพารามิเตอร์) ได้สำเร็จ

ปัญหาเสถียรภาพและประเด็นโอเพนซอร์ส

การทดสอบนี้ใช้ ซอฟต์แวร์ pre-release จึงยังมีความไม่เสถียร
เมื่อ RDMA ทำงานได้ ประสิทธิภาพถือว่ายอดเยี่ยม แต่หากล้มเหลวต้องรีบูตทั้งคลัสเตอร์
ทีมพัฒนา Exo เคยหยุดกิจกรรมไประยะหนึ่งก่อนกลับมาอีกครั้ง และเผยแพร่ภายใต้ Apache 2.0 license
มีการกล่าวถึงความกังวลต่อ กระบวนการพัฒนาแบบไม่เปิดเผย จากความร่วมมือกับ Apple

งานในอนาคตและคำถามที่ยังไม่มีคำตอบ

การเปิดตัว M5 Ultra จะมีหรือไม่ และจะช่วยเพิ่มประสิทธิภาพด้านแมชชีนเลิร์นนิงได้แค่ไหน
ความจำเป็นในการปรับปรุงการทำคลัสเตอร์ผ่าน การกลับมาของการขยาย PCIe บน Mac Pro
ความเป็นไปได้ของการแชร์ไฟล์ความเร็วสูงหากรองรับ SMB Direct
ความคาดหวังว่า ซอฟต์แวร์อื่น เช่น Llama.cpp จะรองรับ RDMA เพิ่มขึ้น

บทสรุป

การรวม RDMA กับ Exo ช่วยขยาย ความเป็นไปได้ในการใช้ Mac Studio สำหรับงาน AI·HPC อย่างมาก
แต่ ข้อจำกัดเชิงโครงสร้างของ Thunderbolt 5 และข้อจำกัดด้านการจัดการของ macOS ยังเป็นคอขวดอยู่
จำเป็นต้องปรับปรุงความสามารถในการขยายเครือข่าย เช่น การรองรับพอร์ต QSFP
แม้กระแส AI จะผ่านไป Mac Studio ก็ยังคงมีคุณค่าในฐานะ เวิร์กสเตชันที่เงียบและทรงพลัง

2 ความคิดเห็น

kaydash 2025-12-21

นึกถึง impala เลย

GN⁺ 2025-12-19

ความคิดเห็นใน Hacker News

มีการสรุปสิ่งที่คาดหวังกับ M5 Max/Ultra ไว้
อยากให้รองรับ ลิงก์ QSFP ระดับ DGX (200Gb/s ขึ้นไป) แทน Thunderbolt โครงสร้าง RDMA ก็ดูเจ๋งอยู่ แต่ถ้าความเร็วไม่ถึงระดับนี้ก็ไม่ค่อยคุ้มค่า
อยากใช้ Neural accelerator เพื่อลดเวลา prefill ของพรอมป์ต์ ต่อให้ไม่ถึงระดับ RTX 6000 แค่ประมาณ 3090/4090 ก็พอแล้ว
คาดหวังว่า Mac Studio รุ่นท็อปจะมีหน่วยความจำแบบรวม 1TB คิดว่าการเพิ่มหน่วยความจำให้มากขึ้นมีประสิทธิภาพกว่าการใช้หลายเครื่อง
อยากให้แบนด์วิดท์เพิ่มเป็น +1TB/s ด้วย ช่วง 3 รุ่นหลังยังค้างอยู่ที่ 800GB/s
และหวังว่าจะมีฟังก์ชันโอเวอร์คล็อกได้ด้วย Mac Studio ไม่ใช่โน้ตบุ๊ก ดังนั้นกินไฟเกิน 600W ก็ยังรับได้ ตอนนี้ถูกจำกัดไว้ราว 250W
อีกอย่าง การตั้งค่า RDMA แบบนี้เชื่อมต่อ Mac ได้สูงสุดแค่ 4 เครื่อง เพราะทุกเครื่องต้องเชื่อมต่อกันโดยตรงทั้งหมด เลยคิดว่า Apple ควรลงทุนกับลิงก์ความเร็วสูงแบบ QSFP
- หน่วยความจำ 1TB เลยเหรอ อย่างน้อยก็ควรเหลือ RAM ให้ผู้ใช้ทั่วไปอย่างพวกเราซื้อบ้างสิ ให้ความรู้สึกประมาณว่า “AI จ๋า ทำให้มนุษยชาติมีความสุขที!”
- M4 ทำความเร็วต่อแชนเนลตามที่ต้องการได้แล้ว และ M5 ก็สูงกว่านั้น ถ้ามีรุ่น Ultra ออกมา แบนด์วิดท์ 1TB/s ก็น่าจะเป็นไปได้แน่นอน ส่วน Max เป็นครึ่งหนึ่งของ Ultra เลยคงไม่ถึงระดับนั้น
- Mac Studio ยังไม่มี การออกแบบด้านความร้อน ที่รับภาระความร้อนระดับ 650W ได้ต่อเนื่อง ระดับนี้น่าจะทำได้ในดีไซน์แบบ Mac Pro มากกว่า
- พอร์ต USB-C ด้านหน้าของ M3 Ultra Mac Studio ก็เป็น Thunderbolt 5 เช่นกัน เลยมีทั้งหมด 6 พอร์ต ดูจากสเปกทางการแล้วก็สงสัยว่าทำไมต้องจำกัดไว้ที่ 4 เครื่อง
- Apple Neural Engine รองรับการคำนวณแบบ INT8 และ FP16 อยู่แล้ว เพียงแต่ AI framework ต่าง ๆ ยังนำไปใช้ได้ไม่ดีนัก
  และก็ยังสงสัยว่าจำเป็นต้องต่อ Mac ทุกเครื่องแบบ mesh ครบทั้งหมดจริงหรือไม่ รู้สึกว่า Thunderbolt น่าจะทำงานบน RDMA คล้ายกับ network interface
สงสัยว่าทำไม Apple ถึงปล่อยฟีเจอร์อย่าง RDMA ซึ่งเหมาะกับเซิร์ฟเวอร์คลัสเตอร์ แต่กลับเมินการปรับปรุงคุณภาพพื้นฐานอย่างการจัดการระยะไกลหรือการทำแร็กเมานต์
คิดว่าอาจเป็นเพราะภายในบริษัทเองก็ใช้ผลิตภัณฑ์เซิร์ฟเวอร์ตระกูล M อยู่ และฟีเจอร์นี้อาจเป็นผลพลอยได้จากสิ่งนั้น
- อาจเป็นไปได้ว่า Apple กำลังเตรียม ผลิตภัณฑ์ระดับเซิร์ฟเวอร์ จริง ๆ เลยเปิด RDMA ออกมาก่อนเพื่อให้ซอฟต์แวร์ฝั่ง third-party รองรับล่วงหน้า
- Mac Studio มีตำแหน่งเฉพาะตัวสำหรับงาน LLM inference มองว่า RDMA ไม่ได้ทำมาเพื่อเซิร์ฟเวอร์ทั่วไป แต่เพื่อจับ Studio 4 เครื่องมารวมเป็น คลัสเตอร์สำหรับ LLM inferencing
- เคยได้ยินมาว่าเมื่อก่อน Apple เอา M2 Mac Pro ไปวางซ้อนในแร็กเพื่อใช้กับฟีเจอร์ Private Compute
- สงสัยว่า Apple มี data center ของตัวเองไหม นึกว่าจ้าง outsource ไปที่ GCP เป็นส่วนใหญ่
- สงสัยมานานแล้วเหมือนกันว่าทำไม tooling สำหรับนักพัฒนาถึงอ่อนมาก ภายใน Apple เขาใช้สภาพแวดล้อมแบบไหนกัน การเอา Mac Mini มาเชื่อมกันด้วยสาย Thunderbolt ดูอึดอัดพอสมควร
งานของ Jeff เจ๋งมาก ข่าวเรื่อง RDMA บน Thunderbolt ก็น่าสนใจ
ที่สำคัญยิ่งกว่านั้นคืออยากขอบคุณ Jeff สำหรับ พลังบวก และการมีส่วนร่วมอย่างสม่ำเสมอ
Linux รองรับ RDMA แต่ตอนนี้ยังใช้บน Thunderbolt ไม่ได้ ดูแล้วคงต้องทำงานเพิ่มอีกเยอะกว่าจะรองรับได้
ถ้าสามารถเอา กล่อง Strix Halo ราคาประหยัด (128GB DDR5-8000, USB4 2 พอร์ต) มาจับ 2-3 เครื่องรวมกันเพื่อรันโมเดลใหญ่ได้ก็คงดี
ตอนนี้ Thunderbolt ยังไม่มี สวิตช์ เลยทำให้ขนาดของคลัสเตอร์ถูกจำกัด
แต่อยากรู้ว่าสามารถใช้ RoCE (RDMA over Converged Ethernet) แทนได้ไหม ได้ยินมาว่า RDMA เร็วกว่า TCP ประมาณ 7-10 เท่า
มีอะแดปเตอร์ Thunderbolt Ethernet ระดับ 10G~80G อยู่เหมือนกัน แต่ latency อาจเป็นปัญหา
ถ้ามีสล็อต PCIe ก็แค่เสียบการ์ด Infiniband เข้าไปจบเลย สุดท้ายประเด็นก็คือไดรเวอร์
- ทำ Thunderbolt เป็น PCIe แล้วใช้ NIC ทั่วไปก็ได้เหมือนกัน Atto Thunderlink เองก็แทบจะเป็นแค่กล่องหุ้ม Broadcom NIC
  ที่น่าประหลาดใจคือ Apple ใส่ไดรเวอร์ MLX5 มาถึงใน iPadOS ด้วย ดูบล็อกนี้
- macOS มีไดรเวอร์สำหรับการ์ด Mellanox ConnectX รวมมาให้ แต่ไม่แน่ใจว่าจะแสดงใน ibv_devices จริงหรือเปล่า
อยากเห็นข้อมูลที่วัดความเร็วขาเข้า (prefill) กับความเร็วขาออก (decode) แยกกัน
ในบทความของ Exoมีพูดไว้ว่าบนฮาร์ดแวร์ Mac ความเร็วสองส่วนนี้ต่างกันพอสมควร
- มีข้อมูลที่เกี่ยวข้องอยู่บางส่วนในGitHub issue นี้
  กำลังคิดว่าจะเสนอให้ทีม Exo เพิ่ม ฟีเจอร์ benchmark
น่าสนใจที่ Thunderbolt 5 ไม่ได้ทิ้งห่างอย่างที่คิด
เมื่อเทียบกับ Ethernet 2.5Gbps แล้ว TB5 เร็วกว่าประมาณ 10% เท่านั้น M3 Studio รองรับ Ethernet 10Gbps แต่ไม่ได้ถูกทดสอบ
TB5 มีข้อจำกัดว่าทุก CPU ต้องเชื่อมต่อถึงกันโดยตรง เลยจำกัดไว้ที่ 4 เครื่อง ตรงกันข้าม ถ้าใช้ Ethernet switch ก็เชื่อมต่อโหนดได้มากกว่า
- วิดีโอนี้ทดสอบด้วย Ethernet 10Gbps
- จากประสบการณ์เดิมกับ llama RPC, Ethernet 10G เพิ่มความเร็วได้ไม่มากนัก latency สำคัญกว่า แต่ก็ยังมีขีดจำกัดอยู่ดี
- llama ยังปรับแต่งได้ไม่ดีพอจึงขยายระบบได้ไม่มาก RDMA มี overhead ต่ำกว่า Ethernet
แต่ละโหนดในคลัสเตอร์มี RAM 512GB ส่วนโมเดล DeepSeek V3.1 ต้องใช้ RAM 700GB
เลยแปลกใจว่าจาก 1 โหนดเพิ่มเป็น 2 โหนด ความเร็ว inference ดีขึ้นแค่ 32% และแม้เป็น 4 โหนดก็ยังดีขึ้นไม่ถึง 50%
ดูเหมือนจะมีคอขวดบางอย่าง
- แบนด์วิดท์เครือข่ายอยู่ที่ 80Gbps นั่นแหละคือ คอขวด ส่วน Infiniband เร็วกว่านั้น 10 เท่า
- น้ำหนักโมเดล (weights) เป็นแบบอ่านอย่างเดียว จึงสามารถทำ memory map ไว้บน SSD ได้ ข้อจำกัดจริงคือหน่วยความจำของ activation โครงสร้างแบบ MoE อาจช่วยได้
- TB5 RDMA ช้ากว่าการเข้าถึงหน่วยความจำของระบบโดยตรงมาก
โครงสร้างที่ทุกโหนดเชื่อมต่อถึงกันทั้งหมดทำให้นึกถึง NUMALink ของ SGI
ซูเปอร์คอมพิวเตอร์ของ SGI เชื่อมแต่ละโหนดเข้ากับทุกโหนดอื่นด้วยลิงก์ 2 เส้น แม้สายจะเยอะ แต่ก็ไม่ต้องกังวลเรื่อง framing หรือ congestion control
- ฮาร์ดแวร์ของ SGI ทำ ccNUMA (cache-coherent NUMA) ได้ ระบบปฏิบัติการ IRIX จะย้ายงานและหน่วยความจำไปไว้ใกล้กันทางกายภาพเพื่อลด latency
  ทุกวันนี้ระบบเทรดความถี่สูงที่จัดวางโปรเซสโดยคำนึงถึงตำแหน่งของ CPU core และ DIMM ก็เป็นแนวคิดเดียวกัน
- แร็ก NVL72 ก็มีโครงสร้างคล้ายกัน โดยเชื่อม GPU เข้าหากันด้วยลิงก์จำนวนมาก
ชอบ รายละเอียดน่าสนใจ หลายอย่างที่เห็นในบทความ
ทั้งการหายตัวไปอย่างลึกลับของ Exo, การที่ Jeff อยากได้ SMB Direct บน Mac, ความเร็ว inference ของ M3 Ultra และ Framework AI Desktop ราคา $2100
ทำให้รู้สึกเหมือนได้เจอ โพรงกระต่าย (rabbit hole) ใหม่เลย

สร้าง VRAM ขนาด 1.5TB บน Mac Studio - RDMA บนพื้นฐาน Thunderbolt 5

ภาพรวมการทดลอง RDMA over Thunderbolt 5

ประวัติ HPC ของ Apple และตำแหน่งของ M3 Ultra

ฮาร์ดแวร์และระบบเครือข่าย

เบนช์มาร์กประสิทธิภาพของ M3 Ultra Mac Studio

การจัดการคลัสเตอร์และข้อจำกัดของ macOS

การทดสอบ HPL และ Llama.cpp

การเปิดใช้ RDMA และการทดสอบ Exo 1.0

ปัญหาเสถียรภาพและประเด็นโอเพนซอร์ส

งานในอนาคตและคำถามที่ยังไม่มีคำตอบ

บทสรุป

บทความที่เกี่ยวข้อง

2 ความคิดเห็น

ความคิดเห็นใน Hacker News