6 คะแนน โดย GN⁺ 2025-12-19 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • ทดลองใช้ฟีเจอร์ใหม่ RDMA (Remote Direct Memory Access) บนพื้นฐาน Thunderbolt 5 ที่เพิ่งเพิ่มเข้ามาใน macOS 26.2 เพื่อให้ Mac Studio หลายเครื่องทำงานเสมือนเป็นพูลหน่วยความจำขนาดใหญ่ก้อนเดียว
  • ใช้เครื่องมือคลัสเตอร์โอเพนซอร์ส Exo 1.0 เพื่อสร้างหน่วยความจำรวม 1.5TB และเพิ่มความเร็วในการรันโมเดล AI ขนาดใหญ่
  • M3 Ultra Mac Studio แสดงให้เห็นถึงประสิทธิภาพการประมวลผลและความคุ้มค่าสูงแม้ในโหนดเดี่ยว และเมื่อใช้ RDMA แล้ว เวลาแฝงในการเข้าถึงหน่วยความจำลดลงจาก 300μs เหลือต่ำกว่า 50μs
  • อย่างไรก็ตาม ยังมี ข้อจำกัดในการดูแลคลัสเตอร์ เช่น ความซับซ้อนของสาย Thunderbolt 5 การไม่มีสวิตช์ และข้อจำกัดด้านการจัดการของ macOS
  • การผสาน RDMA กับ Exo แสดงให้เห็นถึง ศักยภาพในการขยายสภาพแวดล้อม AI·HPC บน Mac แต่ยังต้องปรับปรุงด้านเสถียรภาพและความสามารถในการขยายระบบ

ภาพรวมการทดลอง RDMA over Thunderbolt 5

  • ทดสอบ ฟีเจอร์ RDMA over Thunderbolt ของ macOS 26.2 โดยใช้คลัสเตอร์ Mac Studio ที่ Apple จัดให้
    • RDMA ทำให้ Mac หลายเครื่องทำงานเหมือน RAM ขนาดใหญ่ก้อนเดียว ช่วยเพิ่มความเร็วในการประมวลผลโมเดล AI ขนาดใหญ่
  • ในการทดสอบใช้เครื่องมือคลัสเตอร์ AI แบบโอเพนซอร์ส Exo 1.0
  • Mac Studio 4 เครื่องที่รวมหน่วยความจำได้ 1.5TB มีราคารวมราว 40,000 ดอลลาร์

ประวัติ HPC ของ Apple และตำแหน่งของ M3 Ultra

  • ความพยายามด้าน HPC ของ Apple แทบไม่มีให้เห็นอีกเลยนับตั้งแต่ยุค Xserve และ Xgrid
  • M3 Ultra Mac Studio แสดงประสิทธิภาพที่เหมาะกับการรันโมเดล AI แบบโลคัล และด้วยการรองรับ RDMA ทำให้ เวลาแฝงเมื่อทำคลัสเตอร์ลดจาก 300μs เหลือต่ำกว่า 50μs
  • ทำงานเงียบด้วยการใช้พลังงานต่ำกว่า 250W และเหมาะกับทั้งงานคำนวณทางวิทยาศาสตร์ขนาดเล็กและงานสร้างสรรค์

ฮาร์ดแวร์และระบบเครือข่าย

  • เครื่อง 2 ตัวด้านล่างเป็นสเปก RAM 512GB / CPU 32 คอร์ ส่วน 2 ตัวด้านบนเป็น RAM 256GB
  • Thunderbolt 5 ให้ แบนด์วิดท์ใช้งานจริง 50~60Gbps แต่เนื่องจาก ไม่มี Thunderbolt switch จึงต้องเชื่อมต่อ Mac แต่ละเครื่องเข้าหากันโดยตรง
  • เมื่อเทียบกับ Nvidia DGX Spark ที่ใช้พอร์ต QSFP แล้ว ความเสถียรของเครือข่ายยังด้อยกว่า
  • แม้จะมี ThunderLok-A สำหรับยึดสาย Thunderbolt แต่ไม่ได้ใช้งานเพราะต้องดัดแปลงตัวเครื่อง Mac Studio

เบนช์มาร์กประสิทธิภาพของ M3 Ultra Mac Studio

  • ใน Geekbench ทำได้ดีกว่า Dell Pro Max (GB10) และ AMD AI Max+ 395 ทั้งแบบคอร์เดี่ยวและหลายคอร์
  • ใน FP64 HPL benchmark ทำได้เกิน 1 Tflop หรือประมาณ 2 เท่าของ Nvidia GB10
  • ยังทำผลงานได้ดีในการ อนุมานโมเดล AI ขนาดใหญ่ และมีประสิทธิภาพต่อพลังงานสูง
  • M3 Ultra เครื่องเดียวมีทั้งประสิทธิภาพและความคุ้มค่านำหน้าคลัสเตอร์ Dell Pro Max แบบ 2 โหนด

การจัดการคลัสเตอร์และข้อจำกัดของ macOS

  • macOS ไม่สามารถอัปเกรดระบบผ่าน SSH ได้ และต้องใช้การสั่งงานผ่าน GUI
  • ใช้ Screen Sharing สำหรับการดูแลจากระยะไกล
  • เมื่อเทียบกับ Linux แล้ว การทำระบบอัตโนมัติสำหรับการจัดการคลัสเตอร์ทำได้ยากกว่า และยังไม่สะดวกเพราะ ไม่มีเครื่องมือ MDM

การทดสอบ HPL และ Llama.cpp

  • HPL แบบโหนดเดียวได้ 1.3 Tflops และเมื่อใช้ 4 โหนดได้ 3.7 Tflops หรือเพิ่มขึ้นราว 3 เท่า
  • เมื่อเชื่อมต่อแบบ TCP บน Thunderbolt พบว่า ระบบแครช และหากไม่ใช้ RDMA จะไม่เสถียร
  • ในการทดสอบ Llama.cpp พบว่า Thunderbolt 5 ให้เวลาแฝงต่ำกว่า Ethernet 2.5Gbps

การเปิดใช้ RDMA และการทดสอบ Exo 1.0

  • ขั้นตอนเปิดใช้ RDMA: เข้าโหมดกู้คืน → รันคำสั่ง rdma_ctl enable → รีบูต
  • Exo 1.0 เป็นเครื่องมือเดียวที่รองรับ RDMA และสามารถกระจายการรัน โมเดลขนาดเกิน 600GB (เช่น Kimi K2 Thinking) ข้าม Mac หลายเครื่องได้
  • Llama.cpp กระจายเลเยอร์ของโมเดลด้วยวิธี RPC แต่ไม่มีประสิทธิภาพนัก
  • Exo มีประสิทธิภาพดีขึ้นเมื่อจำนวนโหนดเพิ่มขึ้น และสามารถทำได้ 32 โทเค็นต่อวินาทีบนโมเดล Qwen3 235B
  • ยังรัน DeepSeek V3.1 และ Kimi K2 Thinking (1 ล้านล้านพารามิเตอร์) ได้สำเร็จ

ปัญหาเสถียรภาพและประเด็นโอเพนซอร์ส

  • การทดสอบนี้ใช้ ซอฟต์แวร์ pre-release จึงยังมีความไม่เสถียร
  • เมื่อ RDMA ทำงานได้ ประสิทธิภาพถือว่ายอดเยี่ยม แต่หากล้มเหลวต้องรีบูตทั้งคลัสเตอร์
  • ทีมพัฒนา Exo เคยหยุดกิจกรรมไประยะหนึ่งก่อนกลับมาอีกครั้ง และเผยแพร่ภายใต้ Apache 2.0 license
  • มีการกล่าวถึงความกังวลต่อ กระบวนการพัฒนาแบบไม่เปิดเผย จากความร่วมมือกับ Apple

งานในอนาคตและคำถามที่ยังไม่มีคำตอบ

  • การเปิดตัว M5 Ultra จะมีหรือไม่ และจะช่วยเพิ่มประสิทธิภาพด้านแมชชีนเลิร์นนิงได้แค่ไหน
  • ความจำเป็นในการปรับปรุงการทำคลัสเตอร์ผ่าน การกลับมาของการขยาย PCIe บน Mac Pro
  • ความเป็นไปได้ของการแชร์ไฟล์ความเร็วสูงหากรองรับ SMB Direct
  • ความคาดหวังว่า ซอฟต์แวร์อื่น เช่น Llama.cpp จะรองรับ RDMA เพิ่มขึ้น

บทสรุป

  • การรวม RDMA กับ Exo ช่วยขยาย ความเป็นไปได้ในการใช้ Mac Studio สำหรับงาน AI·HPC อย่างมาก
  • แต่ ข้อจำกัดเชิงโครงสร้างของ Thunderbolt 5 และข้อจำกัดด้านการจัดการของ macOS ยังเป็นคอขวดอยู่
  • จำเป็นต้องปรับปรุงความสามารถในการขยายเครือข่าย เช่น การรองรับพอร์ต QSFP
  • แม้กระแส AI จะผ่านไป Mac Studio ก็ยังคงมีคุณค่าในฐานะ เวิร์กสเตชันที่เงียบและทรงพลัง

2 ความคิดเห็น

 
kaydash 2025-12-21

นึกถึง impala เลย

 
GN⁺ 2025-12-19
ความคิดเห็นใน Hacker News
  • มีการสรุปสิ่งที่คาดหวังกับ M5 Max/Ultra ไว้
    อยากให้รองรับ ลิงก์ QSFP ระดับ DGX (200Gb/s ขึ้นไป) แทน Thunderbolt โครงสร้าง RDMA ก็ดูเจ๋งอยู่ แต่ถ้าความเร็วไม่ถึงระดับนี้ก็ไม่ค่อยคุ้มค่า
    อยากใช้ Neural accelerator เพื่อลดเวลา prefill ของพรอมป์ต์ ต่อให้ไม่ถึงระดับ RTX 6000 แค่ประมาณ 3090/4090 ก็พอแล้ว
    คาดหวังว่า Mac Studio รุ่นท็อปจะมีหน่วยความจำแบบรวม 1TB คิดว่าการเพิ่มหน่วยความจำให้มากขึ้นมีประสิทธิภาพกว่าการใช้หลายเครื่อง
    อยากให้แบนด์วิดท์เพิ่มเป็น +1TB/s ด้วย ช่วง 3 รุ่นหลังยังค้างอยู่ที่ 800GB/s
    และหวังว่าจะมีฟังก์ชันโอเวอร์คล็อกได้ด้วย Mac Studio ไม่ใช่โน้ตบุ๊ก ดังนั้นกินไฟเกิน 600W ก็ยังรับได้ ตอนนี้ถูกจำกัดไว้ราว 250W
    อีกอย่าง การตั้งค่า RDMA แบบนี้เชื่อมต่อ Mac ได้สูงสุดแค่ 4 เครื่อง เพราะทุกเครื่องต้องเชื่อมต่อกันโดยตรงทั้งหมด เลยคิดว่า Apple ควรลงทุนกับลิงก์ความเร็วสูงแบบ QSFP

    • หน่วยความจำ 1TB เลยเหรอ อย่างน้อยก็ควรเหลือ RAM ให้ผู้ใช้ทั่วไปอย่างพวกเราซื้อบ้างสิ ให้ความรู้สึกประมาณว่า “AI จ๋า ทำให้มนุษยชาติมีความสุขที!”
    • M4 ทำความเร็วต่อแชนเนลตามที่ต้องการได้แล้ว และ M5 ก็สูงกว่านั้น ถ้ามีรุ่น Ultra ออกมา แบนด์วิดท์ 1TB/s ก็น่าจะเป็นไปได้แน่นอน ส่วน Max เป็นครึ่งหนึ่งของ Ultra เลยคงไม่ถึงระดับนั้น
    • Mac Studio ยังไม่มี การออกแบบด้านความร้อน ที่รับภาระความร้อนระดับ 650W ได้ต่อเนื่อง ระดับนี้น่าจะทำได้ในดีไซน์แบบ Mac Pro มากกว่า
    • พอร์ต USB-C ด้านหน้าของ M3 Ultra Mac Studio ก็เป็น Thunderbolt 5 เช่นกัน เลยมีทั้งหมด 6 พอร์ต ดูจากสเปกทางการแล้วก็สงสัยว่าทำไมต้องจำกัดไว้ที่ 4 เครื่อง
    • Apple Neural Engine รองรับการคำนวณแบบ INT8 และ FP16 อยู่แล้ว เพียงแต่ AI framework ต่าง ๆ ยังนำไปใช้ได้ไม่ดีนัก
      และก็ยังสงสัยว่าจำเป็นต้องต่อ Mac ทุกเครื่องแบบ mesh ครบทั้งหมดจริงหรือไม่ รู้สึกว่า Thunderbolt น่าจะทำงานบน RDMA คล้ายกับ network interface
  • สงสัยว่าทำไม Apple ถึงปล่อยฟีเจอร์อย่าง RDMA ซึ่งเหมาะกับเซิร์ฟเวอร์คลัสเตอร์ แต่กลับเมินการปรับปรุงคุณภาพพื้นฐานอย่างการจัดการระยะไกลหรือการทำแร็กเมานต์
    คิดว่าอาจเป็นเพราะภายในบริษัทเองก็ใช้ผลิตภัณฑ์เซิร์ฟเวอร์ตระกูล M อยู่ และฟีเจอร์นี้อาจเป็นผลพลอยได้จากสิ่งนั้น

    • อาจเป็นไปได้ว่า Apple กำลังเตรียม ผลิตภัณฑ์ระดับเซิร์ฟเวอร์ จริง ๆ เลยเปิด RDMA ออกมาก่อนเพื่อให้ซอฟต์แวร์ฝั่ง third-party รองรับล่วงหน้า
    • Mac Studio มีตำแหน่งเฉพาะตัวสำหรับงาน LLM inference มองว่า RDMA ไม่ได้ทำมาเพื่อเซิร์ฟเวอร์ทั่วไป แต่เพื่อจับ Studio 4 เครื่องมารวมเป็น คลัสเตอร์สำหรับ LLM inferencing
    • เคยได้ยินมาว่าเมื่อก่อน Apple เอา M2 Mac Pro ไปวางซ้อนในแร็กเพื่อใช้กับฟีเจอร์ Private Compute
    • สงสัยว่า Apple มี data center ของตัวเองไหม นึกว่าจ้าง outsource ไปที่ GCP เป็นส่วนใหญ่
    • สงสัยมานานแล้วเหมือนกันว่าทำไม tooling สำหรับนักพัฒนาถึงอ่อนมาก ภายใน Apple เขาใช้สภาพแวดล้อมแบบไหนกัน การเอา Mac Mini มาเชื่อมกันด้วยสาย Thunderbolt ดูอึดอัดพอสมควร
  • งานของ Jeff เจ๋งมาก ข่าวเรื่อง RDMA บน Thunderbolt ก็น่าสนใจ
    ที่สำคัญยิ่งกว่านั้นคืออยากขอบคุณ Jeff สำหรับ พลังบวก และการมีส่วนร่วมอย่างสม่ำเสมอ

  • Linux รองรับ RDMA แต่ตอนนี้ยังใช้บน Thunderbolt ไม่ได้ ดูแล้วคงต้องทำงานเพิ่มอีกเยอะกว่าจะรองรับได้
    ถ้าสามารถเอา กล่อง Strix Halo ราคาประหยัด (128GB DDR5-8000, USB4 2 พอร์ต) มาจับ 2-3 เครื่องรวมกันเพื่อรันโมเดลใหญ่ได้ก็คงดี

  • ตอนนี้ Thunderbolt ยังไม่มี สวิตช์ เลยทำให้ขนาดของคลัสเตอร์ถูกจำกัด
    แต่อยากรู้ว่าสามารถใช้ RoCE (RDMA over Converged Ethernet) แทนได้ไหม ได้ยินมาว่า RDMA เร็วกว่า TCP ประมาณ 7-10 เท่า
    มีอะแดปเตอร์ Thunderbolt Ethernet ระดับ 10G~80G อยู่เหมือนกัน แต่ latency อาจเป็นปัญหา
    ถ้ามีสล็อต PCIe ก็แค่เสียบการ์ด Infiniband เข้าไปจบเลย สุดท้ายประเด็นก็คือไดรเวอร์

    • ทำ Thunderbolt เป็น PCIe แล้วใช้ NIC ทั่วไปก็ได้เหมือนกัน Atto Thunderlink เองก็แทบจะเป็นแค่กล่องหุ้ม Broadcom NIC
      ที่น่าประหลาดใจคือ Apple ใส่ไดรเวอร์ MLX5 มาถึงใน iPadOS ด้วย ดูบล็อกนี้
    • macOS มีไดรเวอร์สำหรับการ์ด Mellanox ConnectX รวมมาให้ แต่ไม่แน่ใจว่าจะแสดงใน ibv_devices จริงหรือเปล่า
  • อยากเห็นข้อมูลที่วัดความเร็วขาเข้า (prefill) กับความเร็วขาออก (decode) แยกกัน
    ในบทความของ Exoมีพูดไว้ว่าบนฮาร์ดแวร์ Mac ความเร็วสองส่วนนี้ต่างกันพอสมควร

    • มีข้อมูลที่เกี่ยวข้องอยู่บางส่วนในGitHub issue นี้
      กำลังคิดว่าจะเสนอให้ทีม Exo เพิ่ม ฟีเจอร์ benchmark
  • น่าสนใจที่ Thunderbolt 5 ไม่ได้ทิ้งห่างอย่างที่คิด
    เมื่อเทียบกับ Ethernet 2.5Gbps แล้ว TB5 เร็วกว่าประมาณ 10% เท่านั้น M3 Studio รองรับ Ethernet 10Gbps แต่ไม่ได้ถูกทดสอบ
    TB5 มีข้อจำกัดว่าทุก CPU ต้องเชื่อมต่อถึงกันโดยตรง เลยจำกัดไว้ที่ 4 เครื่อง ตรงกันข้าม ถ้าใช้ Ethernet switch ก็เชื่อมต่อโหนดได้มากกว่า

    • วิดีโอนี้ทดสอบด้วย Ethernet 10Gbps
    • จากประสบการณ์เดิมกับ llama RPC, Ethernet 10G เพิ่มความเร็วได้ไม่มากนัก latency สำคัญกว่า แต่ก็ยังมีขีดจำกัดอยู่ดี
    • llama ยังปรับแต่งได้ไม่ดีพอจึงขยายระบบได้ไม่มาก RDMA มี overhead ต่ำกว่า Ethernet
  • แต่ละโหนดในคลัสเตอร์มี RAM 512GB ส่วนโมเดล DeepSeek V3.1 ต้องใช้ RAM 700GB
    เลยแปลกใจว่าจาก 1 โหนดเพิ่มเป็น 2 โหนด ความเร็ว inference ดีขึ้นแค่ 32% และแม้เป็น 4 โหนดก็ยังดีขึ้นไม่ถึง 50%
    ดูเหมือนจะมีคอขวดบางอย่าง

    • แบนด์วิดท์เครือข่ายอยู่ที่ 80Gbps นั่นแหละคือ คอขวด ส่วน Infiniband เร็วกว่านั้น 10 เท่า
    • น้ำหนักโมเดล (weights) เป็นแบบอ่านอย่างเดียว จึงสามารถทำ memory map ไว้บน SSD ได้ ข้อจำกัดจริงคือหน่วยความจำของ activation โครงสร้างแบบ MoE อาจช่วยได้
    • TB5 RDMA ช้ากว่าการเข้าถึงหน่วยความจำของระบบโดยตรงมาก
  • โครงสร้างที่ทุกโหนดเชื่อมต่อถึงกันทั้งหมดทำให้นึกถึง NUMALink ของ SGI
    ซูเปอร์คอมพิวเตอร์ของ SGI เชื่อมแต่ละโหนดเข้ากับทุกโหนดอื่นด้วยลิงก์ 2 เส้น แม้สายจะเยอะ แต่ก็ไม่ต้องกังวลเรื่อง framing หรือ congestion control

    • ฮาร์ดแวร์ของ SGI ทำ ccNUMA (cache-coherent NUMA) ได้ ระบบปฏิบัติการ IRIX จะย้ายงานและหน่วยความจำไปไว้ใกล้กันทางกายภาพเพื่อลด latency
      ทุกวันนี้ระบบเทรดความถี่สูงที่จัดวางโปรเซสโดยคำนึงถึงตำแหน่งของ CPU core และ DIMM ก็เป็นแนวคิดเดียวกัน
    • แร็ก NVL72 ก็มีโครงสร้างคล้ายกัน โดยเชื่อม GPU เข้าหากันด้วยลิงก์จำนวนมาก
  • ชอบ รายละเอียดน่าสนใจ หลายอย่างที่เห็นในบทความ
    ทั้งการหายตัวไปอย่างลึกลับของ Exo, การที่ Jeff อยากได้ SMB Direct บน Mac, ความเร็ว inference ของ M3 Ultra และ Framework AI Desktop ราคา $2100
    ทำให้รู้สึกเหมือนได้เจอ โพรงกระต่าย (rabbit hole) ใหม่เลย