macOS 26.2 เป็นต้นไปสามารถสร้างคลัสเตอร์ AI ความเร็วสูงด้วย RDMA ผ่าน Thunderbolt ได้

(developer.apple.com)

11 คะแนน โดย GN⁺ 2025-12-13 | 4 ความคิดเห็น | แชร์ทาง WhatsApp

macOS Tahoe 26.2 ได้เพิ่มความสามารถ RDMA บน Thunderbolt 5 ใหม่ ทำให้สื่อสารแบบหน่วงต่ำได้สำหรับงานอย่าง การอนุมาน AI แบบกระจาย ด้วย MLX
นี่คือการ “ทำให้สามารถมอง Mac เป็นโหนดประมวลผลแบบกระจายความเร็วสูงได้” ส่งผลให้ macOS ขยายจากการเป็นเพียงเดสก์ท็อป OS ไปสู่การเป็น แพลตฟอร์มทดลอง Local AI·HPC ได้

RDMA คืออะไร

RDMA (Remote Direct Memory Access) คือวิธีการสื่อสารที่คอมพิวเตอร์เครื่องหนึ่งสามารถ เข้าถึงหน่วยความจำของอีกเครื่องได้โดยตรงโดยไม่ต้องให้ CPU เข้ามาเกี่ยวข้อง
มันข้าม network stack, kernel copy และ context switch ทำให้ ลด latency ได้อย่างมากและเพิ่ม throughput ได้สูง
เดิมถูกใช้เป็นหลักในเครือข่ายดาต้าเซ็นเตอร์อย่าง InfiniBand และ RoCE
กลายเป็นเทคโนโลยีมาตรฐานในงานประมวลผลสมรรถนะสูง (HPC), distributed storage และการฝึก·อนุมาน AI ขนาดใหญ่
แก่นสำคัญคือ “แม้จะสื่อสารผ่านเครือข่าย แต่ก็ทำงานได้รวดเร็วราวกับใช้หน่วยความจำเดียวกัน”

ความหมายของ RDMA over Thunderbolt

ใน macOS 26.2 รองรับ การสื่อสาร RDMA ระหว่าง Mac ที่เชื่อมต่อกันด้วย Thunderbolt 5
หากก่อนหน้านี้ RDMA ถูกจำกัดอยู่กับอุปกรณ์เครือข่ายระดับเซิร์ฟเวอร์ ตอนนี้ก็ ใช้งานได้แม้กับคลัสเตอร์ Mac ภายในเครื่องที่เชื่อมกันด้วยสายเพียงเส้นเดียว
สามารถ นำแบนด์วิดท์สูงและ latency ต่ำมากของ Thunderbolt มาใช้ในโมเดล RDMA ได้โดยตรง
กล่าวคือเป็นการเปิด “ช่องทางสำหรับรวม Mac หลายเครื่องบนโต๊ะทำงานให้ทำงานร่วมกันเหมือนดาต้าเซ็นเตอร์”

ทำไมจึงเหมาะกับเวิร์กโหลด AI

ในการอนุมานหรือฝึก AI แบบกระจาย การแลกเปลี่ยนเทนเซอร์ระหว่างโหนด มักเป็นคอขวดได้ง่าย
RDMA ช่วยให้กระบวนการนี้ไม่กิน CPU และให้ รูปแบบการสื่อสารที่ใกล้เคียง GPU ↔ GPU
การอนุมาน AI แบบกระจายบน MLX ที่กล่าวถึงใน release notes เป็นสถาปัตยกรรมที่ออกแบบโดยตั้งอยู่บนการสื่อสารหน่วงต่ำและแบนด์วิดท์สูงลักษณะนี้
เพิ่มความเป็นไปได้ในการกระจายโมเดลไปยัง Mac หลายเครื่องและ ประกอบเป็นคลัสเตอร์อนุมานที่ทำงานราวกับเป็นเครื่องเดียว
สำหรับทีมขนาดเล็กหรือสภาพแวดล้อมงานวิจัย การ “สร้างคลัสเตอร์ AI ด้วย Mac โดยไม่ต้องมีเซิร์ฟเวอร์” จึงกลายเป็นทางเลือกที่เป็นจริงได้มากขึ้น

ตัวอย่างการใช้งานที่เป็นไปได้จริง

เชื่อมต่อ Mac Studio / Mac Pro หลายเครื่องผ่าน Thunderbolt เพื่อ สร้างฟาร์มอนุมาน AI ภายในเครื่อง
หากนำโมเดลขนาดใหญ่ขึ้นบน GPU เดียวได้ยาก ก็สามารถทดลอง การอนุมานแบบแบ่งโมเดล ได้
งานจำลองแบบกระจายภายในเครื่อง, data pipeline ความเร็วสูง และการวิจัยระบบกระจายเชิงทดลอง
ลดต้นทุนการสร้างสภาพแวดล้อมต้นแบบ·PoC ได้อย่างมาก ก่อนย้ายไปสู่ดาต้าเซ็นเตอร์

4 ความคิดเห็น

bus710 2025-12-14

ระบบเครือข่าย Thunderbolt สะดวกจริงๆ
เพราะทำเดซี่เชนได้ ก็เลยไม่ต้องมีฮับด้วย

shakespeares 2025-12-13

ต่อจากนี้ก็น่าจะมีคนเอาอุปกรณ์ Mac มาต่อกันทำ inference farm แล้วเปิดให้บริการจากที่บ้านกันไม่น้อยเลยนะครับ

xguru 2025-12-13

บันทึกประจำรุ่นอย่างเป็นทางการของ Apple มีเพียงประโยคเดียวว่า "สามารถใช้ RDMA over Thunderbolt ได้แล้ว" ดังนั้นจึงได้เขียนคำอธิบายเพิ่มเติมไว้ใน GN+.

GN⁺ 2025-12-13

ความเห็นจาก Hacker News

ฉันติดตามทวิตเตอร์ของทีม MLX อยู่ พวกเขามักแชร์กรณีที่ เชื่อมต่อ Mac มากกว่าสองเครื่องเข้าด้วยกัน เพื่อรันโมเดลที่ต้องใช้ RAM มากกว่า 512GB
ตัวอย่างเช่น Kimi K2 Thinking (1T พารามิเตอร์) และ DeepSeek R1 (671B) โดยอันหลังมี Gist คู่มือการตั้งค่า ให้มาด้วย
- โพสต์เหล่านี้เป็นตัวอย่างของการใช้ pipeline parallelism เมื่อมีเครื่อง N เครื่อง ก็จะแบ่งเลเยอร์ L/N ให้แต่ละเครื่องรับไปทำงาน ไม่มีความเร็วเพิ่มขึ้น แต่ทำให้รันโมเดลใหญ่ที่ใส่ในเครื่องเดียวไม่ได้
  ใน Tahoe 26.2 รุ่นที่กำลังจะมาถึง จะสามารถใช้ tensor parallelism ได้ โดย shard แต่ละเลเยอร์ข้ามหลายเครื่อง ซึ่งถ้ามี N เครื่องก็อาจได้ความเร็วเกือบ N เท่า แต่ปัญหาหลักคือ latency ของการสื่อสาร
- สัปดาห์ที่แล้วมีการทดสอบ tensor parallel แบบใช้ RDMA ด้วย ลิงก์การทดสอบ และยังพูดถึงวิธีเลี่ยง fast sync ด้วย
- สำหรับคนที่ไม่ใช่มืออาชีพ หวังว่าวิธีนี้จะไม่ดูน่าดึงดูดเกินไป เพราะประสิทธิภาพ สเกลได้ไม่ดีนัก ในงานแบบ parallel workload หรือการประมวลผล context
  แต่สำหรับคนที่อยากทดลอง LLM บนเครื่องตัวเองถือว่าเหมาะดี ส่วนบริษัทที่มีเงินเยอะคงไม่มีเหตุผลจะซื้อสิ่งนี้จำนวนมากแทน GPU
- สิ่งที่น่าทึ่งที่สุดคือ การใช้พลังงาน ประมาณ 50W สำหรับสองเครื่องรวมกัน ฟังดูเหมือนฉันอาจมองอะไรผิดไป
ลองเปรียบเทียบ ฮาร์ดแวร์สำหรับ inference ภายใต้งบ $50,000
- Apple M3 Ultra cluster ($50k): เน้นความจุสูงสุด (3TB) เป็นตัวเลือกเดียวที่รันโมเดลระดับ 3T+ พารามิเตอร์ได้ (เช่น Kimi K2) แต่ความเร็วต่ำ (~15 t/s)
- NVIDIA RTX 6000 workstation ($50k): เน้น throughput สูงสุด (>80 t/s) ดีทั้งสำหรับเทรนและ inference แต่ VRAM จำกัดที่ 384GB จึงรองรับได้แค่โมเดลต่ำกว่า 400B
- ถ้าจะเอาทั้งความจุเท่ากัน (3TB) และ throughput มากกว่า 100 t/s ต้องใช้ NVIDIA GH200 cluster ราคาราว $270,000 โดย Apple cluster ให้ความจุ 87% ด้วยต้นทุนเพียง 18%
- ทำให้ถูกกว่านี้ได้อีก ฉันกำลังรัน DeepSeek-R1 บน เวิร์กสเตชัน Xeon แบบ dual-socket (RAM 768GB) ราคา $2,000 ที่ความเร็ว 1~2 โทเค็นต่อวินาที
- ฉันสงสัยวิธีคำนวณของ NVIDIA cluster ราคา $50k ถ้า RTX 6000 อยู่ราว $8k ก็น่าจะได้ประมาณ 5 ใบ รวม 40k และมีความจุประมาณครึ่ง TB ถึงอย่างนั้นสำหรับงาน inference Mac ก็ยังมีประสิทธิภาพคุ้มค่า และ M5 Ultra ก็น่าจะแสดง ประสิทธิภาพต่อราคา ที่ดีกว่า
- ด้วยงบเท่ากัน คุณอาจซื้อ Framework desktop board ได้ 25 แผ่น (แต่ละแผ่นมี 128GB VRAM ใช้ Strix Halo) รวมเป็น 3TB VRAM แต่การทำคลัสเตอร์น่าจะท้าทายพอสมควร
- ถ้าคิดรวม ฟีเจอร์เพิ่มความเร็วจากการทำงานขนาน ที่ยังไม่ได้ถูกพัฒนา ก็ยังดูเป็นดีลที่ค่อนข้างดีสำหรับสภาพแวดล้อม inference แบบ on-premises
- Apple ใช้ LPDDR5X เพื่อลดการใช้พลังงานและต้นทุน ขณะที่ NVIDIA ใช้ GDDR/HBM โดยให้ความสำคัญกับประสิทธิภาพมากกว่า
ท่ามกลาง ความปั่นป่วนของตลาด RAM ในช่วงนี้ หาก Apple computing กลายเป็นตัวเลือกที่ คุ้มราคาสำหรับสร้าง inference cluster ขนาดกลาง ด้วยซัพพลายเชนที่มั่นคงของ Apple เอง ก็คงเป็นเรื่องน่า ironic มาก
- ถ้าผู้ใช้เชิงพาณิชย์มาซื้อ Mac ดี ๆ ไปหมดก็คงลำบากนิดหน่อย
- สำหรับบางกรณีใช้งาน มันก็เริ่มเป็นแบบนั้นอยู่แล้ว
นี่คือการเอา Mac Studio หลายเครื่องมาจับเป็นคลัสเตอร์ ซึ่งฉันกังวลเรื่อง ข้อจำกัดทางกายภาพและการดูแลจัดการ
1. ตำแหน่งปุ่มเปิดเครื่องค่อนข้างประหลาด ทำให้ติดตั้งแบบ rackmount ไม่สะดวก
2. Thunderbolt ดีสำหรับอุปกรณ์ต่อพ่วง แต่ถ้าใช้เป็น interconnect ที่เชื่อมต่อถาวร ก็อดห่วงเรื่องความทนทานของพอร์ตไม่ได้
3. คุณภาพสายสำคัญมาก TB4/TB5 มีปัญหาเยอะถ้าไม่ใช้สายราคาแพง
4. การจัดการระยะไกลของ macOS ไม่มีประสิทธิภาพเท่า Linux เช่น ถ้าจะอัปเกรดจาก macOS 26.1 → 26.2 โดยไม่มี GUI ก็ทำได้ยาก sudo softwareupdate -i -a ทำได้แค่อัปเดตย่อย
- เรื่อง #2 นั้น OWC dock มี รูน็อตสำหรับยึดสาย อยู่ OWC Thunderbolt Dock กับ ClingOn adapter ช่วยลดแรงกดบนพอร์ตได้
- ปัญหาเรื่องปุ่มเปิดเครื่องแก้ได้ด้วย RackMac Studio enclosure ซึ่งช่วยต่อปุ่มออกมาทางกลไก
- การใช้ Thunderbolt เป็น server interconnect อาจดูไม่สวยนัก แต่ถ้ายึดอยู่ในแร็กตลอด เวลาจริง ๆ แล้วอาจมี แรงกดทางกายภาพน้อยกว่า เสียอีก
- ถ้าใช้ โซลูชัน MDM ก็ทำได้ไม่ใช่แค่อัปเดตซอฟต์แวร์ แต่รวมถึง LOM (การจัดการพลังงานระยะไกล) ด้วย และก็มี MDM แบบโอเพนซอร์สอยู่ด้วย
- ตอนนี้ยังมี Mac Pro รุ่น rackmount ขายอยู่ แต่ยังไม่อัปเดตเป็น M3 Ultra จึงดูเหมือนน่าจะถูกยกเลิกในไม่ช้า
อยากให้ Apple สร้าง คลาวด์ที่ใช้ชิปตระกูล M ของตัวเอง เสริมความสามารถของ Metal สำหรับงาน AI และให้บริการ โมเดลแบบ self-hosting ที่เน้นความเป็นส่วนตัว น่าจะประสบความสำเร็จมากในอุตสาหกรรมที่มีข้อมูลอ่อนไหวจำนวนมาก
- ตอนนี้ก็มีแนวคิดคล้ายกันอย่าง Private Cloud Compute อยู่แล้ว แต่จำกัดสำหรับผู้ใช้ iUser ที่ใช้โมเดลของ Apple
- ในดาต้าเซ็นเตอร์ การ shard ผ่าน interconnect ความเร็วสูง มีประสิทธิภาพกว่าการใส่หน่วยความจำขนาดใหญ่มากไว้ต่อ GPU หนึ่งตัว และ GPU ของ NVIDIA หรือ AMD ก็ยังเหนือกว่าในด้านพลังคำนวณอยู่ดี
สงสัยว่าฟีเจอร์นี้จะใช้กับ งาน distributed ทั่วไป ที่ไม่ใช่ AI ได้ด้วยหรือไม่
- ฉันทดสอบด้วย HPL และ mpirun แล้ว ตอนนี้ยังไม่รองรับ RDMA และทำได้แค่แบบ Ring เท่านั้น ยังหยาบ ๆ อยู่บ้างแต่ก็ใช้งานได้
  อ้างอิง: คู่มือการใช้งาน distributed ของ MLX
บทความที่เกี่ยวข้อง: Engadget - สร้าง AI supercomputer จาก Mac cluster ได้ใน macOS Tahoe 26.2
George Hotz ทำให้ tinygrad ใช้ USB4 เพื่อรัน NVIDIA GPU บน Mac ได้แล้ว
ทวีตของ tinygrad
- ยังมี ตัวอย่างการรัน NVIDIA บน Mac Pro 2023 ที่รัน Linux ด้วย
ฉันไม่ค่อยรู้ว่า RDMA คืออะไร แต่มันหมายความว่าสามารถเชื่อม Mac หลายเครื่องแล้ว รัน inference แบบขนาน ได้ใช่ไหม? ถ้าใช่ก็นับว่าเป็นฟีเจอร์ที่เจ๋งมาก
- ก่อนหน้านี้ก็ทำ inference ข้าม Mac หลายเครื่องได้มาตั้งแต่ราว 1 ปีก่อนแล้ว แต่ตอนนี้มัน ทำงานได้เร็วขึ้นมาก