- macOS Tahoe 26.2 ได้เพิ่มความสามารถ RDMA บน Thunderbolt 5 ใหม่ ทำให้สื่อสารแบบหน่วงต่ำได้สำหรับงานอย่าง การอนุมาน AI แบบกระจาย ด้วย MLX
- นี่คือการ “ทำให้สามารถมอง Mac เป็นโหนดประมวลผลแบบกระจายความเร็วสูงได้” ส่งผลให้ macOS ขยายจากการเป็นเพียงเดสก์ท็อป OS ไปสู่การเป็น แพลตฟอร์มทดลอง Local AI·HPC ได้
RDMA คืออะไร
- RDMA (Remote Direct Memory Access) คือวิธีการสื่อสารที่คอมพิวเตอร์เครื่องหนึ่งสามารถ เข้าถึงหน่วยความจำของอีกเครื่องได้โดยตรงโดยไม่ต้องให้ CPU เข้ามาเกี่ยวข้อง
- มันข้าม network stack, kernel copy และ context switch ทำให้ ลด latency ได้อย่างมากและเพิ่ม throughput ได้สูง
- เดิมถูกใช้เป็นหลักในเครือข่ายดาต้าเซ็นเตอร์อย่าง InfiniBand และ RoCE
- กลายเป็นเทคโนโลยีมาตรฐานในงานประมวลผลสมรรถนะสูง (HPC), distributed storage และการฝึก·อนุมาน AI ขนาดใหญ่
- แก่นสำคัญคือ “แม้จะสื่อสารผ่านเครือข่าย แต่ก็ทำงานได้รวดเร็วราวกับใช้หน่วยความจำเดียวกัน”
ความหมายของ RDMA over Thunderbolt
- ใน macOS 26.2 รองรับ การสื่อสาร RDMA ระหว่าง Mac ที่เชื่อมต่อกันด้วย Thunderbolt 5
- หากก่อนหน้านี้ RDMA ถูกจำกัดอยู่กับอุปกรณ์เครือข่ายระดับเซิร์ฟเวอร์ ตอนนี้ก็ ใช้งานได้แม้กับคลัสเตอร์ Mac ภายในเครื่องที่เชื่อมกันด้วยสายเพียงเส้นเดียว
- สามารถ นำแบนด์วิดท์สูงและ latency ต่ำมากของ Thunderbolt มาใช้ในโมเดล RDMA ได้โดยตรง
- กล่าวคือเป็นการเปิด “ช่องทางสำหรับรวม Mac หลายเครื่องบนโต๊ะทำงานให้ทำงานร่วมกันเหมือนดาต้าเซ็นเตอร์”
ทำไมจึงเหมาะกับเวิร์กโหลด AI
- ในการอนุมานหรือฝึก AI แบบกระจาย การแลกเปลี่ยนเทนเซอร์ระหว่างโหนด มักเป็นคอขวดได้ง่าย
- RDMA ช่วยให้กระบวนการนี้ไม่กิน CPU และให้ รูปแบบการสื่อสารที่ใกล้เคียง GPU ↔ GPU
- การอนุมาน AI แบบกระจายบน MLX ที่กล่าวถึงใน release notes เป็นสถาปัตยกรรมที่ออกแบบโดยตั้งอยู่บนการสื่อสารหน่วงต่ำและแบนด์วิดท์สูงลักษณะนี้
- เพิ่มความเป็นไปได้ในการกระจายโมเดลไปยัง Mac หลายเครื่องและ ประกอบเป็นคลัสเตอร์อนุมานที่ทำงานราวกับเป็นเครื่องเดียว
- สำหรับทีมขนาดเล็กหรือสภาพแวดล้อมงานวิจัย การ “สร้างคลัสเตอร์ AI ด้วย Mac โดยไม่ต้องมีเซิร์ฟเวอร์” จึงกลายเป็นทางเลือกที่เป็นจริงได้มากขึ้น
ตัวอย่างการใช้งานที่เป็นไปได้จริง
- เชื่อมต่อ Mac Studio / Mac Pro หลายเครื่องผ่าน Thunderbolt เพื่อ สร้างฟาร์มอนุมาน AI ภายในเครื่อง
- หากนำโมเดลขนาดใหญ่ขึ้นบน GPU เดียวได้ยาก ก็สามารถทดลอง การอนุมานแบบแบ่งโมเดล ได้
- งานจำลองแบบกระจายภายในเครื่อง, data pipeline ความเร็วสูง และการวิจัยระบบกระจายเชิงทดลอง
- ลดต้นทุนการสร้างสภาพแวดล้อมต้นแบบ·PoC ได้อย่างมาก ก่อนย้ายไปสู่ดาต้าเซ็นเตอร์
4 ความคิดเห็น
ระบบเครือข่าย Thunderbolt สะดวกจริงๆ
เพราะทำเดซี่เชนได้ ก็เลยไม่ต้องมีฮับด้วย
ต่อจากนี้ก็น่าจะมีคนเอาอุปกรณ์ Mac มาต่อกันทำ inference farm แล้วเปิดให้บริการจากที่บ้านกันไม่น้อยเลยนะครับ
บันทึกประจำรุ่นอย่างเป็นทางการของ Apple มีเพียงประโยคเดียวว่า "สามารถใช้ RDMA over Thunderbolt ได้แล้ว" ดังนั้นจึงได้เขียนคำอธิบายเพิ่มเติมไว้ใน GN+.
ความเห็นจาก Hacker News
ฉันติดตามทวิตเตอร์ของทีม MLX อยู่ พวกเขามักแชร์กรณีที่ เชื่อมต่อ Mac มากกว่าสองเครื่องเข้าด้วยกัน เพื่อรันโมเดลที่ต้องใช้ RAM มากกว่า 512GB
ตัวอย่างเช่น Kimi K2 Thinking (1T พารามิเตอร์) และ DeepSeek R1 (671B) โดยอันหลังมี Gist คู่มือการตั้งค่า ให้มาด้วย
ใน Tahoe 26.2 รุ่นที่กำลังจะมาถึง จะสามารถใช้ tensor parallelism ได้ โดย shard แต่ละเลเยอร์ข้ามหลายเครื่อง ซึ่งถ้ามี N เครื่องก็อาจได้ความเร็วเกือบ N เท่า แต่ปัญหาหลักคือ latency ของการสื่อสาร
แต่สำหรับคนที่อยากทดลอง LLM บนเครื่องตัวเองถือว่าเหมาะดี ส่วนบริษัทที่มีเงินเยอะคงไม่มีเหตุผลจะซื้อสิ่งนี้จำนวนมากแทน GPU
ลองเปรียบเทียบ ฮาร์ดแวร์สำหรับ inference ภายใต้งบ $50,000
ท่ามกลาง ความปั่นป่วนของตลาด RAM ในช่วงนี้ หาก Apple computing กลายเป็นตัวเลือกที่ คุ้มราคาสำหรับสร้าง inference cluster ขนาดกลาง ด้วยซัพพลายเชนที่มั่นคงของ Apple เอง ก็คงเป็นเรื่องน่า ironic มาก
นี่คือการเอา Mac Studio หลายเครื่องมาจับเป็นคลัสเตอร์ ซึ่งฉันกังวลเรื่อง ข้อจำกัดทางกายภาพและการดูแลจัดการ
sudo softwareupdate -i -aทำได้แค่อัปเดตย่อยอยากให้ Apple สร้าง คลาวด์ที่ใช้ชิปตระกูล M ของตัวเอง เสริมความสามารถของ Metal สำหรับงาน AI และให้บริการ โมเดลแบบ self-hosting ที่เน้นความเป็นส่วนตัว น่าจะประสบความสำเร็จมากในอุตสาหกรรมที่มีข้อมูลอ่อนไหวจำนวนมาก
สงสัยว่าฟีเจอร์นี้จะใช้กับ งาน distributed ทั่วไป ที่ไม่ใช่ AI ได้ด้วยหรือไม่
อ้างอิง: คู่มือการใช้งาน distributed ของ MLX
บทความที่เกี่ยวข้อง: Engadget - สร้าง AI supercomputer จาก Mac cluster ได้ใน macOS Tahoe 26.2
George Hotz ทำให้ tinygrad ใช้ USB4 เพื่อรัน NVIDIA GPU บน Mac ได้แล้ว
ทวีตของ tinygrad
ฉันไม่ค่อยรู้ว่า RDMA คืออะไร แต่มันหมายความว่าสามารถเชื่อม Mac หลายเครื่องแล้ว รัน inference แบบขนาน ได้ใช่ไหม? ถ้าใช่ก็นับว่าเป็นฟีเจอร์ที่เจ๋งมาก