11 คะแนน โดย GN⁺ 2025-12-13 | 4 ความคิดเห็น | แชร์ทาง WhatsApp
  • macOS Tahoe 26.2 ได้เพิ่มความสามารถ RDMA บน Thunderbolt 5 ใหม่ ทำให้สื่อสารแบบหน่วงต่ำได้สำหรับงานอย่าง การอนุมาน AI แบบกระจาย ด้วย MLX
  • นี่คือการ “ทำให้สามารถมอง Mac เป็นโหนดประมวลผลแบบกระจายความเร็วสูงได้” ส่งผลให้ macOS ขยายจากการเป็นเพียงเดสก์ท็อป OS ไปสู่การเป็น แพลตฟอร์มทดลอง Local AI·HPC ได้

RDMA คืออะไร

  • RDMA (Remote Direct Memory Access) คือวิธีการสื่อสารที่คอมพิวเตอร์เครื่องหนึ่งสามารถ เข้าถึงหน่วยความจำของอีกเครื่องได้โดยตรงโดยไม่ต้องให้ CPU เข้ามาเกี่ยวข้อง
  • มันข้าม network stack, kernel copy และ context switch ทำให้ ลด latency ได้อย่างมากและเพิ่ม throughput ได้สูง
  • เดิมถูกใช้เป็นหลักในเครือข่ายดาต้าเซ็นเตอร์อย่าง InfiniBand และ RoCE
  • กลายเป็นเทคโนโลยีมาตรฐานในงานประมวลผลสมรรถนะสูง (HPC), distributed storage และการฝึก·อนุมาน AI ขนาดใหญ่
  • แก่นสำคัญคือ “แม้จะสื่อสารผ่านเครือข่าย แต่ก็ทำงานได้รวดเร็วราวกับใช้หน่วยความจำเดียวกัน”

ความหมายของ RDMA over Thunderbolt

  • ใน macOS 26.2 รองรับ การสื่อสาร RDMA ระหว่าง Mac ที่เชื่อมต่อกันด้วย Thunderbolt 5
  • หากก่อนหน้านี้ RDMA ถูกจำกัดอยู่กับอุปกรณ์เครือข่ายระดับเซิร์ฟเวอร์ ตอนนี้ก็ ใช้งานได้แม้กับคลัสเตอร์ Mac ภายในเครื่องที่เชื่อมกันด้วยสายเพียงเส้นเดียว
  • สามารถ นำแบนด์วิดท์สูงและ latency ต่ำมากของ Thunderbolt มาใช้ในโมเดล RDMA ได้โดยตรง
  • กล่าวคือเป็นการเปิด “ช่องทางสำหรับรวม Mac หลายเครื่องบนโต๊ะทำงานให้ทำงานร่วมกันเหมือนดาต้าเซ็นเตอร์”

ทำไมจึงเหมาะกับเวิร์กโหลด AI

  • ในการอนุมานหรือฝึก AI แบบกระจาย การแลกเปลี่ยนเทนเซอร์ระหว่างโหนด มักเป็นคอขวดได้ง่าย
  • RDMA ช่วยให้กระบวนการนี้ไม่กิน CPU และให้ รูปแบบการสื่อสารที่ใกล้เคียง GPU ↔ GPU
  • การอนุมาน AI แบบกระจายบน MLX ที่กล่าวถึงใน release notes เป็นสถาปัตยกรรมที่ออกแบบโดยตั้งอยู่บนการสื่อสารหน่วงต่ำและแบนด์วิดท์สูงลักษณะนี้
  • เพิ่มความเป็นไปได้ในการกระจายโมเดลไปยัง Mac หลายเครื่องและ ประกอบเป็นคลัสเตอร์อนุมานที่ทำงานราวกับเป็นเครื่องเดียว
  • สำหรับทีมขนาดเล็กหรือสภาพแวดล้อมงานวิจัย การ “สร้างคลัสเตอร์ AI ด้วย Mac โดยไม่ต้องมีเซิร์ฟเวอร์” จึงกลายเป็นทางเลือกที่เป็นจริงได้มากขึ้น

ตัวอย่างการใช้งานที่เป็นไปได้จริง

  • เชื่อมต่อ Mac Studio / Mac Pro หลายเครื่องผ่าน Thunderbolt เพื่อ สร้างฟาร์มอนุมาน AI ภายในเครื่อง
  • หากนำโมเดลขนาดใหญ่ขึ้นบน GPU เดียวได้ยาก ก็สามารถทดลอง การอนุมานแบบแบ่งโมเดล ได้
  • งานจำลองแบบกระจายภายในเครื่อง, data pipeline ความเร็วสูง และการวิจัยระบบกระจายเชิงทดลอง
  • ลดต้นทุนการสร้างสภาพแวดล้อมต้นแบบ·PoC ได้อย่างมาก ก่อนย้ายไปสู่ดาต้าเซ็นเตอร์

4 ความคิดเห็น

 
bus710 2025-12-14

ระบบเครือข่าย Thunderbolt สะดวกจริงๆ
เพราะทำเดซี่เชนได้ ก็เลยไม่ต้องมีฮับด้วย

 
shakespeares 2025-12-13

ต่อจากนี้ก็น่าจะมีคนเอาอุปกรณ์ Mac มาต่อกันทำ inference farm แล้วเปิดให้บริการจากที่บ้านกันไม่น้อยเลยนะครับ

 
xguru 2025-12-13

บันทึกประจำรุ่นอย่างเป็นทางการของ Apple มีเพียงประโยคเดียวว่า "สามารถใช้ RDMA over Thunderbolt ได้แล้ว" ดังนั้นจึงได้เขียนคำอธิบายเพิ่มเติมไว้ใน GN+.

 
GN⁺ 2025-12-13
ความเห็นจาก Hacker News
  • ฉันติดตามทวิตเตอร์ของทีม MLX อยู่ พวกเขามักแชร์กรณีที่ เชื่อมต่อ Mac มากกว่าสองเครื่องเข้าด้วยกัน เพื่อรันโมเดลที่ต้องใช้ RAM มากกว่า 512GB
    ตัวอย่างเช่น Kimi K2 Thinking (1T พารามิเตอร์) และ DeepSeek R1 (671B) โดยอันหลังมี Gist คู่มือการตั้งค่า ให้มาด้วย

    • โพสต์เหล่านี้เป็นตัวอย่างของการใช้ pipeline parallelism เมื่อมีเครื่อง N เครื่อง ก็จะแบ่งเลเยอร์ L/N ให้แต่ละเครื่องรับไปทำงาน ไม่มีความเร็วเพิ่มขึ้น แต่ทำให้รันโมเดลใหญ่ที่ใส่ในเครื่องเดียวไม่ได้
      ใน Tahoe 26.2 รุ่นที่กำลังจะมาถึง จะสามารถใช้ tensor parallelism ได้ โดย shard แต่ละเลเยอร์ข้ามหลายเครื่อง ซึ่งถ้ามี N เครื่องก็อาจได้ความเร็วเกือบ N เท่า แต่ปัญหาหลักคือ latency ของการสื่อสาร
    • สัปดาห์ที่แล้วมีการทดสอบ tensor parallel แบบใช้ RDMA ด้วย ลิงก์การทดสอบ และยังพูดถึงวิธีเลี่ยง fast sync ด้วย
    • สำหรับคนที่ไม่ใช่มืออาชีพ หวังว่าวิธีนี้จะไม่ดูน่าดึงดูดเกินไป เพราะประสิทธิภาพ สเกลได้ไม่ดีนัก ในงานแบบ parallel workload หรือการประมวลผล context
      แต่สำหรับคนที่อยากทดลอง LLM บนเครื่องตัวเองถือว่าเหมาะดี ส่วนบริษัทที่มีเงินเยอะคงไม่มีเหตุผลจะซื้อสิ่งนี้จำนวนมากแทน GPU
    • สิ่งที่น่าทึ่งที่สุดคือ การใช้พลังงาน ประมาณ 50W สำหรับสองเครื่องรวมกัน ฟังดูเหมือนฉันอาจมองอะไรผิดไป
  • ลองเปรียบเทียบ ฮาร์ดแวร์สำหรับ inference ภายใต้งบ $50,000

    • Apple M3 Ultra cluster ($50k): เน้นความจุสูงสุด (3TB) เป็นตัวเลือกเดียวที่รันโมเดลระดับ 3T+ พารามิเตอร์ได้ (เช่น Kimi K2) แต่ความเร็วต่ำ (~15 t/s)
    • NVIDIA RTX 6000 workstation ($50k): เน้น throughput สูงสุด (>80 t/s) ดีทั้งสำหรับเทรนและ inference แต่ VRAM จำกัดที่ 384GB จึงรองรับได้แค่โมเดลต่ำกว่า 400B
    • ถ้าจะเอาทั้งความจุเท่ากัน (3TB) และ throughput มากกว่า 100 t/s ต้องใช้ NVIDIA GH200 cluster ราคาราว $270,000 โดย Apple cluster ให้ความจุ 87% ด้วยต้นทุนเพียง 18%
    • ทำให้ถูกกว่านี้ได้อีก ฉันกำลังรัน DeepSeek-R1 บน เวิร์กสเตชัน Xeon แบบ dual-socket (RAM 768GB) ราคา $2,000 ที่ความเร็ว 1~2 โทเค็นต่อวินาที
    • ฉันสงสัยวิธีคำนวณของ NVIDIA cluster ราคา $50k ถ้า RTX 6000 อยู่ราว $8k ก็น่าจะได้ประมาณ 5 ใบ รวม 40k และมีความจุประมาณครึ่ง TB ถึงอย่างนั้นสำหรับงาน inference Mac ก็ยังมีประสิทธิภาพคุ้มค่า และ M5 Ultra ก็น่าจะแสดง ประสิทธิภาพต่อราคา ที่ดีกว่า
    • ด้วยงบเท่ากัน คุณอาจซื้อ Framework desktop board ได้ 25 แผ่น (แต่ละแผ่นมี 128GB VRAM ใช้ Strix Halo) รวมเป็น 3TB VRAM แต่การทำคลัสเตอร์น่าจะท้าทายพอสมควร
    • ถ้าคิดรวม ฟีเจอร์เพิ่มความเร็วจากการทำงานขนาน ที่ยังไม่ได้ถูกพัฒนา ก็ยังดูเป็นดีลที่ค่อนข้างดีสำหรับสภาพแวดล้อม inference แบบ on-premises
    • Apple ใช้ LPDDR5X เพื่อลดการใช้พลังงานและต้นทุน ขณะที่ NVIDIA ใช้ GDDR/HBM โดยให้ความสำคัญกับประสิทธิภาพมากกว่า
  • ท่ามกลาง ความปั่นป่วนของตลาด RAM ในช่วงนี้ หาก Apple computing กลายเป็นตัวเลือกที่ คุ้มราคาสำหรับสร้าง inference cluster ขนาดกลาง ด้วยซัพพลายเชนที่มั่นคงของ Apple เอง ก็คงเป็นเรื่องน่า ironic มาก

    • ถ้าผู้ใช้เชิงพาณิชย์มาซื้อ Mac ดี ๆ ไปหมดก็คงลำบากนิดหน่อย
    • สำหรับบางกรณีใช้งาน มันก็เริ่มเป็นแบบนั้นอยู่แล้ว
  • นี่คือการเอา Mac Studio หลายเครื่องมาจับเป็นคลัสเตอร์ ซึ่งฉันกังวลเรื่อง ข้อจำกัดทางกายภาพและการดูแลจัดการ

    1. ตำแหน่งปุ่มเปิดเครื่องค่อนข้างประหลาด ทำให้ติดตั้งแบบ rackmount ไม่สะดวก
    2. Thunderbolt ดีสำหรับอุปกรณ์ต่อพ่วง แต่ถ้าใช้เป็น interconnect ที่เชื่อมต่อถาวร ก็อดห่วงเรื่องความทนทานของพอร์ตไม่ได้
    3. คุณภาพสายสำคัญมาก TB4/TB5 มีปัญหาเยอะถ้าไม่ใช้สายราคาแพง
    4. การจัดการระยะไกลของ macOS ไม่มีประสิทธิภาพเท่า Linux เช่น ถ้าจะอัปเกรดจาก macOS 26.1 → 26.2 โดยไม่มี GUI ก็ทำได้ยาก sudo softwareupdate -i -a ทำได้แค่อัปเดตย่อย
    • เรื่อง #2 นั้น OWC dock มี รูน็อตสำหรับยึดสาย อยู่ OWC Thunderbolt Dock กับ ClingOn adapter ช่วยลดแรงกดบนพอร์ตได้
    • ปัญหาเรื่องปุ่มเปิดเครื่องแก้ได้ด้วย RackMac Studio enclosure ซึ่งช่วยต่อปุ่มออกมาทางกลไก
    • การใช้ Thunderbolt เป็น server interconnect อาจดูไม่สวยนัก แต่ถ้ายึดอยู่ในแร็กตลอด เวลาจริง ๆ แล้วอาจมี แรงกดทางกายภาพน้อยกว่า เสียอีก
    • ถ้าใช้ โซลูชัน MDM ก็ทำได้ไม่ใช่แค่อัปเดตซอฟต์แวร์ แต่รวมถึง LOM (การจัดการพลังงานระยะไกล) ด้วย และก็มี MDM แบบโอเพนซอร์สอยู่ด้วย
    • ตอนนี้ยังมี Mac Pro รุ่น rackmount ขายอยู่ แต่ยังไม่อัปเดตเป็น M3 Ultra จึงดูเหมือนน่าจะถูกยกเลิกในไม่ช้า
  • อยากให้ Apple สร้าง คลาวด์ที่ใช้ชิปตระกูล M ของตัวเอง เสริมความสามารถของ Metal สำหรับงาน AI และให้บริการ โมเดลแบบ self-hosting ที่เน้นความเป็นส่วนตัว น่าจะประสบความสำเร็จมากในอุตสาหกรรมที่มีข้อมูลอ่อนไหวจำนวนมาก

    • ตอนนี้ก็มีแนวคิดคล้ายกันอย่าง Private Cloud Compute อยู่แล้ว แต่จำกัดสำหรับผู้ใช้ iUser ที่ใช้โมเดลของ Apple
    • ในดาต้าเซ็นเตอร์ การ shard ผ่าน interconnect ความเร็วสูง มีประสิทธิภาพกว่าการใส่หน่วยความจำขนาดใหญ่มากไว้ต่อ GPU หนึ่งตัว และ GPU ของ NVIDIA หรือ AMD ก็ยังเหนือกว่าในด้านพลังคำนวณอยู่ดี
  • สงสัยว่าฟีเจอร์นี้จะใช้กับ งาน distributed ทั่วไป ที่ไม่ใช่ AI ได้ด้วยหรือไม่

    • ฉันทดสอบด้วย HPL และ mpirun แล้ว ตอนนี้ยังไม่รองรับ RDMA และทำได้แค่แบบ Ring เท่านั้น ยังหยาบ ๆ อยู่บ้างแต่ก็ใช้งานได้
      อ้างอิง: คู่มือการใช้งาน distributed ของ MLX
  • บทความที่เกี่ยวข้อง: Engadget - สร้าง AI supercomputer จาก Mac cluster ได้ใน macOS Tahoe 26.2

  • George Hotz ทำให้ tinygrad ใช้ USB4 เพื่อรัน NVIDIA GPU บน Mac ได้แล้ว
    ทวีตของ tinygrad

  • ฉันไม่ค่อยรู้ว่า RDMA คืออะไร แต่มันหมายความว่าสามารถเชื่อม Mac หลายเครื่องแล้ว รัน inference แบบขนาน ได้ใช่ไหม? ถ้าใช่ก็นับว่าเป็นฟีเจอร์ที่เจ๋งมาก

    • ก่อนหน้านี้ก็ทำ inference ข้าม Mac หลายเครื่องได้มาตั้งแต่ราว 1 ปีก่อนแล้ว แต่ตอนนี้มัน ทำงานได้เร็วขึ้นมาก