แชร์ประสบการณ์การประกอบเครื่อง LLM แบบโลคัลที่บ้าน

6 คะแนน โดย popopo 2025-11-09 | 9 ความคิดเห็น | แชร์ทาง WhatsApp

พอได้เห็น Nvidia DGX Spark แล้วก็เคยคาดหวังกับ GB10 ไว้มาก แต่พออ่านรีวิวกลับรู้สึกว่ามีเรื่องน่าผิดหวังมากกว่า ดูเหมือนว่าแบนด์วิดท์หน่วยความจำจะกลายเป็นคอขวดของประสิทธิภาพด้านอื่น ๆ

มีบางกรณีที่ประสิทธิภาพออกมาใกล้เคียงกับ AMD Strix Halo หรือดีกว่าด้วยซ้ำ

(แม้จะออกมาพร้อม unified memory 64GB แต่มีตัวเลือก 128GB และสามารถจัดสรร vRAM ได้ 96GB)

รองรับ FP4, CUDA, ConnectX-7 และถ้าขยายก็จะเพิ่มหน่วยความจำ 128GB ได้ แต่ราคาตัวเครื่องสูงกว่า Strix Halo เกินสองเท่า เลยยังไม่กล้าตัดสินใจครับ

แม้ AMD ROCm จะมี ecosystem ที่ยังด้อยกว่า CUDA แต่โปรแกรมที่ผมทำมาจนถึงตอนนี้ก็รันได้ดี เลยเริ่มเอนมาทางนี้อยู่ (งบประมาณราว 3 ล้านบาทสามารถซื้อ SoC 128GB 2TB ได้) เลยอยากทราบว่าทุกคนจัดสเปกระบบกันอย่างไร โดยคำนึงถึงงบประมาณและการใช้พลังงาน

ส่วนตัวผมตั้งใจจะไปทาง AMD Strix Halo และใช้ OS เป็น Bazzite ที่อิงกับ Fedora เพราะมีกราฟิกไดรเวอร์ติดตั้งมาให้พร้อมอยู่แล้ว และถ้าลง Distrobox กับ mise เพิ่ม ก็น่าจะรันทั้งโปรแกรมที่ผมทำไว้และโมเดลที่ต้องใช้ได้ครับ

9 ความคิดเห็น

popopo 2025-11-18

เครื่อง Strix Halo ที่ซื้อช่วงลดราคาเทศกาลคนโสดมาถึงแล้ว ผมติดตั้ง Bazzite แล้วลองสร้างภาพบางอย่างด้วย distrobox ผลลัพธ์ออกมาตามที่คาดไว้ (ประสิทธิภาพ LLM ไม่ได้สูงมากนัก) คิดซะว่าเป็นมินิพีซีประสิทธิภาพสูงเครื่องหนึ่งก็พอ

เขาว่าสามารถจัดสรรหน่วยความจำรวมมากกว่า 96GB เป็น vRAM ได้ แต่ไม่แน่ใจว่าเพราะมันเปลี่ยนแบบไดนามิกเลยตรวจสอบไม่ได้หรือเปล่า จนถึงตอนนี้ผมยังไม่เคยเห็นว่ามีการจัดสรรเกิน 96GB เลย

การตั้งค่าผมอ้างอิงจากเว็บไซต์ https://strixhalo.wiki/ มีตารางเปรียบเทียบคู่มือการซื้อ (Strix Halo - Mac - DGS Spark - 6000) ด้วย น่าจะช่วยประกอบการตัดสินใจได้ครับ

โฆษณา Bazzite: ตัว OS ถูกจัดการเป็นอิมเมจแบบ immutable และโปรแกรมอื่น ๆ จัดการเป็นแบตเตอรี่แยกต่างหาก (flatpak, brew เป็นต้น) คำสั่งอัปเดตครั้งเดียวอัปเดตได้ตั้งแต่เฟิร์มแวร์ไปจนถึงแพ็กเกจทั้งหมด ถ้ารู้สึกว่า OS เริ่มรก ก็แค่จัดการเฉพาะพาธฝั่งผู้ใช้พอได้ (ตัว OS แตะด้วยวิธีทั่วไปไม่ได้) ไดรเวอร์ AMD ติดตั้งมาครบแล้ว จึงใช้งาน ROCm ได้ทันที

OS ที่ออกแบบมาให้เป็นแท่นปล่อยคอนเทนเนอร์... ก็คือ fedora coreOS และ Bazzite ที่เอาการตั้งค่าผู้ใช้ต่าง ๆ มาเสริมบนพื้นฐานนี้ ก็สะดวกทั้งกับการใช้งานทั่วไปและงานพัฒนา แถมใช้งานได้ดีมากด้วย มีการติดตั้งคอนเทนเนอร์ (distrobox), wine, tailscale มาให้เป็นค่าเริ่มต้นอยู่แล้ว ถ้าเพิ่ม mise เข้าไปอีกก็มองว่าแทบจะจัดการฟังก์ชันที่ต้องการได้ครบทั้งหมด

เดิมทีผมตั้งใจว่าจะเริ่มตั้งค่าตั้งแต่แรกแล้วทำเป็นไกด์ไว้ แต่พอลอกไดเรกทอรีบัญชีผู้ใช้ Bazzite ที่ใช้อยู่เดิมมาทั้งก้อน การตั้งค่าทั้งหมดก็ตามมาด้วย เลย... ทำไกด์การตั้งค่าไม่ได้ซะงั้นครับ

minsuchae 2025-11-11

ความเห็นส่วนตัวของผมคือ ในกรณีของ Mac และ Nvidia DGX Spark จะเป็นแนวทางแบบหน่วยความจำรวม ส่วนอย่างอื่นส่วนใหญ่จะแยกเป็น RAM กับ VRAM
ในบรรดาผลิตภัณฑ์บางตัวก็มีการจัดสรร VRAM ของกราฟิกในตัวโดยใช้ system RAM ด้วยเช่นกัน
สำหรับคนที่ไม่ใช่ผู้เชี่ยวชาญ ผมแนะนำ Mac หรือ Nvidia DGX Spark แต่ถ้าคุณพอจะลองผิดลองถูกเองได้บ้าง การใช้ AMD ก็อาจเป็นตัวเลือกที่ดีกว่า
แต่ละแบบมีข้อดีข้อเสียของตัวเอง

ในกรณีของ Mac, Nvidia DGX Spark ฯลฯ ข้อเสียคือไม่สามารถอัปเกรด RAM เองภายหลังได้ จึงต้องกำหนดสเปกให้พร้อมตั้งแต่ตอนซื้อ
ส่วน AMD มีข้อดีคือสามารถอัปเกรด RAM เองได้ แต่ก็ยังมีข้อจำกัดเรื่องการจัดสรร VRAM

พูดอีกแบบคือ ถ้ามองในแง่ว่าอยากลองใช้ VRAM มากกว่า 128GB, Mac Studio จะเป็นตัวเลือกที่ได้เปรียบที่สุด
แม้จะมีโอกาสต้องมานั่งงมเองน้อยกว่า แต่ในกรณีของ Mac Studio ก็มีข้อเสียคือเหมาะกับงาน inference แต่เสียเปรียบด้านการเทรน (ในการเทรนช้ากว่า AMD)

สำหรับ Nvidia DGX Spark ถ้าต้องการคอนฟิกหน่วยความจำเกิน 128GB ก็มีข้อเสียว่าต้องซื้อสายเคเบิลแยกของ Nvidia เพิ่มอีก อย่างไรก็ตาม ในงานเทรน AI นั้น CUDA ถูกใช้เป็นพื้นฐานอยู่แล้ว จึงต้องลองผิดลองถูกน้อยที่สุด อีกทั้งในแง่ประสิทธิภาพก็มีข่าวลือว่าอยู่ระดับประมาณ 5070 ถ้าไม่รวม VRAM และยังมีข้อจำกัดด้านแบนด์วิดท์หน่วยความจำด้วย...(ถ้าคำนึงถึงการเทรนก็ถือเป็นตัวเลือกกลางๆ ที่ใช้ได้)

การจัดสรร VRAM โดยใช้กราฟิกในตัว
แม้จะเป็นตัวเลือกที่น่าเสียดายเพราะช่วงนี้ราคาเมโมรีสูงขึ้น แต่ถ้าดูตัวเลือกด้าน RAM แล้วก็ยังถูกกว่า Mac มาก อย่างไรก็ตาม ข้อเสียคือ AMD ROCm ยังไม่พร้อม จึงต้องลำบากลงมือแก้ปัญหาเอง ทำให้ไม่แนะนำสำหรับผู้ที่ไม่ใช่ผู้เชี่ยวชาญ (และการเพิ่ม VRAM ให้สูงกว่านี้ก็แทบเป็นไปไม่ได้ในทางปฏิบัติ...)

คิดว่าน่าจะสรุปได้ประมาณนี้
ถ้าคิดแค่ความคุ้มค่าต่อราคา AMD ก็ดีจริง...แต่ถ้าอยากใช้งานแบบสบายใจกว่า Mac Studio ก็ไม่ใช่ตัวเลือกที่แย่ และถ้าคิดเฉพาะ inference ก็ถือว่าคุ้มค่ามากพออยู่แล้ว...

minsuchae 2025-11-11

ในกรณีของ AMD มีข้อดีคือสามารถอัปเกรด RAM ได้เองโดยตรง แต่ก็ยังมีข้อจำกัดเรื่องการจัดสรร VRAM
-> ตรงส่วนนี้ผมเขียนไปโดยไม่ได้จัดระเบียบให้ดีเลยทำให้เขียนผิดครับ ถ้าเป็นกรณีที่แบ่ง system RAM กับ VRAM บางเครื่องก็อัปเกรดได้ และถ้าอิงตามแล็ปท็อปก็มีหลายรุ่นที่อัปเกรดไม่ได้เช่นกัน

dhy0613 2025-11-11

เลิกรอ 5070Ti Super แล้วไปหลงเสน่ห์ Radeon แทน เลยประกอบมาใช้แบบนี้ครับ

9800x3D
7900 XTX มือสอง
RAM 96GB

แบ่งพาร์ทิชันแล้วลง Ubuntu 24.10 กับ ROCm 7.1 จากนั้นก็รันได้ค่อนข้างดีไม่มีปัญหาใหญ่ ทั้งงาน LLM inference และฝั่ง ComfyUI ที่ใช้ประมาณระดับ Pytorch ครับ

ข้อเสียหน่อยคือใช้ SageAttention ไม่ได้ แต่พอคิดถึงราคาแล้วก็ถือว่ารับได้ครับ

clastneo 2025-11-10

เดิมทีผมกำลังคิดว่าจะซื้อ Mac Studio รุ่นใหญ่ แต่ไม่รู้เลยว่าตัวเลือกเกี่ยวกับ Home LLM เพิ่มขึ้นมาเยอะขนาดนี้
ขอถามได้ไหมครับว่าฝั่ง Strix ตั้งค่ากันอย่างไรบ้าง?

popopo 2025-11-10

ผมยังไม่ได้ซื้อ Strix halo แต่เคยใช้คอมเล่นเกมที่ใช้ AMD GPU คล้ายกัน โดยใช้ vRAM 16GB เพื่อคำนวณกรณีความเป็นไปได้ราว 600 ล้านแบบ

ตั้งค่าทีเดียวแล้วค่อย ๆ ค้นไปทำไป เลยจำรายละเอียดได้ไม่ค่อยแม่นนัก

ผมใช้ Bazzite อยู่ เลยมีไดรเวอร์กราฟิกติดตั้งมาแล้ว จึงไม่มีอะไรพิเศษนัก จากนั้นก็ติดตั้ง ROCm และโมดูลที่เกี่ยวข้องบน Rocky Linux ภายใน distrobox แล้วใช้มันทำงานคำนวณต่าง ๆ ที่ใช้ GPU

เพราะแบนด์วิดท์หน่วยความจำที่รวดเร็วและสูง ก็อาจลองพิจารณา Mac Studio ดูได้ไม่ใช่หรือครับ? ถ้าใส่ออปชัน 128GB 2TB ก็จะอยู่ที่ 4,000 ดอลลาร์ แต่ในแง่ที่เป็นสถาปัตยกรรม Mac ก็น่าจะไม่ได้ต่างจากการไปทาง AMD มากนักครับ

clastneo 2025-11-11

จะอ้างอิงคำตอบไว้ครับ
ขอบคุณที่ตอบอย่างเป็นกันเองครับ!

popopo 2025-11-09

จาก https://www.youtube.com/watch?v=Pww8rIzr1pg ผลลัพธ์ที่ให้ Gemini ช่วยเปรียบเทียบมีดังนี้

📊 เปรียบเทียบตัวเลือกการรัน LLM 128GB (พฤศจิกายน 2025, สะท้อนผลเบนช์มาร์กแล้ว)

สะท้อนเนื้อหาในวิดีโอ: อ้างอิงจากเบนช์มาร์กของ Hardware Unboxed, Strix Halo เหนือกว่า M3 Max (ดีขึ้นราว 30~35%) และระบบ GB10 "Spark" แสดงประสิทธิภาพ NPU/GPU แบบเฉพาะทางที่สูงกว่าชิป APU/แบบรวมเหล่านี้อย่างมาก (อิงการอนุมาน Llama 3 70B Q4 ในหน่วย T/s)

ตัวเลือกการประกอบ (128GB) T/s (โดยประมาณ) พลังงานรวมของระบบ (โดยประมาณ) T/W (ประสิทธิภาพต่อวัตต์) ต้นทุนระบบ (โดยประมาณ) Cost/T (ความคุ้มค่า)
NVIDIA "Spark" (GB10) 120 T/s 400 W 0.30 ~5.2 ล้านวอน 4.33 หมื่นวอน/T
4 x RTX 5080 32GB (ของใหม่) 240 T/s 1500 W 0.16 ~12 ล้านวอน 5.0 หมื่นวอน/T
6 x RTX 3090 (มือสอง) 90 T/s 2300 W 0.04 ~7 ล้านวอน 7.8 หมื่นวอน/T
AMD Strix Halo (128GB) 30 T/s 180 W 0.17 ~2.6 ล้านวอน 8.67 หมื่นวอน/T
Apple M3 Max (128GB) 22 T/s 100 W 0.22 ~6 ล้านวอน 27.3 หมื่นวอน/T

💡 การวิเคราะห์และข้อสรุป (แก้ไขข้อผิดพลาดแล้ว)

ผมขอแก้ไขความผิดพลาดครั้งใหญ่ของตัวเอง และวิเคราะห์ใหม่โดยสะท้อนเนื้อหาในวิดีโออย่างถูกต้อง

แชมป์ "ความคุ้มค่าต่อราคา (Cost/T)": NVIDIA "Spark" (GB10)  

    Cost/T (ความคุ้มค่า): 4.33 หมื่นวอน/T  

    ตามที่วิดีโอของ Hardware Unboxed แสดงให้เห็น ระบบ 'Spark' ราคา $3999 ให้ประสิทธิภาพการอนุมาน LLM (T/s) สูงกว่าระบบ 'Strix Halo' ราคา $2000 อย่างมาก  

    ด้วยเหตุนี้ ต้นทุนการประกอบระบบต่อโทเคน (Cost/T) จึงถูกที่สุดในบรรดาทุกตัวเลือก ทำให้มันเป็นแชมป์ด้าน 'ความคุ้มค่า'  

    ส่วน T/W (ประสิทธิภาพต่อวัตต์) ก็อยู่ที่ 0.30 ซึ่งมีประสิทธิภาพสูงกว่าการจัดชุดแบบหลาย GPU อย่างชัดเจน  

แชมป์ "งบประมาณรวมต่ำสุด": AMD Strix Halo (128GB)  

    Cost/T (ความคุ้มค่า): 8.67 หมื่นวอน/T  

    คุณค่าของระบบนี้ไม่ได้อยู่ที่ความเร็วสัมบูรณ์ (30 T/s) แต่คือการที่สามารถเข้าสู่สภาพแวดล้อม VRAM 128GB ได้ด้วย 'ต้นทุนต่ำสุด' ที่ **ประมาณ 2.6 ล้านวอน ($2000)**  

    ตามที่ยืนยันในวิดีโอว่ามันเหนือกว่า M3 Max จึงเป็นตัวเลือก 'เริ่มต้น' ที่ยอดเยี่ยมสำหรับนักพัฒนารายบุคคล  

แชมป์ "ความเร็วสูงสุด": 4 x RTX 5080 32GB  

    T/s (ความเร็ว): 240 T/s  

    ระบบแบบรวมอย่าง 'Spark' หรือ 'Strix Halo' แม้จะทรงพลังสำหรับการอนุมาน (Inference) แต่ก็อาจมีข้อจำกัดเมื่อต้อง 'fine-tuning' โมเดลด้วยตัวเอง  

    หากต้องการทั้งความเร็วในการอนุมานสูงสุด และความยืดหยุ่นในการฝึก/ปรับแต่งโมเดลด้วยตัวเอง การจัดชุดแบบหลายการ์ดจอแยก (4 x 5080) ก็ยังคงเป็นตัวเลือกที่ทรงพลังที่สุด

popopo 2025-11-10

วิดีโอที่บอกว่า ภายในงบ 4K เครื่องที่ใช้ 3090 สี่ใบมีประสิทธิภาพเหนือกว่า DGX Spark อย่างมาก

https://www.youtube.com/watch?v=md6a4ENM9pg

ข้ออ้างว่า Strix Halo เป็นการซื้อที่แย่มากสำหรับเครื่องรัน Local LLM

https://reddit.com/r/LocalLLaMA/…

ดูเหมือนว่าข้อโต้แย้งหลักคือ การใช้พลังงานยากจะเป็นเกณฑ์สำคัญ และเพราะข้อจำกัดด้านแบนด์วิดท์ ต่อให้โหลดโมเดลขนาดใหญ่ไว้ในหน่วยความจำได้ก็ใช้งานได้ไม่ค่อยจริง...

แชร์ประสบการณ์การประกอบเครื่อง LLM แบบโลคัลที่บ้าน

บทความที่เกี่ยวข้อง

9 ความคิดเห็น