- มีการทุ่มเงินจำนวนมากเพื่อพัฒนาเครื่องมือ AI และหลายบริการก็กำลังดำเนินงานแบบยอมขาดทุน
- บริการจากบริษัทยักษ์ใหญ่ด้านเทคโนโลยีกำลังเปิดให้ใช้ฟรีหรือราคาถูกเพื่อครองตลาด และสุดท้ายก็มีโอกาสสูงที่ "โมเดล AI จะถูกชี้นำโดยโฆษณาและผลประโยชน์ทางการเมือง"
- ทางออกคือ "รันโมเดล AI ของตัวเองโดยตรง"
- บริษัทอย่าง DeepSeek เปิดโมเดลของตนให้ใช้ฟรีและกำลังเขย่าตลาด โมเดลเหล่านี้สามารถลดอคติได้ และยังรันบนฮาร์ดแวร์ส่วนบุคคลได้ด้วย
ความท้าทายในการสร้างคอมพิวเตอร์ AI ส่วนตัว
- หากต้องการรัน LLM แบบโลคัล จำเป็นต้องมีการ์ดจอ Nvidia ระดับแรงหรือไม่ก็ต้องใช้ Apple
- ยิ่งมีหน่วยความจำมาก ก็ยิ่งรันโมเดลขนาดใหญ่ได้ ซึ่งช่วยยกระดับคุณภาพของผลลัพธ์อย่างมาก
- ต้องมี Nvidia GPU หรืออุปกรณ์ Apple (ซึ่งทั้งสองแบบมีราคาสูง)
- ต้องมี VRAM หรือ RAM อย่างน้อย 24GB ขึ้นไป
- วิธีลดต้นทุน: การซื้ออุปกรณ์มือสองก็เป็นอีกทางเลือกหนึ่ง และแบนด์วิดท์หน่วยความจำกับสเปกอื่น ๆ ก็สำคัญเช่นกัน
ขั้นตอนการประกอบคอมพิวเตอร์ AI ต้นทุนต่ำ
- เป้าหมาย: สร้างระบบที่สามารถรันโมเดล AI แบบโลคัลได้ในงบราว 1,700 ยูโร
- สเปกสุดท้าย:
- HP Z440 เวิร์กสเตชัน (Xeon 12 คอร์, RAM 128GB)
- Nvidia Tesla P40 GPU 2 ใบ (ใบละ 24GB VRAM รวม 48GB)
- NZXT C850 Gold พาวเวอร์ซัพพลาย
- Gainward GT 1030 (GPU หลอกสำหรับแสดงผลหน้าจอ)
- พัดลมระบายความร้อนแบบปรับแต่งเองและอะแดปเตอร์ไฟฟ้า
ปัญหาทางเทคนิคหลักและวิธีแก้
1. ปัญหาการระบายความร้อนของ GPU เซิร์ฟเวอร์
- Tesla P40 ถูกออกแบบมาสำหรับใช้งานในสภาพแวดล้อมแบบเซิร์ฟเวอร์ จึงไม่มีพัดลมในตัว
- วิธีแก้: ใช้ขายึดพัดลมที่พิมพ์ด้วย 3D และบังคับทิศทางการไหลของอากาศ
- ปรับความเร็วพัดลมเพื่อบาลานซ์อุณหภูมิและเสียงรบกวนให้เหมาะสม
2. ปัญหาความเข้ากันได้ของเวิร์กสเตชัน HP
- HP จำกัดให้ใช้เฉพาะชิ้นส่วนของตัวเอง
- จึงต้องซื้ออะแดปเตอร์เพิ่มสำหรับพาวเวอร์ซัพพลายและการเชื่อมต่อกับบอร์ด
3. ปัญหาการบูตใน BIOS
- Tesla P40 ไม่มีพอร์ตแสดงผล → ทำให้บูตไม่ได้
- แก้โดยเพิ่ม GPU ราคาประหยัด GT 1030
ผลการทดสอบประสิทธิภาพ
1. ความเร็วในการอนุมาน (Tokens per second)
- Mistral-Small (โมเดล 24B): 15.23
- Gemma2 (โมเดล 27B): 13.90
- Qwen2.5-Coder (โมเดล 32B): 10.75
- Llama3.3 (โมเดล 70B): 5.35
- DeepSeek-R1 (โมเดล 70B): 5.30
2. การใช้พลังงาน
- ตอนคอมพิวเตอร์อยู่ในสถานะรอใช้งาน จะกินไฟประมาณ 80W
- เมื่อโหลดโมเดล 32B จะใช้ 123W และขณะรันจะขึ้นไปถึง 241W
- สำหรับโมเดล 70B จะใช้ 166W ตอนโหลด และระหว่างรันจะกินไฟได้สูงถึง 293W
- กล่าวคือ ยิ่งโมเดลมีขนาดใหญ่ การใช้พลังงานก็ยิ่งเพิ่มขึ้น และแม้เพียงโหลดโมเดลค้างไว้บน GPU ก็ยังใช้ไฟมากอยู่ดี ดังนั้นกลยุทธ์การคงโมเดลไว้เฉพาะตอนจำเป็นจึงสำคัญ
สรุป: การสร้างเซิร์ฟเวอร์ AI ส่วนตัว คุ้มค่าหรือไม่?
- สร้างระบบ AI ที่เป็นอิสระอย่างสมบูรณ์ได้สำเร็จ
- สามารถรันโมเดลขนาดกลางแบบโลคัลได้ด้วยราคาที่ค่อนข้างประหยัด
- พึงพอใจกับการที่สามารถใช้งานโมเดล AI ได้โดยไม่ต้องพึ่งอุปกรณ์รุ่นใหม่ราคาสูง
- ได้ระบบที่ยืดหยุ่นและพร้อมรับการเปลี่ยนแปลงของเทคโนโลยี AI ในระยะยาว
3 ความคิดเห็น
เห็นว่ามีการตั้งค่าให้รัน r1 ด้วย CPU กับ SSD แบบไม่ใช้ GPU เลยเหมือนกัน แต่แบบนี้ก็ดูจะก้ำกึ่งนิดหน่อยนะ
ในราคาเท่ากัน (1,799 ดอลลาร์) สามารถซื้อ Mac Mini ที่มีหน่วยความจำรวม 48GB และ m4 pro ได้ ใช้พลังงานน้อย เงียบ และมีแนวโน้มว่าประสิทธิภาพจะดีกว่าการตั้งค่านี้ด้วย อ่านบทความนี้อย่างเพลิดเพลิน แต่ถ้าเป็นสถานการณ์เดียวกัน ผมคงซื้อ Mac
นี่คือสิ่งที่อยากจะพูด แต่มีอยู่ในความเห็นของ Hacker News แล้ว
ช่วงนี้ราคาต่อโทเคนถูกลงเรื่อย ๆ เลยคิดว่าถ้าไม่ได้จะทำ fine-tuning หรือสร้างภาพเป็นหลัก ก็คงไม่จำเป็นเท่าไหร่...
ความเห็นจาก Hacker News
ฉันเคยทำอะไรคล้ายกันโดยซื้อ K80 และ M40 มือสองราคาถูกจาก eBay ไดรเวอร์ของ K80 นั้นปวดหัวมาก แม้ว่า 24GB VRAM ในราคา 50 ดอลลาร์จะน่าสนใจ แต่ก็ไม่แนะนำเพราะปัญหาไดรเวอร์ ฉันมีเวิร์กสเตชัน HP ที่มีพาวเวอร์ซัพพลาย 1200 วัตต์จึงสามารถติดตั้ง GPU ได้ GPU พวกนี้ไม่มีระบบระบายความร้อนในตัว เลยออกแบบขายึดด้วยเครื่องพิมพ์ 3D และติดพัดลม Noctua เพื่อให้มันรันได้ตลอด 24/7 ผลลัพธ์ออกมาดีกว่าที่คาดมาก และอุณหภูมิไม่เคยเกิน 60 องศา CPU ก็ได้ประโยชน์จากวิธีนี้ด้วย พัดลมถูกติดไว้ที่ด้านหน้าและด้านหลังเคส โดยตัวหน้าดูดอากาศเข้าและตัวหลังเป่าออก และยังมีพัดลมอีกสองตัวอยู่ด้านหน้า GPU ฉันซื้อเวิร์กสเตชันรีเฟอร์บิชมาในราคา 600 ดอลลาร์, GPU 120 ดอลลาร์, และพัดลมราว 60 ดอลลาร์ ยังไม่ได้อัปโหลดไฟล์ STL เพราะเป็นเคสใช้งานที่เฉพาะทางมาก
ในราคาเท่ากันคือ 1799 ดอลลาร์ คุณสามารถซื้อ Mac Mini ที่มี unified memory 48GB และ m4 pro ได้ มันกินไฟน้อยกว่า เงียบกว่า และมีโอกาสแรงกว่าชุดนี้ด้วย ฉันอ่านบทความนี้อย่างเพลิดเพลิน แต่ถ้าเป็นสถานการณ์เดียวกัน ฉันจะซื้อ Mac
ฉันอยากประกอบเครื่องสำหรับรัน local LLM ฉันทดลองโมเดลบน MBP M3 Max ที่มี RAM 128GB และอยากได้เซิร์ฟเวอร์โลคัลแบบเฉพาะทาง ฉันก็อยากลองใช้ Proxmox ตอนนี้รัน OpenWebUI กับ LibreChat บน "แอปเซิร์ฟเวอร์" โลคัลอยู่และค่อนข้างพอใจ แต่ทุกครั้งที่คิดจะซื้อฮาร์ดแวร์ที่แรงขึ้น ก็รู้สึกว่า ROI มันยังไม่คุ้ม โดยเฉพาะในอุตสาหกรรมที่เปลี่ยนเร็วแบบนี้ ความเป็นส่วนตัวเป็นปัจจัยที่มองข้ามไม่ได้ แต่ก็ยากจะสู้ต้นทุนของ inference ออนไลน์
โมเดลที่โฮสต์ไว้ในเครื่องตัวเองนั้นน่ารักเหมือนของเล่นและเขียนมุกสนุก ๆ ได้ รวมถึงช่วยทำงานส่วนตัวบางอย่างได้ แต่เมื่อเทียบกับโมเดลที่เข้าถึงได้ผ่าน API แล้วก็ยังด้อยกว่า ถ้าสามารถรัน deepseek-r1-678b แบบโลคัลได้ก็คงดี แต่ตอนนี้ต้นทุนการดำเนินงานยังสูงกว่าต้นทุนลงทุน
ทางสายกลางคือเช่า GPU VPS เมื่อจำเป็น คุณสามารถใช้ H100 ได้ในราคา 2 ดอลลาร์ต่อชั่วโมง มันไม่เป็นส่วนตัวเท่าการรันออฟไลน์ในเครื่องทั้งหมด แต่ก็ยังดีกว่า SASS API หวังว่าในอีก 1–3 ปี การรันอะไรที่มีประโยชน์แบบโลคัลจะคุ้มค่ามากขึ้น
อย่างที่คนอื่นพูดกัน คุณสามารถใช้ Mac สมรรถนะสูงได้ในราคาเท่ากันและกินไฟน้อยกว่า ฉันสงสัยว่าทำไม Apple ถึงไม่เข้าสู่ตลาดชิป AI สำหรับองค์กรเพื่อแข่งกับ Nvidia Apple น่าจะออกแบบ ASIC ของตัวเองได้
แนวคิด "เป็นเจ้าของ AI ของตัวเอง" นั้นยอดเยี่ยมในฐานะงานอดิเรกที่บ้าน แต่ก็ทำให้คุณใช้ทั้งเวลาและเงินไปกับฮาร์ดแวร์มาก แนะนำให้ไปดู dream machine ของ Mitko Vasilev ถ้าไม่มี use case ที่ชัดเจน คุณก็มักต้องการแค่โมเดลเล็กหรือยอมรับความเร็วในการสร้างโทเค็นที่ช้าได้ ถ้าเป้าหมายคือสร้างและเรียนรู้เรื่อง AI การเช่า GPU/TPU เฉพาะเวลาที่ต้องใช้จะคุ้มกว่าทางเศรษฐกิจ
ฉันไม่คิดว่าการซื้อ Nvidia Tesla P40 สองใบในราคา 660 ยูโรจะเรียกว่า "ประหยัดงบ" ได้ คนทั่วไปยังใช้โมเดล "ขนาดเล็ก" หรือ "ขนาดกลาง" บนการ์ดราคาถูกได้อยู่ Nvidia Geforce RTX 3060 หาซื้อในตลาดมือสองได้ราว 200–250 ยูโร การมี 48GB VRAM นั้นมากเกินกว่าจะเรียกว่างบประหยัด การตั้งค่านี้เหมาะกับกึ่งมืออาชีพหรือมืออาชีพมากกว่า การใช้โมเดลกลางหรือเล็กอาจต้องยอมประนีประนอม แต่การยอมประนีประนอมเพื่อให้อยู่ในงบก็เป็นเรื่องสำคัญเช่นกัน
ปัญหาของการลงทุนแบบนี้คือเดือนหน้าก็อาจมีโมเดลที่ดีกว่าออกมาแล้ว มันอาจต้องการ RAM มากขึ้น หรืออาจต้องการน้อยกว่าโมเดลที่ดีที่สุดในตอนนี้ก็ได้ การใช้โครงสร้างพื้นฐานบนคลาวด์ช่วยแก้ปัญหานี้ได้ แม้ว่าต้นทุนต่อการรันจะสูงกว่า แต่ถ้าใช้งานเป็นครั้งคราวก็อาจประหยัดกว่า ฉันสงสัยว่าผู้ใช้ HN จัดการกับเรื่องนี้กันอย่างไร
ฉันสงสัยว่ามีใครเคยลองใช้ SBC cluster เพื่อรัน LLM inference บ้างไหม ตัวอย่างเช่น Radxa ROCK 5C มีหน่วยความจำ 32GB และ NPU ในราคาราว 300 ยูโร ฉันไม่ได้เข้าใจสถาปัตยกรรมของ LLM รุ่นใหม่อย่างลึกซึ้ง แต่ดูเหมือนว่าควรจะแบ่งเลเยอร์ข้ามหลายโหนดได้ และข้อมูลที่ต้องส่งต่อก็คงไม่มาก มันอาจไม่แรงเท่า Mac รุ่นใหม่หรือ Nvidia GPU แต่ก็อาจเป็นวิธีที่ยอมรับได้และได้หน่วยความจำจำนวนมากในราคาถูก ฉันสงสัยว่าสถานะล่าสุดของ CPU + GPU inference เป็นอย่างไร การประมวลผลพรอมป์ต์มีข้อจำกัดทั้งด้านการคำนวณและหน่วยความจำ แต่การสร้างโทเค็นนั้นมักติดข้อจำกัดด้านหน่วยความจำเป็นหลัก ฉันสงสัยว่ามีเครื่องมือที่โหลดบางเลเยอร์ลง GPU สำหรับประมวลผลพรอมป์ต์ช่วงแรก แล้วค่อยสลับไปใช้ CPU inference หลังจากนั้นหรือไม่ ในการทดลองครั้งล่าสุด ฉันสามารถรันบางเลเยอร์บน GPU และบางเลเยอร์บน CPU ได้ ดูเหมือนว่าการรันทุกอย่างบน GPU ก่อน แล้วค่อยสลับไป CPU ตอนเข้าสู่ช่วงสร้างโทเค็นที่ติดข้อจำกัดด้านหน่วยความจำ น่าจะมีประสิทธิภาพมากกว่า