- Darkbloom คือเครือข่ายสำหรับทำ AI inference แบบกระจายศูนย์ โดยเชื่อมต่อ Apple Silicon Mac ที่อยู่ในสถานะว่าง เพื่อประมวลผล AI บนอุปกรณ์ส่วนบุคคลโดยไม่ต้องพึ่งคลาวด์ส่วนกลาง
- ตัด โครงสร้างมาร์จิน 3 ชั้น ระหว่างผู้ผลิต GPU ผู้ให้บริการคลาวด์ และผู้ให้บริการ API แบบเดิมออก ทำให้ ลดต้นทุนได้สูงสุด 70%
- ทุกคำขอถูก เข้ารหัสแบบ end-to-end ทำให้ผู้ให้บริการไม่สามารถเห็นข้อมูลผู้ใช้ได้ และสร้างความเชื่อถือด้วย ห่วงโซ่การรับรองที่อิงกับฮาร์ดแวร์ความปลอดภัยของ Apple
- ให้บริการ OpenAI-compatible API รองรับความสามารถแบบเดียวกับ SDK เดิม เช่น แชต การสร้างภาพ และการรู้จำเสียง
- ผู้ให้บริการเก็บรายได้ไว้ 95~100% และสามารถสร้าง รายได้เป็น USD จาก Mac ที่ว่างอยู่ได้โดยแทบไม่มีต้นทุนเพิ่มนอกจากค่าไฟ
เครือข่าย AI inference ส่วนบุคคลที่ใช้ Mac ที่ว่างอยู่
- Darkbloom คือ เครือข่าย AI inference แบบกระจายศูนย์ ที่พัฒนาโดย Eigen Labs โดยเชื่อมต่อ Apple Silicon Mac ที่อยู่ในสถานะว่างเพื่อใช้ประมวลผล AI
- ปัจจุบันการประมวลผล AI ต้องผ่าน โครงสร้างมาร์จิน 3 ชั้น คือ ผู้ผลิต GPU → ไฮเปอร์สเกลเลอร์ → ผู้ให้บริการ API → ผู้ใช้ปลายทาง และ Darkbloom ตัดสิ่งนี้ออก ทำให้ ลดต้นทุนได้สูงสุด 70%
- ผู้ให้บริการเครือข่าย ไม่สามารถมองเห็นข้อมูลผู้ใช้ได้ และทุกคำขอจะถูก เข้ารหัสแบบ end-to-end
- API เป็นแบบ OpenAI-compatible รองรับฟังก์ชันแชต การสร้างภาพ และการรู้จำเสียงแบบเดียวกับ SDK เดิม
- ผู้ให้บริการเก็บรายได้ไว้ 95~100% และแทบไม่มีต้นทุนเพิ่มเติมนอกจากค่าไฟ
ฟีเจอร์สำหรับผู้ใช้
- เนื่องจาก ต้นทุนส่วนเพิ่ม ของฮาร์ดแวร์ที่ว่างอยู่ แทบเป็นศูนย์ ต้นทุนที่ลดลงจึงสะท้อนสู่ราคาสำหรับผู้ใช้โดยตรง
- ให้บริการแชต การสร้างภาพ และการแปลงเสียงเป็นข้อความผ่าน OpenAI-compatible API
- ทุกคำขอถูกส่งด้วย การเข้ารหัสแบบ end-to-end
ฟีเจอร์สำหรับเจ้าของฮาร์ดแวร์
- ผู้ใช้ที่มี Apple Silicon Mac สามารถทำ AI inference ในช่วงเวลาว่างเพื่อสร้าง รายได้เป็น USD ได้
- ผู้ให้บริการเก็บ รายได้จาก inference 100% โดยมีค่าไฟอยู่ที่ประมาณ $0.01~$0.03 ต่อชั่วโมง
- ส่วนที่เหลือเป็นกำไรสุทธิ
ปัญหาเชิงโครงสร้างของตลาดประมวลผล AI
- ปัจจุบันตลาดประมวลผล AI มี โครงสร้างมาร์จิน 3 ชั้น คือ ผู้ผลิต GPU → ผู้ให้บริการคลาวด์ → บริษัท AI → ผู้ใช้ปลายทาง
- ส่งผลให้ผู้ใช้ปลายทางต้องจ่ายมากกว่าต้นทุนซิลิคอนจริง เกิน 3 เท่า
- ขณะเดียวกันมี อุปกรณ์ Apple Silicon มากกว่า 100 ล้านเครื่อง ที่ว่างอยู่เฉลี่ย มากกว่า 18 ชั่วโมงต่อวัน
- หากเชื่อมทรัพยากรประมวลผลที่ว่างเหล่านี้เข้าด้วยกัน ก็จะสามารถใช้สินทรัพย์แบบกระจายศูนย์ได้เหมือน Airbnb หรือ Uber
- Darkbloom เปลี่ยน Mac ที่ว่างอยู่เหล่านี้ให้เป็นโหนด AI inference เพื่อทดแทนโครงสร้างพื้นฐานแบบรวมศูนย์
ปัญหาด้านความเชื่อถือและโจทย์ที่ต้องแก้
- ปัญหาหลักของเครือข่ายประมวลผลแบบกระจายศูนย์คือ ความน่าเชื่อถือ
- ผู้ใช้ต้องให้ข้อมูลของตนถูกประมวลผลบน อุปกรณ์ของบุคคลที่สามที่ไม่รู้จัก ดังนั้นความปลอดภัยในระดับเงื่อนไขการใช้งานเพียงอย่างเดียวจึงไม่เพียงพอ
- หากไม่มี Verifiable Privacy ก็ไม่สามารถทำ inference แบบกระจายศูนย์ได้
แนวทางเทคนิคของ Darkbloom
-
การตัดช่องทางเข้าถึงออก
- ลบ ทุกเส้นทางของซอฟต์แวร์ ที่ผู้ให้บริการอาจใช้เข้าถึงข้อมูลได้
- ประกอบด้วย 4 ชั้นอิสระที่แต่ละชั้นสามารถตรวจสอบได้
-
ชั้นการเข้ารหัส
- คำขอจะถูก เข้ารหัสบนอุปกรณ์ของผู้ใช้ก่อนส่ง
- Coordinator ทำหน้าที่เพียงส่งต่อข้อมูลที่เป็น ciphertext และมีเพียง hardware key ของโหนดปลายทาง เท่านั้นที่ถอดรหัสได้
-
ชั้นฮาร์ดแวร์
- แต่ละโหนดมีคีย์ที่สร้างขึ้นภายใน ฮาร์ดแวร์ความปลอดภัยของ Apple
- ตรวจสอบได้ผ่าน attestation chain ที่เชื่อมต่อมาจาก Apple Root CA
-
ชั้นรันไทม์
- กระบวนการ inference ถูก ล็อกในระดับ OS
- บล็อกการเชื่อมต่อดีบักเกอร์และการตรวจสอบหน่วยความจำ
- ผู้ให้บริการจึงไม่สามารถดึงข้อมูลจากโปรเซสที่กำลังทำงานได้
-
ชั้นเอาต์พุต
- ทุกการตอบสนองสามารถตรวจสอบได้ด้วย ลายเซ็นของฮาร์ดแวร์นั้น
- มีการเปิดเผยห่วงโซ่การรับรองทั้งหมดเพื่อให้ใครก็ตรวจสอบได้อย่างอิสระ
-
ผลลัพธ์คือผู้ให้บริการรัน inference ได้ แต่ไม่เห็นข้อมูล
- พรอมป์ต์ถูกเข้ารหัสก่อนส่ง
- Coordinator ส่งต่อโดยไม่สามารถอ่านข้อความได้
- Provider ถอดรหัสและประมวลผลภายใน สภาพแวดล้อมแยกตัวที่ผ่านการตรวจสอบแล้ว
- มีการเปิดเผย attestation chain เพื่อความโปร่งใส
รายละเอียดการใช้งาน
-
OpenAI-compatible API
- เข้ากันได้เต็มรูปแบบกับ OpenAI SDK เดิม
- ใช้งานโค้ดเดิมได้โดย เปลี่ยนเพียง Base URL
- รองรับ Streaming, Function Calling, Image Generation, Speech-to-Text ครบทั้งหมด
- ฟีเจอร์ที่รองรับ
- Streaming: อิง SSE, ฟอร์แมต OpenAI
- Image Generation: FLUX.2 on Metal
- Speech-to-Text: Cohere Transcribe
- Large MoE: รองรับโมเดลขนาดสูงสุด 239B พารามิเตอร์
ผลการเปรียบเทียบต้นทุน
- เนื่องจากฮาร์ดแวร์ที่ว่างอยู่มีต้นทุนส่วนเพิ่มแทบเป็นศูนย์ จึงเกิด ผลของการลดราคา
- ไม่มีค่าสมัครสมาชิกหรือข้อกำหนดขั้นต่ำในการใช้งาน
- ลดต้นทุนได้ราว 50% เมื่อเทียบกับ OpenRouter
| โมเดล | อินพุต | เอาต์พุต | OpenRouter | อัตราการลด |
|---|---|---|---|---|
| Gemma 4 26B4B | $0.03 | $0.20 | $0.40 | 50% |
| Qwen3.5 27B | $0.10 | $0.78 | $1.56 | 50% |
| Qwen3.5 122B MoE | $0.13 | $1.04 | $2.08 | 50% |
| MiniMax M2.5 239B | $0.06 | $0.50 | $1.00 | 50% |
- การสร้างภาพ: $0.0015/ภาพ (ถูกกว่า Together.ai 50%)
- การรู้จำเสียง: $0.001/นาที (ถูกกว่า AssemblyAI 50%)
- ค่าธรรมเนียมแพลตฟอร์ม 0% และผู้ให้บริการ เก็บรายได้ไว้ 100%
ความคุ้มค่าทางเศรษฐศาสตร์สำหรับผู้ให้บริการ
- เมื่อให้ อุปกรณ์ Apple Silicon เข้าร่วม จะสามารถสร้าง รายได้เป็น USD ได้
- ไม่มีต้นทุนเพิ่มเติมนอกจากค่าไฟ และ เก็บรายได้ไว้ 100%
- รองรับการติดตั้งผ่าน CLI และกำลังพัฒนา แอป macOS menu bar
-
วิธีติดตั้ง
- ดาวน์โหลด provider binary ผ่านคำสั่งเทอร์มินัล และลงทะเบียนเป็นบริการ launchd
-
ไม่มี dependency**,** อัปเดตอัตโนมัติ**,** ทำงานเบื้องหลัง
- รองรับ macOS 14 ขึ้นไป และเฉพาะ Apple Silicon
-
รายได้ที่คาดการณ์
- สามารถคาดการณ์รายได้ได้จากการ เปิดใช้งานวันละ 18 ชั่วโมง
- รายได้จริงขึ้นอยู่กับ ความต้องการของเครือข่ายและความนิยมของโมเดล
งานวิจัยและแค็ตตาล็อกโมเดล
- บทความวิจัย อธิบายสถาปัตยกรรม threat model การวิเคราะห์ความปลอดภัย และโมเดลเศรษฐศาสตร์อย่างละเอียด
- กล่าวถึง โครงสร้าง private inference ที่อิงการตรวจสอบฮาร์ดแวร์
- ลิงก์ดาวน์โหลด PDF
-
โมเดลที่ใช้งานได้
- Gemma 4 26B: MoE มัลติโหมดรุ่นล่าสุดของ Google, 4B active parameters
- Qwen3.5 27B: โมเดล reasoning คุณภาพสูง (Claude Opus distillation)
- Qwen3.5 122B MoE: 10B active parameters, คุณภาพต่อโทเคนระดับสูงสุด
- MiniMax M2.5 239B: โมเดลเขียนโค้ดระดับ SOTA, ทำได้ 100 tok/s บน Mac Studio
- Cohere Transcribe: conformer 2B, การแปลงเสียงเป็นข้อความระดับแนวหน้า
2 ความคิดเห็น
ในเชิงแนวคิดก็น่าสนใจดี แต่ก็ยังสงสัยว่าในการใช้งานจริงจะไปได้ดีแค่ไหน อย่างที่มีคนพูดไว้ในความเห็นบน HN เช่นกัน ตลาดสองด้าน (two-sided market) เป็นปัญหาใหญ่เพราะต้องดึงลูกค้ากลุ่มเริ่มต้นให้สำเร็จทั้งสองฝั่ง
ความเห็นจาก Hacker News
ฉันรู้สึกว่า การคำนวณรายได้ ของพวกเขาไม่น่าเชื่อถือ
ถ้า Mac mini เครื่องหนึ่งคืนทุนได้ใน 2~4 เดือน แล้วหลังจากนั้นทำเงินได้เดือนละ 1~2 พันดอลลาร์ ก็อดสงสัยไม่ได้ว่าทำไมพวกเขาไม่แค่ซื้อ Mac mini มาเปิดรันเอง
ตอนนี้ยังไม่เป็นแบบนั้น แต่หวังว่าสักวันจะเป็น จึงไม่แนะนำให้ซื้อเครื่องใหม่ ถ้าเอาเครื่องที่มีอยู่แล้วมารัน ต้นทุนแทบไม่มี
ค่าไฟจะเกิดขึ้นเฉพาะตอนมีคำขอเข้ามา และก็ถูกชดเชยได้ในแต่ละครั้ง
ถ้ามีอะไรสงสัย ส่ง DM หา @gajesh ได้
เมื่อเกิด economy of scale ก็จะอยากได้ศูนย์ที่ใหญ่ขึ้นเรื่อย ๆ แต่นั่นทั้งแพงและเพื่อนบ้านก็ไม่ชอบ
สุดท้ายมันดูเหมือนสงครามแบบไม่สมมาตรกับพวก hyperscaler
เช่นช่วงเวลาที่ตลาดหุ้นเปิดจะยุ่ง แต่ช่วงอื่นจะเงียบ
ถ้าไม่เผื่อทรัพยากรเกิน ลูกค้าก็หนี ถ้าเผื่อมากไป กำไรก็หาย
เอาตามความเป็นจริงน่าจะได้ อัตราการใช้งานระดับ 1/8 ถ้าคิดจาก M4 Pro mini ของฉัน สำหรับโมเดล Gemma 4 ก็ดูจะได้แค่ราว $24 ต่อเดือน
แต่การซื้อและดูแลฮาร์ดแวร์เองแพงกว่ามาก เงินลงทุนตั้งต้นคือกำแพงสำคัญที่สุด
เริ่มได้แม้จะ ไม่มีเงิน VC และจุดต่างก็ชัดเจน
เพียงแต่ก็อาจมีคนทำแบบเดียวกันด้วยค่าธรรมเนียมที่สูงกว่าได้ จึงสำคัญที่จะยึดตลาดก่อน
ฉันลองติดตั้งเองแล้ว แต่ยังไม่ค่อยสมบูรณ์
มีข้อผิดพลาดเยอะ เช่น ดาวน์โหลดโมเดลภาพไม่สำเร็จ โหลดโมเดลเสียง/TTS ไม่ขึ้น
ฉันเปิดให้บริการ Gemma อยู่ 15 นาที แต่คำขอ infer จริงเป็น 0 มีแต่ health check เข้ามาหลายครั้ง
ตอนนี้ดีมานด์ยังไม่พอ ทำให้การคาดการณ์รายได้ไม่ตรงความจริง
ตอนนี้ดูเหมือนจะโฟกัสที่การหาผู้ให้บริการก่อน และการหาลูกค้าที่จ่ายเงินจริงเป็นเรื่องเร่งด่วน
ถ้าจะใช้บริการนี้ ต้องติดตั้ง MDM (ซอฟต์แวร์จัดการอุปกรณ์)
ซึ่งในทางปฏิบัติหมายความว่าตั้งแต่วินาทีนั้นคอมพิวเตอร์เครื่องนั้นก็อยู่ภายใต้การควบคุมของพวกเขา
ไม่แนะนำเด็ดขาดสำหรับคอมพิวเตอร์ที่ใช้ทำงานละเอียดอ่อน เช่น ธนาคาร
แต่ นโยบายความเป็นส่วนตัว ของพวกเขาหละหลวม จึงยากที่จะเชื่อใจ
แถมจะให้เสี่ยงขนาดนั้นเพื่อหาเงินเดือนละไม่กี่ดอลลาร์ก็ไม่มีเหตุผล
พวกเขาบอกว่าใช้ TEE (Trusted Execution Environment) เพื่อตรวจสอบความสมบูรณ์ของโมเดลและโค้ด
AWS ก็เคยทำอะไรคล้าย ๆ กัน แต่ยังสงสัยว่าเวลาจะใช้ GPU จะปกป้องหน่วยความจำได้จริงหรือไม่
ดูงานวิจัยที่เกี่ยวข้องได้ ที่นี่
ทางที่ปลอดภัยกว่าคือใช้กับงานไม่เชิงพาณิชย์ เช่น การจัดหมวดหมู่หรือสร้างภาพ แทนข้อมูลอ่อนไหว
เทคนิค hypervisor page table ที่พูดถึงในเปเปอร์อ้างว่าสามารถปกป้องหน่วยความจำ GPU จาก RDMA ได้
บน MacBook ทุกวันนี้ ความเป็นส่วนตัวที่ตรวจสอบยืนยันได้ เป็นไปไม่ได้ในทางกายภาพ
มี Secure Enclave ก็จริง แต่ไม่ใช่ enclave แบบเปิดเผยต่อสาธารณะอย่าง SGX/TDX/SEV
สุดท้ายก็เป็นแค่ความปลอดภัยระดับ harden OS ไม่ใช่ สภาพแวดล้อมการประมวลผลแบบเป็นความลับ อย่างแท้จริง
ถ้า remote attestation ของ boot sequence และการตั้งค่า TCC ของ macOS ทำได้ โครงสร้างนี้ก็ถือว่าน่าเชื่อถือพอสมควร
แม้จะไม่สมบูรณ์แบบเท่า SGX แต่ในด้าน การใช้งานจริง กลับดีกว่า
ถ้าคิดเลขง่าย ๆ M5 Pro ของฉันสร้างได้ 130 โทเคนต่อวินาที (4 สตรีม) สำหรับ Gemma 4 26B
ราคาของ Darkbloom คือ $0.20 ต่อ Mtok ดังนั้นถ้ารัน 24 ชั่วโมงจะมีรายได้ราว $67 ต่อเดือน
หักค่าไฟแล้วต้นทุนราว $9 ต่อเดือน ก็เป็นเงินค่าขนมปีละประมาณ $700
สำหรับฉัน ไอเดียน่าสนใจกว่าความคุ้มทุน
ตอนคำนวณค่าไฟยังใช้ ลูกเล่นหักไฟตอน idle 12W ออก แต่คนส่วนใหญ่ไม่ได้เปิดคอมไว้ 24 ชั่วโมง
ก่อนหน้านี้ก็เคยมีความพยายามด้าน distributed storage อย่าง Cubbit แต่ก็ล้มเหลว
สิ่งที่อยากบอก @eigengajesh คือ Mac Mini M4 Pro มีตัวเลือก 64GB ด้วย
และยังมีบั๊กหลายอย่าง — โหลด metallib ไม่สำเร็จ, ดาวน์โหลดโมเดล 404, เอกสารระบุส่วนแบ่งรายได้ไม่ตรงกัน (100% vs 95%) ฯลฯ
โดยรวมมีเอกสารหลายส่วนที่ เหมือน LLM เขียน น่าจะเกลาให้ดีกว่านี้ก่อนค่อยเผยแพร่
โปรเจกต์นี้ทำให้นึกถึง DataseamGrid ที่เคยกระจายไปยังคอมพิวเตอร์ในโรงเรียนเมื่อก่อน
มันเป็น เครือข่ายคอมพิวต์แบบกระจายศูนย์ ที่มีแนวคิดคล้ายกัน
เป็นแนวคิดที่น่าสนใจ ตลาดสองด้าน (two-sided marketplace) นั้นบูตช่วงแรกได้ยาก แต่ความอยากรู้อยากลองอาจเป็นแรงขับได้
ถ้าทำให้คนไม่ใช่แค่เป็นผู้ให้บริการ แต่ยังลองใช้บริการเองด้วย ก็อาจช่วยให้สมดุลระหว่างดีมานด์กับซัพพลายดีขึ้น
ถ้ามี เวอร์ชันโฮสต์เอง สำหรับองค์กรก็น่าจะดี หลายบริษัทมี Mac ค้างสต็อกอยู่ จึงอาจนำมาใช้เป็นเครือข่าย inference ภายในได้
ความเป็นส่วนตัวที่อิงฮาร์ดแวร์ก็น่าสนใจ แต่ในเชิงเศรษฐศาสตร์ ต้นทุนการโหลด คือความเสี่ยงใหญ่
ตัวอย่างเช่นโมเดล MiniMax M2.5 239B แม้จะเปิดใช้จริงแค่ 11B จาก 239B ก็ยังต้องโหลด 120GB
การดึงจาก SSD ใช้เวลาหลายสิบวินาที
ถ้าคำขอถูกส่งไปยัง Mac เครื่องอื่น ก็จะเกิด ความหน่วงจากการโหลดแบบ cold load ทุกครั้ง
ถ้าจะเก็บโมเดลไว้ในหน่วยความจำตลอด ค่าไฟก็เพิ่ม แต่ถ้าไม่ทำ ความหน่วงก็สูง
โดยเฉพาะ Mac 16GB~32GB นั้นโฮสต์โมเดลขนาดใหญ่ไม่ได้เลย ทำให้ในทางปฏิบัติผู้ให้บริการที่เป็นไปได้จริงมีจำกัดมาก