1 คะแนน โดย GN⁺ 13 일 전 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • Darkbloom คือเครือข่ายสำหรับทำ AI inference แบบกระจายศูนย์ โดยเชื่อมต่อ Apple Silicon Mac ที่อยู่ในสถานะว่าง เพื่อประมวลผล AI บนอุปกรณ์ส่วนบุคคลโดยไม่ต้องพึ่งคลาวด์ส่วนกลาง
  • ตัด โครงสร้างมาร์จิน 3 ชั้น ระหว่างผู้ผลิต GPU ผู้ให้บริการคลาวด์ และผู้ให้บริการ API แบบเดิมออก ทำให้ ลดต้นทุนได้สูงสุด 70%
  • ทุกคำขอถูก เข้ารหัสแบบ end-to-end ทำให้ผู้ให้บริการไม่สามารถเห็นข้อมูลผู้ใช้ได้ และสร้างความเชื่อถือด้วย ห่วงโซ่การรับรองที่อิงกับฮาร์ดแวร์ความปลอดภัยของ Apple
  • ให้บริการ OpenAI-compatible API รองรับความสามารถแบบเดียวกับ SDK เดิม เช่น แชต การสร้างภาพ และการรู้จำเสียง
  • ผู้ให้บริการเก็บรายได้ไว้ 95~100% และสามารถสร้าง รายได้เป็น USD จาก Mac ที่ว่างอยู่ได้โดยแทบไม่มีต้นทุนเพิ่มนอกจากค่าไฟ

เครือข่าย AI inference ส่วนบุคคลที่ใช้ Mac ที่ว่างอยู่

  • Darkbloom คือ เครือข่าย AI inference แบบกระจายศูนย์ ที่พัฒนาโดย Eigen Labs โดยเชื่อมต่อ Apple Silicon Mac ที่อยู่ในสถานะว่างเพื่อใช้ประมวลผล AI
  • ปัจจุบันการประมวลผล AI ต้องผ่าน โครงสร้างมาร์จิน 3 ชั้น คือ ผู้ผลิต GPU → ไฮเปอร์สเกลเลอร์ → ผู้ให้บริการ API → ผู้ใช้ปลายทาง และ Darkbloom ตัดสิ่งนี้ออก ทำให้ ลดต้นทุนได้สูงสุด 70%
  • ผู้ให้บริการเครือข่าย ไม่สามารถมองเห็นข้อมูลผู้ใช้ได้ และทุกคำขอจะถูก เข้ารหัสแบบ end-to-end
  • API เป็นแบบ OpenAI-compatible รองรับฟังก์ชันแชต การสร้างภาพ และการรู้จำเสียงแบบเดียวกับ SDK เดิม
  • ผู้ให้บริการเก็บรายได้ไว้ 95~100% และแทบไม่มีต้นทุนเพิ่มเติมนอกจากค่าไฟ

ฟีเจอร์สำหรับผู้ใช้

  • เนื่องจาก ต้นทุนส่วนเพิ่ม ของฮาร์ดแวร์ที่ว่างอยู่ แทบเป็นศูนย์ ต้นทุนที่ลดลงจึงสะท้อนสู่ราคาสำหรับผู้ใช้โดยตรง
  • ให้บริการแชต การสร้างภาพ และการแปลงเสียงเป็นข้อความผ่าน OpenAI-compatible API
  • ทุกคำขอถูกส่งด้วย การเข้ารหัสแบบ end-to-end

ฟีเจอร์สำหรับเจ้าของฮาร์ดแวร์

  • ผู้ใช้ที่มี Apple Silicon Mac สามารถทำ AI inference ในช่วงเวลาว่างเพื่อสร้าง รายได้เป็น USD ได้
  • ผู้ให้บริการเก็บ รายได้จาก inference 100% โดยมีค่าไฟอยู่ที่ประมาณ $0.01~$0.03 ต่อชั่วโมง
  • ส่วนที่เหลือเป็นกำไรสุทธิ

ปัญหาเชิงโครงสร้างของตลาดประมวลผล AI

  • ปัจจุบันตลาดประมวลผล AI มี โครงสร้างมาร์จิน 3 ชั้น คือ ผู้ผลิต GPU → ผู้ให้บริการคลาวด์ → บริษัท AI → ผู้ใช้ปลายทาง
  • ส่งผลให้ผู้ใช้ปลายทางต้องจ่ายมากกว่าต้นทุนซิลิคอนจริง เกิน 3 เท่า
  • ขณะเดียวกันมี อุปกรณ์ Apple Silicon มากกว่า 100 ล้านเครื่อง ที่ว่างอยู่เฉลี่ย มากกว่า 18 ชั่วโมงต่อวัน
  • หากเชื่อมทรัพยากรประมวลผลที่ว่างเหล่านี้เข้าด้วยกัน ก็จะสามารถใช้สินทรัพย์แบบกระจายศูนย์ได้เหมือน Airbnb หรือ Uber
  • Darkbloom เปลี่ยน Mac ที่ว่างอยู่เหล่านี้ให้เป็นโหนด AI inference เพื่อทดแทนโครงสร้างพื้นฐานแบบรวมศูนย์

ปัญหาด้านความเชื่อถือและโจทย์ที่ต้องแก้

  • ปัญหาหลักของเครือข่ายประมวลผลแบบกระจายศูนย์คือ ความน่าเชื่อถือ
  • ผู้ใช้ต้องให้ข้อมูลของตนถูกประมวลผลบน อุปกรณ์ของบุคคลที่สามที่ไม่รู้จัก ดังนั้นความปลอดภัยในระดับเงื่อนไขการใช้งานเพียงอย่างเดียวจึงไม่เพียงพอ
  • หากไม่มี Verifiable Privacy ก็ไม่สามารถทำ inference แบบกระจายศูนย์ได้

แนวทางเทคนิคของ Darkbloom

  • การตัดช่องทางเข้าถึงออก

    • ลบ ทุกเส้นทางของซอฟต์แวร์ ที่ผู้ให้บริการอาจใช้เข้าถึงข้อมูลได้
    • ประกอบด้วย 4 ชั้นอิสระที่แต่ละชั้นสามารถตรวจสอบได้
  • ชั้นการเข้ารหัส

    • คำขอจะถูก เข้ารหัสบนอุปกรณ์ของผู้ใช้ก่อนส่ง
    • Coordinator ทำหน้าที่เพียงส่งต่อข้อมูลที่เป็น ciphertext และมีเพียง hardware key ของโหนดปลายทาง เท่านั้นที่ถอดรหัสได้
  • ชั้นฮาร์ดแวร์

    • แต่ละโหนดมีคีย์ที่สร้างขึ้นภายใน ฮาร์ดแวร์ความปลอดภัยของ Apple
    • ตรวจสอบได้ผ่าน attestation chain ที่เชื่อมต่อมาจาก Apple Root CA
  • ชั้นรันไทม์

    • กระบวนการ inference ถูก ล็อกในระดับ OS
    • บล็อกการเชื่อมต่อดีบักเกอร์และการตรวจสอบหน่วยความจำ
    • ผู้ให้บริการจึงไม่สามารถดึงข้อมูลจากโปรเซสที่กำลังทำงานได้
  • ชั้นเอาต์พุต

    • ทุกการตอบสนองสามารถตรวจสอบได้ด้วย ลายเซ็นของฮาร์ดแวร์นั้น
    • มีการเปิดเผยห่วงโซ่การรับรองทั้งหมดเพื่อให้ใครก็ตรวจสอบได้อย่างอิสระ
  • ผลลัพธ์คือผู้ให้บริการรัน inference ได้ แต่ไม่เห็นข้อมูล

    • พรอมป์ต์ถูกเข้ารหัสก่อนส่ง
    • Coordinator ส่งต่อโดยไม่สามารถอ่านข้อความได้
    • Provider ถอดรหัสและประมวลผลภายใน สภาพแวดล้อมแยกตัวที่ผ่านการตรวจสอบแล้ว
    • มีการเปิดเผย attestation chain เพื่อความโปร่งใส

รายละเอียดการใช้งาน

  • OpenAI-compatible API

    • เข้ากันได้เต็มรูปแบบกับ OpenAI SDK เดิม
    • ใช้งานโค้ดเดิมได้โดย เปลี่ยนเพียง Base URL
    • รองรับ Streaming, Function Calling, Image Generation, Speech-to-Text ครบทั้งหมด
    • ฟีเจอร์ที่รองรับ
    • Streaming: อิง SSE, ฟอร์แมต OpenAI
    • Image Generation: FLUX.2 on Metal
    • Speech-to-Text: Cohere Transcribe
    • Large MoE: รองรับโมเดลขนาดสูงสุด 239B พารามิเตอร์

ผลการเปรียบเทียบต้นทุน

  • เนื่องจากฮาร์ดแวร์ที่ว่างอยู่มีต้นทุนส่วนเพิ่มแทบเป็นศูนย์ จึงเกิด ผลของการลดราคา
  • ไม่มีค่าสมัครสมาชิกหรือข้อกำหนดขั้นต่ำในการใช้งาน
  • ลดต้นทุนได้ราว 50% เมื่อเทียบกับ OpenRouter
โมเดล อินพุต เอาต์พุต OpenRouter อัตราการลด
Gemma 4 26B4B $0.03 $0.20 $0.40 50%
Qwen3.5 27B $0.10 $0.78 $1.56 50%
Qwen3.5 122B MoE $0.13 $1.04 $2.08 50%
MiniMax M2.5 239B $0.06 $0.50 $1.00 50%
  • การสร้างภาพ: $0.0015/ภาพ (ถูกกว่า Together.ai 50%)
  • การรู้จำเสียง: $0.001/นาที (ถูกกว่า AssemblyAI 50%)
  • ค่าธรรมเนียมแพลตฟอร์ม 0% และผู้ให้บริการ เก็บรายได้ไว้ 100%

ความคุ้มค่าทางเศรษฐศาสตร์สำหรับผู้ให้บริการ

  • เมื่อให้ อุปกรณ์ Apple Silicon เข้าร่วม จะสามารถสร้าง รายได้เป็น USD ได้
  • ไม่มีต้นทุนเพิ่มเติมนอกจากค่าไฟ และ เก็บรายได้ไว้ 100%
  • รองรับการติดตั้งผ่าน CLI และกำลังพัฒนา แอป macOS menu bar
  • วิธีติดตั้ง

    • ดาวน์โหลด provider binary ผ่านคำสั่งเทอร์มินัล และลงทะเบียนเป็นบริการ launchd
    • ไม่มี dependency**,** อัปเดตอัตโนมัติ**,** ทำงานเบื้องหลัง

      • รองรับ macOS 14 ขึ้นไป และเฉพาะ Apple Silicon
  • รายได้ที่คาดการณ์

    • สามารถคาดการณ์รายได้ได้จากการ เปิดใช้งานวันละ 18 ชั่วโมง
    • รายได้จริงขึ้นอยู่กับ ความต้องการของเครือข่ายและความนิยมของโมเดล

งานวิจัยและแค็ตตาล็อกโมเดล

  • บทความวิจัย อธิบายสถาปัตยกรรม threat model การวิเคราะห์ความปลอดภัย และโมเดลเศรษฐศาสตร์อย่างละเอียด
  • กล่าวถึง โครงสร้าง private inference ที่อิงการตรวจสอบฮาร์ดแวร์
  • ลิงก์ดาวน์โหลด PDF
  • โมเดลที่ใช้งานได้

    • Gemma 4 26B: MoE มัลติโหมดรุ่นล่าสุดของ Google, 4B active parameters
    • Qwen3.5 27B: โมเดล reasoning คุณภาพสูง (Claude Opus distillation)
    • Qwen3.5 122B MoE: 10B active parameters, คุณภาพต่อโทเคนระดับสูงสุด
    • MiniMax M2.5 239B: โมเดลเขียนโค้ดระดับ SOTA, ทำได้ 100 tok/s บน Mac Studio
    • Cohere Transcribe: conformer 2B, การแปลงเสียงเป็นข้อความระดับแนวหน้า

2 ความคิดเห็น

 
shw00 9 일 전

ในเชิงแนวคิดก็น่าสนใจดี แต่ก็ยังสงสัยว่าในการใช้งานจริงจะไปได้ดีแค่ไหน อย่างที่มีคนพูดไว้ในความเห็นบน HN เช่นกัน ตลาดสองด้าน (two-sided market) เป็นปัญหาใหญ่เพราะต้องดึงลูกค้ากลุ่มเริ่มต้นให้สำเร็จทั้งสองฝั่ง

 
GN⁺ 13 일 전
ความเห็นจาก Hacker News
  • ฉันรู้สึกว่า การคำนวณรายได้ ของพวกเขาไม่น่าเชื่อถือ
    ถ้า Mac mini เครื่องหนึ่งคืนทุนได้ใน 2~4 เดือน แล้วหลังจากนั้นทำเงินได้เดือนละ 1~2 พันดอลลาร์ ก็อดสงสัยไม่ได้ว่าทำไมพวกเขาไม่แค่ซื้อ Mac mini มาเปิดรันเอง

    • ตัวเลขคำนวณนั้นอิงกับสมมติฐานเชิงมองโลกในแง่ดี เพราะสมมติว่าทุกเครื่องจะมีดีมานด์ตลอดเวลา
      ตอนนี้ยังไม่เป็นแบบนั้น แต่หวังว่าสักวันจะเป็น จึงไม่แนะนำให้ซื้อเครื่องใหม่ ถ้าเอาเครื่องที่มีอยู่แล้วมารัน ต้นทุนแทบไม่มี
      ค่าไฟจะเกิดขึ้นเฉพาะตอนมีคำขอเข้ามา และก็ถูกชดเชยได้ในแต่ละครั้ง
      ถ้ามีอะไรสงสัย ส่ง DM หา @gajesh ได้
    • ถ้าเริ่มซื้อ Mac mini มาเอง สุดท้ายก็จะต้องสร้าง ดาต้าเซ็นเตอร์ขนาดเล็ก เพราะติดปัญหาเรื่องไฟฟ้า การระบายความร้อน และที่เก็บ
      เมื่อเกิด economy of scale ก็จะอยากได้ศูนย์ที่ใหญ่ขึ้นเรื่อย ๆ แต่นั่นทั้งแพงและเพื่อนบ้านก็ไม่ชอบ
      สุดท้ายมันดูเหมือนสงครามแบบไม่สมมาตรกับพวก hyperscaler
    • ผู้ให้บริการ GPU รายไหนก็รักษาอัตราการใช้งาน 100% ไม่ได้ ดีมานด์ขึ้น ๆ ลง ๆ
      เช่นช่วงเวลาที่ตลาดหุ้นเปิดจะยุ่ง แต่ช่วงอื่นจะเงียบ
      ถ้าไม่เผื่อทรัพยากรเกิน ลูกค้าก็หนี ถ้าเผื่อมากไป กำไรก็หาย
      เอาตามความเป็นจริงน่าจะได้ อัตราการใช้งานระดับ 1/8 ถ้าคิดจาก M4 Pro mini ของฉัน สำหรับโมเดล Gemma 4 ก็ดูจะได้แค่ราว $24 ต่อเดือน
    • แก่นสำคัญคือทุนเริ่มต้นไม่พอ คนส่วนใหญ่มีคอมพิวเตอร์ที่ปล่อยว่างอยู่แล้ว แค่ต้อง โน้มน้าวให้ติดตั้งซอฟต์แวร์
      แต่การซื้อและดูแลฮาร์ดแวร์เองแพงกว่ามาก เงินลงทุนตั้งต้นคือกำแพงสำคัญที่สุด
    • ในโลกนี้มี Mac ที่ว่างอยู่เยอะมาก ดังนั้นการรวบรวมฐานผู้ใช้จึงไม่ยาก
      เริ่มได้แม้จะ ไม่มีเงิน VC และจุดต่างก็ชัดเจน
      เพียงแต่ก็อาจมีคนทำแบบเดียวกันด้วยค่าธรรมเนียมที่สูงกว่าได้ จึงสำคัญที่จะยึดตลาดก่อน
  • ฉันลองติดตั้งเองแล้ว แต่ยังไม่ค่อยสมบูรณ์
    มีข้อผิดพลาดเยอะ เช่น ดาวน์โหลดโมเดลภาพไม่สำเร็จ โหลดโมเดลเสียง/TTS ไม่ขึ้น
    ฉันเปิดให้บริการ Gemma อยู่ 15 นาที แต่คำขอ infer จริงเป็น 0 มีแต่ health check เข้ามาหลายครั้ง
    ตอนนี้ดีมานด์ยังไม่พอ ทำให้การคาดการณ์รายได้ไม่ตรงความจริง

    • เพิ่งเปิดตัวได้แค่วันเดียว ยังไม่มีดีมานด์ก็เป็นเรื่องปกติ ต้องให้เวลาอีกหน่อย
    • สงสัยว่ามีใครฝั่งตรงข้ามเคยลอง ทดสอบส่งพรอมป์ต์แล้วรับคำตอบจริง หรือยัง
    • ถ้าดูหน้าสถิติ จะเห็นว่าฝั่งผู้ให้บริการมีเยอะ แต่ดีมานด์จริงแทบไม่มี
      ตอนนี้ดูเหมือนจะโฟกัสที่การหาผู้ให้บริการก่อน และการหาลูกค้าที่จ่ายเงินจริงเป็นเรื่องเร่งด่วน
    • นึกว่าช่วงแรกอย่างน้อยจะมีการสร้างคำขอขึ้นมาเองเพื่อ กระตุ้นแรงจูงใจให้โฮสต์ แต่ไม่มีฟีเจอร์นั้น
    • ฉันก็เจอข้อผิดพลาดเดียวกัน โดยในล็อกมีคำเตือนว่า “STT backend health check failed” ต่อให้มีดีมานด์จริง นี่ก็อาจเป็นสาเหตุได้
  • ถ้าจะใช้บริการนี้ ต้องติดตั้ง MDM (ซอฟต์แวร์จัดการอุปกรณ์)
    ซึ่งในทางปฏิบัติหมายความว่าตั้งแต่วินาทีนั้นคอมพิวเตอร์เครื่องนั้นก็อยู่ภายใต้การควบคุมของพวกเขา
    ไม่แนะนำเด็ดขาดสำหรับคอมพิวเตอร์ที่ใช้ทำงานละเอียดอ่อน เช่น ธนาคาร

    • MDM ของ macOS มีการจำกัดสิทธิ์ด้วย AccessRights จึงไม่สามารถเข้าถึงระดับเปลี่ยนใบรับรอง SSL ได้
      แต่ นโยบายความเป็นส่วนตัว ของพวกเขาหละหลวม จึงยากที่จะเชื่อใจ
    • MDM เป็นเงื่อนไขที่รับไม่ได้เด็ดขาด ฉันคงเอา MacBook ของตัวเองไปเสี่ยงกลายเป็นที่ทับกระดาษไม่ได้
      แถมจะให้เสี่ยงขนาดนั้นเพื่อหาเงินเดือนละไม่กี่ดอลลาร์ก็ไม่มีเหตุผล
  • พวกเขาบอกว่าใช้ TEE (Trusted Execution Environment) เพื่อตรวจสอบความสมบูรณ์ของโมเดลและโค้ด
    AWS ก็เคยทำอะไรคล้าย ๆ กัน แต่ยังสงสัยว่าเวลาจะใช้ GPU จะปกป้องหน่วยความจำได้จริงหรือไม่
    ดูงานวิจัยที่เกี่ยวข้องได้ ที่นี่

    • ทั้งเปเปอร์มีกลิ่น LLM มากเกินไป การใช้สูตรเยอะเกินทำให้ความน่าเชื่อลดลง
    • ในความเป็นจริง ถ้าส่งข้อมูลไปยังเซิร์ฟเวอร์ภายนอก ก็แทบเลี่ยง การเก็บรักษาข้อมูล บางส่วนไม่ได้
      ทางที่ปลอดภัยกว่าคือใช้กับงานไม่เชิงพาณิชย์ เช่น การจัดหมวดหมู่หรือสร้างภาพ แทนข้อมูลอ่อนไหว
    • Apple Silicon ใช้ หน่วยความจำรวม ร่วมกันระหว่าง CPU และ GPU
      เทคนิค hypervisor page table ที่พูดถึงในเปเปอร์อ้างว่าสามารถปกป้องหน่วยความจำ GPU จาก RDMA ได้
    • Mac ไม่มีฮาร์ดแวร์ TEE แบบ SGX มีเพียง Secure Enclave เท่านั้น
  • บน MacBook ทุกวันนี้ ความเป็นส่วนตัวที่ตรวจสอบยืนยันได้ เป็นไปไม่ได้ในทางกายภาพ
    มี Secure Enclave ก็จริง แต่ไม่ใช่ enclave แบบเปิดเผยต่อสาธารณะอย่าง SGX/TDX/SEV
    สุดท้ายก็เป็นแค่ความปลอดภัยระดับ harden OS ไม่ใช่ สภาพแวดล้อมการประมวลผลแบบเป็นความลับ อย่างแท้จริง

    • ฉันเคยทำ SGX SDK เอง บนแพลตฟอร์ม Apple ก็สามารถทำความปลอดภัยใกล้เคียงกันได้ในระดับหนึ่ง
      ถ้า remote attestation ของ boot sequence และการตั้งค่า TCC ของ macOS ทำได้ โครงสร้างนี้ก็ถือว่าน่าเชื่อถือพอสมควร
      แม้จะไม่สมบูรณ์แบบเท่า SGX แต่ในด้าน การใช้งานจริง กลับดีกว่า
    • เมื่อเทียบกับผู้ให้บริการแบบรวมศูนย์อย่าง OpenAI แล้ว โหนดกระจายศูนย์แบบสุ่ม กลับรู้สึกว่าน่าเชื่อถือกว่า
    • ถ้าแรงจูงใจมากพอ คีย์ฮาร์ดแวร์ แบบไหนก็สุดท้ายถูกเจาะได้ คำกล่าวอ้างของพวกเขาจึงออกจะมั่นใจเกินไป
  • ถ้าคิดเลขง่าย ๆ M5 Pro ของฉันสร้างได้ 130 โทเคนต่อวินาที (4 สตรีม) สำหรับ Gemma 4 26B
    ราคาของ Darkbloom คือ $0.20 ต่อ Mtok ดังนั้นถ้ารัน 24 ชั่วโมงจะมีรายได้ราว $67 ต่อเดือน
    หักค่าไฟแล้วต้นทุนราว $9 ต่อเดือน ก็เป็นเงินค่าขนมปีละประมาณ $700

    • ในความเป็นจริงมันกินไฟมากกว่า 50W เยอะ ค่าไฟก็แพงและ ฮาร์ดแวร์ก็เสื่อมเร็วขึ้น
      สำหรับฉัน ไอเดียน่าสนใจกว่าความคุ้มทุน
    • การคำนวณของพวกเขาใช้ค่า tok/s ที่ 414 สำหรับ Gemma 4 26B
      ตอนคำนวณค่าไฟยังใช้ ลูกเล่นหักไฟตอน idle 12W ออก แต่คนส่วนใหญ่ไม่ได้เปิดคอมไว้ 24 ชั่วโมง
    • ตัวเลข 130 tok/s ดูสูงนะ อยากรู้ว่าใช้มาตรฐาน quantization แบบไหน
    • ไม่ได้คิดถึงความเสียหายของฮาร์ดแวร์เลย เมื่อก่อนฉันเคยขุดด้วย GPU แล้วพัดลมพังในเดือนเดียว ขาดทุนยับ
    • แม้แต่ OpenAI เองยังมีลูกค้าที่จ่ายเงินแค่ 5% เลยสงสัยว่าโมเดลแบบนี้จะยั่งยืนหรือไม่
      ก่อนหน้านี้ก็เคยมีความพยายามด้าน distributed storage อย่าง Cubbit แต่ก็ล้มเหลว
  • สิ่งที่อยากบอก @eigengajesh คือ Mac Mini M4 Pro มีตัวเลือก 64GB ด้วย
    และยังมีบั๊กหลายอย่าง — โหลด metallib ไม่สำเร็จ, ดาวน์โหลดโมเดล 404, เอกสารระบุส่วนแบ่งรายได้ไม่ตรงกัน (100% vs 95%) ฯลฯ
    โดยรวมมีเอกสารหลายส่วนที่ เหมือน LLM เขียน น่าจะเกลาให้ดีกว่านี้ก่อนค่อยเผยแพร่

  • โปรเจกต์นี้ทำให้นึกถึง DataseamGrid ที่เคยกระจายไปยังคอมพิวเตอร์ในโรงเรียนเมื่อก่อน
    มันเป็น เครือข่ายคอมพิวต์แบบกระจายศูนย์ ที่มีแนวคิดคล้ายกัน

  • เป็นแนวคิดที่น่าสนใจ ตลาดสองด้าน (two-sided marketplace) นั้นบูตช่วงแรกได้ยาก แต่ความอยากรู้อยากลองอาจเป็นแรงขับได้
    ถ้าทำให้คนไม่ใช่แค่เป็นผู้ให้บริการ แต่ยังลองใช้บริการเองด้วย ก็อาจช่วยให้สมดุลระหว่างดีมานด์กับซัพพลายดีขึ้น
    ถ้ามี เวอร์ชันโฮสต์เอง สำหรับองค์กรก็น่าจะดี หลายบริษัทมี Mac ค้างสต็อกอยู่ จึงอาจนำมาใช้เป็นเครือข่าย inference ภายในได้

  • ความเป็นส่วนตัวที่อิงฮาร์ดแวร์ก็น่าสนใจ แต่ในเชิงเศรษฐศาสตร์ ต้นทุนการโหลด คือความเสี่ยงใหญ่
    ตัวอย่างเช่นโมเดล MiniMax M2.5 239B แม้จะเปิดใช้จริงแค่ 11B จาก 239B ก็ยังต้องโหลด 120GB
    การดึงจาก SSD ใช้เวลาหลายสิบวินาที
    ถ้าคำขอถูกส่งไปยัง Mac เครื่องอื่น ก็จะเกิด ความหน่วงจากการโหลดแบบ cold load ทุกครั้ง
    ถ้าจะเก็บโมเดลไว้ในหน่วยความจำตลอด ค่าไฟก็เพิ่ม แต่ถ้าไม่ทำ ความหน่วงก็สูง
    โดยเฉพาะ Mac 16GB~32GB นั้นโฮสต์โมเดลขนาดใหญ่ไม่ได้เลย ทำให้ในทางปฏิบัติผู้ให้บริการที่เป็นไปได้จริงมีจำกัดมาก