Apple Silicon มีต้นทุนสูงกว่า OpenRouter
(williamangel.net)- ต้นทุนการรัน inference แบบโลคัล ได้รับผลจากราคาฮาร์ดแวร์มากกว่าค่าไฟฟ้า โดยรุ่น M5 Max MacBook Pro 64GB คิดที่ราคา $4,299
- โน้ตบุ๊ก Apple Silicon ขณะทำงานหนักใช้พลังงาน 50~100W และถ้าคิดค่าไฟที่ $0.20 ต่อ kWh จะเสียค่าไฟเพียงราว $0.48 ต่อวัน
- มีการสังเกตว่า Gemma4:31b บน M5 Max ทำได้ 10~40 โทเค็นต่อวินาที ทำให้ต้นทุนต่อหนึ่งล้านโทเค็นอยู่ที่ประมาณ $0.40~$4.79
- Gemma4 31b บน OpenRouter มีราคาอยู่ที่ประมาณ $0.38~$0.50 ต่อหนึ่งล้านโทเค็น จึงจะใกล้เคียงกับ MacBook Pro Max ได้เฉพาะในเงื่อนไขที่มองโลกในแง่ดีที่สุดมากๆ
- โดยทั่วไปแล้วการรัน inference แบบโลคัลมีราคาแพงกว่าและช้ากว่า OpenRouter และในทางบัญชีควรประเมินต้นทุนของ Pro Max ไว้ที่ประมาณ 3 เท่า ต่อหนึ่งล้านโทเค็น
การคำนวณต้นทุนของการรันโลคัล inference
- ค่าไฟฟ้า อ้างอิงจากบิลล่าสุดของ Northern Virginia ที่ $0.18 ต่อ kWh และในการคำนวณใช้ตัวเลขสูงกว่าคือ $0.20 ต่อ kWh
- ค่าไฟฟ้าที่อยู่อาศัยเฉลี่ยของสหรัฐฯ ปี 2025 จาก EIA อยู่ที่ $0.1730 ต่อ kWh
- หากโน้ตบุ๊ก Apple Silicon ใช้พลังงาน 50~100W ภายใต้โหลด ค่าไฟจะอยู่ที่ $0.009~$0.018 ต่อชั่วโมง หรือคิดง่ายๆ ได้ที่ประมาณ $0.02 ต่อชั่วโมง
- ต่อให้รัน inference ที่โหลด 100% ต่อเนื่อง ค่าไฟก็อยู่ที่เพียง $0.48 ต่อวัน
- รุ่น M5 Max MacBook Pro ขนาด 14 นิ้ว 64GB มีราคา $4,299 ตามเว็บไซต์ Apple และ 64GB ถือว่าเพียงพอสำหรับรันโมเดลอย่าง Gemma 4 31b
- หากแบ่งอายุการใช้งานฮาร์ดแวร์เป็น 3 ปี, 5 ปี และ 10 ปี ต้นทุนต่อปีจะเท่ากับ $1,433, $860 และ $430 ตามลำดับ
- ต้นทุนฮาร์ดแวร์ต่อชั่วโมงคำนวณได้เป็น $0.16358 สำหรับอายุ 3 ปี, $0.09815 สำหรับ 5 ปี และ $0.04908 สำหรับ 10 ปี
- สำหรับการใช้งานทั่วไป 5 ปี เป็นการประเมินอายุการใช้งานที่สมเหตุสมผล และอาจยืดไปถึง 7 ปีหรือ 10 ปีได้ แต่ถ้ารัน inference เต็มโหลดตลอดเวลา อายุ 3 ปีก็ถือเป็นสมมติฐานที่สมเหตุสมผลเช่นกัน
ต้นทุนต่อโทเค็นและการเปรียบเทียบกับ OpenRouter
- ตัวแปรสำคัญของต้นทุนโมเดลแบบโลคัลคือจำนวน โทเค็นที่สร้างได้ต่อชั่วโมง โดยในการทดสอบ M5 Max โมเดลอย่าง Gemma4:31b อยู่ในช่วง 10~40 โทเค็นต่อวินาที
- หากทำได้ 10 โทเค็นต่อวินาที จะเท่ากับ 36,000 โทเค็นต่อชั่วโมง และเมื่อคิดด้วยอายุการใช้งาน 3~10 ปี กับค่าไฟ $0.18 ต่อ kWh ต้นทุนต่อหนึ่งล้านโทเค็นจะอยู่ที่ $1.61~$4.79
- หากทำได้ 40 โทเค็นต่อวินาที จะเท่ากับ 144,000 โทเค็นต่อชั่วโมง และต้นทุนต่อหนึ่งล้านโทเค็นจะลดลงเหลือ $0.40~$1.20
- บน Apple Silicon นั้น ต้นทุนฮาร์ดแวร์ เป็นปัจจัยหลักของต้นทุนรวม มากกว่าค่าไฟฟ้า
- ราคา Gemma4 31b บน OpenRouter อยู่ที่ประมาณ $0.38~$0.50 ต่อหนึ่งล้านโทเค็น
- ในเงื่อนไขมองโลกในแง่ดีที่สุดคือ 50W, 40 โทเค็นต่อวินาที และใช้งาน 10 ปี MacBook Pro Max จะมีต้นทุนลดลงมาใกล้เคียงกับ OpenRouter
- ในเงื่อนไขมองโลกในแง่ร้ายคือ 100W, 10 โทเค็นต่อวินาที และใช้งาน 3 ปี MacBook Pro Max จะแพงกว่า OpenRouter ถึง 10 เท่า
- ในมุมมองทางบัญชี การประเมินต้นทุนของการรันโลคัลบน Pro Max ที่ประมาณ 3 เท่า ของ OpenRouter ต่อหนึ่งล้านโทเค็น ถือว่าเหมาะสม
- ในกรณีส่วนใหญ่ ปัจจัยที่สำคัญกว่าต้นทุนคือ ความเร็วในการ inference และการรันโลคัลช้ากว่าการรันบนคลาวด์
- ผู้ให้บริการ Gemma 4 บางรายบน OpenRouter ทำได้ถึง 60~70 โทเค็นต่อวินาที ซึ่งเร็วกว่า 10~20 โทเค็นต่อวินาทีที่พบใน Pro Max ราว 3~7 เท่า
- ต้นทุนเงินเดือนของพนักงานที่ใช้โน้ตบุ๊กทำงานสูงกว่าต้นทุนโทเค็นที่สร้างได้แบบโลคัลประมาณ 1000 เท่า ดังนั้นในบริบทนี้ การจ่ายเงินให้ Anthropic จึงสมเหตุสมผลกว่า
- อย่างไรก็ตาม การที่อุปกรณ์ผู้บริโภคสามารถรันโมเดลที่มีประสิทธิภาพใกล้เคียง Anthropic Sonnet ได้ ก็ยังถือเป็นผลลัพธ์ที่น่าทึ่งอยู่ดี
1 ความคิดเห็น
ความเห็นจาก Hacker News
บทวิเคราะห์นี้ไม่ค่อยดีนัก เพราะปัดค่าทุกอย่างขึ้นตลอด คิดค่าไฟเผื่อสูงขึ้น 10% แล้วก็เลือกค่าบนสุดของช่วงการใช้พลังงานซึ่งมากกว่าค่าต่ำสุด 2 เท่า จากนั้นก็คูณด้วยค่าไฟที่ป่องไว้แล้ว
แล้วยังตั้งสมมติฐานว่าจะเอา Mac ที่เพิ่งซื้อใหม่มารันงาน inference แบบโหลดเต็มตลอด 24 ชั่วโมงอีก ทำไมต้องทำแบบนั้น? Apple Silicon เร็วก็จริง แต่ตามที่ผู้เขียนเองก็ชี้ไว้ มันอยู่ราว ๆ 10–40 โทเคนต่อวินาที ซึ่งก็ไม่ได้แย่ แต่เดิมทีมันก็ไม่ได้ออกแบบมาสำหรับงานแบบนี้
ดาต้าเซ็นเตอร์ไม่ได้จ่ายค่าไฟบ้าน ใช้ชิปที่มีประสิทธิภาพพลังงานดีกว่า และใช้ชิปที่ไม่ได้ถูกออกแบบมาแบบ Mac ด้วย Apple Silicon ไม่ได้ถูกใช้เผาโทเคน 24/7/365 และถ้าคุณไม่ได้ซื้อฮาร์ดแวร์ใหม่มาเพื่อจุดประสงค์นี้อย่างเดียว มันก็ถือว่าคุ้มใช้ทีเดียว คุณใช้ Mac Studio ทำงานที่ต้องทำสัปดาห์ละไม่กี่ครั้ง แล้วปล่อย ollama ให้ทำงาน "แทบฟรี" ผ่าน tailnet ได้ ความคุ้มมันมีอยู่ถ้าคุณไม่ได้พยายามใช้งาน Mac Studio ให้เหมือนคลัสเตอร์ H100 ระบายความร้อนด้วยของเหลว และก็แน่นอนว่าฮาร์ดแวร์แบบ multi-tenant กับไฟฟ้าราคาถูกที่ให้โทเคนต่อวัตต์สูงกว่านั้นมักชนะอยู่แล้ว
ถ้าผมไม่ได้เข้าใจผิด การคำนวณนี้เอาราคาของโน้ตบุ๊กทั้งเครื่องไปนับเป็นต้นทุนสร้างโทเคนด้วย ดูเหมือนจะลืมไปว่าพอจ่ายเงินนั้นแล้ว คุณไม่ได้ได้แค่ผลลัพธ์จาก LLM แต่ยังได้โน้ตบุ๊กมาด้วย
ถ้าคุณตั้งใจจะเอาเครื่องนี้ไปวางไว้ในมุมมืดแล้วใช้เป็นเซิร์ฟเวอร์กินโทเคนอย่างเดียว โน้ตบุ๊กก็เป็นตัวเลือกทางเทคโนโลยีที่แย่มากสำหรับงานนี้ แต่ถ้าคุณตั้งใจจะใช้โน้ตบุ๊กเป็นโน้ตบุ๊ก การที่คุณมีโน้ตบุ๊กอยู่ด้วยย่อมดีกว่าไม่มี
นอกจากนี้คุณยังได้ ความเป็นส่วนตัว อิสรภาพจากการเซ็นเซอร์ และสิทธิ์ควบคุมโมเดลที่ใช้อีกด้วย คุณจะเลี่ยงสถานการณ์ที่สร้างเวิร์กโฟลว์ให้เข้ากับคุณลักษณะของโมเดลหนึ่งไปแล้ว 3 เดือน ก่อนที่โมเดลนั้นจะหายไปแบบกะทันหันได้
คนกลุ่มนี้มีจำนวนมากแบบน่าตกใจที่จ่ายเกิน $10,000 ไปกับ Mac Studio แต่ก็ยังติดคอขวดด้านการประมวลผลอยู่ดี และแทบไม่มีตัวเลือกที่มีประสิทธิภาพกว่า Gemma 4 เท่าไร
บริษัท AI ระดับ frontier กำลังขายแบบขาดทุน
ต่อให้ไม่นับสิ่งที่ u/bastawhiz พูดไว้[0], Claude, OpenAI, Gemini และรายอื่น ๆ กำลังเผาเงินกันระดับหลายแสนล้านดอลลาร์จริง ๆ พร้อมหวังว่าจะเป็นรายสุดท้ายที่อยู่รอด โดยเอาของราคา 1 ดอลลาร์มาขายต่อในราคาไม่กี่เซนต์
ถ้าผมปลูกส้มแล้วใช้เงิน $10 แต่ขายในราคา $1 แน่นอนว่าการปลูกเองก็จะดูแพงกว่า โมเดลเหล่านี้มีแต่จะแพงขึ้นตามเวลา และตอนนี้ก็แค่พยายามยึดตลาดก่อนที่จะต้องเลิกขายขาดทุนหนัก
[0]: https://news.ycombinator.com/item?id=48168433
อีกอย่างยังมีเหตุผลทางเทคนิคที่ทำให้ inference มีประสิทธิภาพขึ้นมากเมื่อขนาดใหญ่ขึ้นด้วย
LLAMA 3.1 405B ในปี 2024 ราคา $6/$12 ต่อหนึ่งล้านโทเคน แต่ในปี 2026 โมเดลเดิมจะอยู่ที่ $3/$3 โมเดลที่ฉลาดที่สุดในแต่ละช่วงเวลามีต้นทุนต่อโทเคนสูงกว่าเดิมเพราะมันมีขนาดใหญ่ขึ้นมาก เช่น GPT5.5 แพงกว่า 5.4 แต่ในอีก 2 ปี ต้นทุนการให้บริการโมเดลขนาด GPT5.5 มีแนวโน้มจะถูกกว่าราคา GPT5.5 วันนี้ อีกทั้งเทคนิค distillation ก็ช่วยลดจำนวนพารามิเตอร์ที่ต้องใช้เพื่อให้ได้คะแนน benchmark ระดับเดิมได้ดีขึ้น ดังนั้นในอีก 2 ปี ความฉลาดระดับเดียวกันก็น่าจะได้มาในราคาที่ถูกลง
ถ้าอยากได้โมเดล dense ดี ๆ ใช้ qwen3.6 27B จะดีกว่า ทั้งเร็วขึ้น และถ้าไม่เชื่อว่ามันฉลาดกว่า ก็ให้ ราคาใน OpenRouter ที่เอาไปเทียบกับ Gemma ซึ่งทั้งใหญ่กว่า ช้ากว่า และใช้หน่วยความจำไม่มีประสิทธิภาพกว่าเป็นคนพูดแทน
ถ้าอยากได้โมเดลที่เร็วกว่า ก็ใช้ qwen3.6 35B ได้ ถ้า Gemma เหมาะกับงานของคุณมากกว่า ก็มี gemma 4 26B ให้ใช้ ที่คนพูดถึงสองตัวนี้ โดยเฉพาะ 27B กันเยอะรวมถึงผมด้วย ก็เพราะมันมีเหตุผล มันเล็กพอจะรันได้ที่ความเร็วโอเค และตอนนี้ยิ่งเด่นเพราะ llama.cpp รองรับ MTP ในตัวอย่างเป็นทางการแล้ว แถมในเวิร์กโหลดจำนวนมากและ benchmark ทุกตัวที่ผมลอง มันตีเสมอหรือชนะโมเดลที่ตามปกติไม่ควรชนะได้
ไม่กี่วันก่อนผมตื่นมาแล้วเน็ตล่ม เลยเปิด 27B บน pi แล้วให้รหัสผ่านเราเตอร์พร้อมสั่งให้ช่วยวินิจฉัยปัญหา พอไปหยิบกาแฟกลับมา มันก็เขียนรายงานฉบับเต็มพร้อมแนวทางดำเนินการไว้ให้แล้ว ผมชอบ OpenRouter และใช้มันหลายแบบ แต่ไม่ได้ถูกกว่า
แน่นอนว่าทั้งหมดนี้มีความเห็นเชิงอัตวิสัยจากประสบการณ์ส่วนตัวที่ได้ใช้โมเดลพวกนี้ทั้งหมดปนอยู่ด้วย อาจมีกรณีที่ 31B Gemma เหนือกว่า แต่ผมหาไม่เจอ และผมก็รันโมเดลทั้ง 4 ตัวที่กล่าวมานี้กับงานหลากหลายมาตั้งแต่ไม่กี่ชั่วโมงหลังจากมันเปิดตัวเสียด้วยซ้ำ แม้แต่ใน hermes ของผมเอง พอเปลี่ยนจาก gemma 4 26B ไปเป็น qwen3.5 9B ผลลัพธ์กลับดีขึ้น และนั่นยังไม่ใช่สาย 3.6 ที่ดีขึ้นมากด้วยซ้ำ การทำบทวิเคราะห์แบบนี้แต่ไม่ใช้โมเดลที่ถือว่าเป็น state of the art บนฮาร์ดแวร์ผู้บริโภคในตอนนี้ มันดูเชยหรือไม่ก็เหมือนเลือกข้อมูลเข้าข้างตัวเอง
เช่นกัน DeepSeek V4 Flash ก็เข้าถึงได้ดีพอควรในฐานะโมเดลโลคัล และถ้าใช้ DwarfStar 4 ก็รันบน MacBook 96GB ได้สบาย
การจ่ายต้นทุน inference เองไม่ใช่ปัญหา แต่โมเดลโลคัลเปิดโอกาสที่น่าทึ่งมาก เช่น ใช้งานออฟไลน์ได้เต็มรูปแบบ ประมวลผลข้อมูลส่วนบุคคลที่ระบุตัวตนได้หรือข้อมูลที่มีเอกสิทธิ์ทางกฎหมาย และทำงานโดยไม่ต้องกังวลเรื่องใช้เกินโควตาค่าใช้จ่ายเลย
อีกเรื่องคือคุณสามารถสร้างบริการที่มั่นใจได้ว่าจะทำงานต่อเนื่อง 100% โดยไม่ต้องกังวลเรื่องบริการล่มหรือถูกยกเลิก โมเดล frontier ตอนนี้ยังมีปัญหานี้อยู่ ชุด Qwen แบบโลคัลของผมคาดเดาได้หมด และถ้ายังหาเครื่องมารันต่อได้ มันก็จะรันต่อไปได้ กลยุทธ์ที่สมเหตุสมผลคือใช้ทั้งสองแบบ มีเครื่องมือ inference แบบโลคัลไว้ และใช้ทั้งคลาวด์โมเดลราคาถูกกับราคาแพง ใช้ GPT-5.5 กับ Opus-4.7 ในงานที่มันถนัดอย่างงาน reasoning ยาก ๆ โดยตัวหลังอ้อมผ่านการสมัคร Claude ให้ถูกลง ใช้ DeepSeek V4 Pro กับงานที่ยากน้อยลงนิดหน่อย ใช้ V4 Flash สำหรับงานสร้างโค้ดส่วนใหญ่ และใช้โมเดลโลคัลเมื่อจำเป็นต้องใช้โลคัล
ผู้ให้บริการเหล่านั้นดูเหมือนจะอิงราคาตั้งต้นของ Alibaba สำหรับ 27B Dense และผมเองคิดว่ามันแพงไปหน่อย อาจเป็นเพราะโมเดล Qwen มีประสิทธิภาพด้าน inferenceต่ำกว่าโมเดล frontier หรือ Gemma และการให้ sequence length ยาว ๆ ก็มีต้นทุนสูงด้วย
ตัวอย่างดีบักด้วย 27B น่าสนใจ ผมเองก็เห็นความสำเร็จแบบคล้ายกันหลังซื้อ Mac ที่มีแรมมากขึ้น 4 เท่า และ Qwen 35B A3B ก็ทำได้ดีมากแบบฉับพลัน ส่วน 9B บนโน้ตบุ๊กนั้นยากจะเรียกว่าดีได้
ในนี้มีคอมเมนต์มากมายที่พูดถึงปัญหาในบทวิเคราะห์ต้นฉบับ แต่สำหรับข้อสรุปที่กว้างกว่านั้น หลายคนก็มองว่าแทบเป็น “ความต่างที่แทบไม่มีความหมาย” นอกจากเรื่องความเป็นส่วนตัวแล้ว ถ้ามองแค่ ต้นทุนและประสิทธิภาพ ล้วน ๆ นักพัฒนารายบุคคลมักได้ประโยชน์มากกว่าจากการใช้บริการโฮสต์ แทนที่จะโฮสต์เอง
ในที่ทำงาน นายจ้างเป็นคนจ่ายค่าโทเคน และนอกเวลางาน นักพัฒนาส่วนใหญ่ก็รู้สึกว่าค่าสมาชิก $20/$100/$200 ต่อเดือนของผู้ให้บริการที่ชอบนั้นเพียงพอแล้ว ในมุมมอง cost/performance ล้วน ๆ จึงมีนักพัฒนาไม่มากที่เข้าเงื่อนไขซึ่งเหมาะกับการรันโมเดลโลคัล
ที่สำคัญกว่านั้น การตั้งค่าโมเดลโลคัลในโลกจริงดูจะใกล้เคียงกับงานอดิเรก การเรียนรู้ หรือ การควบคุมความเป็นส่วนตัว มากกว่าการลดต้นทุนหรือเพิ่มผลิตภาพ
คอมพิวเตอร์ส่วนบุคคลเคยยุติยุคเทอร์มินัลก่อนหน้านั้นมาแล้ว บริษัทส่วนใหญ่ในยุคนั้นก็หายไป เหลือแค่ IBM กับไม่กี่รายที่ยังอยู่ แต่ก็เป็นเพียงเงาของสิ่งที่เคยเป็น
ผู้เขียนเทียบแค่ต้นทุนโทเคนขาออก แต่ใน เวิร์กโหลดแบบเอเจนต์ ทั่วไป โทเคนขาเข้าเป็นสัดส่วนต้นทุนก้อนใหญ่เหมือนกัน สำหรับ inference แบบโลคัล โทเคนขาเข้าฟรีเป็นหลัก
ต้นทุนแฝงจะมีแค่เวลาแฝงก่อนโทเคนแรกที่ยาวกว่า ใช้ไฟมากกว่า และความเร็วโทเคนขาออกต่ำกว่า
ผมลองดูเซสชันเอเจนต์สุ่ม ๆ ไม่กี่อันใน OpenRouter ของตัวเอง พบว่าต้นทุนขาเข้าสูงกว่าขาออก 10 เท่า Prompt caching ของ OpenRouter ซับซ้อนและเชื่อถือยาก แต่บน llama-cpp ของฮาร์ดแวร์โลคัล มันแทบจะฟรี
ถ้าทำอย่างฉลาด มันไม่เป็นแบบนั้น MacBook M5 Max 128GB เป็นโน้ตบุ๊กพรีเมียมราคา 6,000 ดอลลาร์ แต่ทำอะไรได้หลายอย่าง และเป็นเครื่องหลักที่ดีสำหรับใช้ทั้งวัน
นอกจากนั้นยังรัน DeepSeek V4 Flash เพื่อทำงานที่ไม่เล็กน้อยในเครื่องได้ โดยไม่มีการเซ็นเซอร์หรือข้อจำกัด ไม่ต้องต่ออินเทอร์เน็ต และใช้กับข้อมูลส่วนบุคคลที่อ่อนไหวมากได้ แบบนี้ถือว่าคุ้มมาก แต่ถ้าคุณไปซื้อ Dual Mac Studio 512GB ราคา 25,000 ดอลลาร์เพื่อจะทิ้ง OpenAI กับพวกนั้น คุณน่าจะผิดหวังทั้งด้านประสิทธิภาพและต้นทุน
ในฐานะคนเขียนบล็อก ผมกำลังพิมพ์ข้อความนี้อยู่บน MacBook M5 Max 128GB
ผมไม่ได้ทำทุกอย่างนี้พร้อมกัน 100% ตลอดเวลา ผมรันการฝึกแมชชีนเลิร์นนิงข้ามคืนแล้วมาดูผลตอนเช้า เปิดเป็นเซิร์ฟเวอร์ระหว่างเวลางานเพื่อรันโมเดลโลคัล และใช้เวลาส่วนตัวกับงานตัดต่อวิดีโอและ 3D modeling มันเป็นเครื่องที่อเนกประสงค์มาก และทั้งหมดนี้เกิดขึ้นโดยข้อมูลยังอยู่ในเครื่องและผมควบคุมเวิร์กโฟลว์ได้ทั้งหมด
อีกความลับที่ใคร ๆ ก็รู้คือมีบางบริษัทให้โทเคนฟรีหลายหมื่นโทเคนกับโมเดลที่ดีใช้ได้อย่าง Gemini 3.1 หรือ GLM 4.6
บทความต้นฉบับเอา Gemma ไปเทียบอยู่ทั่ว แต่บทสรุปกลับบอกว่าจ่ายเงินให้ Anthropic ดีกว่า ทั้งที่ Anthropic คิดราคา 15 ดอลลาร์ต่อหนึ่งล้านโทเคนขาออก ซึ่งตามราคา OpenRouter แล้ว แพงกว่า 30–35 เท่า
มันเหมือนเอาจักรยานไฟฟ้าที่บ้านไปเทียบกับการเช่าจักรยานไฟฟ้า แล้วสรุปว่าควรไปเช่า Toyota เพราะวิ่งได้เร็วใกล้กัน น่าเบื่อที่บทความแย่ ๆ ได้รับความสนใจมาก
บทความพลาดหนักในช่วงท้ายจนผิดอย่างมีนัยสำคัญ คุณดูแค่โทเคนที่สร้างออกมาแล้วบอกว่านั่นคือต้นทุนไม่ได้ ใน การเขียนโค้ดแบบเอเจนต์ มีหลายเทิร์น จึงต้องจ่ายไม่ใช่แค่โทเคนขาออก แต่รวมถึงโทเคนขาเข้าทั้งหมดที่ส่งทุกครั้งด้วย ต่อให้ cache แล้วถูกลงประมาณ 10 เท่าก็ยังเหมือนเดิม ดังนั้นการคำนวณนี้จึงไม่สะท้อนต้นทุน API จริงเลย
อย่างที่สอง ถ้าใช้ทีมเอเจนต์ คุณสามารถเพิ่มปริมาณการสร้างโทเคนแบบโลคัลได้มาก การสนทนาเดี่ยวติดคอขวดที่ memory bandwidth เลยใช้ทรัพยากรคำนวณได้ไม่เต็ม ถ้าคุณ batch โทเคนจากหลายเอเจนต์เข้าด้วยกันได้ ก็เพิ่มปริมาณโทเคนได้ถึง 5 เท่าแบบสบาย ๆ
สำหรับผม คลาวด์ AI ใช้แทนกันไม่ได้เลย ความเป็นส่วนตัวและการควบคุมแบบเต็มรูปแบบ สำคัญกว่าความเร็วหรือโมเดลล้ำหน้าที่สุด
สำหรับผมมันอยู่ในหมวดเดียวกับ โซลาร์บนหลังคา ถ้าคุณเป็นคนประเภทที่ความอุ่นใจมาจากการควบคุมโครงสร้างพื้นฐานและลดการพึ่งพาภายนอก ความคุ้มค่าทางเศรษฐศาสตร์แบบเป๊ะ ๆ ก็ไม่จำเป็นต้องลงตัวเสมอไป