Apple Silicon มีต้นทุนสูงกว่า OpenRouter

(williamangel.net)

3 คะแนน โดย GN⁺ 2026-05-18 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

ต้นทุนการรัน inference แบบโลคัล ได้รับผลจากราคาฮาร์ดแวร์มากกว่าค่าไฟฟ้า โดยรุ่น M5 Max MacBook Pro 64GB คิดที่ราคา $4,299
โน้ตบุ๊ก Apple Silicon ขณะทำงานหนักใช้พลังงาน 50~100W และถ้าคิดค่าไฟที่ $0.20 ต่อ kWh จะเสียค่าไฟเพียงราว $0.48 ต่อวัน
มีการสังเกตว่า Gemma4:31b บน M5 Max ทำได้ 10~40 โทเค็นต่อวินาที ทำให้ต้นทุนต่อหนึ่งล้านโทเค็นอยู่ที่ประมาณ $0.40~$4.79
Gemma4 31b บน OpenRouter มีราคาอยู่ที่ประมาณ $0.38~$0.50 ต่อหนึ่งล้านโทเค็น จึงจะใกล้เคียงกับ MacBook Pro Max ได้เฉพาะในเงื่อนไขที่มองโลกในแง่ดีที่สุดมากๆ
โดยทั่วไปแล้วการรัน inference แบบโลคัลมีราคาแพงกว่าและช้ากว่า OpenRouter และในทางบัญชีควรประเมินต้นทุนของ Pro Max ไว้ที่ประมาณ 3 เท่า ต่อหนึ่งล้านโทเค็น

การคำนวณต้นทุนของการรันโลคัล inference

ค่าไฟฟ้า อ้างอิงจากบิลล่าสุดของ Northern Virginia ที่ $0.18 ต่อ kWh และในการคำนวณใช้ตัวเลขสูงกว่าคือ $0.20 ต่อ kWh
ค่าไฟฟ้าที่อยู่อาศัยเฉลี่ยของสหรัฐฯ ปี 2025 จาก EIA อยู่ที่ $0.1730 ต่อ kWh
หากโน้ตบุ๊ก Apple Silicon ใช้พลังงาน 50~100W ภายใต้โหลด ค่าไฟจะอยู่ที่ $0.009~$0.018 ต่อชั่วโมง หรือคิดง่ายๆ ได้ที่ประมาณ $0.02 ต่อชั่วโมง
ต่อให้รัน inference ที่โหลด 100% ต่อเนื่อง ค่าไฟก็อยู่ที่เพียง $0.48 ต่อวัน
รุ่น M5 Max MacBook Pro ขนาด 14 นิ้ว 64GB มีราคา $4,299 ตามเว็บไซต์ Apple และ 64GB ถือว่าเพียงพอสำหรับรันโมเดลอย่าง Gemma 4 31b
หากแบ่งอายุการใช้งานฮาร์ดแวร์เป็น 3 ปี, 5 ปี และ 10 ปี ต้นทุนต่อปีจะเท่ากับ $1,433, $860 และ $430 ตามลำดับ
ต้นทุนฮาร์ดแวร์ต่อชั่วโมงคำนวณได้เป็น $0.16358 สำหรับอายุ 3 ปี, $0.09815 สำหรับ 5 ปี และ $0.04908 สำหรับ 10 ปี
สำหรับการใช้งานทั่วไป 5 ปี เป็นการประเมินอายุการใช้งานที่สมเหตุสมผล และอาจยืดไปถึง 7 ปีหรือ 10 ปีได้ แต่ถ้ารัน inference เต็มโหลดตลอดเวลา อายุ 3 ปีก็ถือเป็นสมมติฐานที่สมเหตุสมผลเช่นกัน

ต้นทุนต่อโทเค็นและการเปรียบเทียบกับ OpenRouter

ตัวแปรสำคัญของต้นทุนโมเดลแบบโลคัลคือจำนวน โทเค็นที่สร้างได้ต่อชั่วโมง โดยในการทดสอบ M5 Max โมเดลอย่าง Gemma4:31b อยู่ในช่วง 10~40 โทเค็นต่อวินาที
หากทำได้ 10 โทเค็นต่อวินาที จะเท่ากับ 36,000 โทเค็นต่อชั่วโมง และเมื่อคิดด้วยอายุการใช้งาน 3~10 ปี กับค่าไฟ $0.18 ต่อ kWh ต้นทุนต่อหนึ่งล้านโทเค็นจะอยู่ที่ $1.61~$4.79
หากทำได้ 40 โทเค็นต่อวินาที จะเท่ากับ 144,000 โทเค็นต่อชั่วโมง และต้นทุนต่อหนึ่งล้านโทเค็นจะลดลงเหลือ $0.40~$1.20
บน Apple Silicon นั้น ต้นทุนฮาร์ดแวร์ เป็นปัจจัยหลักของต้นทุนรวม มากกว่าค่าไฟฟ้า
ราคา Gemma4 31b บน OpenRouter อยู่ที่ประมาณ $0.38~$0.50 ต่อหนึ่งล้านโทเค็น
ในเงื่อนไขมองโลกในแง่ดีที่สุดคือ 50W, 40 โทเค็นต่อวินาที และใช้งาน 10 ปี MacBook Pro Max จะมีต้นทุนลดลงมาใกล้เคียงกับ OpenRouter
ในเงื่อนไขมองโลกในแง่ร้ายคือ 100W, 10 โทเค็นต่อวินาที และใช้งาน 3 ปี MacBook Pro Max จะแพงกว่า OpenRouter ถึง 10 เท่า
ในมุมมองทางบัญชี การประเมินต้นทุนของการรันโลคัลบน Pro Max ที่ประมาณ 3 เท่า ของ OpenRouter ต่อหนึ่งล้านโทเค็น ถือว่าเหมาะสม
ในกรณีส่วนใหญ่ ปัจจัยที่สำคัญกว่าต้นทุนคือ ความเร็วในการ inference และการรันโลคัลช้ากว่าการรันบนคลาวด์
ผู้ให้บริการ Gemma 4 บางรายบน OpenRouter ทำได้ถึง 60~70 โทเค็นต่อวินาที ซึ่งเร็วกว่า 10~20 โทเค็นต่อวินาทีที่พบใน Pro Max ราว 3~7 เท่า
ต้นทุนเงินเดือนของพนักงานที่ใช้โน้ตบุ๊กทำงานสูงกว่าต้นทุนโทเค็นที่สร้างได้แบบโลคัลประมาณ 1000 เท่า ดังนั้นในบริบทนี้ การจ่ายเงินให้ Anthropic จึงสมเหตุสมผลกว่า
อย่างไรก็ตาม การที่อุปกรณ์ผู้บริโภคสามารถรันโมเดลที่มีประสิทธิภาพใกล้เคียง Anthropic Sonnet ได้ ก็ยังถือเป็นผลลัพธ์ที่น่าทึ่งอยู่ดี

2 ความคิดเห็น

jjw9512151 29 일 전

แน่นอนว่า OpenRouter รันอยู่บนฮาร์ดแวร์ที่ปรับแต่งมาสำหรับดาต้าเซ็นเตอร์เลยเร็วกว่าจริง แต่ก็ยังรีดความเร็วระดับ 200 token/s แบบนั้นออกมาไม่ได้อยู่ดี..

GN⁺ 2026-05-18

ความเห็นจาก Hacker News

บทวิเคราะห์นี้ไม่ค่อยดีนัก เพราะปัดค่าทุกอย่างขึ้นตลอด คิดค่าไฟเผื่อสูงขึ้น 10% แล้วก็เลือกค่าบนสุดของช่วงการใช้พลังงานซึ่งมากกว่าค่าต่ำสุด 2 เท่า จากนั้นก็คูณด้วยค่าไฟที่ป่องไว้แล้ว
แล้วยังตั้งสมมติฐานว่าจะเอา Mac ที่เพิ่งซื้อใหม่มารันงาน inference แบบโหลดเต็มตลอด 24 ชั่วโมงอีก ทำไมต้องทำแบบนั้น? Apple Silicon เร็วก็จริง แต่ตามที่ผู้เขียนเองก็ชี้ไว้ มันอยู่ราว ๆ 10–40 โทเคนต่อวินาที ซึ่งก็ไม่ได้แย่ แต่เดิมทีมันก็ไม่ได้ออกแบบมาสำหรับงานแบบนี้
ดาต้าเซ็นเตอร์ไม่ได้จ่ายค่าไฟบ้าน ใช้ชิปที่มีประสิทธิภาพพลังงานดีกว่า และใช้ชิปที่ไม่ได้ถูกออกแบบมาแบบ Mac ด้วย Apple Silicon ไม่ได้ถูกใช้เผาโทเคน 24/7/365 และถ้าคุณไม่ได้ซื้อฮาร์ดแวร์ใหม่มาเพื่อจุดประสงค์นี้อย่างเดียว มันก็ถือว่าคุ้มใช้ทีเดียว คุณใช้ Mac Studio ทำงานที่ต้องทำสัปดาห์ละไม่กี่ครั้ง แล้วปล่อย ollama ให้ทำงาน "แทบฟรี" ผ่าน tailnet ได้ ความคุ้มมันมีอยู่ถ้าคุณไม่ได้พยายามใช้งาน Mac Studio ให้เหมือนคลัสเตอร์ H100 ระบายความร้อนด้วยของเหลว และก็แน่นอนว่าฮาร์ดแวร์แบบ multi-tenant กับไฟฟ้าราคาถูกที่ให้โทเคนต่อวัตต์สูงกว่านั้นมักชนะอยู่แล้ว
- ต่อให้ปรับทุกอย่างลงแบบมองโลกในแง่ดีที่สุด ก็ยังออกมาที่ $0.40 ต่อหนึ่งล้านโทเคน ขณะที่ OpenRouter มีโมเดลเดียวกันที่ $0.38/ล้านโทเคน
- ตัวบทความเองก็ไม่สมเหตุสมผล คุณเอา OpenRouter ไปใช้เป็นคอมพิวเตอร์อเนกประสงค์ไม่ได้ แล้วทำไมถึงเอาคอมพิวเตอร์ทั้งเครื่องไปเทียบกับ SaaS แบบใช้งานเฉพาะทาง
- ไม่รู้ว่าตัวเลข 40 โทเคนต่อวินาทีมาจากไหน บน M5 Max 128GB ผมเคยรัน Gemma 4 31B แล้วเห็น 95–100 โทเคนต่อวินาที แถมยังเคยลองกับพรอมป์ต์เดียวกันแล้วมันเร็วกว่า Claude Opus 4.5 ด้วย
- จริง ๆ แล้วการคิดแบบสร้างโทเคน 24 ชั่วโมงคือกรณีที่ดีที่สุด ถ้าคิดตามการใช้งานจริงวันละ 8 ชั่วโมง ต้นทุนคงที่ของฮาร์ดแวร์ก็ยังเป็นส่วนที่ใหญ่ที่สุดของงบอยู่ดี แต่จำนวนโทเคนที่สร้างได้จะเหลือ 1/3 ดังนั้น ต้นทุนต่อโทเคน ก็จะเพิ่มเป็น 3 เท่า
ถ้าผมไม่ได้เข้าใจผิด การคำนวณนี้เอาราคาของโน้ตบุ๊กทั้งเครื่องไปนับเป็นต้นทุนสร้างโทเคนด้วย ดูเหมือนจะลืมไปว่าพอจ่ายเงินนั้นแล้ว คุณไม่ได้ได้แค่ผลลัพธ์จาก LLM แต่ยังได้โน้ตบุ๊กมาด้วย
ถ้าคุณตั้งใจจะเอาเครื่องนี้ไปวางไว้ในมุมมืดแล้วใช้เป็นเซิร์ฟเวอร์กินโทเคนอย่างเดียว โน้ตบุ๊กก็เป็นตัวเลือกทางเทคโนโลยีที่แย่มากสำหรับงานนี้ แต่ถ้าคุณตั้งใจจะใช้โน้ตบุ๊กเป็นโน้ตบุ๊ก การที่คุณมีโน้ตบุ๊กอยู่ด้วยย่อมดีกว่าไม่มี
นอกจากนี้คุณยังได้ ความเป็นส่วนตัว อิสรภาพจากการเซ็นเซอร์ และสิทธิ์ควบคุมโมเดลที่ใช้อีกด้วย คุณจะเลี่ยงสถานการณ์ที่สร้างเวิร์กโฟลว์ให้เข้ากับคุณลักษณะของโมเดลหนึ่งไปแล้ว 3 เดือน ก่อนที่โมเดลนั้นจะหายไปแบบกะทันหันได้
- ตัวชี้วัดที่ดีกว่าอาจเป็นส่วนต่างของราคาระหว่างโน้ตบุ๊กที่ต้องใช้เพื่อรันโมเดลโลคัล กับโน้ตบุ๊กที่คุณก็คงซื้ออยู่แล้ว
- คุณได้สิทธิ์ควบคุมโมเดลก็จริง แต่ก็แลกกับการเข้าไม่ถึงโมเดลที่เก่งที่สุด และรันได้แค่โมเดลเล็กกว่า
- คุณไม่ได้ได้แค่ผลลัพธ์จาก LLM แต่ยังได้โน้ตบุ๊กมาด้วย และถ้าเป็น Mac เวลาจะอัปเกรดก็น่าจะยังมีราคามือสองเหลืออยู่พอสมควร
- ใช้ OpenRouter เล่น Cyberpunk 2077 ที่ 5K HDR ปรับสุดไม่ได้หรอก
- บทความต้นทางเหมือนกำลังแสดงกรณีที่ดีที่สุดแบบสุดขีด เมื่อเทียบกับคนที่หมกมุ่นกับการกวาดซื้อ Mac
  คนกลุ่มนี้มีจำนวนมากแบบน่าตกใจที่จ่ายเกิน $10,000 ไปกับ Mac Studio แต่ก็ยังติดคอขวดด้านการประมวลผลอยู่ดี และแทบไม่มีตัวเลือกที่มีประสิทธิภาพกว่า Gemma 4 เท่าไร
บริษัท AI ระดับ frontier กำลังขายแบบขาดทุน
ต่อให้ไม่นับสิ่งที่ u/bastawhiz พูดไว้[0], Claude, OpenAI, Gemini และรายอื่น ๆ กำลังเผาเงินกันระดับหลายแสนล้านดอลลาร์จริง ๆ พร้อมหวังว่าจะเป็นรายสุดท้ายที่อยู่รอด โดยเอาของราคา 1 ดอลลาร์มาขายต่อในราคาไม่กี่เซนต์
ถ้าผมปลูกส้มแล้วใช้เงิน $10 แต่ขายในราคา $1 แน่นอนว่าการปลูกเองก็จะดูแพงกว่า โมเดลเหล่านี้มีแต่จะแพงขึ้นตามเวลา และตอนนี้ก็แค่พยายามยึดตลาดก่อนที่จะต้องเลิกขายขาดทุนหนัก
[0]: https://news.ycombinator.com/item?id=48168433
- ดูแล้วโอกาสเป็นแบบนั้นค่อนข้างต่ำ บน OpenRouter มีผู้ให้บริการหลายเจ้าที่ให้โมเดลเปิด และยากจะเชื่อว่าพวกเขากำลังขาดทุนทุกโทเคนที่ขาย
  อีกอย่างยังมีเหตุผลทางเทคนิคที่ทำให้ inference มีประสิทธิภาพขึ้นมากเมื่อขนาดใหญ่ขึ้นด้วย
- บล็อกนี้กำลังเทียบต้นทุนการรัน Gemma4 31B แต่บน OpenRouter โมเดลนี้ไม่ได้มาจากบริษัท AI frontier แต่อยู่กับผู้ให้บริการ inference รายเล็กที่ไม่ค่อยมีชื่อเสียง ดูเป็นการเทียบที่ค่อนข้างยุติธรรม
- ถึงอย่างนั้น ประสิทธิภาพจากขนาด ก็ยังมีได้มากกว่านี้เยอะ ด้วยปริมาณงานปัจจุบันของผม ผมไม่สามารถทำให้โมเดลโลคัลทำงาน 24 ชั่วโมงที่การใช้งาน 98% ได้ แต่คลาวด์รายใหญ่ทำได้ ผมก็ไม่สามารถจ่ายไฟ DC ให้เซิร์ฟเวอร์ตัวเองได้โดยตรง และยังมีความสูญเสียจากการแปลง AC เป็น DC อีก ปัจจัยแบบนี้มีต่อเนื่องไปเรื่อย ๆ
- นั่นไม่จริงเลย API token ไม่ได้ถูกขายแบบขาดทุน และฮาร์ดแวร์ก็มีประสิทธิภาพดีขึ้นเรื่อย ๆ ทำให้ต้นทุนการให้บริการ inference ของโมเดลเดิมลดลงตามเวลา
  LLAMA 3.1 405B ในปี 2024 ราคา $6/$12 ต่อหนึ่งล้านโทเคน แต่ในปี 2026 โมเดลเดิมจะอยู่ที่ $3/$3 โมเดลที่ฉลาดที่สุดในแต่ละช่วงเวลามีต้นทุนต่อโทเคนสูงกว่าเดิมเพราะมันมีขนาดใหญ่ขึ้นมาก เช่น GPT5.5 แพงกว่า 5.4 แต่ในอีก 2 ปี ต้นทุนการให้บริการโมเดลขนาด GPT5.5 มีแนวโน้มจะถูกกว่าราคา GPT5.5 วันนี้ อีกทั้งเทคนิค distillation ก็ช่วยลดจำนวนพารามิเตอร์ที่ต้องใช้เพื่อให้ได้คะแนน benchmark ระดับเดิมได้ดีขึ้น ดังนั้นในอีก 2 ปี ความฉลาดระดับเดียวกันก็น่าจะได้มาในราคาที่ถูกลง
- มีหลักฐานไหม? CEO ของ Anthropic บอกว่าบริษัททำกำไร แล้ว และ OpenAI ก็พูดทำนองเดียวกัน
ถ้าอยากได้โมเดล dense ดี ๆ ใช้ qwen3.6 27B จะดีกว่า ทั้งเร็วขึ้น และถ้าไม่เชื่อว่ามันฉลาดกว่า ก็ให้ ราคาใน OpenRouter ที่เอาไปเทียบกับ Gemma ซึ่งทั้งใหญ่กว่า ช้ากว่า และใช้หน่วยความจำไม่มีประสิทธิภาพกว่าเป็นคนพูดแทน
ถ้าอยากได้โมเดลที่เร็วกว่า ก็ใช้ qwen3.6 35B ได้ ถ้า Gemma เหมาะกับงานของคุณมากกว่า ก็มี gemma 4 26B ให้ใช้ ที่คนพูดถึงสองตัวนี้ โดยเฉพาะ 27B กันเยอะรวมถึงผมด้วย ก็เพราะมันมีเหตุผล มันเล็กพอจะรันได้ที่ความเร็วโอเค และตอนนี้ยิ่งเด่นเพราะ llama.cpp รองรับ MTP ในตัวอย่างเป็นทางการแล้ว แถมในเวิร์กโหลดจำนวนมากและ benchmark ทุกตัวที่ผมลอง มันตีเสมอหรือชนะโมเดลที่ตามปกติไม่ควรชนะได้
ไม่กี่วันก่อนผมตื่นมาแล้วเน็ตล่ม เลยเปิด 27B บน pi แล้วให้รหัสผ่านเราเตอร์พร้อมสั่งให้ช่วยวินิจฉัยปัญหา พอไปหยิบกาแฟกลับมา มันก็เขียนรายงานฉบับเต็มพร้อมแนวทางดำเนินการไว้ให้แล้ว ผมชอบ OpenRouter และใช้มันหลายแบบ แต่ไม่ได้ถูกกว่า
แน่นอนว่าทั้งหมดนี้มีความเห็นเชิงอัตวิสัยจากประสบการณ์ส่วนตัวที่ได้ใช้โมเดลพวกนี้ทั้งหมดปนอยู่ด้วย อาจมีกรณีที่ 31B Gemma เหนือกว่า แต่ผมหาไม่เจอ และผมก็รันโมเดลทั้ง 4 ตัวที่กล่าวมานี้กับงานหลากหลายมาตั้งแต่ไม่กี่ชั่วโมงหลังจากมันเปิดตัวเสียด้วยซ้ำ แม้แต่ใน hermes ของผมเอง พอเปลี่ยนจาก gemma 4 26B ไปเป็น qwen3.5 9B ผลลัพธ์กลับดีขึ้น และนั่นยังไม่ใช่สาย 3.6 ที่ดีขึ้นมากด้วยซ้ำ การทำบทวิเคราะห์แบบนี้แต่ไม่ใช้โมเดลที่ถือว่าเป็น state of the art บนฮาร์ดแวร์ผู้บริโภคในตอนนี้ มันดูเชยหรือไม่ก็เหมือนเลือกข้อมูลเข้าข้างตัวเอง
- จริง Qwen 3.6 45b(6 parameter) รันได้บน RTX 5090 ทั่วไป และถ้าคุณชอบเล่นเกมก็มีโอกาสสูงว่ามีอยู่แล้ว ใช้งานสร้างโค้ดส่วนใหญ่ได้ดีพอสมควร
  เช่นกัน DeepSeek V4 Flash ก็เข้าถึงได้ดีพอควรในฐานะโมเดลโลคัล และถ้าใช้ DwarfStar 4 ก็รันบน MacBook 96GB ได้สบาย
  การจ่ายต้นทุน inference เองไม่ใช่ปัญหา แต่โมเดลโลคัลเปิดโอกาสที่น่าทึ่งมาก เช่น ใช้งานออฟไลน์ได้เต็มรูปแบบ ประมวลผลข้อมูลส่วนบุคคลที่ระบุตัวตนได้หรือข้อมูลที่มีเอกสิทธิ์ทางกฎหมาย และทำงานโดยไม่ต้องกังวลเรื่องใช้เกินโควตาค่าใช้จ่ายเลย
  อีกเรื่องคือคุณสามารถสร้างบริการที่มั่นใจได้ว่าจะทำงานต่อเนื่อง 100% โดยไม่ต้องกังวลเรื่องบริการล่มหรือถูกยกเลิก โมเดล frontier ตอนนี้ยังมีปัญหานี้อยู่ ชุด Qwen แบบโลคัลของผมคาดเดาได้หมด และถ้ายังหาเครื่องมารันต่อได้ มันก็จะรันต่อไปได้ กลยุทธ์ที่สมเหตุสมผลคือใช้ทั้งสองแบบ มีเครื่องมือ inference แบบโลคัลไว้ และใช้ทั้งคลาวด์โมเดลราคาถูกกับราคาแพง ใช้ GPT-5.5 กับ Opus-4.7 ในงานที่มันถนัดอย่างงาน reasoning ยาก ๆ โดยตัวหลังอ้อมผ่านการสมัคร Claude ให้ถูกลง ใช้ DeepSeek V4 Pro กับงานที่ยากน้อยลงนิดหน่อย ใช้ V4 Flash สำหรับงานสร้างโค้ดส่วนใหญ่ และใช้โมเดลโลคัลเมื่อจำเป็นต้องใช้โลคัล
- ผมเห็นด้วยกับข้อสรุปหลัก แต่ไม่แน่ใจว่าการอ่านราคา qwen3.6 27B แบบนั้นถูกต้องไหม
  ผู้ให้บริการเหล่านั้นดูเหมือนจะอิงราคาตั้งต้นของ Alibaba สำหรับ 27B Dense และผมเองคิดว่ามันแพงไปหน่อย อาจเป็นเพราะโมเดล Qwen มีประสิทธิภาพด้าน inferenceต่ำกว่าโมเดล frontier หรือ Gemma และการให้ sequence length ยาว ๆ ก็มีต้นทุนสูงด้วย
- สงสัยว่าแต่ละคนประเมินโมเดล quantized เทียบกันอย่างไร ยังไม่เจอ benchmark ที่ถูกใจจริง ๆ
  ตัวอย่างดีบักด้วย 27B น่าสนใจ ผมเองก็เห็นความสำเร็จแบบคล้ายกันหลังซื้อ Mac ที่มีแรมมากขึ้น 4 เท่า และ Qwen 35B A3B ก็ทำได้ดีมากแบบฉับพลัน ส่วน 9B บนโน้ตบุ๊กนั้นยากจะเรียกว่าดีได้
ในนี้มีคอมเมนต์มากมายที่พูดถึงปัญหาในบทวิเคราะห์ต้นฉบับ แต่สำหรับข้อสรุปที่กว้างกว่านั้น หลายคนก็มองว่าแทบเป็น “ความต่างที่แทบไม่มีความหมาย” นอกจากเรื่องความเป็นส่วนตัวแล้ว ถ้ามองแค่ ต้นทุนและประสิทธิภาพ ล้วน ๆ นักพัฒนารายบุคคลมักได้ประโยชน์มากกว่าจากการใช้บริการโฮสต์ แทนที่จะโฮสต์เอง
ในที่ทำงาน นายจ้างเป็นคนจ่ายค่าโทเคน และนอกเวลางาน นักพัฒนาส่วนใหญ่ก็รู้สึกว่าค่าสมาชิก $20/$100/$200 ต่อเดือนของผู้ให้บริการที่ชอบนั้นเพียงพอแล้ว ในมุมมอง cost/performance ล้วน ๆ จึงมีนักพัฒนาไม่มากที่เข้าเงื่อนไขซึ่งเหมาะกับการรันโมเดลโลคัล
ที่สำคัญกว่านั้น การตั้งค่าโมเดลโลคัลในโลกจริงดูจะใกล้เคียงกับงานอดิเรก การเรียนรู้ หรือ การควบคุมความเป็นส่วนตัว มากกว่าการลดต้นทุนหรือเพิ่มผลิตภาพ
- คอมพิวติ้งแบบเมนเฟรมที่ผู้สร้างโมเดลใฝ่ฝันว่าจะกลับมา จะไม่ย้อนคืนมาไม่ว่า OpenAI, Google, Anthropic หรือ Microsoft ต้องการแค่ไหนก็ตาม มีพวกป่าเถื่อนทางเทคโนโลยีที่ฉลาดมากเกินไปกำลังยืนรอเข้าประตูอยู่ และคนเหล่านี้จะไม่ยอมกลับไปสู่ยุคเทอร์มินัลคอมพิวเตอร์
  คอมพิวเตอร์ส่วนบุคคลเคยยุติยุคเทอร์มินัลก่อนหน้านั้นมาแล้ว บริษัทส่วนใหญ่ในยุคนั้นก็หายไป เหลือแค่ IBM กับไม่กี่รายที่ยังอยู่ แต่ก็เป็นเพียงเงาของสิ่งที่เคยเป็น
ผู้เขียนเทียบแค่ต้นทุนโทเคนขาออก แต่ใน เวิร์กโหลดแบบเอเจนต์ ทั่วไป โทเคนขาเข้าเป็นสัดส่วนต้นทุนก้อนใหญ่เหมือนกัน สำหรับ inference แบบโลคัล โทเคนขาเข้าฟรีเป็นหลัก
ต้นทุนแฝงจะมีแค่เวลาแฝงก่อนโทเคนแรกที่ยาวกว่า ใช้ไฟมากกว่า และความเร็วโทเคนขาออกต่ำกว่า
- ใช่ จุดนั้นทำให้ประเด็นหลักของผู้เขียนพังไปเลย
  ผมลองดูเซสชันเอเจนต์สุ่ม ๆ ไม่กี่อันใน OpenRouter ของตัวเอง พบว่าต้นทุนขาเข้าสูงกว่าขาออก 10 เท่า Prompt caching ของ OpenRouter ซับซ้อนและเชื่อถือยาก แต่บน llama-cpp ของฮาร์ดแวร์โลคัล มันแทบจะฟรี
- ต่อให้ไม่สนเรื่อง caching ที่ดีกว่าของระบบโลคัล ฮาร์ดแวร์ Mac ก็มักประมวลผลโทเคนขาเข้าได้เร็วกว่าโทเคนขาออกราว 10 เท่า อยู่แล้ว ส่วน OpenRouter ดูเหมือนส่วนต่างจะประมาณ 2 เท่ากับโมเดลเดียวกัน
ถ้าทำอย่างฉลาด มันไม่เป็นแบบนั้น MacBook M5 Max 128GB เป็นโน้ตบุ๊กพรีเมียมราคา 6,000 ดอลลาร์ แต่ทำอะไรได้หลายอย่าง และเป็นเครื่องหลักที่ดีสำหรับใช้ทั้งวัน
นอกจากนั้นยังรัน DeepSeek V4 Flash เพื่อทำงานที่ไม่เล็กน้อยในเครื่องได้ โดยไม่มีการเซ็นเซอร์หรือข้อจำกัด ไม่ต้องต่ออินเทอร์เน็ต และใช้กับข้อมูลส่วนบุคคลที่อ่อนไหวมากได้ แบบนี้ถือว่าคุ้มมาก แต่ถ้าคุณไปซื้อ Dual Mac Studio 512GB ราคา 25,000 ดอลลาร์เพื่อจะทิ้ง OpenAI กับพวกนั้น คุณน่าจะผิดหวังทั้งด้านประสิทธิภาพและต้นทุน
- ทางเลือกที่ฉลาดคือซื้อ MacBook 48GB สำหรับใช้งานประจำวัน แล้วกันงบไว้ปีละประมาณ $800 สำหรับค่าสมาชิก AI หรือค่าโทเคน สุดท้ายแล้วราคาก็จะออกมาใกล้กัน
  ในฐานะคนเขียนบล็อก ผมกำลังพิมพ์ข้อความนี้อยู่บน MacBook M5 Max 128GB
- M4 Max 128GB ของผมสุดท้ายกลายเป็นตัวเลือกที่ค่อนข้างสมเหตุสมผล ผมใช้ตัดต่อวิดีโอ ฝึกโมเดลแมชชีนเลิร์นนิง รันโมเดล AI เปิดขนาดใหญ่ ทำ 3D modeling, rendering และงาน CAD
  ผมไม่ได้ทำทุกอย่างนี้พร้อมกัน 100% ตลอดเวลา ผมรันการฝึกแมชชีนเลิร์นนิงข้ามคืนแล้วมาดูผลตอนเช้า เปิดเป็นเซิร์ฟเวอร์ระหว่างเวลางานเพื่อรันโมเดลโลคัล และใช้เวลาส่วนตัวกับงานตัดต่อวิดีโอและ 3D modeling มันเป็นเครื่องที่อเนกประสงค์มาก และทั้งหมดนี้เกิดขึ้นโดยข้อมูลยังอยู่ในเครื่องและผมควบคุมเวิร์กโฟลว์ได้ทั้งหมด
- เป็นความลับสำหรับคน HN แต่โมเดลบางตัวในกลุ่มนี้รันได้บน rpi5 ราคา $200 หรือ AMD mini PC ราคา $500 ด้วยซ้ำ
  อีกความลับที่ใคร ๆ ก็รู้คือมีบางบริษัทให้โทเคนฟรีหลายหมื่นโทเคนกับโมเดลที่ดีใช้ได้อย่าง Gemini 3.1 หรือ GLM 4.6
บทความต้นฉบับเอา Gemma ไปเทียบอยู่ทั่ว แต่บทสรุปกลับบอกว่าจ่ายเงินให้ Anthropic ดีกว่า ทั้งที่ Anthropic คิดราคา 15 ดอลลาร์ต่อหนึ่งล้านโทเคนขาออก ซึ่งตามราคา OpenRouter แล้ว แพงกว่า 30–35 เท่า
มันเหมือนเอาจักรยานไฟฟ้าที่บ้านไปเทียบกับการเช่าจักรยานไฟฟ้า แล้วสรุปว่าควรไปเช่า Toyota เพราะวิ่งได้เร็วใกล้กัน น่าเบื่อที่บทความแย่ ๆ ได้รับความสนใจมาก
บทความพลาดหนักในช่วงท้ายจนผิดอย่างมีนัยสำคัญ คุณดูแค่โทเคนที่สร้างออกมาแล้วบอกว่านั่นคือต้นทุนไม่ได้ ใน การเขียนโค้ดแบบเอเจนต์ มีหลายเทิร์น จึงต้องจ่ายไม่ใช่แค่โทเคนขาออก แต่รวมถึงโทเคนขาเข้าทั้งหมดที่ส่งทุกครั้งด้วย ต่อให้ cache แล้วถูกลงประมาณ 10 เท่าก็ยังเหมือนเดิม ดังนั้นการคำนวณนี้จึงไม่สะท้อนต้นทุน API จริงเลย
อย่างที่สอง ถ้าใช้ทีมเอเจนต์ คุณสามารถเพิ่มปริมาณการสร้างโทเคนแบบโลคัลได้มาก การสนทนาเดี่ยวติดคอขวดที่ memory bandwidth เลยใช้ทรัพยากรคำนวณได้ไม่เต็ม ถ้าคุณ batch โทเคนจากหลายเอเจนต์เข้าด้วยกันได้ ก็เพิ่มปริมาณโทเคนได้ถึง 5 เท่าแบบสบาย ๆ
สำหรับผม คลาวด์ AI ใช้แทนกันไม่ได้เลย ความเป็นส่วนตัวและการควบคุมแบบเต็มรูปแบบ สำคัญกว่าความเร็วหรือโมเดลล้ำหน้าที่สุด
- ยังมีเรื่องความคาดเดาได้ ความทนทาน และอธิปไตยด้วย คุณไม่ต้องกังวลกับปัญหาล่มของคนอื่น ความต้องการใช้งานที่พุ่งขึ้นแบบไม่คาดคิดแล้วมากระทบคุณในจังหวะที่แย่ การที่ใครสักคนทำให้โมเดลของคุณด้อยลง การเปลี่ยนแปลงราคาที่คาดเดาไม่ได้ หรือบิลก้อนโตจากความผิดพลาดที่ไม่คาดคิด
  สำหรับผมมันอยู่ในหมวดเดียวกับ โซลาร์บนหลังคา ถ้าคุณเป็นคนประเภทที่ความอุ่นใจมาจากการควบคุมโครงสร้างพื้นฐานและลดการพึ่งพาภายนอก ความคุ้มค่าทางเศรษฐศาสตร์แบบเป๊ะ ๆ ก็ไม่จำเป็นต้องลงตัวเสมอไป