เพดาน AI เดือนละ 1,500 ดอลลาร์ของ Uber เป็นสัญญาณที่มีประโยชน์ต่อการตั้งราคาของเครื่องมือ AI

(simonwillison.net)

4 คะแนน โดย GN⁺ 2026-06-04 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Uber จำกัดการใช้จ่ายโทเคนรายเดือนสำหรับเครื่องมือเขียนโค้ดด้วย AI แต่ละตัวไว้ที่ 1,500 ดอลลาร์สำหรับพนักงานทุกคน เพื่อตอบรับกับต้นทุนที่เพิ่มขึ้นของเครื่องมือเขียนโค้ดแบบเอเจนต์
เพดานนี้ใช้กับซอฟต์แวร์เขียนโค้ดแบบเอเจนต์เท่านั้น เช่น Cursor หรือ Claude Code และการใช้จ่ายของเครื่องมือหนึ่งจะไม่กระทบงบประมาณของอีกเครื่องมือหนึ่ง
Uber จัดทำงบประมาณ AI สำหรับปี 2026 ตั้งแต่ปี 2025 แต่หลังจากนั้นเอเจนต์เขียนโค้ดที่ใช้โทเคนจำนวนมากกลับได้รับความนิยมเร็วกว่าที่คาด จนใช้งบปี 2026 หมดภายใน 4 เดือน
หากสมมติว่าใช้เครื่องมือ 2 ตัวอย่างจริงจัง เพดานรายปีต่อวิศวกร 1 คนจะอยู่ที่ 36,000 ดอลลาร์ คิดเป็นราว 11% ของค่าตอบแทนมัธยฐาน 330,000 ดอลลาร์ของวิศวกรซอฟต์แวร์ Uber ในสหรัฐตามข้อมูลของ Levels.fyi
ราคาเครื่องมือ AI มีความแตกต่างมากขึ้นระหว่างแพ็กเกจอุดหนุนสำหรับผู้สมัครสมาชิกทั่วไปกับราคา API ที่องค์กรขนาดใหญ่ต้องจ่ายจริง และเพดานของ Uber แสดงให้เห็นเกณฑ์ต้นทุนที่องค์กรยังพอรับไหว

เพดานการใช้จ่ายเครื่องมือเขียนโค้ดด้วย AI ของ Uber

Uber จำกัดการใช้จ่ายโทเคนรายเดือนสำหรับเครื่องมือเขียนโค้ดด้วย AI แต่ละตัวของพนักงานทุกคนไว้ที่ 1,500 ดอลลาร์
เพดานนี้ถูกนำมาใช้ในช่วงไม่กี่เดือนที่ผ่านมา และใช้เฉพาะกับซอฟต์แวร์เขียนโค้ดแบบเอเจนต์ เช่น Cursor หรือ Claude Code ของ Anthropic
เนื่องจากเป็นเพดานแยกตามเครื่องมือ ค่าใช้จ่ายที่ใช้กับเครื่องมือหนึ่งจึงไม่ไปลดงบของอีกเครื่องมือหนึ่ง
เพดานเดือนละ 1,500 ดอลลาร์ถูกมองว่าเป็นวิธีรับมือการใช้จ่ายเกินอย่างสมเหตุสมผล และได้รับการประเมินว่าเหมาะสมกว่าลีดเดอร์บอร์ด tokenmaxxing ที่กระตุ้นให้พนักงานแข่งขันกันใช้ AI ให้มากขึ้น

สัญญาณด้านราคาและการคำนวณต้นทุน

การที่ Uber ใช้งบ AI ปี 2026 หมดภายใน 4 เดือน เชื่อมโยงกับบริบทที่ว่า ตอนวางงบในปี 2025 นั้นยากจะคาดการณ์ความนิยมของเอเจนต์เขียนโค้ดที่ใช้โทเคนสูงได้
หากสมมติว่าวิศวกร 1 คนใช้งานเครื่องมืออย่างจริงจัง 2 ตัว เพดานจะอยู่ที่ 3,000 ดอลลาร์ต่อเดือน หรือ 36,000 ดอลลาร์ต่อปี
แพ็กเกจค่าตอบแทนรายปีมัธยฐานของวิศวกรซอฟต์แวร์ Uber ในสหรัฐจาก Levels.fyi อยู่ที่ 330,000 ดอลลาร์ และเพดานรายปี 36,000 ดอลลาร์คิดเป็นประมาณ 11% ของตัวเลขนั้น
สำหรับการใช้งานส่วนบุคคล แม้จะใช้โทเคนมูลค่า 1,000 ดอลลาร์ต่อเดือนกับทั้ง Anthropic และ OpenAI แต่ละราย ต้นทุนปัจจุบันก็ยังอยู่ที่ราว 100 ดอลลาร์ต่อผู้ให้บริการ จากแพ็กเกจอุดหนุนสำหรับผู้สมัครสมาชิกทั่วไป
อย่างไรก็ตาม แพ็กเกจอุดหนุนสำหรับผู้ใช้ทั่วไปเช่นนั้นไม่ได้มีให้กับองค์กรขนาดใหญ่อย่าง Uber อีกต่อไป และจากรูปแบบการใช้งานปัจจุบัน แม้อยู่ภายในเพดานของ Uber ก็ยังเหลืองบอีก 500 ดอลลาร์ต่อเดือนต่อเครื่องมือ

1 ความคิดเห็น

GN⁺ 2026-06-04

ความเห็นจาก Hacker News

สงสัยว่าบริษัท AI จะยังคง ตั้งราคาต่อโทเคน แบบตอนนี้ต่อไป หรือสุดท้ายจะต้องลดลงเพราะการแข่งขันจากจีน
คนทั่วไปที่มีงบไม่มากจำนวนมากกำลังย้ายไปใช้โมเดลจีนแบบโอเพนเวตอย่าง DeepSeek กันอยู่แล้ว
ก็ยังสงสัยว่าจีนอุดหนุนบริษัทเหล่านี้จริงหรือไม่ หรือจริง ๆ แล้วต้นทุนการ inference ต่ำกว่ามาก และ Anthropic/OpenAI แค่เก็บให้มากที่สุดเพื่อเตรียม IPO ในอนาคต
- มีโมเดลหลายตัวที่เป็น โอเพนเวต และยังให้บริการโดยผู้ให้บริการบุคคลที่สามซึ่งไม่มีเหตุผลจะต้องอุดหนุนด้วย ดังนั้นพอจะบอกได้ระดับหนึ่งว่าต้นทุน inference ของพวกมันต่ำพอใกล้เคียงต้นทุนจริง
  แลบชั้นนำดูเหมือนจะต้องลดราคาต่อโทเคนลง อย่างน้อยสำหรับโมเดลราคาถูกถึงระดับกลาง เพราะโมเดลจีนอย่าง Qwen, DeepSeek, Kimi, GLM “เข้าใกล้มากพอแล้ว” จนกลายเป็นทางเลือกที่คุ้มต้นทุนได้เมื่อมีสภาพแวดล้อมการรันที่เหมาะสม
  อย่างไรก็ตาม ยังมีโมเดลที่ต้องทำงานมากกว่าเพื่อแก้ปัญหาเดียวกัน ดังนั้นอาจยังไม่จำเป็นต้องปิดช่องว่างทั้งหมดในทันที
  ถึงอย่างนั้น ราคาก็น่าจะลดลงไม่ทางใดก็ทางหนึ่ง และในขณะเดียวกันก็น่าจะเป็นไปได้มากว่าการสมัครใช้โมเดลจีนราคาถูกเองก็มีเงินอุดหนุนอยู่ ทำให้เมื่อเวลาผ่านไปน่าจะใจกว้างน้อยลง
- สิ่งที่ Paul Kedrosky พูดล่าสุดเรื่อง duration mismatch เป็นอีกมุมหนึ่ง
  ราคาต่อโทเคนลดลงตามเวลาเพราะแรงกดดันจากการแข่งขันหรือแรงจูงใจให้ลูกค้าใช้โมเดลเก่าราคาถูก แต่ดาต้าเซ็นเตอร์กลับถูกจัดหาเงินทุนด้วยหนี้บนสมมติฐานว่ารายได้จะเพิ่มขึ้นตามเวลา
  ยืมคำของเขามาคือ “[บริษัท AI] กำลังจ่ายต้นทุนคงที่ด้วยสินค้าที่มูลค่าลดลง”
  ด้านหนึ่ง รายได้จากโทเคนกำลังลดลง อีกด้านหนึ่ง ค่าใช้จ่ายในการฝึก frontier model รุ่นถัดไปกำลังสูงขึ้น และในเวลาเดียวกันก็ต้องจ่ายหนี้อายุ 10 ปีไปด้วย
  0: https://youtu.be/wGZboZcSGDY?is=64GuKyqBh_4aSjTE
- ไม่ต้องกังวลไป แค่ล็อบบี้ให้ แบนโมเดลจีน เพื่อรักษารายได้จากโทเคนก็พอ
  “สิ่งที่ทำให้ปัญหานี้หนักขึ้นคือ แลบจีนมักเผยแพร่โมเดลที่อาจใช้ได้สองทางในรูปแบบโอเพนเวต เมื่อโมเดลเป็นโอเพนเวต มาตรการป้องกันเดิมก็อาจถูกถอดออกได้ และทำให้ทั้งผู้กระทำระดับรัฐและไม่ใช่รัฐที่มีเจตนาร้ายสามารถนำไปใช้ได้ รวมถึงการใช้งานไซเบอร์และ CBRN ในทางที่ผิดที่มาตรการเหล่านั้นมีไว้เพื่อป้องกัน”
  https://www.anthropic.com/research/2028-ai-leadership
- มีโอกาสมากกว่าว่าราคาจะขึ้น NVidia บอกว่าราคาฮาร์ดแวร์ GPU จะไม่ลดลงอย่างน้อยจนถึงปี 2030 และทั่วโลกก็ขาดแคลน กำลังการผลิตแฟบ
- บริษัทอเมริกันทั่วไปส่วนใหญ่น่าจะห้ามใช้ บริษัท AI จีน แบบคลาวด์ เพราะโค้ด ข้อมูล และข้อมูลส่วนบุคคลทั้งหมดจะถูกส่งไปฝั่งนั้น
สงสัยว่าบริษัทใหญ่จะเมื่อไรถึงจะตระหนักว่า โมเดล flash ก็ใช้งานได้ดีพอ ถ้าเป็นไปตามเงื่อนไขต่อไปนี้
1. อย่าขอให้ LLM ทำการเปลี่ยนแปลงใหญ่
2. ตรวจทุกผลลัพธ์และคอยชี้ทิศทางที่ถูกต้อง
  โมเดลใหญ่เองก็ยังแย่มากกับการเปลี่ยนแปลงใหญ่ ๆ ชอบสร้างสถาปัตยกรรมที่น่าสงสัย และถ้าเป็นโปรเจ็กต์จริงจังก็ยังไงก็ต้องรีวิวโค้ดอยู่ดี
  ไม่ว่าเป็นโมเดลไหน ถ้าไม่ใส่ใจมากพอ โค้ดเบสก็เละได้อย่างรวดเร็ว
  ในสถานการณ์ที่ให้คำสั่งและทำซ้ำไปเรื่อย ๆ โมเดล flash ถูกกว่า 10 เท่าและเร็วกว่ามาก เลยสงสัยว่าทำไมต้องใช้โมเดลใหญ่ โมเดลใหญ่เอาไว้ใช้ตรวจสอบด้านความปลอดภัยและบั๊กก็พอ และสำหรับการแก้ไขไม่เกิน 300 บรรทัด ถ้าบอกลักษณะโค้ดที่ต้องการ โมเดล flash ก็ทำออกมาได้เกือบเหมือนกัน
- ค่อนข้างตรงไปตรงมา องค์กรยินดีจ่าย 1500 ดอลลาร์ ต่อเดือนต่อวิศวกรหนึ่งคน และตัวเลขนี้ก็ดูจะสอดคล้องคร่าว ๆ กับปริมาณการใช้งานแบบ “ทั่วไป” ของวิศวกรฟูลไทม์ส่วนใหญ่
  ถ้าตัวเลขนี้เพิ่มขึ้นมาก อย่างที่เสนอไว้ ก็ดูเหมือนว่าบริษัทต่าง ๆ จะเริ่มพิจารณาโมเดล flash มากขึ้น
- การใช้ โมเดลรุ่นล่าสุด ที่ใหญ่ที่สุดเท่าที่จ่ายไหวเป็นการตัดสินใจที่ง่าย
  แต่สิ่งสำคัญอีกส่วนที่มักถูกมองข้ามคือสภาพแวดล้อมการรัน (harness) ถ้าคุณรันไปป์ไลน์อัตโนมัติด้วย orchestrator ที่สร้างเองสำหรับการวางแผน/ออกแบบ/เขียนโค้ด/บิลด์/ทดสอบ และใช้เอเจนต์ในหลายขั้นตอน
  แต่ละขั้นตอนจะมีโมเดลที่เหมาะกว่าแตกต่างกัน และใช้ LLM ประเมินผลลัพธ์ระหว่างขั้นด้วย ไม่ใช่ว่าทุกงานต้องใช้ Opus 4.8
  สภาพแวดล้อมการรันทำหน้าที่เป็นฐานรองที่ช่วยปรับสิ่งที่ต้องป้อนเข้าและดึงออกจากโมเดลให้เหมาะสม และยังช่วยกำหนดได้ด้วยว่าโมเดลไหนควรทำงานอะไร
  สิ่งที่สร้างคุณภาพภายใต้งบโทเคนที่กำหนดไม่ใช่ตัวโมเดล แต่คือ ไปป์ไลน์
- สงสัยว่าควรปล่อยให้โมเดลตัดสินใจเองได้มากแค่ไหนว่าจะส่งคำถามต่อไปยังโมเดลไหน
  หรือไม่ก็โมเดลใหญ่อาจเรียนรู้ความต่างระหว่างคำถามง่ายกับยากแล้วคิดค่าบริการตามนั้นก็ได้ ถ้าวัดความซับซ้อนได้ ก็น่าจะประเมินราคาล่วงหน้าได้ด้วย
  โมเดลเล็กเพียงพอสำหรับงานเขียนโค้ดเล็ก ๆ แต่ไม่ค่อยเข้าใจว่าทำไมโมเดลใหญ่ถึงไม่สามารถแยกงานออกเป็นชิ้นเล็ก ๆ ได้ในกรณีส่วนใหญ่
- เห็นด้วยมาก โมเดลที่ใหญ่กว่ามีนิสัยทำให้เรื่อง ซับซ้อนเกินจำเป็น ด้วย
- “อย่าขอให้ LLM ทำการเปลี่ยนแปลงใหญ่”, “ตรวจทุกอย่างและคอยกำหนดทิศทาง” เป็นสิ่งที่ผู้บริหารไม่ได้สนใจ
  มันกลายเป็นปัญหาของฝ่ายวิศวกรรม และถูกผลักให้วิศวกรต้องไปจัดการเอง
ไม่เข้าใจจริง ๆ ว่าทำไมยังมีคนจำนวนมากที่เชื่อว่า AI coding จะจบลงแค่เป็นกระแส
มันเพิ่งเริ่มมาไม่ถึง 2 ปีด้วยซ้ำ แต่บริษัทต่าง ๆ ก็ยอมจ่ายกันเป็นหลักหลายพันดอลลาร์ต่อที่นั่งแล้ว และผมก็รู้จักที่ที่จ่ายกันเดือนละ 5,000 ดอลลาร์ด้วย
เลยอดคิดไม่ได้ว่าเคยมีเครื่องมืออะไรบ้างที่ถูกนำไปใช้ได้เร็วขนาดนี้ทั้งที่เริ่มจากศูนย์
- เพราะบริษัทกำลังเดิมพันว่าค่าใช้จ่ายนี้จะช่วยให้ลดต้นทุนได้ด้วยการปลดคนออก
  PR จาก AI LLM ที่เห็นอยู่ตอนนี้มีแต่สร้างงานเพิ่มให้คนอื่น ส่วนพวกที่เรียกตัวเองว่า “builder” ก็ดูดีแค่เพราะมีแดชบอร์ดใหม่กับฟีเจอร์ไว้เดโม
  แต่คุยเรื่อง flow ของโค้ดไม่ได้ และก็ถามถึงกระบวนการคิดไม่ได้ด้วยว่าทำไมบางอย่างถึงออกมาเป็นแบบนั้น
  มันไม่ได้ถูกสั่งสมขึ้นจากพื้นฐานโดยมีประสบการณ์ของคนหลายคนรวมอยู่ในนั้น แต่โผล่มาเหมือนถูกทำให้เป็นรูปเป็นร่างจากความว่างเปล่า แทบไม่มีการแยกส่วนพื้นฐานและแทบไม่มี abstraction เลย
  ไม่มีใครอยากแตะมัน PR ก็ใหญ่เกินไป และ “ผู้เขียน” พวกนั้นก็ไม่ได้อยู่ on-call กับเราด้วย
  เอาหน้าทั้งหมดไป แต่ไม่ทำงานจริง
  คล้ายกับออกแบบบ้านไว้แล้วส่งให้สถาปนิกกับวิศวกรพร้อมบอกว่า “ทำให้มันใช้ได้สิ”
- นั่นเป็นคำพูดที่ข้อสรุปไม่ได้ตามมาจากเหตุผลนั้นเลย การที่ “บริษัทจ่ายกันเป็นหลักหลายพันดอลลาร์ต่อที่นั่งแล้ว” ไม่ได้มีความสัมพันธ์อะไรเลยกับคำถามว่าอะไร เป็นกระแสหรือไม่เป็นกระแส
  มีคำอธิบายที่สมเหตุสมผลกว่านั้นมากว่าทำไมบริษัทถึงทำแบบนั้น มากกว่าคำอธิบายว่า “เพราะ AI coding ไม่ใช่กระแส”
- ผลลัพธ์จาก vibe coding บางครั้งก็ดีเยี่ยม แต่บางครั้งก็ทำของพัง และยังกลับไปทำลายสิ่งที่แก้ไปแล้วหลายรอบอีกด้วย
  PR ใหญ่เกินไปจนไม่มีใครรีวิวความเละเทะนั้นได้ และถ้า deploy ไปแล้วก็เตรียมขึ้น on-call ได้เลย
  มันอาจจะดีขึ้นหรือไม่ก็ได้ ตอนนี้ยังบอกไม่ได้
- กลับกัน ผมมองว่าข้อเท็จจริงพวกนี้เป็นสัญญาณว่ามันอาจไม่ได้เป็นอย่างที่เห็น
  มันใหญ่เกินไปและเร็วเกินไปจนไม่รู้สึกว่าเสถียร อาจรักษาระดับนี้ไว้ได้ อาจโตต่อ หรืออาจย่อลงมาอยู่ในระดับการใช้งานและงบประมาณที่ปกติกว่านี้ก็ได้
- ระหว่าง “AI coding เป็นกระแส” กับ “ให้พนักงานทุกคนใช้โทเค็นได้ไม่จำกัดโดยไม่สนด้วยซ้ำว่าผลสุทธิทางการเงินเป็นบวกหรือเปล่า” มันมี สเปกตรัมที่กว้างมาก อยู่
ผมใช้ subscription เดือนละ 100 ดอลลาร์ แต่ ค่า API ในช่วง 30 วันล่าสุดอยู่ราว ๆ 1,700 ดอลลาร์ต่อเดือน
มันต่างกันมากตามวิธีใช้งาน ถ้าใช้ prompt ทำ detailed design แล้วแตกออกเป็นรายการงาน จากนั้นโยนเข้า agent หลายตัว ก็เผาเงินเป็นหลักพันดอลลาร์ได้ง่ายมาก
ถ้าใช้อย่างระมัดระวังกว่าเดิมและรัน agent แบบ interactive ทีละไม่กี่ตัว ใช้กับการรีวิว PR/แก้ issue/เก็บกวาดอัตโนมัติ/ปรับจูนประสิทธิภาพ ก็อาจอยู่แถว ๆ 1,500 ดอลลาร์
ถ้าแค่โยนคำถามเป็นครั้งคราวเหมือน Stack Overflow ที่ดีกว่าเดิม ก็จะต่ำกว่า 100 ดอลลาร์มาก
ช่วงนี้ผมติด /goal มาก แค่หาเป้าหมายที่ตรวจสอบได้แล้วปล่อยให้มันรันข้ามคืน ตื่นเช้ามาดูว่ามันไปถึงไหนแล้วให้ความรู้สึกเหมือนเช้าวันคริสต์มาส
เดือนละ 1,500 ดอลลาร์ เท่ากับ 18,000 ดอลลาร์ต่อปี ต่อที่นั่ง
ไม่รู้ว่า Microsoft กับ Nvidia กำลังเห็นอะไรบางอย่างอยู่หรือเปล่า
ต่อให้เครื่อง 128GB ที่รัน local LLM ได้จะราคา 5,000~8,000 ดอลลาร์ ก็ยังรู้สึกว่าถูกอยู่ แม้จำนวนโทเค็นต่อวินาทีจะยังไม่พอ แต่ก็น่าจะโอเคได้
คอขวดจริง ๆ อาจไม่ใช่เรื่องโค้ด แต่เป็นว่า Uber ใช้เงินมหาศาลนั้นสร้างอะไรขึ้นมากันแน่ และมันส่งผลเชิงบวกที่มีนัยสำคัญต่อรายได้อย่างไร
- ไม่แน่ใจว่าจำนวนโทเค็นต่อวินาทีไม่ใช่คอขวดนะ ผมคิดว่าคนส่วนใหญ่ก็คงยังใช้ AI agent แบบ interactive มากกว่าปล่อยให้มันทำงานเองข้ามคืน
  สำหรับผม ต่ำกว่า 50 tok/s นี่แทบใช้การไม่ได้เลย
  ยังไงก็ตาม นี่ก็เหมือนเอาแอปเปิลไปเทียบส้ม inference ของโมเดล open weights ค่อนข้างถูก และแค่ Claude กับ OpenAI สามารถกิน margin สูงมากเมื่อเทียบกับผู้ให้บริการหลายเจ้าของ DeepSeek หรือ OpenRouter ได้เท่านั้น เพราะโมเดลเปิดเป็นสินค้าโภคภัณฑ์
- รันโมเดลของตัวเองแบบ on-premises ดีกว่าเยอะ
  โน้ตบุ๊กเป็นสินทรัพย์ที่เสื่อมราคา ไม่มี economies of scale สเปกก็ตายตัว และสุดท้ายจะกลายเป็นกองอุปกรณ์ที่กระจัดกระจายซึ่งต้องคอยอัปเดตโมเดลให้ทันสมัย
  พอคิดถึงการใช้ไฟกับปัญหาการระบายความร้อนแล้ว ผมไม่เข้าใจจริง ๆ ว่าทำไมบริษัทถึงจะเลือกเดินทางนั้น
- สุดท้ายบริษัทก็น่าจะซื้อ local AI server
  ฮาร์ดแวร์แบบ local จะแพงเมื่อมันต้องรันซอฟต์แวร์สแตกที่ซับซ้อนและพังได้เป็นหมื่นแบบ
  local AI server ในอนาคตก็น่าจะเป็นแค่กล่องที่สื่อสารด้วยโปรโตคอลอะไรสักอย่างสำหรับ AI แล้ววางทิ้งไว้ที่มุมห้อง โดยไม่มีใครสนใจมัน
  ถึงอย่างนั้น มันอาจยังต้องมีสิทธิ์เข้าถึงหลายระบบอยู่ก็ได้ เลยยังไม่แน่ใจ แต่สุดท้ายก็คงมีใครสักคนเอา “AI ในกล่อง” ที่ลงอะไรอย่างโมเดลเปิดรุ่นล่าสุดมาให้ใช้
- เห็นด้วยกับข้ออ้างพื้นฐานนะ แต่การรัน local AI ระดับล้ำสมัย มูลค่า 1,500 ดอลลาร์ต่อเดือนนั้นไม่ได้ง่ายเลย และที่สำคัญคือนี่เป็นตัวเลขต่อ 1 ที่นั่ง
  มันเทียบเท่ากับการสร้างอย่างน้อย 20 tok/s ตลอด 24x7x365 และในความเป็นจริงมีโอกาสสูงว่าจะมากกว่านั้นมาก
  โมเดล open weights นั้นถูกกว่าโมเดลปิดมาก แม้จะให้บริการผ่านผู้ให้บริการฝั่งตะวันตกที่มีชื่อเสียงก็ตาม ดังนั้นถ้าจะให้แตะระดับค่าใช้จ่ายเท่ากัน อาจต้องเกิน 100 tok/s ซึ่งเริ่มเข้าสู่โลกของฮาร์ดแวร์ระดับดาต้าเซ็นเตอร์แล้ว
  บนแพลตฟอร์ม prosumer อาจพอแตะตัวเลขแบบแรกได้ แต่ก็คงทำได้เฉพาะภาระงานที่เฉพาะทางมาก ๆ เท่านั้น ภาพจะยิ่งแย่ลงสำหรับภาระงานแบบ agentic ที่ใช้เวลามากกับ prefill ซึ่งเป็นเรื่องปกติ เพราะมันเป็นข้อจำกัดใหญ่ของ AI แบบ on-premises
- ผมมองว่าประเด็นสำคัญไม่จำเป็นต้องเป็นว่า Uber สร้างอะไร แต่คือ การเพิ่มผลิตภาพ
  ถ้าวิศวกรใช้เครื่องมือ AI ได้ถูกทาง มันสามารถเพิ่มผลิตภาพได้มาก และสามารถใช้ LLM เหมือนวิศวกรระดับจูเนียร์หรือระดับ associate ได้
  เดือนละ 1,500 ดอลลาร์ เมื่อเทียบกับผลิตภาพระดับนั้นแล้วถือว่าถูกกว่ามาก และถ้าจะจ้างวิศวกรมนุษย์ก็ต้องจ่ายแพงกว่านี้มาก
เริ่มกังวลเรื่อง lock-in effect และ switching cost มากขึ้นเรื่อย ๆ
ผมใช้ Claude มาเกือบ 1 ปีแล้ว และเหมือนสะสม “ความรู้” ไว้ในนั้นพอสมควร
ถ้าต่อไปประสิทธิภาพต่อราคาของ Claude แย่ลง ก็คงน่ากังวล
เริ่มคิดถึงทางออกแบบกระจายศูนย์ที่แยก storage ออกจาก inference แล้ว แต่ตอนนี้ Claude ก็ยังเป็นตัวเลือกอยู่ เลยสงสัยว่ามีใครกังวลคล้าย ๆ กันไหม
- “ความรู้” นั้นมันก็แค่ไฟล์ข้อความไม่ใช่เหรอ? ผมย้ายข้ามบริการได้ง่ายมาตลอดด้วยการก๊อปปี้ไฟล์ข้อความ
- วิธีที่ผมชอบคือใช้ coding agent อย่าง Cline มันเปิดและสลับไปมาระหว่างผู้ให้บริการและโมเดลหลายเจ้าได้ง่าย
- ไม่แน่ใจว่าความรู้ในนั้นคืออะไร
  ความรู้ถูกเก็บไว้ที่ไหนเหรอ?
  ปกติความรู้ของผมจะเก็บไว้ในเอกสารแผนนอกตัว agent
  แล้วหน้าต่าง agent แต่ละอันก็เก็บเข้าคลังเป็นระยะอยู่แล้ว
ถ้าพนักงานไม่ใช้ งบ AI/LLM ของตัวเอง จะขอขึ้นเงินเดือนได้ไหม?
- น่าจะโดนไล่ออกเพราะผลงานไม่ถึงมากกว่า
ไม่แน่ใจว่าทำไมแนวทางอย่าง self-hosting เพื่อรันโมเดล open-weight ในองค์กรขนาดใหญ่ หรือแม้ไม่ถึงขั้น on-premise ก็แค่เช่า GPU server หรือไปโฮสต์กับที่อย่าง together AI ถึงยังไม่แพร่หลายกว่านี้
ฉันเคยใช้ทั้งโมเดล open-weight และโมเดลพรีเมียมอย่าง Opus, Gemini Pro แล้ว ฝั่งหลังดีกว่านิดหน่อยก็จริง แต่ยังห่างไกลจากระดับที่จะอธิบายความต่างด้านราคาได้
สำหรับงานที่ฉันใช้ ความต่างส่วนใหญ่ไม่ได้สำคัญ และคิดว่าผู้ใช้อื่น ๆ ก็น่าจะมีลักษณะการใช้งานคล้ายกัน
- ที่ $WORK ของฉันก็เพิ่งคุยประเด็นคล้าย ๆ กันไป เป็นบริษัทการเงินแบบดั้งเดิมที่จดทะเบียนใน NYSE และถ้าวัดตามมาตรฐานบริษัททั่วไปด้านความเชี่ยวชาญ IT กระบวนการคิดก็น่าจะประมาณนี้
  การให้ GPU server แรง ๆ กับนักพัฒนา/แฮ็กเกอร์ฝีมือดีแล้วปล่อยให้รันโมเดลอะไรก็ได้ตามใจ กับการดูแลแพลตฟอร์มแบบนั้นให้ทั้งบริษัทใช้งาน เป็นคนละเรื่องกันเลย
  คุณต้องมีคนที่เข้าใจและดูแลโมเดลพวกนี้ รวมถึง backend, availability และเรื่องอื่น ๆ ซึ่งคนพวกนี้มักมีแนวโน้มได้เงินเดือนสูงกว่านักพัฒนาซอฟต์แวร์ทั่วไปมาก
  ความยุ่งยากเพิ่มเติมแบบนี้ทำให้การจ่ายเงินให้แล็บวิจัยภายนอกระดับท็อป แล้วกำหนดเพดานการใช้จ่ายที่สมเหตุสมผลให้ทุกคน กลายเป็นทางเลือกที่ง่ายกว่า
- ต่อให้โมเดลพรีเมียมดีกว่าแค่ 10% ก็ยังอาจคุ้มราคามากกว่าการ self-host โมเดล open-weight ระดับประมาณ 0.5~1T
  การใช้งานแร็กขนาดมหึมาแบบนี้คงไม่ได้เต็ม 24x7x365 และส่วนใหญ่ก็ไม่ใช่องค์กรที่เน้น GPU มากพอจะเอาคอมพิวต์ที่เหลือไปฝึกโมเดลต่อได้
  ถ้าราคามากกว่า 100,000~200,000 ดอลลาร์ และอายุใช้งานราว 2 ปี มันก็ยากจะทำให้คุ้มในเชิงการเงิน
  แม้กระทั่ง self-hosting ถ้าเฉลี่ยค่าเสื่อมกับนักพัฒนาหลายคน ก็แตะประมาณ 1,000 ดอลลาร์ต่อเดือนได้ไม่ยาก และช่วงพีคก็จะเจอการจำกัดความเร็วที่ตึงมือ
  จาก 1,500 ดอลลาร์ต่อเดือน ลบ 1,000 ดอลลาร์ เหลือ 500 ดอลลาร์ จะคุ้มกับการยอมให้ “ผลิตภาพด้าน AI” ลดลง 10% ไหม? ส่วนใหญ่ฉันว่าไม่
  ในระยะสั้น ถ้าไม่มีเหตุผลที่ดีมากจริง ๆ ว่าทำไมต้อง self-host โมเดลผู้ช่วยเขียนโค้ด ฉันก็คงบอกว่าผู้ให้บริการผู้ช่วยเขียนโค้ด 2~3 อันดับแรกเป็นตัวเลือกที่ดีกว่า
  ไม่มีใครถูกเลย์ออฟเพราะซื้อไลเซนส์ Claude Code
- ไม่เข้าใจว่าทำไมถึงคิดว่ามันควรจะแพร่หลายกว่านี้
  แค่จะ pool GPU ให้ผู้ใช้หลายคนใช้ร่วมกัน พร้อมคงมาตรการควบคุมความปลอดภัย และเชื่อมเข้ากับเอกสารกับ data lake ก็ไม่ใช่งานง่ายแล้ว
  สุดท้ายก็ต้องจ่ายเงินให้ทีมที่มาดูแลเรื่องนี้อยู่ดี
- การลองทำคนเดียวครั้งหนึ่งบนเครื่องส่วนตัว กับการให้บริการโมเดลแก่พนักงาน 3,000 คน ท่ามกลางความต้องการด้านฮาร์ดแวร์และซอฟต์แวร์ที่เปลี่ยนตลอดเวลา เป็นการคำนวณคนละแบบโดยสิ้นเชิง
  คุณต้องมีฮาร์ดแวร์เฉพาะทางในดาต้าเซ็นเตอร์และผู้เชี่ยวชาญที่ดูแลมัน
  บริษัทต้องหาวิธีจัดการเรื่อง procurement, assets, costs และอีกสารพัดอย่างนอกเหนือจากธุรกิจหลักของตัวเอง
  แล้วใครล่ะที่แก้ปัญหาทั้งหมดนี้ไว้แล้ว? ก็ AWS/Azure/OpenAI เป็นต้น
- ก็ด้วยเหตุผลเดียวกับที่บริษัทต่าง ๆ ไม่ได้สร้างดาต้าเซ็นเตอร์เองสำหรับความต้องการด้าน hosting และ storage ทั่วไป แต่เอาไปไว้บน AWS, Azure ฯลฯ แทน
  การดูแลฮาร์ดแวร์และจ้างผู้เชี่ยวชาญมารันบริการมีต้นทุน
  สำหรับสิ่งที่พบได้ทั่วไปอย่างโมเดล LLM ถ้าบริษัทไม่ได้อ่อนไหวอย่างยิ่งกับการส่งไบต์ไปยัง AWS ก็ไม่มีเหตุผลอะไรเลยที่จะต้องให้บริการโมเดลด้วยฮาร์ดแวร์ของตัวเอง
มากกว่าตัวเลข เพดาน 1,500 ดอลลาร์ต่อเดือน สิ่งที่น่าสนใจกว่าคือการที่พวกเขามีเพดานแบบนี้อยู่จริง
ทีมวิศวกรรมส่วนใหญ่ที่ฉันคุยด้วยไม่รู้ด้วยซ้ำว่าบริษัทจ่ายค่า AI ต่อหัวนักพัฒนาเท่าไร เพราะมันถูกกลบอยู่ในบิลคลาวด์รวม
hard cap บังคับให้เกิดบทสนทนาที่มีประโยชน์ 2 อย่าง: เวิร์กโฟลว์แบบไหนคุ้มที่จะเรียก API และแบบไหนใช้ local inference ก็พอ และผลลัพธ์ที่ได้ถูกเทียบกับตัวชี้วัดผลิตภาพจริงหรือไม่
ถ้าไม่มี feedback loop แบบนั้น มันก็แค่กลายเป็นการแข่งขันว่าใครจะเผาโทเคนได้เร็วที่สุดเท่านั้น
- Enterprise plan ของทั้ง Anthropic และ OpenAI มี analytics แยกตามนักพัฒนาให้ทั้งคู่
  Anthropic: https://support.claude.com/en/articles/12883420-view-usage-a...
  OpenAI: https://help.openai.com/en/articles/10875114-workspace-analy...
กระแสความคิดแบบ “เพดาน 1,500 ดอลลาร์ต่อเดือนต่อเครื่องมือดูเป็นนโยบายตอบสนองต่อการใช้จ่ายเกินตัวที่สมเหตุสมผล” ต่อด้วย “การใช้โทเคนของฉันอยู่ราว 1,000 ดอลลาร์ต่อเดือนทั้งกับ Anthropic และ OpenAI แต่ตอนนี้ฉันจ่ายแค่ 100 ดอลลาร์ต่อผู้ให้บริการเพราะมีแพลน subsidized ใจกว้างสำหรับผู้สมัครสมาชิกทั่วไป” ให้ความรู้สึกเหมือนธุรกิจขายตรงหลายชั้น
โครงสร้างมันคล้ายกับพวก ‘เพชร’ ที่หาเงินจากการโปรโมต MLM ตามงานสัมมนา แล้วบอกคนที่ยังอยู่ข้างล่างว่า “การซื้อ subscription AI ตอนนี้คือโอกาสครั้งเดียวในชีวิตที่จะกลายเป็นผู้ชนะ”
ไม่แน่ว่าอาจมีอะไรบางอย่างที่สร้าง FOMO แบบ MLM vs LLM อยู่ก็ได้
- Simon Willison เป็นแบบนั้นมาตลอดตั้งแต่ LLM ออกมาใหม่ ๆ มันดูโจ่งแจ้งมากว่าเป็นคนที่รับเงินมาโปรโมต

เพดาน AI เดือนละ 1,500 ดอลลาร์ของ Uber เป็นสัญญาณที่มีประโยชน์ต่อการตั้งราคาของเครื่องมือ AI

เพดานการใช้จ่ายเครื่องมือเขียนโค้ดด้วย AI ของ Uber

สัญญาณด้านราคาและการคำนวณต้นทุน

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News