- คนส่วนใหญ่มักประเมินค่าใช้จ่ายในการใช้ LLM (large language model) สูงเกินจริง แต่ในความเป็นจริงต้นทุนลดลงอย่างรวดเร็วจนมาถึงระดับที่ถูกกว่าการค้นหาบนเว็บเสียอีก
- ในช่วงกระแส generative AI แรกเริ่ม ต้นทุนการทำ inference ยังสูงอยู่ แต่ ในช่วง 2 ปีที่ผ่านมา ค่าใช้จ่ายลดลงเกือบ 1000 เท่า
- เมื่อนำ ราคาจริงของ LLM API มาเทียบกับเว็บเสิร์ช API โดยตรง จะพบว่าโมเดล LLM ราคาประหยัดบางรุ่นถูกกว่า search API ที่ถูกที่สุดเสียอีกมากกว่า 10 เท่า และแม้แต่โมเดลระดับราคากลางก็ยังมีโครงสร้างราคาที่แข่งขันได้มาก
- แทบไม่มีหลักฐานว่าผู้ให้บริการโมเดลกำลังอุดหนุนราคา API แบบฝืนจริง และยังมีกรณีที่ทำมาร์จินสูงถึง 80% เมื่อเทียบกับต้นทุน GPU จริง
- เหตุที่บริษัท AI รายใหญ่อย่าง OpenAI ขาดทุน ไม่ใช่เพราะต้นทุน แต่เป็นเพราะนโยบายการทำรายได้ที่ยังต่ำ และเป็นธุรกิจที่สามารถพลิกมีกำไรได้หากเก็บจากผู้ใช้เพียง 1 ดอลลาร์ต่อเดือนต่อคน
- ในอนาคต ภาระต้นทุนจะย้ายจากตัว LLM ไปอยู่ที่บริการ backend ภายนอก (เช่น แหล่งให้ข้อมูลต่าง ๆ) มากกว่า ตัว LLM เองจะยิ่งรันได้ถูกลง และโมเดลธุรกิจก็มีความเป็นไปได้เพียงพอ
ความเข้าใจผิดกับความจริงเรื่องต้นทุนของ LLM
- หลายคนเข้าใจผิดว่า ต้นทุนการให้บริการ LLM อย่าง ChatGPT สูงมาก
- จึงเกิดการวิเคราะห์ผิดซ้ำ ๆ ว่าธุรกิจ AI อาจไม่คุ้มค่า หรือบริการ AI สำหรับผู้บริโภคอาจทำรายได้ได้ยาก
- ความเชื่อว่า LLM ยังแพงอยู่ เป็นความคลาดเคลื่อนด้านการรับรู้
- ในช่วงแรกของกระแส AI ต้นทุน inference สูงมาก แต่ในช่วง 2 ปีล่าสุดลดลงเกือบ 1000 เท่า
- การถกเถียงจำนวนมากยังอิงกับโครงสร้างต้นทุนแบบเดิมในอดีต จึงคาดการณ์ผิด
- โมเดลราคาที่ใช้กันบ่อยอย่าง "ราคาต่อ 1 ล้านโทเค็น" เข้าใจได้ไม่ค่อยตรงไปตรงมานัก
เปรียบเทียบราคาเว็บเสิร์ช API กับ LLM API
- ค่าบริการของเว็บเสิร์ช API ที่เป็นตัวแทนตลาด
- Google Search: $35/1000 ครั้ง
- Bing Search: $15/1000 ครั้ง
- Brave Search: $5~9/1000 ครั้ง โดยยิ่งใช้ในระดับราคาสูง กลับยิ่งมีโครงสร้างที่ราคาแพงขึ้น
- โดยรวมแล้วเว็บเสิร์ช API ไม่ได้ถูกนัก และฝั่งที่คุณภาพบริการดีกว่าก็มักแพงกว่า
- ค่าบริการ LLM API (อ้างอิง 1k โทเค็น)
- Gemma 3 27B: $0.20
- Gemini 2.0 Flash: $0.40
- GPT-4.1 nano: $0.40
- Deepseek V3: $1.10
- GPT-4.1: $8.00 เป็นต้น
- การคำนวณต้นทุน LLM ให้เทียบกับการค้นหาได้ ต้องคิดจากจำนวนโทเค็นที่ส่งออกต่อหนึ่งคำถาม + ราคาต่อโทเค็น
- โดยเฉลี่ยใช้ 500~1000 โทเค็นต่อหนึ่งคิวรี จึงเปรียบเทียบกันได้โดยตรง
- โมเดล LLM ราคาประหยัดถูกกว่า search API ที่ถูกที่สุด 10~25 เท่า
- แม้แต่ LLM ระดับคุณภาพกลางก็ยังมีต้นทุนต่ำกว่าการค้นหาในช่วงเดียวกันมาก
- และหากรวมเงื่อนไขส่วนลดเพิ่มเติม เช่น การประมวลผลแบบ batch หรือส่วนลดช่วงนอกพีก ก็จะยิ่งถูกลงอีก
เหตุผลจริงที่ต้นทุนต่ำ
- ข้อสงสัยว่าผู้ให้บริการโมเดลอุดหนุนราคา API นั้นมีหลักฐานรองรับน้อยมาก
- แรงจูงใจในการกดราคาเพื่อแย่งส่วนแบ่งตลาด API ก็มีไม่มาก และราคาของ API จากผู้เล่นรายอื่นจำนวนมากก็แข่งขันกันตามกลไกตลาด
- ตามข้อมูลที่วัดจริงของ Deepseek มาร์จินเมื่ออิงต้นทุน GPU สูงถึง 80%
- ต้นทุนการฝึก (Training) กับต้นทุนการทำ inference
- ต้นทุนการฝึกถูกเฉลี่ยออกได้อย่างมีประสิทธิภาพผ่านทราฟฟิก inference ปริมาณมาก
- กลับกัน ต้นทุนที่เกิดจากการใช้บริการ backend ของ third party อาจกลายเป็นประเด็นสำคัญกว่า
โต้แย้งคำกล่าวที่ว่า “LLM API น่าจะขาดทุน”
- การขาดทุนของผู้เล่นรายใหญ่อย่าง OpenAI เป็นผลจากกลยุทธ์การทำรายได้ที่ต่ำ
- เพียงทำรายได้ในระดับ 1 ดอลลาร์ต่อเดือนก็อาจพลิกเป็นกำไรได้
- ยังมีเป้าหมายอื่น เช่น การใช้ทราฟฟิกจากผู้ใช้ฟรีเพื่อเก็บข้อมูล
- ปัญหาต้นทุนที่แท้จริงในอนาคตไม่ใช่ LLM แต่เป็น backend ภายนอก
- ตัวอย่างเช่น หาก AI agent เรียกใช้ API ภายนอกเพื่อจองตั๋ว ค่าใช้จ่ายที่แท้จริงอาจตกไปอยู่กับ third party มากกว่า
- ผู้ให้บริการต่าง ๆ มีแนวโน้มจะตอบโต้ด้วยการบล็อกการครอว์ล เปลี่ยนไปเน้นมือถือ หรือบังคับล็อกอินมากขึ้น
ทำไมเรื่องนี้จึงสำคัญ
- การคาดการณ์อนาคตจำนวนมากตั้งอยู่บนสมมติฐานที่ผิดว่า LLM มีราคาแพง
- แต่ในความจริง ทั้งต้นทุนที่ลดลงและความต้องการที่เพิ่มขึ้นกำลังเกิดขึ้นพร้อมกัน ทำให้คาดว่าราคาจะลดลงต่อและตลาดจะคึกคักมากขึ้น
- บริษัท Frontier AI มุ่งเน้นการยึดตลาดมากกว่าการทำรายได้ในระยะสั้น และนั่นทำให้ราคาบริการ LLM ต่ำเป็นพิเศษ
- ปัญหาต้นทุนที่แท้จริงไม่ได้อยู่ที่ตัว LLM แต่คือ บริการภายนอกที่ต้องเชื่อมต่อด้านหลัง (เช่น เว็บขายตั๋ว)
- ภายใต้โครงสร้างที่บริการภายนอกเหล่านี้ยังไม่ได้รับรายได้อย่างเหมาะสม อาจเกิดทั้งโมเดลรายได้ใหม่หรือความขัดแย้งเชิงเทคนิคระหว่าง AI กับบริการ backend ในอนาคต
บทสรุปและแนวโน้ม
- ต้นทุน inference ของ LLM เองไม่ใช่ข้อจำกัดหลักของธุรกิจ AI อีกต่อไป
- ด้วยต้นทุนการรันที่ต่ำและทางเลือกการทำรายได้ที่หลากหลาย (เช่น โฆษณา, สมัครสมาชิก) จึงยังมีศักยภาพทางธุรกิจเพียงพอ
- จากนี้ไป ประเด็นสำคัญจะไม่ใช่ LLM แต่จะเป็นเรื่องต้นทุนและโครงสร้างพื้นฐานของแหล่งข้อมูลภายนอกที่ AI นำไปใช้
- จำเป็นต้องปรับมุมมองเรื่องต้นทุนและกลยุทธ์ธุรกิจให้สอดคล้องกับการเปลี่ยนแปลงของตลาดและเทคโนโลยี
4 ความคิดเห็น
ตอนจำลองสถานการณ์ทั้งแบบจัดเตรียมการ์ดจอไว้ใช้เองแบบ on-prem และแบบเช่า GPU บนคลาวด์ ผมเคยคิดว่ามันแพงมาก
แต่พอทำให้เกิดการประหยัดต่อขนาดได้ ก็ดูเหมือนว่าจะพอทำได้ค่อนข้างคุ้มเลยนะครับ
เคยสงสัยว่าเราจะสร้างรายได้ด้วย LLM ได้จริงไหม แต่พอเห็นว่าเป็นไปในทางบวกก็น่าประหลาดใจเหมือนกัน
ผลการสำรวจนี้ชวนตกใจมากกว่าที่คิด... ค่าใช้จ่ายในการใช้งานโมเดลที่มีเงินลงทุนไปหลายสิบล้านล้านวอนกลับต่ำ และดูเหมือนว่าจะอยู่ในระดับที่สามารถทำกำไรได้เพียงพอแม้คิดจากต้นทุนนั้น...
ความคิดเห็นบน Hacker News
มองว่าการเอา Search API ที่ทำกำไรได้มาเทียบกับ Cloud-based LLM API ที่ยอมขาดทุนเพื่อแย่งส่วนแบ่งตลาดนั้นไม่ใช่การเปรียบเทียบที่ถูกต้อง
ข้อมูลในตอนนี้สะท้อนสถานการณ์ที่บริษัทต่าง ๆ กำลังทุ่ม capex มหาศาลเพื่อชิงความเป็นผู้นำด้าน AI แต่ยังไปไม่ถึงขั้นที่ทำกำไรได้จริง
ผลิตภัณฑ์ทั้งสองอยู่คนละช่วงของความ成熟อย่างสิ้นเชิง และความจริงที่มองข้ามไม่ได้ก็คือ เราไม่อาจหาเหตุผลมารองรับการขาดทุนต่อเนื่องในบริการอายุ 10 ปีที่การใช้งานลดลงได้
อีกทั้ง search query สามารถประมวลผลด้วย CPU และอาศัย cache hit rate สูงได้ แต่ LLM inference ส่วนใหญ่ต้องใช้ GPU และผลลัพธ์ของแต่ละโทเคนมีขนาดใหญ่ ทำให้แชร์แคชข้ามผู้ใช้ได้ยาก
แม้จะบอกว่าไม่มีหลักฐานว่า inference service ไม่ทำกำไร แต่ความจริงคือถ้าไปจ่ายค่า inference กับผู้ให้บริการโฮสติ้งอย่าง AWS โดยตรงก็จะเห็นเอง
AWS ไม่มีทางอุดหนุนบริการที่รันโมเดลภายนอกให้ตลอดไปอย่างไม่จำกัด และประเด็นสำคัญกว่าคือ capex เป็นค่าใช้จ่ายลงทุน แต่ต้นทุนการรัน inference คือ opex (ค่าใช้จ่ายดำเนินงาน)
ทุกวันนี้ผู้ให้บริการ API ที่โฮสต์โมเดลโอเพนซอร์ซจำนวนมากเหลือมาร์จินได้มากพอสมควรระหว่างค่า API กับต้นทุนฮาร์ดแวร์ inference จริง
แน่นอนว่านี่ไม่ใช่ทั้งหมด แต่ถ้ารวมการปรับแต่ง inference ของตนเองเข้าไปด้วย ก็อาจทำให้มาร์จินสูงขึ้นได้อีก
ฝั่งผู้ให้บริการโมเดลปิดอย่าง OpenAI หรือ Anthropic เอง หากประเมินจากสเปกโมเดลที่เปิดเผยออกมา ก็เชื่อว่า Anthropic มีมาร์จินที่ดีมากระหว่างค่า API กับต้นทุนฮาร์ดแวร์
ถ้าเคยเอาโมเดลเหล่านี้ไปรันใน production จริง ก็น่าจะตรวจสอบประเด็นนี้ได้ด้วยตัวเอง
มีข้อบ่งชี้ว่า Perplexity อาจมีการปรับแต่งตัวเลขทางบัญชี โดยย้าย COGS ไปลงเป็น R&D เพื่อให้ดูเหมือนมีอัตรากำไรที่ดี
ลิงก์
จากการวิเคราะห์บริการ API ของ DeepSeek ระบุว่าพวกเขาไม่เพียงทำกำไรได้ถึง 500% แต่ยังตั้งราคาถูกกว่าบริษัทสหรัฐที่ให้บริการโมเดลเดียวกันอย่างมาก
จึงมองว่า OpenAI หรือ Anthropic ก็มีความเป็นไปได้มากพอที่จะทำอัตรากำไรได้สูงกว่านี้อีกมาก
โดยทั่วไป GPU เหนือกว่า CPU ทั้งด้านต้นทุนและประสิทธิภาพพลังงาน และ Anthropic ใช้ KV-cache caching กับ system prompt ขนาด 24k โทเคน
ไม่เห็นด้วยกับมุมมองที่ว่า LLM API เป็นกลยุทธ์ยอมขาดทุนเพื่อยึดตลาด
ตอนนี้กลับมีบริการอย่าง openrouter ที่ทำให้เปลี่ยนโมเดลหรือผู้ให้บริการได้อย่างอิสระ จึงแทบไม่มี lock-in และกลยุทธ์ยึดส่วนแบ่งตลาดก็ไม่มีความหมายทางเศรษฐกิจนัก
ถ้าเป็นสินค้าผ่าน UI แบบ ChatGPT web ก็อาจอีกเรื่อง แต่การขาย API แบบขาดทุนถือว่าไม่ฉลาด
แม้แต่ VC เองก็คงไม่ยอมรับการขาย API แบบขาดทุนเช่นกัน
มองว่าการเปรียบเทียบ search engine กับ LLM โดยสมมติว่าใช้เพื่อค้นหาข้อเท็จจริงง่าย ๆ เท่านั้น (เช่น "เมืองหลวงของสหรัฐคืออะไร?") เป็นอุปมาอุปไมยที่ห่างไกลจาก use case หลักของทั้งสองบริการมากเกินไป
ถ้าใช้ search engine ก็จะเน้นการเข้าถึง web index และการได้คำตอบสั้น ๆ เป็นเรื่องของ UI/ผลิตภัณฑ์ ไม่ใช่เป้าหมายของ API
ส่วนการใช้ LLM มักนำไปใช้กับงานที่ซับซ้อนกว่า เช่น การวิเคราะห์ข้อมูลขนาดใหญ่ การรู้จำภาพ การให้เหตุผลที่ซับซ้อน หรือการเขียนโปรแกรม ซึ่งในกรณีเหล่านี้ปริมาณโทเคนจะสูงกว่าการตอบแบบ search มาก
จึงรู้สึกว่าสิ่งที่ผู้เขียนพูดคล้ายกับการบอกว่า "Honda Civic ราคาถูก เพราะราคาต่อปอนด์พอ ๆ กับแอปเปิล"
รู้สึกว่าโมเดลของ search engine แบบเดิมกำลังมีประโยชน์ลดลงเรื่อย ๆ
ผู้เชี่ยวชาญใช้ search engine น้อยลงเรื่อย ๆ และผู้ใช้ทั่วไปก็ใช้งานในลักษณะสนทนาเหมือนถามคน มากกว่าจะใช้เพื่อสำรวจ web index
query แบบ "เมืองหลวงของสหรัฐคืออะไร?" ที่มีองค์ประกอบส่วนเกินเช่นนี้ กลับเหมาะกับ LLM มากกว่า search engine
อีกทั้งยังมีปัญหาคุณภาพการค้นหาตกต่ำจากเว็บสแปม SEO จำนวนมาก
LLM รับมือกับคำถามแบบธรรมชาติได้ดีกว่า และสามารถคัดคำตอบที่ต้องการออกมาให้โดยไม่ต้องมีคำอธิบายยืดยาว สแปม หรือโฆษณาที่ไม่จำเป็น จึงคิดว่าจะยิ่งมีประโยชน์มากขึ้นในอนาคต
แม้จะไม่เห็นด้วยกับข้อชี้ว่าผู้เขียน "คงการเปรียบเทียบระหว่าง search กับ LLM ไว้แค่คำถามข้อเท็จจริงอย่างง่าย" แต่แก่นของการวิเคราะห์จริง ๆ ไม่ใช่การ "เอา search engine มาเทียบกับ LLM" หากเป็นการเทียบราคาต่อหน่วย (token/query) กับต้นทุนเพื่อคำนวณมาร์จิน
เมื่อต้องพิจารณาว่า API ยังอยู่ได้ด้วยเงินอุดหนุนหรือไม่ การเทียบกับ search engine ไม่จำเป็นเสมอไป
ยอมรับว่าการใช้ LLM กับงานวิเคราะห์ข้อมูลขนาดใหญ่และงานซับซ้อนเป็นเรื่องจริง แต่ก็ถือว่าเป็นกลุ่ม power user
เห็นว่าประเด็นที่ว่า search engine มีไว้ค้นหา web index เป็นจุดที่ดี
แต่ LLM เองก็อาจช่วยค้นหาข้อมูลที่ต้องการได้แม่นยำกว่า ซ้ำซ้อนน้อยกว่า และเร็วกว่า จึงยังบอกไม่ได้ว่า search แบบเดิมดีกว่าเสมอไป
ถ้า LLM ให้คำตอบตรง ๆ และแถมลิงก์มาให้ตรวจสอบผลลัพธ์ได้ด้วย ความพึงพอใจของผู้ใช้อาจสูงกว่าด้วยซ้ำ
ยังมีความเห็นว่าเหตุที่ Google ทำให้ผลค้นหาปกติค่อย ๆ ถูกกลบ ก็เพราะผลลัพธ์แบบอิงดัชนีกำลังมีประโยชน์น้อยลงเรื่อย ๆ
ยังมีหลักฐานว่า OpenAI ในปี 2024 อาจไม่ได้ขาดทุนหนักมาก และเมื่อดูจากปริมาณผู้เข้าชม/การใช้งานต่อเดือน ต้นทุน inference จริงอาจไม่ได้สูงอย่างที่คิด
เมื่อคำนึงว่า ChatGPT เป็นหนึ่งในเว็บไซต์ที่มีผู้เข้าชมมากที่สุดในโลกทุกเดือน และทราฟฟิกส่วนใหญ่เป็นผู้ใช้ฟรี ต้นทุนจริงอาจไม่สูงมากนัก
มีการตั้งคำถามว่าพื้นฐานของการประมาณต้นทุน LLM นั้นชัดเจนแค่ไหน
ตัวอย่างเช่น ข้อเท็จจริงล่าสุดอย่างขนาดสัมภาระบนเครื่องบิน ถ้าให้เชื่อถือได้กว่าก็ควรให้ LLM ใช้ความสามารถ web search เพื่อตรวจสอบแหล่งข้อมูล
ซึ่งเมื่อเป็นเช่นนั้น การใช้โทเคนอาจพุ่งขึ้นอย่างรวดเร็วและทำให้การประเมินต้นทุนคลาดเคลื่อน
และเมื่อมีการสนทนาหลายรอบจนบริบทสะสม การใช้โทเคนรวมก็จะพุ่งสูงขึ้น
จึงยอมรับว่า หากไม่มีข้อมูลการใช้งานจริง ก็ประเมินต้นทุนจากการคาดการณ์อย่างเดียวได้ยาก
ฉันถาม LLM เรื่องข่าวล่าสุด และ LLM จะอ่านเว็บหลายหน้าเองแล้วสรุปมาให้
ถ้าถามเรื่องที่เป็นปัจจุบัน มันก็จะทำ web search และแนบลิงก์อ้างอิงมาให้ จึงคิดว่าวิธีนี้ใช้งานได้จริง
เมื่อลองถามว่า "ขนาดสัมภาระถือขึ้นเครื่องของสายการบินสหรัฐในเส้นทาง DFW-CDG คือเท่าไร" ก็ได้รับคำตอบอย่างถูกต้องผ่านการใช้ web search พร้อมลิงก์เว็บไซต์ทางการและลิงก์ FAA
จึงคิดว่าวิธีนี้มีประสิทธิภาพในการใช้งาน
เมื่อคำนึงถึงความยากในการจัดหาชิป และค่าไฟฟ้ากับค่าอุปกรณ์ที่แพง ก็ไม่คิดว่าผู้เล่นรายใหญ่จะสามารถให้บริการ LLM แบบ API แล้วทำกำไรได้ในทันทีโดยไม่ต้องปรับปรุงความสามารถทำกำไร
ถ้าปัญหาราคาฮาร์ดแวร์และพลังงานยังไม่คลี่คลาย ก็คงยากที่จะทำกำไรก้อนใหญ่ได้ในระยะหนึ่ง
มีการยกตัวอย่างว่าแม้ YouTube จะเปิดให้บริการมา 20 ปีแล้ว Alphabet ก็ยังไม่เปิดเผยชัดเจนว่ามีกำไรสุทธิหรือไม่
ความสามารถทำกำไรสูงของ Alphabet (Google) มาจากการครองตลาด search อย่างท่วมท้นและรายได้โฆษณา
บริษัท AI เองก็กำลังเดิมพันว่าวันหนึ่งจะเปลี่ยนส่วนแบ่งตลาดให้กลายเป็นรายได้ได้
หากเกิด stickiness ขึ้น การแปลงส่วนแบ่งตลาดเป็นกำไรก็มีโอกาสสูงพอสมควร
มีการพูดว่าการที่ราคาหุ้นขึ้นเองก็อาจนับเป็นตัวชี้วัดความสามารถทำกำไรของบริษัทในความหมายหนึ่ง
พร้อมยกตัวอย่างว่า Amazon ก็ใช้กลยุทธ์คล้ายกันมานานกว่าสิบปี
จากตัวเลขที่ว่า OpenAI ขาดทุน 500 ล้านดอลลาร์ในปี 2024 และมี 500 ล้าน MAU ตรรกะที่ว่า "ถ้าแปลงผู้ใช้ฟรี 500M ให้เป็น ARPU ปีละ $10 ก็จะถึงจุดคุ้มทุนได้" เป็นตัวเลขที่ทำได้จริงยากมาก
หากเริ่มเก็บเงินจากผู้ใช้ฟรีแม้เพียง $1 ก็คาดว่าคนส่วนใหญ่จะจากไป
คำว่า "ก็แค่" ทำให้ความเป็นจริงดูง่ายเกินไปมาก
จริง ๆ ไม่ได้หมายความว่าควรเปลี่ยนเป็นเก็บ $1/เดือน แต่กำลังจะบอกว่าตอนนี้ต้นทุนการรัน LLM ถูกลงมาก จนแม้แต่โมเดลรายได้จากโฆษณาก็อาจทำกำไรได้เพียงพอ
เมื่อเทียบกับบริการที่มีขนาดผู้ใช้เท่ากันและใช้โฆษณาเป็นหลัก ต้นทุนของ LLM ตอนนี้ต่ำกว่ามาก และการสมัครสมาชิกไม่ใช่คำตอบเดียว
การเปลี่ยนผู้ใช้ 500 ล้านคนให้กลายเป็นผู้จ่ายเงิน อาจยิ่งทำให้รูปแบบการใช้งานและต้นทุนเปลี่ยนไปโดยสิ้นเชิงจนค่าใช้จ่ายพุ่งขึ้น
กลับกัน อาจตั้งสมมติฐานง่าย ๆ ได้ว่า ถ้าแค่ 1% ยอมจ่าย ก็จะมีรายได้ 1 พันล้านดอลลาร์ต่อปี
ฉันคิดว่าเหตุผลที่บริการเหล่านี้ยังยอมขาดทุนอยู่ เป็นเพราะมูลค่าของข้อมูลผู้ใช้สูงกว่าค่าสมาชิกมาก
ในความเป็นจริงไม่ได้จำเป็นที่ทุกคนต้องเปลี่ยนเป็นผู้ใช้แบบเสียเงิน แค่มีผู้ใช้เสียเงินบางส่วนมาช่วยอุดหนุนที่เหลือ ระบบก็อาจเดินต่อได้แล้ว
เมื่อเวลาผ่านไป หลังตลาดเกิดการกระจุกตัวและมีกฎระเบียบตามมา นักลงทุนก็น่าจะผลักดันให้เกิดการขึ้นราคาตามที่เคยให้สัญญาไว้
ไม่ว่าจะถามอะไร ก็อาจมีโฆษณา Coca-Cola แทรกระหว่างคำตอบ
โปรเจกต์ AI coding อาจมีโฆษณาติดมาอัตโนมัติ
และอีเมลทุกฉบับที่ 10 ที่ AI ส่งให้อาจแทรกโฆษณาประกันภัย
โอกาสในการสร้างรายได้มีอย่างไม่สิ้นสุด
มีการประเมินต้นทุนการรัน LLM ภายในบริษัทโดยอิงจากการใช้ไฟฟ้าเป็นหลัก พบว่าแม้จะมีคำขอแบบ burst จากผู้ใช้ภายใน ต้นทุนก็อยู่เพียงระดับสิบกว่าดอลลาร์ต่อ 1 ล้านโทเคน
และเพราะภาระโหลดของเซิร์ฟเวอร์ยังไม่สูงมาก หากขยายสเกลก็น่าจะมีพื้นที่ให้ลดต้นทุนลงได้อีกมาก
มีข้อสงสัยว่าการตอบกลับ 1 โทเคนของ LLM กับผลการค้นหา 1 ครั้งจาก search engine สามารถนำมาเทียบกันตรง ๆ ได้จริงหรือไม่
ผู้เขียนเปรียบเทียบการเรียก LLM 1,000 ครั้ง (ประมาณ 1 ล้านโทเคน) กับ search engine 1,000 query
แต่รู้สึกว่าอาจมีความคลาดเคลื่อนถึง 1,000 เท่า
(แก้ไขภายหลัง: พอกลับไปดูวิธีของผู้เขียนแล้วพบว่าเขาเทียบราคาจากการใช้ API 1,000 ครั้งจริง จึงเป็นความเข้าใจผิดของตัวเอง)
แก้ไขว่าผู้เขียนเทียบต้นทุนต่อหน่วยโดยใช้เกณฑ์ LLM 1,000 ครั้ง (รวม 1 ล้านโทเคน) กับ search 1,000 ครั้งจริง
ถ้า Gemini 2.0 Flash ราคา 0.4 ดอลลาร์ต่อ 1 ล้านโทเคน และ Bing Search API ราคา 15 ดอลลาร์ต่อ 1,000 query ก็จะคำนวณได้ว่าฝั่ง LLM ถูกกว่าประมาณ 37 เท่า
หากคาดว่าในอนาคตประสิทธิภาพจะดีขึ้นและต้นทุนจะลดลง 100 เท่า แล้วเหตุใดตอนนี้จึงยังเร่งขยาย data center กันมากขนาดนี้
มีความคิดว่าถ้าแค่รอรอบอัปเกรดเครื่อง ก็น่าจะใช้ data center เดิมได้เพียงพอแล้วไม่ใช่หรือ
จึงมีการพูดถึงความเป็นไปได้ว่ากระแสการลงทุนในปัจจุบันอาจเป็นฟองสบู่จริง ๆ
มีการแชร์บทความเปรียบเทียบประสิทธิภาพที่เกี่ยวข้อง
ลิงก์
มองว่าถ้าดูจากราคาเพียงอย่างเดียวก็ยังถือว่าแพง
และในภาวะที่การแข่งขันแย่งส่วนแบ่งตลาดรุนแรงมาก ก็ไม่ควรตีความตัวเลขอย่างเดียว