OpenAI และ Anthropic กำลังขาดทุนกับ inference จริงหรือไม่
(martinalderson.com)- ตรงกันข้ามกับข้ออ้างที่มักถูกพูดถึงในอุตสาหกรรม ต้นทุน AI inference นั้นถูกกว่าที่คิดมาก และอาจรับประกันความสามารถในการทำกำไรได้ด้วยซ้ำ
- จากการวิเคราะห์พบว่า ต้นทุนโทเค็นขาเข้าแทบจะนับว่าไม่มีนัยสำคัญ (ราว $0.005 ต่อหนึ่งล้านโทเค็น) ขณะที่ ต้นทุนโทเค็นขาออกสูงกว่า $3 ต่อหนึ่งล้านโทเค็น ทำให้เกิดส่วนต่างถึง 1000 เท่า
- แผนสมัครสมาชิกสำหรับผู้บริโภค (เช่น ChatGPT Pro $20/เดือน) มีอัตรากำไรเมื่อเทียบกับต้นทุน inference จริง 5–6 เท่า ส่วนแผนสำหรับนักพัฒนา (Claude Code) สูงถึง 10–20 เท่า ทำให้มีความคุ้มทุนสูงมาก
- แพ็กเกจ API ทำกำไร มากกว่า 80–95% เมื่อเทียบกับต้นทุนจริง และมีโครงสร้างรายได้ใกล้เคียงกับซอฟต์แวร์
- สุดท้ายแล้ว inference ไม่ใช่ “หลุมเผาเงิน” แต่เป็น ธุรกิจที่ทำกำไรได้สูงมาก หากใช้ประโยชน์จาก โครงสร้างไม่สมดุลระหว่างอินพุตกับเอาต์พุต ได้อย่างเหมาะสม
บทนำ
- มีข้ออ้างว่า AI โดยเฉพาะ inference สร้างต้นทุนมหาศาล แต่บทความนี้มองอย่างกังขาและเห็นว่าควรวิเคราะห์ความคุ้มค่าทางเศรษฐศาสตร์
- ผู้เขียนไม่ได้มีประสบการณ์ตรงในการรัน frontier model ขนาดใหญ่ แต่มีความเข้าใจเรื่อง บริการคลาวด์ ที่มี throughput สูง และโครงสร้างต้นทุนของ bare metal เทียบกับ hyperscaler
- การวิเคราะห์นี้เป็นเพียง napkin math และโฟกัสที่ต้นทุนคอมพิวต์ล้วน ๆ
- กำหนดให้ต้นทุน H100 GPU เดี่ยวอยู่ที่ $2 ต่อชั่วโมง โดยบริษัท AI รายใหญ่จริงอาจจัดหาได้ถูกกว่านี้
สมมติฐาน
- การวิเคราะห์นี้โฟกัสเฉพาะ ต้นทุนคอมพิวต์ล้วน ๆ และทดสอบความยั่งยืนโดยอิงจากประโยชน์ใช้สอยของโมเดลปัจจุบันโดยไม่สมมติว่ามีการปรับปรุงโมเดล
- ใช้สถาปัตยกรรม DeepSeek R1 (พารามิเตอร์รวม 671B, ทำงานจริง 37B) และสมมติว่ามีประสิทธิภาพใกล้เคียงกับ Claude Sonnet 4 และ GPT-5
สภาพแวดล้อม production ที่ใช้ H100
- การตั้งค่า production: คลัสเตอร์ H100 GPU จำนวน 72 ตัว ต้นทุน $144 ต่อชั่วโมง
- batch size 32, ใช้ tensor parallelism 8 GPU ต่อหนึ่งอินสแตนซ์โมเดล ทำให้รันโมเดลได้พร้อมกัน 9 อินสแตนซ์
- ขั้น prefill (ประมวลผลอินพุต): อิงตามแบนด์วิดท์ HBM ของ H100 ที่ 3.35TB/s สามารถประมวลผล forward pass ได้ 45 ครั้งต่อวินาที
- ที่ 32 sequence ต่อ batch (เฉลี่ย 1,000 โทเค็น) จะรองรับโทเค็นขาเข้า 1.44 ล้านโทเค็นต่อวินาที หรือ 4.68 พันล้านโทเค็นต่อชั่วโมง
- สำหรับโมเดล MoE throughput อาจลดลง 30–50% จากการ expert routing แต่ผลกระทบมีจำกัดหากทำ parallel processing ได้อย่างมีประสิทธิภาพ
- ขั้น decode (สร้างเอาต์พุต): การสร้างโทเค็นแบบลำดับต่อเนื่อง ทำได้ 1,440 โทเค็นขาออกต่อวินาที หรือ 46.7 ล้านโทเค็นต่อชั่วโมง
- คำนวณต้นทุนล้วนต่อโทเค็น
- โทเค็นขาเข้า: $144 ÷ 4.68 พันล้าน = ประมาณ $0.003 ต่อหนึ่งล้านโทเค็น
- โทเค็นขาออก: $144 ÷ 46.7 ล้าน = ประมาณ $3.08 ต่อหนึ่งล้านโทเค็น
- ความไม่สมมาตร: ส่วนต่างต้นทุนระหว่างการประมวลผลอินพุตกับการสร้างเอาต์พุตอยู่ที่ ราว 1000 เท่า
คอขวดด้านคอมพิวต์
- โดยทั่วไป แบนด์วิดท์หน่วยความจำ เป็นคอขวด แต่เมื่อใช้ sequence บริบทยาวระดับ 128k+ จะกลายเป็นว่า attention computation เป็นคอขวด ทำให้ต้นทุนเพิ่ม 2–10 เท่า
- Claude Code จำกัดไว้ที่ 200k โทเค็น จึงยังคงอยู่ในระบอบที่ต้นทุนเน้นหน่วยความจำและหลีกเลี่ยงสถานการณ์คอมพิวต์ราคาแพง
- การเก็บค่าบริการเพิ่มสำหรับหน้าต่างบริบทยาวจึงสะท้อนการเปลี่ยนแปลงทางเศรษฐศาสตร์นี้
เศรษฐศาสตร์ของผู้ใช้จริง
- แพ็กเกจผู้บริโภค ($20/เดือน ChatGPT Pro): ใช้วันละ 100,000 โทเค็น (70% อินพุต, 30% เอาต์พุต) ต้นทุนจริงราว $3/เดือน
- มาร์จิน ของ OpenAI อยู่ที่ 5–6 เท่า
- การใช้งานของนักพัฒนา (Claude Code Max 5, $100/เดือน): อินพุต 2 ล้านโทเค็น/วัน เอาต์พุต 30,000 โทเค็น/วัน ต้นทุนจริงราว $4.92/เดือน มาร์จิน 20.3 เท่า
- Max 10 ($200/เดือน): อินพุต 10 ล้านโทเค็น/วัน เอาต์พุต 100,000 โทเค็น/วัน ต้นทุนจริงราว $16.89/เดือน มาร์จิน 11.8 เท่า
- coding agent เพิ่มความคุ้มค่าได้สูงสุด เพราะมีรูปแบบการใช้งานที่เน้นอินพุตเป็นหลักซึ่งมีต้นทุนต่ำ
- มาร์จินรายได้ของ API: เมื่อเทียบราคาปัจจุบัน ($3/15 ต่อหนึ่งล้านโทเค็น) กับต้นทุนจริง ($0.01/3) จะได้ มาร์จิน 80–95%
บทสรุป
- แม้การวิเคราะห์นี้จะอิงจากสมมติฐานหลายข้อและอาจมีความคลาดเคลื่อน แต่ต่อให้สมมติว่าตัวเลขผิดไป 3 เท่า ก็ยัง ทำกำไรได้สูง
- การประมวลผลอินพุต มีต้นทุนต่ำเพียง $0.005 ต่อหนึ่งล้านโทเค็น ขณะที่การสร้างเอาต์พุตอยู่ที่ $3+ ซึ่งต่างกันถึงพันเท่า
- แกนสำคัญคือ โครงสร้างต้นทุนที่ไม่สมมาตร ระหว่างโทเค็นอินพุตกับเอาต์พุต และบริการที่ใช้ประโยชน์จากจุดนี้ได้ดีสามารถทำกำไรสูงได้
- เวิร์กโหลดที่มีสัดส่วนอินพุตสูง (ผู้ช่วยเขียนโค้ด, การวิเคราะห์เอกสาร, งานวิจัย ฯลฯ) → มีโครงสร้างต้นทุนที่แทบใกล้ศูนย์ และทำกำไรได้สูงมาก
- เวิร์กโหลดที่มีสัดส่วนเอาต์พุตสูง (เช่น การสร้างวิดีโอ) → อินพุตน้อยแต่เอาต์พุตอาจสูงถึงหลายล้านโทเค็น จึงมีโครงสร้างต้นทุนที่เสียเปรียบและจำเป็นต้องตั้งราคาสูง
- ข้ออ้างว่า “AI inference แพงจนไม่ยั่งยืน” ไม่สอดคล้องกับโครงสร้างต้นทุนจริง และอาจเป็นกลยุทธ์ของผู้เล่นรายใหญ่เดิมในการ สกัดการแข่งขัน โครงสร้างมาร์จินจริงในตอนนี้แข็งแรงมากอยู่แล้ว
- เช่นเดียวกับในอดีตที่การพูดเกินจริงเรื่องต้นทุนคลาวด์ถูกใช้เพื่อทำให้กำไรส่วนเกินของบิ๊กเทคดูสมเหตุสมผล การถกเถียงเรื่องต้นทุน inference ก็อาจเสี่ยงตกอยู่ใน การตลาดสร้างความกลัวเรื่องต้นทุน ที่เกินจริงได้
- จึงควรเข้าหาโครงสร้างต้นทุนด้วยข้อมูลข้อเท็จจริง
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
การคำนวณทางคณิตศาสตร์ในบทความนี้ผิดพลาดในหลายจุด
โดยเฉพาะสมมติฐานที่ว่าขั้นตอน prefill ติดข้อจำกัดด้านแบนด์วิดท์นั้นไม่ถูกต้อง
หากแกะค่า MFU ที่ผู้เขียนคำนวณไว้ จะได้ 13 PFLOPS/s ซึ่งเป็นตัวเลขที่เป็นไปไม่ได้ เพราะสูงกว่า สมรรถนะสูงสุดของฮาร์ดแวร์จริง 7 เท่า
สมมติฐานอย่างคำขอพร้อมกัน 32 รายการ, ขีดจำกัด GPU 8 ตัว, และการที่มีเพียงงาน attention เท่านั้นที่เป็นคอขวด ก็ล้วนเป็นสมมติฐานที่ผิดทั้งหมด
น่าเสียดายที่คนใน HN ที่วิจารณ์บทความนี้กลับชี้แค่จุดย่อย ๆ แทนที่จะพูดถึงข้อผิดพลาดระดับรากฐาน
ถ้าบทความนี้ถูกต้องจริง ข้ออ้างที่ว่า OpenAI หรือ Anthropic กำลังขาดทุนจาก inference ก็มีหลักฐานรองรับที่อ่อนมาก
ส่วนเรื่องต้นทุนของ output token ก็ผิดไปมากเช่นกัน
ขอบคุณสำหรับการชี้ว่าคณิตศาสตร์ผิด แต่ถ้าเป็นไปได้ก็น่าจะเสนอ ตัวเลขที่ถูกต้อง มาด้วย เพื่อช่วยให้ปรับความคาดหวังได้
ฉันลองทำโมเดลคำนวณมาหลายครั้ง และมองว่า inference สามารถมีมาร์จินเกิน 50% ได้ ขึ้นกับค่าเสื่อมราคา GPU และ การเพิ่มประสิทธิภาพการใช้ทรัพยากร
แต่ผลลัพธ์จะแตกต่างมาก ขึ้นกับว่าจะ นับต้นทุนการฝึกโมเดลรวมเข้าไปหรือไม่
ถ้าไม่นำต้นทุนฝึกมาบันทึกเป็นสินทรัพย์ มาร์จินจะดูดี แต่ถ้านำมาคิดรวมแบบค่าเสื่อมราคา ความสามารถในการทำกำไรจะลดลงอย่างรวดเร็ว
จึงมีคำถามว่าทำไมถึงตัดต้นทุนฝึกออก
หากเป็นแล็บ AI ขนาดใหญ่ก็อาจทำมาร์จินสูงได้ แต่บริษัททั่วไปไม่เหมือนกัน
ต่อให้คิดค่าเสื่อม GPU เป็นเวลา 5 ปี ถ้าอัตราการใช้งานลดลงจาก ส่วนแบ่งตลาดที่ลดลง ก็อาจร้ายแรงได้
ต้นทุนการฝึกตามมาตรฐาน IFRS/GAAP ก็เป็นต้นทุนที่ผูกกับรายได้โดยตรง และสุดท้ายย่อมต้องถูกรวมอยู่ใน ต้นทุนขาย
Sam Altman เคยพูดว่า "เราทำกำไรจาก inference ได้ และถ้าตัดต้นทุนฝึกออกก็ทำกำไรได้ดีมาก"
Amodei ก็อธิบายในทำนองเดียวกันว่า ถ้ามองโมเดลหนึ่งตัวเป็นเหมือนบริษัทหนึ่งแห่ง ต้นทุนฝึก 100 ล้านดอลลาร์และรายได้ 200 ล้านดอลลาร์ ก็หมายความว่า ตัวโมเดลเองมีกำไร
เพียงแต่ในเวลาเดียวกันบริษัททั้งบริษัทกลับขาดทุน เพราะกำลังฝึกโมเดลรุ่นถัดไปที่มีต้นทุนสูงกว่า
แต่คำพูดว่า "ถ้าหักต้นทุนฝึกออกก็ยังมีกำไร" แทบใช้ได้กับทุกบริษัทอยู่แล้ว จึงเป็น คำพูดเชย ๆ ที่ไม่ได้มีความหมายมากนัก
ในความเป็นจริง OpenAI มีโครงสร้างที่ เงินหมุนวน ผ่านการลงทุนในสตาร์ทอัพและการให้เครดิต ทำให้ยากจะประเมินความสามารถในการทำกำไรที่แท้จริง
ตามพอดแคสต์ของ NYT, Sam พูดว่า "ถ้ามองเฉพาะ inference เรากำไร" แต่ COO ที่นั่งอยู่ข้าง ๆ กลับมี ปฏิกิริยากำกวม
ถ้า inference ถูกอย่างที่บทความอ้างจริง ก็ชวนสงสัยว่าทำไมจึงไม่มี ผู้ให้บริการ API ราคาถูกมาก จำนวนมาก
ในโลกความจริง ผู้ให้บริการราคาถูกส่วนใหญ่มักรันแต่โมเดลขนาดเล็ก
ถ้าอย่างนั้นก็ยิ่งน่าสงสัยว่าทำไมโมเดลใหญ่แบบ DeepSeek-R1 ถึงยังใช้งานในราคาถูกไม่ได้
ที่จริงตอนนี้ก็มีผู้ให้บริการ API หลายรายแล้ว และบางแห่งก็ให้บริการ DeepSeek-R1 ฟรี ด้วย
มีผู้ให้บริการอย่าง DeepInfra เช่นกัน และราคาจริงก็ถูกกว่าที่บทความคาดไว้เสียอีก
แต่ก็ยังมี ต้นทุนคงที่มหาศาล อย่างการฝึกโมเดล การสร้างโครงสร้างพื้นฐาน และค่าบุคลากร ดังนั้นจะอธิบายความสามารถในการทำกำไรด้วยแค่ต้นทุน inference ต่อหน่วยไม่ได้
หากจะรันโมเดล 600B เองโดยตรง ก็ต้องใช้เงินหลายหมื่นดอลลาร์สำหรับ GPU และส่วนใหญ่ก็จะ ว่างงาน ทำให้ไม่มีประสิทธิภาพ
ในมุมของคนที่มีประสบการณ์ด้านสถาปัตยกรรม GPU แม้การคำนวณ attention ในบริบทยาวจะ เพิ่มขึ้นแบบ O(n²) ในทางทฤษฎี
บทความนี้คำนวณโดยอิง DeepSeek R1 แต่ DeepSeek นั้น มีประสิทธิภาพสูงผิดปกติ จึงไม่เหมาะจะใช้ประมาณต้นทุนของ OpenAI/Anthropic
ประสิทธิภาพของ DeepSeek มาจาก MoE และ MLA attention
เหตุผลที่ DeepSeek เขย่าตลาดได้ ไม่ใช่เพราะประสิทธิภาพของ inference แต่เป็นเพราะคำอ้างว่า ต้นทุนการฝึกอยู่ที่ 5 ล้านดอลลาร์
ในความเป็นจริงยากจะบอกว่า GPT-5 หรือ Claude 4 มีประสิทธิภาพแย่กว่า DeepSeek
Amodei ก็พูดเช่นกันว่า DeepSeek เป็นเพียงส่วนหนึ่งของ เส้นโค้งการลดต้นทุนที่คาดการณ์ไว้
ตัวเลขจำนวนโทเค็นต่อวันที่บทความยกมานั้นต่ำเกินไปมาก
ราคาของ ChatGPT Pro ก็ถูกอ้างผิดเช่นกัน
ความจริงคือ 200 ดอลลาร์ต่อเดือน และ Sam Altman ก็เคยพูดเองว่า "เราขาดทุนจากการสมัคร Pro"
เพราะผู้คนใช้งานมากกว่าที่คาดไว้มาก
แต่ช่วงหลังเขาก็พูดว่า "เรากำไรจาก inference"
โดยส่วนตัวแล้ว ฉัน ไม่เชื่อคำพูดของ Sam
ในความเป็นจริง มีความเป็นไปได้สูงว่าผู้ใช้ 10% แรก จะกินสัดส่วนการใช้งานส่วนใหญ่ตามการกระจายแบบ power law
ตามรายงานล่าสุด Anthropic มี มาร์จิน 60% ส่วน OpenAI อยู่ที่ราว มาร์จิน 50% หากรวมผู้ใช้ฟรีด้วย
ต้นทุนยังลดลงอีกจาก speculative decoding, caching เป็นต้น
และสมมติฐานเรื่อง 37 พันล้านพารามิเตอร์ในบทความก็ไม่ตรงกับขนาดโมเดลจริง
แต่ดูแค่มาร์จินอย่างเดียวก็ยังไม่เห็นภาพทั้งหมด
Sam Altman พูดซ้ำหลายครั้งในการสัมภาษณ์ต่าง ๆ ว่า "ถ้าหักต้นทุนฝึกออก เรากำไร"