- ตรงกันข้ามกับข้ออ้างที่มักถูกพูดถึงในอุตสาหกรรม ต้นทุน AI inference นั้นถูกกว่าที่คิดมาก และอาจรับประกันความสามารถในการทำกำไรได้ด้วยซ้ำ
- จากการวิเคราะห์พบว่า ต้นทุนโทเค็นขาเข้าแทบจะนับว่าไม่มีนัยสำคัญ (ราว $0.005 ต่อหนึ่งล้านโทเค็น) ขณะที่ ต้นทุนโทเค็นขาออกสูงกว่า $3 ต่อหนึ่งล้านโทเค็น ทำให้เกิดส่วนต่างถึง 1000 เท่า
- แผนสมัครสมาชิกสำหรับผู้บริโภค (เช่น ChatGPT Pro $20/เดือน) มีอัตรากำไรเมื่อเทียบกับต้นทุน inference จริง 5–6 เท่า ส่วนแผนสำหรับนักพัฒนา (Claude Code) สูงถึง 10–20 เท่า ทำให้มีความคุ้มทุนสูงมาก
- แพ็กเกจ API ทำกำไร มากกว่า 80–95% เมื่อเทียบกับต้นทุนจริง และมีโครงสร้างรายได้ใกล้เคียงกับซอฟต์แวร์
- สุดท้ายแล้ว inference ไม่ใช่ “หลุมเผาเงิน” แต่เป็น ธุรกิจที่ทำกำไรได้สูงมาก หากใช้ประโยชน์จาก โครงสร้างไม่สมดุลระหว่างอินพุตกับเอาต์พุต ได้อย่างเหมาะสม
บทนำ
- มีข้ออ้างว่า AI โดยเฉพาะ inference สร้างต้นทุนมหาศาล แต่บทความนี้มองอย่างกังขาและเห็นว่าควรวิเคราะห์ความคุ้มค่าทางเศรษฐศาสตร์
- ผู้เขียนไม่ได้มีประสบการณ์ตรงในการรัน frontier model ขนาดใหญ่ แต่มีความเข้าใจเรื่อง บริการคลาวด์ ที่มี throughput สูง และโครงสร้างต้นทุนของ bare metal เทียบกับ hyperscaler
- การวิเคราะห์นี้เป็นเพียง napkin math และโฟกัสที่ต้นทุนคอมพิวต์ล้วน ๆ
- กำหนดให้ต้นทุน H100 GPU เดี่ยวอยู่ที่ $2 ต่อชั่วโมง โดยบริษัท AI รายใหญ่จริงอาจจัดหาได้ถูกกว่านี้
สมมติฐาน
- การวิเคราะห์นี้โฟกัสเฉพาะ ต้นทุนคอมพิวต์ล้วน ๆ และทดสอบความยั่งยืนโดยอิงจากประโยชน์ใช้สอยของโมเดลปัจจุบันโดยไม่สมมติว่ามีการปรับปรุงโมเดล
- ใช้สถาปัตยกรรม DeepSeek R1 (พารามิเตอร์รวม 671B, ทำงานจริง 37B) และสมมติว่ามีประสิทธิภาพใกล้เคียงกับ Claude Sonnet 4 และ GPT-5
สภาพแวดล้อม production ที่ใช้ H100
- การตั้งค่า production: คลัสเตอร์ H100 GPU จำนวน 72 ตัว ต้นทุน $144 ต่อชั่วโมง
- batch size 32, ใช้ tensor parallelism 8 GPU ต่อหนึ่งอินสแตนซ์โมเดล ทำให้รันโมเดลได้พร้อมกัน 9 อินสแตนซ์
- ขั้น prefill (ประมวลผลอินพุต): อิงตามแบนด์วิดท์ HBM ของ H100 ที่ 3.35TB/s สามารถประมวลผล forward pass ได้ 45 ครั้งต่อวินาที
- ที่ 32 sequence ต่อ batch (เฉลี่ย 1,000 โทเค็น) จะรองรับโทเค็นขาเข้า 1.44 ล้านโทเค็นต่อวินาที หรือ 4.68 พันล้านโทเค็นต่อชั่วโมง
- สำหรับโมเดล MoE throughput อาจลดลง 30–50% จากการ expert routing แต่ผลกระทบมีจำกัดหากทำ parallel processing ได้อย่างมีประสิทธิภาพ
- ขั้น decode (สร้างเอาต์พุต): การสร้างโทเค็นแบบลำดับต่อเนื่อง ทำได้ 1,440 โทเค็นขาออกต่อวินาที หรือ 46.7 ล้านโทเค็นต่อชั่วโมง
- คำนวณต้นทุนล้วนต่อโทเค็น
- โทเค็นขาเข้า: $144 ÷ 4.68 พันล้าน = ประมาณ $0.003 ต่อหนึ่งล้านโทเค็น
- โทเค็นขาออก: $144 ÷ 46.7 ล้าน = ประมาณ $3.08 ต่อหนึ่งล้านโทเค็น
- ความไม่สมมาตร: ส่วนต่างต้นทุนระหว่างการประมวลผลอินพุตกับการสร้างเอาต์พุตอยู่ที่ ราว 1000 เท่า
คอขวดด้านคอมพิวต์
- โดยทั่วไป แบนด์วิดท์หน่วยความจำ เป็นคอขวด แต่เมื่อใช้ sequence บริบทยาวระดับ 128k+ จะกลายเป็นว่า attention computation เป็นคอขวด ทำให้ต้นทุนเพิ่ม 2–10 เท่า
- Claude Code จำกัดไว้ที่ 200k โทเค็น จึงยังคงอยู่ในระบอบที่ต้นทุนเน้นหน่วยความจำและหลีกเลี่ยงสถานการณ์คอมพิวต์ราคาแพง
- การเก็บค่าบริการเพิ่มสำหรับหน้าต่างบริบทยาวจึงสะท้อนการเปลี่ยนแปลงทางเศรษฐศาสตร์นี้
เศรษฐศาสตร์ของผู้ใช้จริง
- แพ็กเกจผู้บริโภค ($20/เดือน ChatGPT Pro): ใช้วันละ 100,000 โทเค็น (70% อินพุต, 30% เอาต์พุต) ต้นทุนจริงราว $3/เดือน
- มาร์จิน ของ OpenAI อยู่ที่ 5–6 เท่า
- การใช้งานของนักพัฒนา (Claude Code Max 5, $100/เดือน): อินพุต 2 ล้านโทเค็น/วัน เอาต์พุต 30,000 โทเค็น/วัน ต้นทุนจริงราว $4.92/เดือน มาร์จิน 20.3 เท่า
- Max 10 ($200/เดือน): อินพุต 10 ล้านโทเค็น/วัน เอาต์พุต 100,000 โทเค็น/วัน ต้นทุนจริงราว $16.89/เดือน มาร์จิน 11.8 เท่า
- coding agent เพิ่มความคุ้มค่าได้สูงสุด เพราะมีรูปแบบการใช้งานที่เน้นอินพุตเป็นหลักซึ่งมีต้นทุนต่ำ
- มาร์จินรายได้ของ API: เมื่อเทียบราคาปัจจุบัน ($3/15 ต่อหนึ่งล้านโทเค็น) กับต้นทุนจริง ($0.01/3) จะได้ มาร์จิน 80–95%
บทสรุป
- แม้การวิเคราะห์นี้จะอิงจากสมมติฐานหลายข้อและอาจมีความคลาดเคลื่อน แต่ต่อให้สมมติว่าตัวเลขผิดไป 3 เท่า ก็ยัง ทำกำไรได้สูง
- การประมวลผลอินพุต มีต้นทุนต่ำเพียง $0.005 ต่อหนึ่งล้านโทเค็น ขณะที่การสร้างเอาต์พุตอยู่ที่ $3+ ซึ่งต่างกันถึงพันเท่า
- แกนสำคัญคือ โครงสร้างต้นทุนที่ไม่สมมาตร ระหว่างโทเค็นอินพุตกับเอาต์พุต และบริการที่ใช้ประโยชน์จากจุดนี้ได้ดีสามารถทำกำไรสูงได้
- เวิร์กโหลดที่มีสัดส่วนอินพุตสูง (ผู้ช่วยเขียนโค้ด, การวิเคราะห์เอกสาร, งานวิจัย ฯลฯ) → มีโครงสร้างต้นทุนที่แทบใกล้ศูนย์ และทำกำไรได้สูงมาก
- เวิร์กโหลดที่มีสัดส่วนเอาต์พุตสูง (เช่น การสร้างวิดีโอ) → อินพุตน้อยแต่เอาต์พุตอาจสูงถึงหลายล้านโทเค็น จึงมีโครงสร้างต้นทุนที่เสียเปรียบและจำเป็นต้องตั้งราคาสูง
- ข้ออ้างว่า “AI inference แพงจนไม่ยั่งยืน” ไม่สอดคล้องกับโครงสร้างต้นทุนจริง และอาจเป็นกลยุทธ์ของผู้เล่นรายใหญ่เดิมในการ สกัดการแข่งขัน โครงสร้างมาร์จินจริงในตอนนี้แข็งแรงมากอยู่แล้ว
- เช่นเดียวกับในอดีตที่การพูดเกินจริงเรื่องต้นทุนคลาวด์ถูกใช้เพื่อทำให้กำไรส่วนเกินของบิ๊กเทคดูสมเหตุสมผล การถกเถียงเรื่องต้นทุน inference ก็อาจเสี่ยงตกอยู่ใน การตลาดสร้างความกลัวเรื่องต้นทุน ที่เกินจริงได้
- จึงควรเข้าหาโครงสร้างต้นทุนด้วยข้อมูลข้อเท็จจริง
ยังไม่มีความคิดเห็น