4 คะแนน โดย GN⁺ 2025-08-29 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ตรงกันข้ามกับข้ออ้างที่มักถูกพูดถึงในอุตสาหกรรม ต้นทุน AI inference นั้นถูกกว่าที่คิดมาก และอาจรับประกันความสามารถในการทำกำไรได้ด้วยซ้ำ
  • จากการวิเคราะห์พบว่า ต้นทุนโทเค็นขาเข้าแทบจะนับว่าไม่มีนัยสำคัญ (ราว $0.005 ต่อหนึ่งล้านโทเค็น) ขณะที่ ต้นทุนโทเค็นขาออกสูงกว่า $3 ต่อหนึ่งล้านโทเค็น ทำให้เกิดส่วนต่างถึง 1000 เท่า
  • แผนสมัครสมาชิกสำหรับผู้บริโภค (เช่น ChatGPT Pro $20/เดือน) มีอัตรากำไรเมื่อเทียบกับต้นทุน inference จริง 5–6 เท่า ส่วนแผนสำหรับนักพัฒนา (Claude Code) สูงถึง 10–20 เท่า ทำให้มีความคุ้มทุนสูงมาก
  • แพ็กเกจ API ทำกำไร มากกว่า 80–95% เมื่อเทียบกับต้นทุนจริง และมีโครงสร้างรายได้ใกล้เคียงกับซอฟต์แวร์
  • สุดท้ายแล้ว inference ไม่ใช่ “หลุมเผาเงิน” แต่เป็น ธุรกิจที่ทำกำไรได้สูงมาก หากใช้ประโยชน์จาก โครงสร้างไม่สมดุลระหว่างอินพุตกับเอาต์พุต ได้อย่างเหมาะสม

บทนำ

  • มีข้ออ้างว่า AI โดยเฉพาะ inference สร้างต้นทุนมหาศาล แต่บทความนี้มองอย่างกังขาและเห็นว่าควรวิเคราะห์ความคุ้มค่าทางเศรษฐศาสตร์
    • ผู้เขียนไม่ได้มีประสบการณ์ตรงในการรัน frontier model ขนาดใหญ่ แต่มีความเข้าใจเรื่อง บริการคลาวด์ ที่มี throughput สูง และโครงสร้างต้นทุนของ bare metal เทียบกับ hyperscaler
  • การวิเคราะห์นี้เป็นเพียง napkin math และโฟกัสที่ต้นทุนคอมพิวต์ล้วน ๆ
    • กำหนดให้ต้นทุน H100 GPU เดี่ยวอยู่ที่ $2 ต่อชั่วโมง โดยบริษัท AI รายใหญ่จริงอาจจัดหาได้ถูกกว่านี้

สมมติฐาน

  • การวิเคราะห์นี้โฟกัสเฉพาะ ต้นทุนคอมพิวต์ล้วน ๆ และทดสอบความยั่งยืนโดยอิงจากประโยชน์ใช้สอยของโมเดลปัจจุบันโดยไม่สมมติว่ามีการปรับปรุงโมเดล
    • ใช้สถาปัตยกรรม DeepSeek R1 (พารามิเตอร์รวม 671B, ทำงานจริง 37B) และสมมติว่ามีประสิทธิภาพใกล้เคียงกับ Claude Sonnet 4 และ GPT-5

สภาพแวดล้อม production ที่ใช้ H100

  • การตั้งค่า production: คลัสเตอร์ H100 GPU จำนวน 72 ตัว ต้นทุน $144 ต่อชั่วโมง
    • batch size 32, ใช้ tensor parallelism 8 GPU ต่อหนึ่งอินสแตนซ์โมเดล ทำให้รันโมเดลได้พร้อมกัน 9 อินสแตนซ์
  • ขั้น prefill (ประมวลผลอินพุต): อิงตามแบนด์วิดท์ HBM ของ H100 ที่ 3.35TB/s สามารถประมวลผล forward pass ได้ 45 ครั้งต่อวินาที
    • ที่ 32 sequence ต่อ batch (เฉลี่ย 1,000 โทเค็น) จะรองรับโทเค็นขาเข้า 1.44 ล้านโทเค็นต่อวินาที หรือ 4.68 พันล้านโทเค็นต่อชั่วโมง
    • สำหรับโมเดล MoE throughput อาจลดลง 30–50% จากการ expert routing แต่ผลกระทบมีจำกัดหากทำ parallel processing ได้อย่างมีประสิทธิภาพ
  • ขั้น decode (สร้างเอาต์พุต): การสร้างโทเค็นแบบลำดับต่อเนื่อง ทำได้ 1,440 โทเค็นขาออกต่อวินาที หรือ 46.7 ล้านโทเค็นต่อชั่วโมง
  • คำนวณต้นทุนล้วนต่อโทเค็น
    • โทเค็นขาเข้า: $144 ÷ 4.68 พันล้าน = ประมาณ $0.003 ต่อหนึ่งล้านโทเค็น
    • โทเค็นขาออก: $144 ÷ 46.7 ล้าน = ประมาณ $3.08 ต่อหนึ่งล้านโทเค็น
      • ความไม่สมมาตร: ส่วนต่างต้นทุนระหว่างการประมวลผลอินพุตกับการสร้างเอาต์พุตอยู่ที่ ราว 1000 เท่า

คอขวดด้านคอมพิวต์

  • โดยทั่วไป แบนด์วิดท์หน่วยความจำ เป็นคอขวด แต่เมื่อใช้ sequence บริบทยาวระดับ 128k+ จะกลายเป็นว่า attention computation เป็นคอขวด ทำให้ต้นทุนเพิ่ม 2–10 เท่า
    • Claude Code จำกัดไว้ที่ 200k โทเค็น จึงยังคงอยู่ในระบอบที่ต้นทุนเน้นหน่วยความจำและหลีกเลี่ยงสถานการณ์คอมพิวต์ราคาแพง
    • การเก็บค่าบริการเพิ่มสำหรับหน้าต่างบริบทยาวจึงสะท้อนการเปลี่ยนแปลงทางเศรษฐศาสตร์นี้

เศรษฐศาสตร์ของผู้ใช้จริง

  • แพ็กเกจผู้บริโภค ($20/เดือน ChatGPT Pro): ใช้วันละ 100,000 โทเค็น (70% อินพุต, 30% เอาต์พุต) ต้นทุนจริงราว $3/เดือน
    • มาร์จิน ของ OpenAI อยู่ที่ 5–6 เท่า
  • การใช้งานของนักพัฒนา (Claude Code Max 5, $100/เดือน): อินพุต 2 ล้านโทเค็น/วัน เอาต์พุต 30,000 โทเค็น/วัน ต้นทุนจริงราว $4.92/เดือน มาร์จิน 20.3 เท่า
    • Max 10 ($200/เดือน): อินพุต 10 ล้านโทเค็น/วัน เอาต์พุต 100,000 โทเค็น/วัน ต้นทุนจริงราว $16.89/เดือน มาร์จิน 11.8 เท่า
    • coding agent เพิ่มความคุ้มค่าได้สูงสุด เพราะมีรูปแบบการใช้งานที่เน้นอินพุตเป็นหลักซึ่งมีต้นทุนต่ำ
  • มาร์จินรายได้ของ API: เมื่อเทียบราคาปัจจุบัน ($3/15 ต่อหนึ่งล้านโทเค็น) กับต้นทุนจริง ($0.01/3) จะได้ มาร์จิน 80–95%

บทสรุป

  • แม้การวิเคราะห์นี้จะอิงจากสมมติฐานหลายข้อและอาจมีความคลาดเคลื่อน แต่ต่อให้สมมติว่าตัวเลขผิดไป 3 เท่า ก็ยัง ทำกำไรได้สูง
    • การประมวลผลอินพุต มีต้นทุนต่ำเพียง $0.005 ต่อหนึ่งล้านโทเค็น ขณะที่การสร้างเอาต์พุตอยู่ที่ $3+ ซึ่งต่างกันถึงพันเท่า
  • แกนสำคัญคือ โครงสร้างต้นทุนที่ไม่สมมาตร ระหว่างโทเค็นอินพุตกับเอาต์พุต และบริการที่ใช้ประโยชน์จากจุดนี้ได้ดีสามารถทำกำไรสูงได้
    • เวิร์กโหลดที่มีสัดส่วนอินพุตสูง (ผู้ช่วยเขียนโค้ด, การวิเคราะห์เอกสาร, งานวิจัย ฯลฯ) → มีโครงสร้างต้นทุนที่แทบใกล้ศูนย์ และทำกำไรได้สูงมาก
    • เวิร์กโหลดที่มีสัดส่วนเอาต์พุตสูง (เช่น การสร้างวิดีโอ) → อินพุตน้อยแต่เอาต์พุตอาจสูงถึงหลายล้านโทเค็น จึงมีโครงสร้างต้นทุนที่เสียเปรียบและจำเป็นต้องตั้งราคาสูง
  • ข้ออ้างว่า “AI inference แพงจนไม่ยั่งยืน” ไม่สอดคล้องกับโครงสร้างต้นทุนจริง และอาจเป็นกลยุทธ์ของผู้เล่นรายใหญ่เดิมในการ สกัดการแข่งขัน โครงสร้างมาร์จินจริงในตอนนี้แข็งแรงมากอยู่แล้ว
  • เช่นเดียวกับในอดีตที่การพูดเกินจริงเรื่องต้นทุนคลาวด์ถูกใช้เพื่อทำให้กำไรส่วนเกินของบิ๊กเทคดูสมเหตุสมผล การถกเถียงเรื่องต้นทุน inference ก็อาจเสี่ยงตกอยู่ใน การตลาดสร้างความกลัวเรื่องต้นทุน ที่เกินจริงได้
    • จึงควรเข้าหาโครงสร้างต้นทุนด้วยข้อมูลข้อเท็จจริง

1 ความคิดเห็น

 
GN⁺ 2025-08-29
ความคิดเห็นบน Hacker News
  • การคำนวณทางคณิตศาสตร์ในบทความนี้ผิดพลาดในหลายจุด

    • โดยเฉพาะสมมติฐานที่ว่าขั้นตอน prefill ติดข้อจำกัดด้านแบนด์วิดท์นั้นไม่ถูกต้อง

    • หากแกะค่า MFU ที่ผู้เขียนคำนวณไว้ จะได้ 13 PFLOPS/s ซึ่งเป็นตัวเลขที่เป็นไปไม่ได้ เพราะสูงกว่า สมรรถนะสูงสุดของฮาร์ดแวร์จริง 7 เท่า

    • สมมติฐานอย่างคำขอพร้อมกัน 32 รายการ, ขีดจำกัด GPU 8 ตัว, และการที่มีเพียงงาน attention เท่านั้นที่เป็นคอขวด ก็ล้วนเป็นสมมติฐานที่ผิดทั้งหมด

    • น่าเสียดายที่คนใน HN ที่วิจารณ์บทความนี้กลับชี้แค่จุดย่อย ๆ แทนที่จะพูดถึงข้อผิดพลาดระดับรากฐาน

    • ถ้าบทความนี้ถูกต้องจริง ข้ออ้างที่ว่า OpenAI หรือ Anthropic กำลังขาดทุนจาก inference ก็มีหลักฐานรองรับที่อ่อนมาก

    • ส่วนเรื่องต้นทุนของ output token ก็ผิดไปมากเช่นกัน

      • ในความเป็นจริง แค่มี GPU cluster ที่ทรงพลัง ก็สามารถถอดรหัสโมเดลขนาดใหญ่ได้ในต้นทุนต่ำ
      • ยกตัวอย่างว่าเมื่อ 4 เดือนก่อน ต้นทุนอยู่ราว 0.2 ดอลลาร์ต่อ output token 1 ล้านโทเค็น และหลังจากนั้นก็ยิ่งถูกลงอีกด้วย GPU B200 และการปรับแต่งโค้ด
    • ขอบคุณสำหรับการชี้ว่าคณิตศาสตร์ผิด แต่ถ้าเป็นไปได้ก็น่าจะเสนอ ตัวเลขที่ถูกต้อง มาด้วย เพื่อช่วยให้ปรับความคาดหวังได้

  • ฉันลองทำโมเดลคำนวณมาหลายครั้ง และมองว่า inference สามารถมีมาร์จินเกิน 50% ได้ ขึ้นกับค่าเสื่อมราคา GPU และ การเพิ่มประสิทธิภาพการใช้ทรัพยากร

    • แต่ผลลัพธ์จะแตกต่างมาก ขึ้นกับว่าจะ นับต้นทุนการฝึกโมเดลรวมเข้าไปหรือไม่

    • ถ้าไม่นำต้นทุนฝึกมาบันทึกเป็นสินทรัพย์ มาร์จินจะดูดี แต่ถ้านำมาคิดรวมแบบค่าเสื่อมราคา ความสามารถในการทำกำไรจะลดลงอย่างรวดเร็ว

    • จึงมีคำถามว่าทำไมถึงตัดต้นทุนฝึกออก

      • โมเดลไม่ได้ถูกใช้ได้นานเป็นปี ๆ แต่ต้องฝึกใหม่ทุกไม่กี่เดือนเพื่อรักษาความสามารถในการแข่งขัน
    • หากเป็นแล็บ AI ขนาดใหญ่ก็อาจทำมาร์จินสูงได้ แต่บริษัททั่วไปไม่เหมือนกัน

      • ตัวอย่างเช่นจากข้อมูลที่ทีม DeepSeek เปิดเผยไว้ 8x H200 SXM ที่รันด้วย vLLM ให้ความเร็วประมาณ 12K tok/s
      • แต่ถ้าจะรองรับ 100K~200K tok/s ก็ต้องใช้ GPU จำนวนมหาศาล และส่วนใหญ่จะ ปล่อยว่างไว้
      • ดังนั้นสมมติฐานอย่างการใช้ทรัพยากร 100%, การประมวลผล input ฟรี, หรือไม่มีคอขวดด้านเครือข่าย จึงไม่สมจริง
    • ต่อให้คิดค่าเสื่อม GPU เป็นเวลา 5 ปี ถ้าอัตราการใช้งานลดลงจาก ส่วนแบ่งตลาดที่ลดลง ก็อาจร้ายแรงได้

    • ต้นทุนการฝึกตามมาตรฐาน IFRS/GAAP ก็เป็นต้นทุนที่ผูกกับรายได้โดยตรง และสุดท้ายย่อมต้องถูกรวมอยู่ใน ต้นทุนขาย

  • Sam Altman เคยพูดว่า "เราทำกำไรจาก inference ได้ และถ้าตัดต้นทุนฝึกออกก็ทำกำไรได้ดีมาก"

    • Amodei ก็อธิบายในทำนองเดียวกันว่า ถ้ามองโมเดลหนึ่งตัวเป็นเหมือนบริษัทหนึ่งแห่ง ต้นทุนฝึก 100 ล้านดอลลาร์และรายได้ 200 ล้านดอลลาร์ ก็หมายความว่า ตัวโมเดลเองมีกำไร

    • เพียงแต่ในเวลาเดียวกันบริษัททั้งบริษัทกลับขาดทุน เพราะกำลังฝึกโมเดลรุ่นถัดไปที่มีต้นทุนสูงกว่า

    • แต่คำพูดว่า "ถ้าหักต้นทุนฝึกออกก็ยังมีกำไร" แทบใช้ได้กับทุกบริษัทอยู่แล้ว จึงเป็น คำพูดเชย ๆ ที่ไม่ได้มีความหมายมากนัก

    • ในความเป็นจริง OpenAI มีโครงสร้างที่ เงินหมุนวน ผ่านการลงทุนในสตาร์ทอัพและการให้เครดิต ทำให้ยากจะประเมินความสามารถในการทำกำไรที่แท้จริง

    • ตามพอดแคสต์ของ NYT, Sam พูดว่า "ถ้ามองเฉพาะ inference เรากำไร" แต่ COO ที่นั่งอยู่ข้าง ๆ กลับมี ปฏิกิริยากำกวม

      • หมายความว่าในความเป็นจริง อาจยังไม่ถึงขั้นมีกำไรเต็มตัวแม้ดูเฉพาะ inference ก็ตาม
  • ถ้า inference ถูกอย่างที่บทความอ้างจริง ก็ชวนสงสัยว่าทำไมจึงไม่มี ผู้ให้บริการ API ราคาถูกมาก จำนวนมาก

    • ในโลกความจริง ผู้ให้บริการราคาถูกส่วนใหญ่มักรันแต่โมเดลขนาดเล็ก

    • ถ้าอย่างนั้นก็ยิ่งน่าสงสัยว่าทำไมโมเดลใหญ่แบบ DeepSeek-R1 ถึงยังใช้งานในราคาถูกไม่ได้

    • ที่จริงตอนนี้ก็มีผู้ให้บริการ API หลายรายแล้ว และบางแห่งก็ให้บริการ DeepSeek-R1 ฟรี ด้วย

    • มีผู้ให้บริการอย่าง DeepInfra เช่นกัน และราคาจริงก็ถูกกว่าที่บทความคาดไว้เสียอีก

    • แต่ก็ยังมี ต้นทุนคงที่มหาศาล อย่างการฝึกโมเดล การสร้างโครงสร้างพื้นฐาน และค่าบุคลากร ดังนั้นจะอธิบายความสามารถในการทำกำไรด้วยแค่ต้นทุน inference ต่อหน่วยไม่ได้

    • หากจะรันโมเดล 600B เองโดยตรง ก็ต้องใช้เงินหลายหมื่นดอลลาร์สำหรับ GPU และส่วนใหญ่ก็จะ ว่างงาน ทำให้ไม่มีประสิทธิภาพ

      • เพราะอย่างนั้นการที่ผู้ให้บริการโมเดลรวม GPU แล้วให้บริการเป็น โครงสร้างพื้นฐานแบบใช้ร่วมกัน จึงสมเหตุสมผล
  • ในมุมของคนที่มีประสบการณ์ด้านสถาปัตยกรรม GPU แม้การคำนวณ attention ในบริบทยาวจะ เพิ่มขึ้นแบบ O(n²) ในทางทฤษฎี

    • แต่คอขวดจริงคือ ความเร็วในการส่งข้อมูลของหน่วยความจำ
    • ตัวอย่างเช่น ต่อให้เป็น HBM 2+TB/s ก็ยังยากจะตอบสนองแบนด์วิดท์ที่ต้องการต่อคอร์ และหากนับการชนกันของการเข้าถึงข้อมูลด้วย คอขวดจะรุนแรงขึ้นอีกหลายพันเท่า
  • บทความนี้คำนวณโดยอิง DeepSeek R1 แต่ DeepSeek นั้น มีประสิทธิภาพสูงผิดปกติ จึงไม่เหมาะจะใช้ประมาณต้นทุนของ OpenAI/Anthropic

    • ประสิทธิภาพของ DeepSeek มาจาก MoE และ MLA attention

      • แต่ก็มีความเป็นไปได้สูงว่า OpenAI หรือ Google เองก็ใช้การปรับแต่งแบบคล้ายกันมานานแล้ว
      • GPT OSS ใช้ถึงระดับ fp4 แต่ DeepSeek ยังไม่ใช่
    • เหตุผลที่ DeepSeek เขย่าตลาดได้ ไม่ใช่เพราะประสิทธิภาพของ inference แต่เป็นเพราะคำอ้างว่า ต้นทุนการฝึกอยู่ที่ 5 ล้านดอลลาร์

    • ในความเป็นจริงยากจะบอกว่า GPT-5 หรือ Claude 4 มีประสิทธิภาพแย่กว่า DeepSeek

    • Amodei ก็พูดเช่นกันว่า DeepSeek เป็นเพียงส่วนหนึ่งของ เส้นโค้งการลดต้นทุนที่คาดการณ์ไว้

      • กล่าวคือ ความพิเศษไม่ใช่การทะลุเพดานเชิงนวัตกรรม แต่เป็นการที่บริษัทจีนเป็นฝ่ายแสดงให้เห็นก่อน
  • ตัวเลขจำนวนโทเค็นต่อวันที่บทความยกมานั้นต่ำเกินไปมาก

    • ฉันใช้เฉลี่ยวันละ 300 ล้านถึง 800 ล้านโทเค็น และเพื่อนร่วมงานก็ใช้ราว 150 ล้านถึง 600 ล้านโทเค็น
    • อีกทั้งยังไม่ได้คำนึงถึง prompt caching ซึ่งช่วยลดปริมาณ inference ได้ 85~95%
    • และยังต้องระบุด้วยว่าใช้ รูปแบบการ quantization แบบใดกับโมเดลและ KV cache จึงจะคำนวณได้แม่นยำ
  • ราคาของ ChatGPT Pro ก็ถูกอ้างผิดเช่นกัน

    • ความจริงคือ 200 ดอลลาร์ต่อเดือน และ Sam Altman ก็เคยพูดเองว่า "เราขาดทุนจากการสมัคร Pro"

    • เพราะผู้คนใช้งานมากกว่าที่คาดไว้มาก

    • แต่ช่วงหลังเขาก็พูดว่า "เรากำไรจาก inference"

      • อย่างไรก็ดี เนื่องจากเป็นบริษัทเอกชน จึงยากจะรู้ว่าคำพูดไหนใกล้ความจริงมากกว่า
    • โดยส่วนตัวแล้ว ฉัน ไม่เชื่อคำพูดของ Sam

      • รู้สึกว่าใกล้เคียงกับคำพูดทางการตลาดแบบ "ผลิตภัณฑ์ของเรามีคุณค่าสูง" มากกว่า
    • ในความเป็นจริง มีความเป็นไปได้สูงว่าผู้ใช้ 10% แรก จะกินสัดส่วนการใช้งานส่วนใหญ่ตามการกระจายแบบ power law

      • ดังนั้นโครงสร้างการสมัคร Pro อาจเป็นแบบที่ขาดทุนได้
  • ตามรายงานล่าสุด Anthropic มี มาร์จิน 60% ส่วน OpenAI อยู่ที่ราว มาร์จิน 50% หากรวมผู้ใช้ฟรีด้วย

    • ต้นทุนยังลดลงอีกจาก speculative decoding, caching เป็นต้น

    • และสมมติฐานเรื่อง 37 พันล้านพารามิเตอร์ในบทความก็ไม่ตรงกับขนาดโมเดลจริง

    • แต่ดูแค่มาร์จินอย่างเดียวก็ยังไม่เห็นภาพทั้งหมด

      • มีความเป็นไปได้สูงว่า Azure หรือ AWS กำลังให้ ส่วนลดขนาดใหญ่ อยู่
  • Sam Altman พูดซ้ำหลายครั้งในการสัมภาษณ์ต่าง ๆ ว่า "ถ้าหักต้นทุนฝึกออก เรากำไร"

    • บางคนจึงมองว่านี่เป็นหลักฐานว่าข้ออ้างที่ว่า "OpenAI ขาดทุนทุกครั้งที่มีคำขอ" นั้นไม่ถูกต้อง
    • แต่ถ้าการฝึกเป็นของฟรี ใคร ๆ ก็ทำได้ ดังนั้นสมมติฐานนี้เองจึงไม่มีความหมาย
    • Dario Amodei ก็อธิบายว่า หากมองเป็นรายโมเดล สุดท้ายก็ยังมีกำไร
    • อย่างไรก็ตาม คำพูดของ Sam อาจมีไว้ เพื่อโน้มน้าวนักลงทุน และความสามารถในการทำกำไรที่แท้จริงก็ยังไม่ชัดเจน