• การศึกษาขนาดใหญ่ที่วิเคราะห์ข้อมูลการใช้งาน LLM จริงมากกว่า 100 ล้านล้านโทเคน เพื่อติดตามการเปลี่ยนผ่านเชิงพื้นฐานของวิธีให้เหตุผลของ AI หลังการเปิดตัวโมเดลให้เหตุผล o1 ในเดือนธันวาคม 2024
  • โมเดลโอเพนซอร์ส เติบโตจนมีสัดส่วนราว 30% ของการใช้งานทั้งหมด โดยโมเดลโอเพนซอร์สจากจีนอย่าง DeepSeek V3 และ Kimi K2 ขยายส่วนแบ่งได้อย่างรวดเร็ว
  • การสวมบทบาทและการเขียนโปรแกรม เป็นสองแกนหลักของการใช้งาน LLM โดยมากกว่าครึ่งหนึ่งของการใช้โมเดลโอเพนซอร์สกระจุกตัวอยู่ที่การสวมบทบาท ซึ่งให้ผลลัพธ์ที่ขัดกับสมมติฐานที่เน้นด้านผลิตภาพ
  • โมเดลให้เหตุผลประมวลผลมากกว่า 50% ของโทเคนทั้งหมด และ การให้เหตุผลแบบเอเจนต์ กำลังก้าวขึ้นมาเป็นรูปแบบพื้นฐานใหม่ พร้อมการเพิ่มขึ้นของการเรียกใช้เครื่องมือและงานหลายขั้นตอน
  • พบปรากฏการณ์ "รองเท้าแก้ว" ที่ผู้ใช้ช่วงแรกมีอัตราคงอยู่ระยะยาวสูง บ่งชี้ว่าความเหมาะสมระหว่างโมเดลกับเวิร์กโหลดคือขีดความสามารถในการแข่งขันหลัก

ภาพรวมการวิจัยและระเบียบวิธี

  • OpenRouter เป็นแพลตฟอร์มอนุมาน AI แบบหลายโมเดลที่รองรับโมเดลมากกว่า 300 รุ่นและผู้ให้บริการมากกว่า 60 ราย ให้บริการแก่นักพัฒนาและผู้ใช้ปลายทางหลายล้านคนทั่วโลก
  • ชุดข้อมูลที่ใช้วิเคราะห์ประกอบด้วย เมตาดาต้าระดับคำขอที่ทำให้ไม่สามารถระบุตัวตนได้ ตลอดราว 2 ปี และไม่มีการเข้าถึงตัวพรอมป์ต์หรือข้อความที่สร้างเสร็จจริง
  • การวิเคราะห์ทั้งหมดดำเนินการผ่านแพลตฟอร์มวิเคราะห์ Hex ด้วย SQL query ที่ทำซ้ำได้ รวมถึงกระบวนการแปลงและไปป์ไลน์การทำภาพข้อมูล
  • การจัดหมวดหมู่เนื้อหาดำเนินการโดยสุ่มตัวอย่างราว 0.25% ของพรอมป์ต์ทั้งหมด แล้วจำแนกผ่าน GoogleTagClassifier เป็นหมวดต่าง ๆ เช่น การเขียนโปรแกรม การสวมบทบาท การแปล Q&A ทั่วไป ผลิตภาพ/การเขียน การศึกษา วรรณกรรม/งานสร้างสรรค์ และเนื้อหาผู้ใหญ่
  • การวิเคราะห์เชิงภูมิภาคใช้ ตำแหน่งการเรียกเก็บเงิน (billing location) ในการระบุภูมิภาคของผู้ใช้ ซึ่งใช้เป็นตัวแทนที่เสถียรกว่าวิธีอิง IP
  • ช่วงเวลาวิเคราะห์หลักคือ 13 เดือนตั้งแต่พฤศจิกายน 2024 ถึงพฤศจิกายน 2025 และการวิเคราะห์การจัดหมวดหมู่อ้างอิงข้อมูลตั้งแต่หลังเดือนพฤษภาคม 2025

โมเดลโอเพนซอร์ส vs โมเดลปิด

  • โมเดลโอเพนซอร์ส (OSS) นิยามว่าเป็นโมเดลที่เปิดเผยน้ำหนักโมเดล ส่วน โมเดลปิด คือโมเดลที่เข้าถึงได้ผ่าน API แบบจำกัดเท่านั้น (เช่น Anthropic Claude)
  • ส่วนแบ่งของโมเดลโอเพนซอร์สเพิ่มขึ้นอย่างต่อเนื่องจนแตะราว 30% ณ ช่วงปลายปี 2025 ซึ่งเชื่อมโยงกับการเปิดตัวโมเดลโอเพนซอร์สหลักอย่าง DeepSeek V3 และ Kimi K2
  • โมเดลที่พัฒนาในจีน เติบโตอย่างรวดเร็วจากส่วนแบ่งรายสัปดาห์ 1.2% ในปลายปี 2024 ไปแตะราว 30% ในบางสัปดาห์ โดยมีค่าเฉลี่ยทั้งปีราว 13.0%
    • Qwen และ DeepSeek เป็นต้น เป็นผู้นำการเติบโตด้วยการออกรุ่นใหม่อย่างรวดเร็วและรอบการปล่อยที่ถี่
  • โมเดลปิดยังคงเป็นตัวกำหนดเพดานด้านความน่าเชื่อถือและสมรรถนะ และได้เปรียบในเวิร์กโหลดที่มีข้อกำกับดูแลหรือระดับองค์กร
  • โมเดล OSS น่าสนใจในด้าน ความคุ้มค่าต้นทุน ความโปร่งใส และการปรับแต่งได้ และขณะนี้กำลังก่อตัวเป็นจุดสมดุลที่ราว 30%
  • โมเดลทั้งสองประเภทไม่ใช่ทางเลือกที่排斥กัน และถูกใช้งานแบบเกื้อหนุนกันภายใน สแตกหลายโมเดล
  • ผู้เล่นโอเพนซอร์สหลัก

    • DeepSeek เป็นผู้มีส่วนร่วมรายใหญ่ที่สุดในกลุ่ม OSS ด้วยโทเคนรวม 14.37 ล้านล้าน แต่ผู้เล่นหน้าใหม่ก็กำลังแย่งส่วนแบ่งอย่างรวดเร็ว
    • อันดับถัดมาคือ Qwen (5.59 ล้านล้าน), Meta LLaMA (3.96 ล้านล้าน), และ Mistral AI (2.92 ล้านล้าน)
    • หลัง Summer Inflection ในช่วงกลางปี 2025 โครงสร้างตลาดเปลี่ยนจากภาวะเกือบผูกขาดไปสู่ความหลากหลาย
      • Kimi K2 ของ MoonshotAI, ซีรีส์ GPT-OSS ของ OpenAI และ MiniMax M2 ต่างบรรลุการนำไปใช้ระดับโปรดักชันภายในไม่กี่สัปดาห์
    • ณ ปลายปี 2025 ไม่มีโมเดลเดี่ยวใดมีสัดส่วนเกิน 25% ของโทเคน OSS และส่วนแบ่งกระจายอยู่ในโมเดล 5~7 รุ่น
    • ระบบนิเวศ OSS เป็นสภาพการแข่งขันที่มีพลวัตสูง ซึ่ง วงจรนวัตกรรมรวดเร็วและไม่มีใครรับประกันความเป็นผู้นำ
  • ขนาดโมเดล vs ความเหมาะสมกับตลาด: โมเดลขนาดกลางคือขนาดเล็กแบบใหม่

    • การจัดกลุ่มตามขนาดโมเดล: ขนาดเล็ก (ต่ำกว่า 15B), ขนาดกลาง (15B~70B), ขนาดใหญ่ (70B ขึ้นไป)
    • โมเดลขนาดเล็กมีแนวโน้มส่วนแบ่งลดลงโดยรวม และการใช้งานลดลงแม้จะมีอุปทานโมเดลใหม่
    • โมเดลขนาดกลาง เริ่มก่อตัวเป็นหมวดอย่างจริงจังจากการเปิดตัว Qwen2.5 Coder 32B ในเดือนพฤศจิกายน 2024
      • Mistral Small 3 (มกราคม 2025) และ GPT-OSS 20B (สิงหาคม 2025) กลายเป็นคู่แข่งสำคัญ
      • สะท้อนว่าผู้ใช้กำลังมองหา สมดุลระหว่างความสามารถกับประสิทธิภาพ
    • เซ็กเมนต์โมเดลขนาดใหญ่มีความหลากหลายขึ้นด้วยคู่แข่งสมรรถนะสูงหลายราย เช่น Qwen3 235B A22B Instruct, Z.AI GLM 4.5 Air, และ OpenAI GPT-OSS-120B
    • ยุคที่โมเดลขนาดเล็กครองตลาดได้สิ้นสุดลง และตลาดกำลังมีแนวโน้ม แยกเป็นสองขั้วระหว่างโมเดลขนาดกลางและขนาดใหญ่
  • การใช้งานของโมเดลโอเพนซอร์ส

    • การใช้งานใหญ่ที่สุดของโมเดล OSS คือ การสวมบทบาท (ราว 52%) และ การเขียนโปรแกรม โดยสองหมวดนี้กินสัดส่วนการใช้โทเคน OSS ส่วนใหญ่
    • การที่การสวมบทบาทมีสัดส่วนเกิน 50% สะท้อนว่าโมเดลเปิดมีข้อจำกัดจากตัวกรองเนื้อหาน้อยกว่า จึงน่าสนใจสำหรับแอปพลิเคชันแนวแฟนตาซีหรือความบันเทิง
    • สำหรับ โมเดล OSS จากจีน การสวมบทบาทยังเป็นหมวดใหญ่สุดที่ราว 33% แต่เมื่อรวมการเขียนโปรแกรมและงานเทคนิคแล้วคิดเป็น 39% ซึ่งมากกว่าครึ่ง
      • Qwen และ DeepSeek ถูกนำไปใช้กับการสร้างโค้ดและเวิร์กโหลดเกี่ยวกับโครงสร้างพื้นฐานมากขึ้นเรื่อย ๆ
    • ในหมวดการเขียนโปรแกรม สัดส่วนภายใน OSS เปลี่ยนแปลงอย่างมีพลวัตระหว่าง OSS จากจีนกับ OSS จากตะวันตก
      • ช่วงกลางปี 2025 จีนเป็นผู้นำ แต่ใน Q4 OSS ฝั่งตะวันตก เช่น Meta LLaMA-2 Code และซีรีส์ OpenAI GPT-OSS พุ่งขึ้นอย่างมาก
    • ทราฟฟิกการสวมบทบาท ณ ปลายปี 2025 ถูกแบ่งเกือบเท่ากันระหว่าง RoW OSS (43%) และโมเดลปิด (42%) ซึ่งเปลี่ยนไปมากจากช่วงแรกที่โมเดลปิดครอง 70%

การผงาดขึ้นของการให้เหตุผลแบบเอเจนต์

  • โมเดลให้เหตุผลครองมากกว่าครึ่งของการใช้งานทั้งหมด

    • สัดส่วนโทเคนผ่านโมเดลที่ปรับแต่งเพื่อการให้เหตุผลพุ่งจากระดับเล็กน้อยในต้นปี 2025 ไปเป็น มากกว่า 50%
    • การเปลี่ยนแปลงนี้ถูกขับเคลื่อนโดยการเปิดตัวระบบสมรรถนะสูงอย่าง GPT-5, Claude 4.5 และ Gemini 3 รวมถึงความนิยมของผู้ใช้ต่อการใช้ตรรกะแบบหลายขั้นตอนและเวิร์กโฟลว์สไตล์เอเจนต์
    • จากข้อมูลล่าสุด xAI Grok Code Fast 1 มีส่วนแบ่งทราฟฟิกด้านการให้เหตุผลสูงสุด ตามด้วย Google Gemini 2.5 Pro/Flash
    • โมเดลเปิดอย่าง OpenAI gpt-oss-120b ก็ยังรักษาส่วนแบ่งไว้ได้มากเช่นกัน แสดงว่านักพัฒนายังนิยม OSS เมื่อทำได้
  • การนำการเรียกใช้เครื่องมือมาใช้เพิ่มขึ้น

    • สัดส่วนโทเคนของคำขอที่ถูกจัดประเภทด้วยเหตุผลการสิ้นสุดเป็น Tool Call มีแนวโน้มเพิ่มขึ้นอย่างต่อเนื่อง
    • ช่วงแรกการเรียกใช้เครื่องมือกระจุกอยู่ที่ OpenAI gpt-4o-mini และซีรีส์ Anthropic Claude 3.5/3.7 แต่หลังกลางปี 2025 โมเดลจำนวนมากขึ้นเริ่มรองรับการให้เครื่องมือ
    • หลังปลายเดือนกันยายน 2025 เป็นต้นมา Claude 4.5 Sonnet ขยายส่วนแบ่งอย่างรวดเร็ว และ Grok Code Fast, GLM 4.5 ก็เข้ามาเช่นกัน
  • การเปลี่ยนแปลงของรูปแบบพรอมป์ต์-คำตอบ

    • โทเคนพรอมป์ต์ เฉลี่ยเพิ่มขึ้นราว 4 เท่า จากประมาณ 1.5K เป็นมากกว่า 6K
    • โทเคนคำตอบ เฉลี่ยก็เพิ่มขึ้นเกือบ 3 เท่า จากราว 150 เป็น 400 โดยหลักมาจากการเพิ่มขึ้นของโทเคนการให้เหตุผล
    • งานที่เกี่ยวข้องกับการเขียนโปรแกรมเป็น แรงขับหลักของการเพิ่มขึ้นของโทเคนพรอมป์ต์ และมักใช้โทเคนอินพุตมากกว่า 20K
    • หมวดอื่น ๆ ค่อนข้างทรงตัวและมีปริมาณต่ำกว่าเมื่อเทียบกัน
  • ลำดับที่ยาวขึ้น ปฏิสัมพันธ์ที่ซับซ้อนขึ้น

    • ความยาวลำดับเฉลี่ยเพิ่มขึ้นมากกว่า 3 เท่าในช่วง 20 เดือนที่ผ่านมา จากต่ำกว่า 2,000 โทเคนเป็น มากกว่า 5,400 โทเคน
    • พรอมป์ต์ที่เกี่ยวข้องกับการเขียนโปรแกรมมีความยาวโทเคนเฉลี่ย ยาวกว่าพรอมป์ต์ใช้งานทั่วไป 3~4 เท่า
    • ลำดับที่ยาวขึ้นไม่ได้เกิดจากผู้ใช้พิมพ์เยิ่นเย้อ แต่เป็น ลักษณะของเวิร์กโฟลว์แบบเอเจนต์ที่ซับซ้อนซึ่งฝังอยู่ภายใน
  • นัยสำคัญ: การให้เหตุผลแบบเอเจนต์กำลังกลายเป็นค่าปริยายใหม่

    • การเพิ่มขึ้นของสัดส่วนการให้เหตุผล การขยายตัวของการใช้เครื่องมือ ความยาวลำดับที่มากขึ้น และความซับซ้อนที่เพิ่มขึ้นของงานเขียนโปรแกรม ล้วนบ่งชี้ว่าศูนย์กลางของการใช้งาน LLM กำลังเปลี่ยนไป
    • คำขอ LLM ทั่วไปในระดับกลางไม่ใช่เพียงคำถามง่าย ๆ หรือคำสั่งเดี่ยวที่แยกขาดอีกต่อไป แต่เป็นส่วนหนึ่งของ ลูปที่มีโครงสร้างคล้ายเอเจนต์
    • สำหรับผู้ให้บริการโมเดล เรื่องเวลาแฝง การจัดการเครื่องมือ การรองรับคอนเท็กซ์ และความทนทานต่อสายโซ่เครื่องมือที่เป็นอันตราย ล้วนมีความสำคัญมากขึ้นเรื่อย ๆ
    • ในไม่ช้า หรือหากยังไม่ใช่ตอนนี้ การให้เหตุผลแบบเอเจนต์จะครองสัดส่วนหลักของการอนุมาน

หมวดหมู่: ผู้คนใช้งาน LLM อย่างไร?

  • หมวดหมู่หลัก

    • การเขียนโปรแกรม เป็นหมวดหมู่ที่ขยายตัวอย่างสม่ำเสมอที่สุด โดยเพิ่มจากราว 11% ในช่วงต้นปี 2025 เป็นมากกว่า 50% ในช่วงล่าสุด
    • ซีรีส์ Anthropic Claude ครองสัดส่วนการใช้จ่ายด้านการเขียนโปรแกรมอย่างต่อเนื่องที่ มากกว่า 60%
      • และลดลงต่ำกว่า 60% เป็นครั้งแรกในสัปดาห์ของวันที่ 17 พฤศจิกายน
    • OpenAI ขยายส่วนแบ่งจากราว 2% เป็น 8% ตั้งแต่เดือนกรกฎาคม ขณะที่ Google ทรงตัวอยู่ราว 15%
    • MiniMax เป็นผู้เล่นหน้าใหม่ที่กำลังมาแรงและน่าจับตา
  • องค์ประกอบของแท็กภายในหมวดหมู่

    • โรลเพลย์: ราว 60% คือ Games/Roleplaying Games สะท้อนว่าถูกใช้เป็นโรลเพลย์แบบมีโครงสร้างหรือเป็นเอนจินตัวละคร มากกว่าการเป็นแชตบอตคุยเล่นทั่วไป
      • รวมถึง Writers Resources (15.6%) และคอนเทนต์ Adult (15.4%)
    • การเขียนโปรแกรม: มากกว่า 2/3 ถูกติดป้ายเป็น Programming/Other ซึ่งสะท้อนลักษณะของพรอมป์ตเกี่ยวกับโค้ดแบบครอบจักรวาล
      • Development Tools (26.4%) และสัดส่วนเล็ก ๆ ของภาษาสคริปต์ บ่งชี้สัญญาณของความเชี่ยวชาญเฉพาะทางที่กำลังก่อตัว
    • การแปล วิทยาศาสตร์ สุขภาพ และอื่น ๆ มีโครงสร้างภายในค่อนข้างราบเรียบ
      • การแปล: แบ่งเกือบเท่า ๆ กันระหว่าง Foreign Language Resources (51.1%) กับ Other
      • วิทยาศาสตร์: Machine Learning & AI (80.4%) ครองสัดส่วน โดยส่วนใหญ่เป็นคำถามเกี่ยวกับ AI เอง
      • สุขภาพ: เป็นหมวดหมู่ที่แตกย่อยที่สุด โดยไม่มีแท็กย่อยใดเกิน 25%
    • การเงิน วิชาการ กฎหมาย กระจายตัวมากกว่ามาก โดยไม่มีแท็กใดเกิน 20%
  • อินไซต์ตามผู้ให้บริการ

    • Anthropic Claude: การใช้งานด้านการเขียนโปรแกรม+เทคนิคมากกว่า 80% ขณะที่โรลเพลย์และ Q&A ทั่วไปมีเพียงเล็กน้อย
    • Google: มีองค์ประกอบการใช้งานที่หลากหลาย เช่น การแปล วิทยาศาสตร์ เทคโนโลยี และความรู้ทั่วไป โดยสัดส่วนงานโค้ดลดลงมาอยู่ราว 18% ในช่วงปลายปี 2025
    • xAI: ตลอดช่วงเวลาส่วนใหญ่ การเขียนโปรแกรม มากกว่า 80% และเพิ่งขยายไปยังเทคนิค โรลเพลย์ วิชาการ ฯลฯ ในช่วงปลายเดือนพฤศจิกายน
      • เชื่อมโยงกับการไหลเข้าของทราฟฟิกจากผู้ใช้ที่ไม่ใช่นักพัฒนา อันเป็นผลจากการแจกใช้งานฟรี
    • OpenAI: ในช่วงต้นปี 2025 งานด้านวิทยาศาสตร์คิดเป็นมากกว่าครึ่ง แต่ลดลงเหลือต่ำกว่า 15% ในช่วงปลายปี
      • การใช้งานที่เกี่ยวข้องกับการเขียนโปรแกรมและเทคโนโลยีอยู่ที่ 29% เท่ากัน รวมกันเกินครึ่ง
    • DeepSeek: ปฏิสัมพันธ์ที่เน้นโรลเพลย์ แชตสบาย ๆ และความบันเทิง ครองสัดส่วนมากกว่า 2/3
    • Qwen: การเขียนโปรแกรมรักษาระดับสม่ำเสมอที่ 40~60% ตลอดช่วงเวลา ขณะที่วิทยาศาสตร์ เทคโนโลยี โรลเพลย์ และหมวดอื่น ๆ มีความผันผวนรายสัปดาห์สูง

ภูมิภาค: การใช้งาน LLM ต่างกันอย่างไรในแต่ละภูมิภาค

  • การกระจายการใช้งานตามภูมิภาค

    • อเมริกาเหนือ เป็นภูมิภาคที่ใหญ่ที่สุดเพียงภูมิภาคเดียว แต่คิดเป็นน้อยกว่าครึ่งของการใช้จ่ายรวมในช่วงเวลาสังเกตการณ์เกือบทั้งหมด
    • ยุโรป รักษาสัดส่วนการใช้จ่ายรายสัปดาห์อย่างมั่นคงอยู่ในช่วง 10~20%
    • เอเชีย กำลังก้าวขึ้นมาเป็นทั้งผู้ผลิตโมเดล frontier และผู้บริโภคที่ขยายตัวรวดเร็ว
      • ส่วนแบ่งเพิ่มขึ้นมากกว่าสองเท่าจากราว 13% ในช่วงต้นชุดข้อมูลเป็นราว 31% ในช่วงล่าสุด
    • การกระจายตามทวีป: อเมริกาเหนือ 47.22%, เอเชีย 28.61%, ยุโรป 21.32%, โอเชียเนีย 1.18%, อเมริกาใต้ 1.21%, แอฟริกา 0.46%
    • 10 ประเทศอันดับแรก: สหรัฐอเมริกา (47.17%), สิงคโปร์ (9.21%), เยอรมนี (7.51%), จีน (6.01%), เกาหลีใต้ (2.88%), เนเธอร์แลนด์ (2.65%), สหราชอาณาจักร (2.52%), แคนาดา (1.90%), ญี่ปุ่น (1.77%), อินเดีย (1.62%)
  • การกระจายตามภาษา

    • ภาษาอังกฤษ ครองสัดส่วนที่ 82.87%
    • จีนตัวย่อ (4.95%), รัสเซีย (2.47%), สเปน (1.43%), ไทย (1.03%), อื่น ๆ (7.25%)

การวิเคราะห์อัตราการคงอยู่ของผู้ใช้ LLM

  • ปรากฏการณ์ “รองเท้าแก้ว” แบบซินเดอเรลลา

    • กราฟ retention ส่วนใหญ่ถูกครอบงำด้วยการหลุดออกสูงและการหดตัวของ cohort อย่างรวดเร็ว แต่ cohort ของผู้ใช้ช่วงแรก แสดงการคงอยู่ที่ทนทานแม้เวลาผ่านไป
    • cohort พื้นฐาน (foundational cohorts) เหล่านี้ เป็นตัวแทนของผู้ใช้ที่มีเวิร์กโหลดลึกและต่อเนื่อง ซึ่งบรรลุ ความพอดีระหว่างเวิร์กโหลดกับโมเดล อย่างแท้จริง
    • ผลของรองเท้าแก้ว: ในระบบนิเวศ AI ที่เปลี่ยนแปลงรวดเร็ว โมเดล frontier ใหม่แต่ละตัวจะถูก “ลองสวม” กับเวิร์กโหลดมูลค่าสูงที่ก่อนหน้านี้ยังไม่ได้รับการตอบโจทย์ และเมื่อมันตรงกับข้อจำกัดทางเทคนิคและเศรษฐศาสตร์อย่างพอดี ก็จะเกิดแรงล็อกอินที่ทรงพลัง
    • cohort เดือนมิถุนายน 2025 ของ Gemini 2.5 Pro และ cohort เดือนพฤษภาคมของ Claude 4 Sonnet มี retention ราว 40% ในเดือนที่ 5 สูงกว่ากลุ่ม cohort รุ่นหลังอย่างชัดเจน
    • GPT-4o Mini: มี foundational cohort เพียงชุดเดียว (กรกฎาคม 2024) ที่ครองความโดดเด่นตั้งแต่เปิดตัวและสร้างความพอดีระหว่างเวิร์กโหลดกับโมเดลอย่างเหนียวแน่น จากนั้น cohort ทั้งหมดหลังจากนั้นก็หลุดออกในรูปแบบเดียวกัน
    • Gemini 2.0 Flash, Llama 4 Maverick: ไม่สามารถสร้าง foundational cohort ที่ผลงานสูงได้ ทำให้ทุก cohort มีผลงานต่ำใกล้เคียงกัน และไม่ได้ถูกมองว่าเป็น “frontier”
    • ผลบูมเมอแรงของโมเดล DeepSeek: แทนที่จะลดลงแบบโมโนโทนตามปกติ กลับพบปรากฏการณ์ การเด้งกลับของการฟื้นตัว
      • cohort เดือนเมษายน 2025 ของ DeepSeek R1 มี retention เพิ่มขึ้นในเดือนที่ 3 และ cohort เดือนกรกฎาคมของ DeepSeek Chat V3-0324 เพิ่มขึ้นในเดือนที่ 2
      • สะท้อนผู้ใช้ที่ลองทางเลือกอื่นแล้วกลับมาใช้อีกครั้ง
  • นัยสำคัญ

    • การเป็นรายแรกที่แก้ปัญหาได้ ทำหน้าที่เป็น ความได้เปรียบที่ยั่งยืน
    • รูปแบบ retention ในระดับ cohort เป็นสัญญาณเชิงประจักษ์ของความแตกต่างระหว่างโมเดล
    • ข้อจำกัดด้านเวลาของ frontier window: ช่วงที่โมเดลจะคว้าผู้ใช้พื้นฐานได้นั้นแคบและชั่วคราว แต่มีความสำคัญชี้ขาดต่อพลวัตการยอมรับในระยะยาว
    • foundational cohort คือรอยนิ้วมือของความก้าวหน้าทางเทคนิคที่แท้จริง และเป็นจุดที่โมเดล AI เปลี่ยนจากของแปลกใหม่ไปสู่สิ่งจำเป็น

พลวัตของต้นทุนเทียบกับการใช้งาน

  • การวิเคราะห์แยกย่อยเวิร์กโหลด AI ตามหมวดหมู่

    • สร้างกรอบการวิเคราะห์แบบ 4 ควอดแรนต์โดยใช้ต้นทุนมัธยฐาน $0.73/1M โทเคน เป็นเกณฑ์
    • เวิร์กโหลดพรีเมียม (ขวาบน): แอปพลิเคชันต้นทุนสูง-การใช้งานสูง รวม technology และ science
      • technology มีต้นทุนสูงที่สุดแต่ยังรักษาปริมาณการใช้งานสูง สะท้อนว่าการออกแบบระบบหรือสถาปัตยกรรมที่ซับซ้อนต้องการโมเดลที่ทรงพลัง
    • ตัวขับเคลื่อนปริมาณในตลาดแมส (ซ้ายบน): การใช้งานสูง-ต้นทุนต่ำ โดย roleplay, programming, science ครองพื้นที่
      • programming เป็นหมวด “killer professional” ที่มีปริมาณการใช้งานสูงสุด พร้อมต้นทุนระดับกลางที่ถูกปรับให้เหมาะอย่างมาก
      • ปริมาณการใช้งานของ roleplay อยู่ในระดับใกล้เคียงกับ programming แสดงว่าการโรลเพลย์เชิงผู้บริโภคสร้างการมีส่วนร่วมได้เทียบเท่ากับกรณีใช้งานเชิงอาชีพระดับบน
    • ผู้เชี่ยวชาญเฉพาะทาง (ขวาล่าง): ปริมาณต่ำ-ต้นทุนสูง รวม finance, academia, health, marketing
      • เป็นโดเมนเฉพาะทางที่มีความเสี่ยงสูงและต้องการความแม่นยำ ความน่าเชื่อถือ และความรู้เฉพาะโดเมนสูง
    • ยูทิลิตีเฉพาะกลุ่ม (ซ้ายล่าง): ต้นทุนต่ำ-ปริมาณต่ำ รวม translation, legal, trivia
      • เป็นยูทิลิตีเชิงฟังก์ชันที่เน้นประสิทธิภาพด้านต้นทุน และกลายเป็นสินค้าโภคภัณฑ์จนมีทางเลือกที่ถูกกว่าให้ใช้
  • ต้นทุนที่แท้จริงของโมเดล AI เทียบกับการใช้งาน

    • บนสเกล log-log ความสัมพันธ์ระหว่างราคาและปริมาณการใช้งานค่อนข้างอ่อน โดยเส้นแนวโน้มเกือบราบ
    • อุปสงค์ค่อนข้างไม่ยืดหยุ่นต่อราคา: หากราคาลดลง 10% ปริมาณการใช้งานจะเพิ่มขึ้นเพียงราว 0.5~0.7%
    • มีสองระบอบที่ชัดเจน: โมเดลปิด (OpenAI, Anthropic) อยู่ในโซนต้นทุนสูง-การใช้งานสูง ขณะที่โมเดลเปิด (DeepSeek, Mistral, Qwen) อยู่ในโซนต้นทุนต่ำ-ปริมาณสูง
    • 4 archetype ของการใช้งาน-ต้นทุน:
      • ผู้นำพรีเมียม: Claude 3.7 Sonnet, Claude Sonnet 4 เป็นต้น ทำปริมาณการใช้งานสูงได้ที่ราว $2/1M โทเคน
      • ยักษ์ใหญ่ผู้มีประสิทธิภาพ: Gemini 2.0 Flash, DeepSeek V3 0324 เป็นต้น ทำปริมาณการใช้งานใกล้เคียงกันที่ต่ำกว่า $0.40/1M โทเคน
      • หางยาว: Qwen 2 7B Instruct, IBM Granite 4.0 Micro เป็นต้น มีราคาเพียงไม่กี่เซนต์ต่อ 1M โทเคน แต่การใช้งานต่ำเพราะประสิทธิภาพอ่อนกว่าหรือการมองเห็นจำกัด
      • ผู้เชี่ยวชาญพรีเมียม: GPT-4, GPT-5 Pro เป็นต้น มีราคาประมาณ $35/1M โทเคน ใช้งานต่ำ และถูกใช้จำกัดกับเวิร์กโหลดความเสี่ยงสูง
    • มีหลักฐานของ ปริศนา Jevons: โมเดลที่ถูกมากและเร็วมากถูกนำไปใช้กับงานจำนวนมากขึ้น ทำให้การบริโภคโทเคนรวมเพิ่มขึ้น
    • คุณภาพและความสามารถมักสำคัญกว่าต้นทุน: โมเดลราคาแพง (Claude, GPT-4) ที่มีการใช้งานสูง แสดงว่าหากโมเดลเหนือกว่าอย่างชัดเจนหรือมีข้อได้เปรียบด้านความเชื่อถือ ผู้ใช้ก็ยอมรับต้นทุนที่สูงกว่าได้

อภิปราย

  • ระบบนิเวศหลายโมเดล: ไม่มีโมเดลเดียวที่ครองการใช้งานทั้งหมด และทั้งโมเดลปิดและโมเดลเปิดต่างก็มีส่วนแบ่งที่สำคัญ
  • ความหลากหลายของการใช้งานที่มากกว่าด้านผลิตภาพ: มากกว่าครึ่งของการใช้งานโมเดลโอเพนซอร์สคือโรลเพลย์และการเล่าเรื่อง
    • ตอกย้ำโอกาสในแอปพลิเคชันที่มุ่งผู้บริโภค การปรับให้เป็นส่วนบุคคล และการผสานกันระหว่าง AI กับทรัพย์สินทางปัญญาด้านความบันเทิง
  • เอเจนต์ vs มนุษย์: การผงาดขึ้นของการให้เหตุผลแบบเอเจนติก: เปลี่ยนจากปฏิสัมพันธ์แบบเทิร์นเดียวไปสู่การให้เหตุผลแบบเอเจนติก โดยโมเดลสามารถวางแผน ให้เหตุผล และดำเนินการข้ามหลายขั้นตอนได้
  • มุมมองระดับภูมิภาค: การใช้งาน LLM กำลังมีความเป็น สากลและกระจายศูนย์ มากขึ้น โดยส่วนแบ่งของเอเชียเพิ่มจาก 13% เป็น 31% และจีนกำลังก้าวขึ้นมาเป็นกำลังสำคัญ
  • พลวัตระหว่างต้นทุนกับการใช้งาน: ตลาด LLM ยังไม่ใช่สินค้าโภคภัณฑ์ และราคาเพียงอย่างเดียวยังอธิบายปริมาณการใช้งานได้ไม่เพียงพอ
    • โมเดลโอเพนซอร์สยังคงผลักดัน efficient frontier อย่างต่อเนื่อง และบีบอำนาจการตั้งราคาของระบบปิด
  • อัตราการคงอยู่และปรากฏการณ์รองเท้าแก้วของซินเดอเรลลา: เมื่อโมเดลฐานก้าวกระโดด อัตราการคงอยู่คือมาตรวัดที่แท้จริงของความสามารถในการป้องกันฐานผู้ใช้
    • ความเหมาะสมระหว่างโมเดลกับเวิร์กโหลดคือขีดความสามารถในการแข่งขันหลัก

ข้อจำกัด

  • ให้ภาพเพียงบางส่วนของระบบนิเวศที่กว้างกว่า จากรูปแบบที่สังเกตได้ในช่วงเวลาจำกัดบนแพลตฟอร์มเดียว (OpenRouter)
  • การใช้งานในองค์กร การดีพลอยแบบโฮสต์ภายในเครื่อง และระบบภายในแบบปิด อยู่นอกขอบเขตของข้อมูล
  • การวิเคราะห์บางส่วนอาศัย การวัดแบบตัวแทน: การระบุการให้เหตุผลแบบเอเจนติกผ่านหลายขั้นตอนหรือการเรียกใช้เครื่องมือ การอนุมานภูมิภาคจากการเรียกเก็บเงิน เป็นต้น
  • ควรตีความผลลัพธ์เป็น รูปแบบพฤติกรรมเชิงบ่งชี้ มากกว่าจะเป็นการวัดที่ชี้ขาด

บทสรุป

  • มอบมุมมองเชิงประจักษ์ต่อวิธีที่ LLM กำลังถูกรวมเข้ากับโครงสร้างพื้นฐานการประมวลผลของโลก
  • ในปีที่ผ่านมา การปรากฏขึ้นของโมเดลระดับ o1 ได้จุดชนวนการเปลี่ยนแปลงแบบก้าวกระโดดต่อการรับรู้เรื่อง การให้เหตุผล ทำให้การประเมินขยับจาก single-shot benchmark ไปสู่ตัวชี้วัดแบบอิงกระบวนการ, trade-off ระหว่าง latency กับต้นทุน, และความสำเร็จภายใต้การ orchestration
  • ระบบนิเวศ LLM มีความ พหุนิยมเชิงโครงสร้าง โดยผู้ใช้เลือกใช้ระบบตามหลายแกน เช่น ความสามารถ, latency, ราคา และความน่าเชื่อถือ
  • ตัวการให้เหตุผลเองก็กำลังเปลี่ยนไป: จากการเติมข้อความแบบคงที่สู่ dynamic orchestration พร้อมการผงาดขึ้นของการให้เหตุผลแบบเอเจนติก
  • ในเชิงภูมิภาค มีความ กระจายตัวมากขึ้น, ส่วนแบ่งของเอเชียขยายตัว และจีนกำลังก้าวขึ้นมาเป็นทั้งผู้พัฒนาและผู้ส่งออกโมเดล
  • o1 ไม่ได้ยุติการแข่งขัน แต่ ขยาย design space, ผลักให้เปลี่ยนจากการทุ่มเดิมพันกับโมเดลแบบ monolithic ไปสู่การคิดเชิงระบบ จากสัญชาตญาณไปสู่การวัดเชิงเครื่องมือ และจากส่วนต่างบนลีดเดอร์บอร์ดไปสู่การวิเคราะห์การใช้งานเชิงประจักษ์
  • ขั้นต่อไปคือการมุ่งสู่ความเป็นเลิศด้านการปฏิบัติการ: วัดการทำงานจริงให้สำเร็จ ลดความแปรปรวนภายใต้การเปลี่ยนแปลงของการกระจายข้อมูล และจัดแนวพฤติกรรมของโมเดลให้ตรงกับความต้องการจริงของเวิร์กโหลดระดับโปรดักชัน

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น