- การศึกษาขนาดใหญ่ที่วิเคราะห์ข้อมูลการใช้งาน LLM จริงมากกว่า 100 ล้านล้านโทเคน เพื่อติดตามการเปลี่ยนผ่านเชิงพื้นฐานของวิธีให้เหตุผลของ AI หลังการเปิดตัวโมเดลให้เหตุผล o1 ในเดือนธันวาคม 2024
- โมเดลโอเพนซอร์ส เติบโตจนมีสัดส่วนราว 30% ของการใช้งานทั้งหมด โดยโมเดลโอเพนซอร์สจากจีนอย่าง DeepSeek V3 และ Kimi K2 ขยายส่วนแบ่งได้อย่างรวดเร็ว
- การสวมบทบาทและการเขียนโปรแกรม เป็นสองแกนหลักของการใช้งาน LLM โดยมากกว่าครึ่งหนึ่งของการใช้โมเดลโอเพนซอร์สกระจุกตัวอยู่ที่การสวมบทบาท ซึ่งให้ผลลัพธ์ที่ขัดกับสมมติฐานที่เน้นด้านผลิตภาพ
- โมเดลให้เหตุผลประมวลผลมากกว่า 50% ของโทเคนทั้งหมด และ การให้เหตุผลแบบเอเจนต์ กำลังก้าวขึ้นมาเป็นรูปแบบพื้นฐานใหม่ พร้อมการเพิ่มขึ้นของการเรียกใช้เครื่องมือและงานหลายขั้นตอน
- พบปรากฏการณ์ "รองเท้าแก้ว" ที่ผู้ใช้ช่วงแรกมีอัตราคงอยู่ระยะยาวสูง บ่งชี้ว่าความเหมาะสมระหว่างโมเดลกับเวิร์กโหลดคือขีดความสามารถในการแข่งขันหลัก
ภาพรวมการวิจัยและระเบียบวิธี
- OpenRouter เป็นแพลตฟอร์มอนุมาน AI แบบหลายโมเดลที่รองรับโมเดลมากกว่า 300 รุ่นและผู้ให้บริการมากกว่า 60 ราย ให้บริการแก่นักพัฒนาและผู้ใช้ปลายทางหลายล้านคนทั่วโลก
- ชุดข้อมูลที่ใช้วิเคราะห์ประกอบด้วย เมตาดาต้าระดับคำขอที่ทำให้ไม่สามารถระบุตัวตนได้ ตลอดราว 2 ปี และไม่มีการเข้าถึงตัวพรอมป์ต์หรือข้อความที่สร้างเสร็จจริง
- การวิเคราะห์ทั้งหมดดำเนินการผ่านแพลตฟอร์มวิเคราะห์ Hex ด้วย SQL query ที่ทำซ้ำได้ รวมถึงกระบวนการแปลงและไปป์ไลน์การทำภาพข้อมูล
- การจัดหมวดหมู่เนื้อหาดำเนินการโดยสุ่มตัวอย่างราว 0.25% ของพรอมป์ต์ทั้งหมด แล้วจำแนกผ่าน GoogleTagClassifier เป็นหมวดต่าง ๆ เช่น การเขียนโปรแกรม การสวมบทบาท การแปล Q&A ทั่วไป ผลิตภาพ/การเขียน การศึกษา วรรณกรรม/งานสร้างสรรค์ และเนื้อหาผู้ใหญ่
- การวิเคราะห์เชิงภูมิภาคใช้ ตำแหน่งการเรียกเก็บเงิน (billing location) ในการระบุภูมิภาคของผู้ใช้ ซึ่งใช้เป็นตัวแทนที่เสถียรกว่าวิธีอิง IP
- ช่วงเวลาวิเคราะห์หลักคือ 13 เดือนตั้งแต่พฤศจิกายน 2024 ถึงพฤศจิกายน 2025 และการวิเคราะห์การจัดหมวดหมู่อ้างอิงข้อมูลตั้งแต่หลังเดือนพฤษภาคม 2025
โมเดลโอเพนซอร์ส vs โมเดลปิด
- โมเดลโอเพนซอร์ส (OSS) นิยามว่าเป็นโมเดลที่เปิดเผยน้ำหนักโมเดล ส่วน โมเดลปิด คือโมเดลที่เข้าถึงได้ผ่าน API แบบจำกัดเท่านั้น (เช่น Anthropic Claude)
- ส่วนแบ่งของโมเดลโอเพนซอร์สเพิ่มขึ้นอย่างต่อเนื่องจนแตะราว 30% ณ ช่วงปลายปี 2025 ซึ่งเชื่อมโยงกับการเปิดตัวโมเดลโอเพนซอร์สหลักอย่าง DeepSeek V3 และ Kimi K2
- โมเดลที่พัฒนาในจีน เติบโตอย่างรวดเร็วจากส่วนแบ่งรายสัปดาห์ 1.2% ในปลายปี 2024 ไปแตะราว 30% ในบางสัปดาห์ โดยมีค่าเฉลี่ยทั้งปีราว 13.0%
- Qwen และ DeepSeek เป็นต้น เป็นผู้นำการเติบโตด้วยการออกรุ่นใหม่อย่างรวดเร็วและรอบการปล่อยที่ถี่
- โมเดลปิดยังคงเป็นตัวกำหนดเพดานด้านความน่าเชื่อถือและสมรรถนะ และได้เปรียบในเวิร์กโหลดที่มีข้อกำกับดูแลหรือระดับองค์กร
- โมเดล OSS น่าสนใจในด้าน ความคุ้มค่าต้นทุน ความโปร่งใส และการปรับแต่งได้ และขณะนี้กำลังก่อตัวเป็นจุดสมดุลที่ราว 30%
- โมเดลทั้งสองประเภทไม่ใช่ทางเลือกที่排斥กัน และถูกใช้งานแบบเกื้อหนุนกันภายใน สแตกหลายโมเดล
-
ผู้เล่นโอเพนซอร์สหลัก
- DeepSeek เป็นผู้มีส่วนร่วมรายใหญ่ที่สุดในกลุ่ม OSS ด้วยโทเคนรวม 14.37 ล้านล้าน แต่ผู้เล่นหน้าใหม่ก็กำลังแย่งส่วนแบ่งอย่างรวดเร็ว
- อันดับถัดมาคือ Qwen (5.59 ล้านล้าน), Meta LLaMA (3.96 ล้านล้าน), และ Mistral AI (2.92 ล้านล้าน)
- หลัง Summer Inflection ในช่วงกลางปี 2025 โครงสร้างตลาดเปลี่ยนจากภาวะเกือบผูกขาดไปสู่ความหลากหลาย
- Kimi K2 ของ MoonshotAI, ซีรีส์ GPT-OSS ของ OpenAI และ MiniMax M2 ต่างบรรลุการนำไปใช้ระดับโปรดักชันภายในไม่กี่สัปดาห์
- ณ ปลายปี 2025 ไม่มีโมเดลเดี่ยวใดมีสัดส่วนเกิน 25% ของโทเคน OSS และส่วนแบ่งกระจายอยู่ในโมเดล 5~7 รุ่น
- ระบบนิเวศ OSS เป็นสภาพการแข่งขันที่มีพลวัตสูง ซึ่ง วงจรนวัตกรรมรวดเร็วและไม่มีใครรับประกันความเป็นผู้นำ
-
ขนาดโมเดล vs ความเหมาะสมกับตลาด: โมเดลขนาดกลางคือขนาดเล็กแบบใหม่
- การจัดกลุ่มตามขนาดโมเดล: ขนาดเล็ก (ต่ำกว่า 15B), ขนาดกลาง (15B~70B), ขนาดใหญ่ (70B ขึ้นไป)
- โมเดลขนาดเล็กมีแนวโน้มส่วนแบ่งลดลงโดยรวม และการใช้งานลดลงแม้จะมีอุปทานโมเดลใหม่
- โมเดลขนาดกลาง เริ่มก่อตัวเป็นหมวดอย่างจริงจังจากการเปิดตัว
Qwen2.5 Coder 32B ในเดือนพฤศจิกายน 2024
Mistral Small 3 (มกราคม 2025) และ GPT-OSS 20B (สิงหาคม 2025) กลายเป็นคู่แข่งสำคัญ
- สะท้อนว่าผู้ใช้กำลังมองหา สมดุลระหว่างความสามารถกับประสิทธิภาพ
- เซ็กเมนต์โมเดลขนาดใหญ่มีความหลากหลายขึ้นด้วยคู่แข่งสมรรถนะสูงหลายราย เช่น
Qwen3 235B A22B Instruct, Z.AI GLM 4.5 Air, และ OpenAI GPT-OSS-120B
- ยุคที่โมเดลขนาดเล็กครองตลาดได้สิ้นสุดลง และตลาดกำลังมีแนวโน้ม แยกเป็นสองขั้วระหว่างโมเดลขนาดกลางและขนาดใหญ่
-
การใช้งานของโมเดลโอเพนซอร์ส
- การใช้งานใหญ่ที่สุดของโมเดล OSS คือ การสวมบทบาท (ราว 52%) และ การเขียนโปรแกรม โดยสองหมวดนี้กินสัดส่วนการใช้โทเคน OSS ส่วนใหญ่
- การที่การสวมบทบาทมีสัดส่วนเกิน 50% สะท้อนว่าโมเดลเปิดมีข้อจำกัดจากตัวกรองเนื้อหาน้อยกว่า จึงน่าสนใจสำหรับแอปพลิเคชันแนวแฟนตาซีหรือความบันเทิง
- สำหรับ โมเดล OSS จากจีน การสวมบทบาทยังเป็นหมวดใหญ่สุดที่ราว 33% แต่เมื่อรวมการเขียนโปรแกรมและงานเทคนิคแล้วคิดเป็น 39% ซึ่งมากกว่าครึ่ง
- Qwen และ DeepSeek ถูกนำไปใช้กับการสร้างโค้ดและเวิร์กโหลดเกี่ยวกับโครงสร้างพื้นฐานมากขึ้นเรื่อย ๆ
- ในหมวดการเขียนโปรแกรม สัดส่วนภายใน OSS เปลี่ยนแปลงอย่างมีพลวัตระหว่าง OSS จากจีนกับ OSS จากตะวันตก
- ช่วงกลางปี 2025 จีนเป็นผู้นำ แต่ใน Q4 OSS ฝั่งตะวันตก เช่น Meta LLaMA-2 Code และซีรีส์ OpenAI GPT-OSS พุ่งขึ้นอย่างมาก
- ทราฟฟิกการสวมบทบาท ณ ปลายปี 2025 ถูกแบ่งเกือบเท่ากันระหว่าง RoW OSS (43%) และโมเดลปิด (42%) ซึ่งเปลี่ยนไปมากจากช่วงแรกที่โมเดลปิดครอง 70%
การผงาดขึ้นของการให้เหตุผลแบบเอเจนต์
-
โมเดลให้เหตุผลครองมากกว่าครึ่งของการใช้งานทั้งหมด
- สัดส่วนโทเคนผ่านโมเดลที่ปรับแต่งเพื่อการให้เหตุผลพุ่งจากระดับเล็กน้อยในต้นปี 2025 ไปเป็น มากกว่า 50%
- การเปลี่ยนแปลงนี้ถูกขับเคลื่อนโดยการเปิดตัวระบบสมรรถนะสูงอย่าง GPT-5, Claude 4.5 และ Gemini 3 รวมถึงความนิยมของผู้ใช้ต่อการใช้ตรรกะแบบหลายขั้นตอนและเวิร์กโฟลว์สไตล์เอเจนต์
- จากข้อมูลล่าสุด xAI Grok Code Fast 1 มีส่วนแบ่งทราฟฟิกด้านการให้เหตุผลสูงสุด ตามด้วย Google Gemini 2.5 Pro/Flash
- โมเดลเปิดอย่าง OpenAI gpt-oss-120b ก็ยังรักษาส่วนแบ่งไว้ได้มากเช่นกัน แสดงว่านักพัฒนายังนิยม OSS เมื่อทำได้
-
การนำการเรียกใช้เครื่องมือมาใช้เพิ่มขึ้น
- สัดส่วนโทเคนของคำขอที่ถูกจัดประเภทด้วยเหตุผลการสิ้นสุดเป็น Tool Call มีแนวโน้มเพิ่มขึ้นอย่างต่อเนื่อง
- ช่วงแรกการเรียกใช้เครื่องมือกระจุกอยู่ที่ OpenAI gpt-4o-mini และซีรีส์ Anthropic Claude 3.5/3.7 แต่หลังกลางปี 2025 โมเดลจำนวนมากขึ้นเริ่มรองรับการให้เครื่องมือ
- หลังปลายเดือนกันยายน 2025 เป็นต้นมา Claude 4.5 Sonnet ขยายส่วนแบ่งอย่างรวดเร็ว และ
Grok Code Fast, GLM 4.5 ก็เข้ามาเช่นกัน
-
การเปลี่ยนแปลงของรูปแบบพรอมป์ต์-คำตอบ
- โทเคนพรอมป์ต์ เฉลี่ยเพิ่มขึ้นราว 4 เท่า จากประมาณ 1.5K เป็นมากกว่า 6K
- โทเคนคำตอบ เฉลี่ยก็เพิ่มขึ้นเกือบ 3 เท่า จากราว 150 เป็น 400 โดยหลักมาจากการเพิ่มขึ้นของโทเคนการให้เหตุผล
- งานที่เกี่ยวข้องกับการเขียนโปรแกรมเป็น แรงขับหลักของการเพิ่มขึ้นของโทเคนพรอมป์ต์ และมักใช้โทเคนอินพุตมากกว่า 20K
- หมวดอื่น ๆ ค่อนข้างทรงตัวและมีปริมาณต่ำกว่าเมื่อเทียบกัน
-
ลำดับที่ยาวขึ้น ปฏิสัมพันธ์ที่ซับซ้อนขึ้น
- ความยาวลำดับเฉลี่ยเพิ่มขึ้นมากกว่า 3 เท่าในช่วง 20 เดือนที่ผ่านมา จากต่ำกว่า 2,000 โทเคนเป็น มากกว่า 5,400 โทเคน
- พรอมป์ต์ที่เกี่ยวข้องกับการเขียนโปรแกรมมีความยาวโทเคนเฉลี่ย ยาวกว่าพรอมป์ต์ใช้งานทั่วไป 3~4 เท่า
- ลำดับที่ยาวขึ้นไม่ได้เกิดจากผู้ใช้พิมพ์เยิ่นเย้อ แต่เป็น ลักษณะของเวิร์กโฟลว์แบบเอเจนต์ที่ซับซ้อนซึ่งฝังอยู่ภายใน
-
นัยสำคัญ: การให้เหตุผลแบบเอเจนต์กำลังกลายเป็นค่าปริยายใหม่
- การเพิ่มขึ้นของสัดส่วนการให้เหตุผล การขยายตัวของการใช้เครื่องมือ ความยาวลำดับที่มากขึ้น และความซับซ้อนที่เพิ่มขึ้นของงานเขียนโปรแกรม ล้วนบ่งชี้ว่าศูนย์กลางของการใช้งาน LLM กำลังเปลี่ยนไป
- คำขอ LLM ทั่วไปในระดับกลางไม่ใช่เพียงคำถามง่าย ๆ หรือคำสั่งเดี่ยวที่แยกขาดอีกต่อไป แต่เป็นส่วนหนึ่งของ ลูปที่มีโครงสร้างคล้ายเอเจนต์
- สำหรับผู้ให้บริการโมเดล เรื่องเวลาแฝง การจัดการเครื่องมือ การรองรับคอนเท็กซ์ และความทนทานต่อสายโซ่เครื่องมือที่เป็นอันตราย ล้วนมีความสำคัญมากขึ้นเรื่อย ๆ
- ในไม่ช้า หรือหากยังไม่ใช่ตอนนี้ การให้เหตุผลแบบเอเจนต์จะครองสัดส่วนหลักของการอนุมาน
หมวดหมู่: ผู้คนใช้งาน LLM อย่างไร?
-
หมวดหมู่หลัก
- การเขียนโปรแกรม เป็นหมวดหมู่ที่ขยายตัวอย่างสม่ำเสมอที่สุด โดยเพิ่มจากราว 11% ในช่วงต้นปี 2025 เป็นมากกว่า 50% ในช่วงล่าสุด
- ซีรีส์ Anthropic Claude ครองสัดส่วนการใช้จ่ายด้านการเขียนโปรแกรมอย่างต่อเนื่องที่ มากกว่า 60%
- และลดลงต่ำกว่า 60% เป็นครั้งแรกในสัปดาห์ของวันที่ 17 พฤศจิกายน
- OpenAI ขยายส่วนแบ่งจากราว 2% เป็น 8% ตั้งแต่เดือนกรกฎาคม ขณะที่ Google ทรงตัวอยู่ราว 15%
- MiniMax เป็นผู้เล่นหน้าใหม่ที่กำลังมาแรงและน่าจับตา
-
องค์ประกอบของแท็กภายในหมวดหมู่
- โรลเพลย์: ราว 60% คือ Games/Roleplaying Games สะท้อนว่าถูกใช้เป็นโรลเพลย์แบบมีโครงสร้างหรือเป็นเอนจินตัวละคร มากกว่าการเป็นแชตบอตคุยเล่นทั่วไป
- รวมถึง Writers Resources (15.6%) และคอนเทนต์ Adult (15.4%)
- การเขียนโปรแกรม: มากกว่า 2/3 ถูกติดป้ายเป็น Programming/Other ซึ่งสะท้อนลักษณะของพรอมป์ตเกี่ยวกับโค้ดแบบครอบจักรวาล
- Development Tools (26.4%) และสัดส่วนเล็ก ๆ ของภาษาสคริปต์ บ่งชี้สัญญาณของความเชี่ยวชาญเฉพาะทางที่กำลังก่อตัว
- การแปล วิทยาศาสตร์ สุขภาพ และอื่น ๆ มีโครงสร้างภายในค่อนข้างราบเรียบ
- การแปล: แบ่งเกือบเท่า ๆ กันระหว่าง Foreign Language Resources (51.1%) กับ Other
- วิทยาศาสตร์: Machine Learning & AI (80.4%) ครองสัดส่วน โดยส่วนใหญ่เป็นคำถามเกี่ยวกับ AI เอง
- สุขภาพ: เป็นหมวดหมู่ที่แตกย่อยที่สุด โดยไม่มีแท็กย่อยใดเกิน 25%
- การเงิน วิชาการ กฎหมาย กระจายตัวมากกว่ามาก โดยไม่มีแท็กใดเกิน 20%
-
อินไซต์ตามผู้ให้บริการ
- Anthropic Claude: การใช้งานด้านการเขียนโปรแกรม+เทคนิคมากกว่า 80% ขณะที่โรลเพลย์และ Q&A ทั่วไปมีเพียงเล็กน้อย
- Google: มีองค์ประกอบการใช้งานที่หลากหลาย เช่น การแปล วิทยาศาสตร์ เทคโนโลยี และความรู้ทั่วไป โดยสัดส่วนงานโค้ดลดลงมาอยู่ราว 18% ในช่วงปลายปี 2025
- xAI: ตลอดช่วงเวลาส่วนใหญ่ การเขียนโปรแกรม มากกว่า 80% และเพิ่งขยายไปยังเทคนิค โรลเพลย์ วิชาการ ฯลฯ ในช่วงปลายเดือนพฤศจิกายน
- เชื่อมโยงกับการไหลเข้าของทราฟฟิกจากผู้ใช้ที่ไม่ใช่นักพัฒนา อันเป็นผลจากการแจกใช้งานฟรี
- OpenAI: ในช่วงต้นปี 2025 งานด้านวิทยาศาสตร์คิดเป็นมากกว่าครึ่ง แต่ลดลงเหลือต่ำกว่า 15% ในช่วงปลายปี
- การใช้งานที่เกี่ยวข้องกับการเขียนโปรแกรมและเทคโนโลยีอยู่ที่ 29% เท่ากัน รวมกันเกินครึ่ง
- DeepSeek: ปฏิสัมพันธ์ที่เน้นโรลเพลย์ แชตสบาย ๆ และความบันเทิง ครองสัดส่วนมากกว่า 2/3
- Qwen: การเขียนโปรแกรมรักษาระดับสม่ำเสมอที่ 40~60% ตลอดช่วงเวลา ขณะที่วิทยาศาสตร์ เทคโนโลยี โรลเพลย์ และหมวดอื่น ๆ มีความผันผวนรายสัปดาห์สูง
ภูมิภาค: การใช้งาน LLM ต่างกันอย่างไรในแต่ละภูมิภาค
-
การกระจายการใช้งานตามภูมิภาค
- อเมริกาเหนือ เป็นภูมิภาคที่ใหญ่ที่สุดเพียงภูมิภาคเดียว แต่คิดเป็นน้อยกว่าครึ่งของการใช้จ่ายรวมในช่วงเวลาสังเกตการณ์เกือบทั้งหมด
- ยุโรป รักษาสัดส่วนการใช้จ่ายรายสัปดาห์อย่างมั่นคงอยู่ในช่วง 10~20%
- เอเชีย กำลังก้าวขึ้นมาเป็นทั้งผู้ผลิตโมเดล frontier และผู้บริโภคที่ขยายตัวรวดเร็ว
- ส่วนแบ่งเพิ่มขึ้นมากกว่าสองเท่าจากราว 13% ในช่วงต้นชุดข้อมูลเป็นราว 31% ในช่วงล่าสุด
- การกระจายตามทวีป: อเมริกาเหนือ 47.22%, เอเชีย 28.61%, ยุโรป 21.32%, โอเชียเนีย 1.18%, อเมริกาใต้ 1.21%, แอฟริกา 0.46%
- 10 ประเทศอันดับแรก: สหรัฐอเมริกา (47.17%), สิงคโปร์ (9.21%), เยอรมนี (7.51%), จีน (6.01%), เกาหลีใต้ (2.88%), เนเธอร์แลนด์ (2.65%), สหราชอาณาจักร (2.52%), แคนาดา (1.90%), ญี่ปุ่น (1.77%), อินเดีย (1.62%)
-
การกระจายตามภาษา
- ภาษาอังกฤษ ครองสัดส่วนที่ 82.87%
- จีนตัวย่อ (4.95%), รัสเซีย (2.47%), สเปน (1.43%), ไทย (1.03%), อื่น ๆ (7.25%)
การวิเคราะห์อัตราการคงอยู่ของผู้ใช้ LLM
-
ปรากฏการณ์ “รองเท้าแก้ว” แบบซินเดอเรลลา
- กราฟ retention ส่วนใหญ่ถูกครอบงำด้วยการหลุดออกสูงและการหดตัวของ cohort อย่างรวดเร็ว แต่ cohort ของผู้ใช้ช่วงแรก แสดงการคงอยู่ที่ทนทานแม้เวลาผ่านไป
- cohort พื้นฐาน (foundational cohorts) เหล่านี้ เป็นตัวแทนของผู้ใช้ที่มีเวิร์กโหลดลึกและต่อเนื่อง ซึ่งบรรลุ ความพอดีระหว่างเวิร์กโหลดกับโมเดล อย่างแท้จริง
- ผลของรองเท้าแก้ว: ในระบบนิเวศ AI ที่เปลี่ยนแปลงรวดเร็ว โมเดล frontier ใหม่แต่ละตัวจะถูก “ลองสวม” กับเวิร์กโหลดมูลค่าสูงที่ก่อนหน้านี้ยังไม่ได้รับการตอบโจทย์ และเมื่อมันตรงกับข้อจำกัดทางเทคนิคและเศรษฐศาสตร์อย่างพอดี ก็จะเกิดแรงล็อกอินที่ทรงพลัง
- cohort เดือนมิถุนายน 2025 ของ
Gemini 2.5 Pro และ cohort เดือนพฤษภาคมของ Claude 4 Sonnet มี retention ราว 40% ในเดือนที่ 5 สูงกว่ากลุ่ม cohort รุ่นหลังอย่างชัดเจน
- GPT-4o Mini: มี foundational cohort เพียงชุดเดียว (กรกฎาคม 2024) ที่ครองความโดดเด่นตั้งแต่เปิดตัวและสร้างความพอดีระหว่างเวิร์กโหลดกับโมเดลอย่างเหนียวแน่น จากนั้น cohort ทั้งหมดหลังจากนั้นก็หลุดออกในรูปแบบเดียวกัน
- Gemini 2.0 Flash, Llama 4 Maverick: ไม่สามารถสร้าง foundational cohort ที่ผลงานสูงได้ ทำให้ทุก cohort มีผลงานต่ำใกล้เคียงกัน และไม่ได้ถูกมองว่าเป็น “frontier”
- ผลบูมเมอแรงของโมเดล DeepSeek: แทนที่จะลดลงแบบโมโนโทนตามปกติ กลับพบปรากฏการณ์ การเด้งกลับของการฟื้นตัว
- cohort เดือนเมษายน 2025 ของ DeepSeek R1 มี retention เพิ่มขึ้นในเดือนที่ 3 และ cohort เดือนกรกฎาคมของ DeepSeek Chat V3-0324 เพิ่มขึ้นในเดือนที่ 2
- สะท้อนผู้ใช้ที่ลองทางเลือกอื่นแล้วกลับมาใช้อีกครั้ง
-
นัยสำคัญ
- การเป็นรายแรกที่แก้ปัญหาได้ ทำหน้าที่เป็น ความได้เปรียบที่ยั่งยืน
- รูปแบบ retention ในระดับ cohort เป็นสัญญาณเชิงประจักษ์ของความแตกต่างระหว่างโมเดล
- ข้อจำกัดด้านเวลาของ frontier window: ช่วงที่โมเดลจะคว้าผู้ใช้พื้นฐานได้นั้นแคบและชั่วคราว แต่มีความสำคัญชี้ขาดต่อพลวัตการยอมรับในระยะยาว
- foundational cohort คือรอยนิ้วมือของความก้าวหน้าทางเทคนิคที่แท้จริง และเป็นจุดที่โมเดล AI เปลี่ยนจากของแปลกใหม่ไปสู่สิ่งจำเป็น
พลวัตของต้นทุนเทียบกับการใช้งาน
-
การวิเคราะห์แยกย่อยเวิร์กโหลด AI ตามหมวดหมู่
- สร้างกรอบการวิเคราะห์แบบ 4 ควอดแรนต์โดยใช้ต้นทุนมัธยฐาน $0.73/1M โทเคน เป็นเกณฑ์
- เวิร์กโหลดพรีเมียม (ขวาบน): แอปพลิเคชันต้นทุนสูง-การใช้งานสูง รวม
technology และ science
technology มีต้นทุนสูงที่สุดแต่ยังรักษาปริมาณการใช้งานสูง สะท้อนว่าการออกแบบระบบหรือสถาปัตยกรรมที่ซับซ้อนต้องการโมเดลที่ทรงพลัง
- ตัวขับเคลื่อนปริมาณในตลาดแมส (ซ้ายบน): การใช้งานสูง-ต้นทุนต่ำ โดย
roleplay, programming, science ครองพื้นที่
programming เป็นหมวด “killer professional” ที่มีปริมาณการใช้งานสูงสุด พร้อมต้นทุนระดับกลางที่ถูกปรับให้เหมาะอย่างมาก
- ปริมาณการใช้งานของ
roleplay อยู่ในระดับใกล้เคียงกับ programming แสดงว่าการโรลเพลย์เชิงผู้บริโภคสร้างการมีส่วนร่วมได้เทียบเท่ากับกรณีใช้งานเชิงอาชีพระดับบน
- ผู้เชี่ยวชาญเฉพาะทาง (ขวาล่าง): ปริมาณต่ำ-ต้นทุนสูง รวม
finance, academia, health, marketing
- เป็นโดเมนเฉพาะทางที่มีความเสี่ยงสูงและต้องการความแม่นยำ ความน่าเชื่อถือ และความรู้เฉพาะโดเมนสูง
- ยูทิลิตีเฉพาะกลุ่ม (ซ้ายล่าง): ต้นทุนต่ำ-ปริมาณต่ำ รวม
translation, legal, trivia
- เป็นยูทิลิตีเชิงฟังก์ชันที่เน้นประสิทธิภาพด้านต้นทุน และกลายเป็นสินค้าโภคภัณฑ์จนมีทางเลือกที่ถูกกว่าให้ใช้
-
ต้นทุนที่แท้จริงของโมเดล AI เทียบกับการใช้งาน
- บนสเกล log-log ความสัมพันธ์ระหว่างราคาและปริมาณการใช้งานค่อนข้างอ่อน โดยเส้นแนวโน้มเกือบราบ
- อุปสงค์ค่อนข้างไม่ยืดหยุ่นต่อราคา: หากราคาลดลง 10% ปริมาณการใช้งานจะเพิ่มขึ้นเพียงราว 0.5~0.7%
- มีสองระบอบที่ชัดเจน: โมเดลปิด (OpenAI, Anthropic) อยู่ในโซนต้นทุนสูง-การใช้งานสูง ขณะที่โมเดลเปิด (DeepSeek, Mistral, Qwen) อยู่ในโซนต้นทุนต่ำ-ปริมาณสูง
- 4 archetype ของการใช้งาน-ต้นทุน:
- ผู้นำพรีเมียม: Claude 3.7 Sonnet, Claude Sonnet 4 เป็นต้น ทำปริมาณการใช้งานสูงได้ที่ราว $2/1M โทเคน
- ยักษ์ใหญ่ผู้มีประสิทธิภาพ: Gemini 2.0 Flash, DeepSeek V3 0324 เป็นต้น ทำปริมาณการใช้งานใกล้เคียงกันที่ต่ำกว่า $0.40/1M โทเคน
- หางยาว: Qwen 2 7B Instruct, IBM Granite 4.0 Micro เป็นต้น มีราคาเพียงไม่กี่เซนต์ต่อ 1M โทเคน แต่การใช้งานต่ำเพราะประสิทธิภาพอ่อนกว่าหรือการมองเห็นจำกัด
- ผู้เชี่ยวชาญพรีเมียม: GPT-4, GPT-5 Pro เป็นต้น มีราคาประมาณ $35/1M โทเคน ใช้งานต่ำ และถูกใช้จำกัดกับเวิร์กโหลดความเสี่ยงสูง
- มีหลักฐานของ ปริศนา Jevons: โมเดลที่ถูกมากและเร็วมากถูกนำไปใช้กับงานจำนวนมากขึ้น ทำให้การบริโภคโทเคนรวมเพิ่มขึ้น
- คุณภาพและความสามารถมักสำคัญกว่าต้นทุน: โมเดลราคาแพง (Claude, GPT-4) ที่มีการใช้งานสูง แสดงว่าหากโมเดลเหนือกว่าอย่างชัดเจนหรือมีข้อได้เปรียบด้านความเชื่อถือ ผู้ใช้ก็ยอมรับต้นทุนที่สูงกว่าได้
อภิปราย
- ระบบนิเวศหลายโมเดล: ไม่มีโมเดลเดียวที่ครองการใช้งานทั้งหมด และทั้งโมเดลปิดและโมเดลเปิดต่างก็มีส่วนแบ่งที่สำคัญ
- ความหลากหลายของการใช้งานที่มากกว่าด้านผลิตภาพ: มากกว่าครึ่งของการใช้งานโมเดลโอเพนซอร์สคือโรลเพลย์และการเล่าเรื่อง
- ตอกย้ำโอกาสในแอปพลิเคชันที่มุ่งผู้บริโภค การปรับให้เป็นส่วนบุคคล และการผสานกันระหว่าง AI กับทรัพย์สินทางปัญญาด้านความบันเทิง
- เอเจนต์ vs มนุษย์: การผงาดขึ้นของการให้เหตุผลแบบเอเจนติก: เปลี่ยนจากปฏิสัมพันธ์แบบเทิร์นเดียวไปสู่การให้เหตุผลแบบเอเจนติก โดยโมเดลสามารถวางแผน ให้เหตุผล และดำเนินการข้ามหลายขั้นตอนได้
- มุมมองระดับภูมิภาค: การใช้งาน LLM กำลังมีความเป็น สากลและกระจายศูนย์ มากขึ้น โดยส่วนแบ่งของเอเชียเพิ่มจาก 13% เป็น 31% และจีนกำลังก้าวขึ้นมาเป็นกำลังสำคัญ
- พลวัตระหว่างต้นทุนกับการใช้งาน: ตลาด LLM ยังไม่ใช่สินค้าโภคภัณฑ์ และราคาเพียงอย่างเดียวยังอธิบายปริมาณการใช้งานได้ไม่เพียงพอ
- โมเดลโอเพนซอร์สยังคงผลักดัน efficient frontier อย่างต่อเนื่อง และบีบอำนาจการตั้งราคาของระบบปิด
- อัตราการคงอยู่และปรากฏการณ์รองเท้าแก้วของซินเดอเรลลา: เมื่อโมเดลฐานก้าวกระโดด อัตราการคงอยู่คือมาตรวัดที่แท้จริงของความสามารถในการป้องกันฐานผู้ใช้
- ความเหมาะสมระหว่างโมเดลกับเวิร์กโหลดคือขีดความสามารถในการแข่งขันหลัก
ข้อจำกัด
- ให้ภาพเพียงบางส่วนของระบบนิเวศที่กว้างกว่า จากรูปแบบที่สังเกตได้ในช่วงเวลาจำกัดบนแพลตฟอร์มเดียว (OpenRouter)
- การใช้งานในองค์กร การดีพลอยแบบโฮสต์ภายในเครื่อง และระบบภายในแบบปิด อยู่นอกขอบเขตของข้อมูล
- การวิเคราะห์บางส่วนอาศัย การวัดแบบตัวแทน: การระบุการให้เหตุผลแบบเอเจนติกผ่านหลายขั้นตอนหรือการเรียกใช้เครื่องมือ การอนุมานภูมิภาคจากการเรียกเก็บเงิน เป็นต้น
- ควรตีความผลลัพธ์เป็น รูปแบบพฤติกรรมเชิงบ่งชี้ มากกว่าจะเป็นการวัดที่ชี้ขาด
บทสรุป
- มอบมุมมองเชิงประจักษ์ต่อวิธีที่ LLM กำลังถูกรวมเข้ากับโครงสร้างพื้นฐานการประมวลผลของโลก
- ในปีที่ผ่านมา การปรากฏขึ้นของโมเดลระดับ o1 ได้จุดชนวนการเปลี่ยนแปลงแบบก้าวกระโดดต่อการรับรู้เรื่อง การให้เหตุผล ทำให้การประเมินขยับจาก single-shot benchmark ไปสู่ตัวชี้วัดแบบอิงกระบวนการ, trade-off ระหว่าง latency กับต้นทุน, และความสำเร็จภายใต้การ orchestration
- ระบบนิเวศ LLM มีความ พหุนิยมเชิงโครงสร้าง โดยผู้ใช้เลือกใช้ระบบตามหลายแกน เช่น ความสามารถ, latency, ราคา และความน่าเชื่อถือ
- ตัวการให้เหตุผลเองก็กำลังเปลี่ยนไป: จากการเติมข้อความแบบคงที่สู่ dynamic orchestration พร้อมการผงาดขึ้นของการให้เหตุผลแบบเอเจนติก
- ในเชิงภูมิภาค มีความ กระจายตัวมากขึ้น, ส่วนแบ่งของเอเชียขยายตัว และจีนกำลังก้าวขึ้นมาเป็นทั้งผู้พัฒนาและผู้ส่งออกโมเดล
- o1 ไม่ได้ยุติการแข่งขัน แต่ ขยาย design space, ผลักให้เปลี่ยนจากการทุ่มเดิมพันกับโมเดลแบบ monolithic ไปสู่การคิดเชิงระบบ จากสัญชาตญาณไปสู่การวัดเชิงเครื่องมือ และจากส่วนต่างบนลีดเดอร์บอร์ดไปสู่การวิเคราะห์การใช้งานเชิงประจักษ์
- ขั้นต่อไปคือการมุ่งสู่ความเป็นเลิศด้านการปฏิบัติการ: วัดการทำงานจริงให้สำเร็จ ลดความแปรปรวนภายใต้การเปลี่ยนแปลงของการกระจายข้อมูล และจัดแนวพฤติกรรมของโมเดลให้ตรงกับความต้องการจริงของเวิร์กโหลดระดับโปรดักชัน
ยังไม่มีความคิดเห็น