Grok 4 กลายเป็นโมเดล AI อันดับหนึ่งแล้ว

(twitter.com/ArtificialAnlys)

5 คะแนน โดย GN⁺ 2025-07-11 | 5 ความคิดเห็น | แชร์ทาง WhatsApp

Grok 4 ของ xAI ขึ้นเป็น โมเดล AI อันดับ 1 ในเบนช์มาร์กหลัก
ใน AAI Index Grok 4 ได้ 73 คะแนน นำหน้า OpenAI o3 (70 คะแนน), Google Gemini 2.5 Pro (70 คะแนน), Anthropic Claude 4 Opus (64 คะแนน), DeepSeek R1 0528 (68 คะแนน)
Grok 4 ทำคะแนนสูงสุดในเบนช์มาร์กด้านโค้ดและคณิตศาสตร์ พร้อมสร้างสถิติใหม่ใน GPQA Diamond (88%) และ Humanity’s Last Exam (24%)
ราคาเท่ากับ Grok 3 โดยราคาต่อโทเคนเท่ากับ Claude 4 Sonnet และแพงกว่า Gemini 2.5 Pro หรือ o3 เล็กน้อย
มีฟีเจอร์หลักอย่าง context window 256k โทเคน, รองรับอินพุตข้อความ/ภาพ, function calling และ structured output

Grok 4 ขึ้นเป็นโมเดลเรือธงของ xAI

ด้วย 73 คะแนนใน Artificial Analysis Intelligence Index ทำให้ Grok 4 ครองอันดับ 1 ในเบนช์มาร์กหลัก
ได้คะแนนสูงกว่า OpenAI o3 (70 คะแนน), Google Gemini 2.5 Pro (70 คะแนน), Anthropic Claude 4 Opus (64 คะแนน), DeepSeek R1 0528 (68 คะแนน) จึงเป็น ครั้งแรกที่ xAI ขึ้นมาเป็นผู้นำด้าน AI
Grok 3 รุ่นก่อนหน้าก็มีความสามารถในการแข่งขันเช่นกัน แต่ Grok 4 คือ โมเดลแรกที่ทำให้ xAI ขึ้นเป็นผู้นำ

ผลเบนช์มาร์กและการประเมิน

ครองอันดับ 1 ทั้งดัชนีการเขียนโค้ด (LiveCodeBench & SciCode) และดัชนีคณิตศาสตร์ (AIME24 & MATH-500)
GPQA Diamond 88% ทำลายสถิติเดิมของ Gemini 2.5 Pro (84%)
Humanity’s Last Exam 24% สูงกว่าสถิติเดิมของ Gemini 2.5 Pro (21%)
ทำสถิติสูงสุดร่วมใน MMLU-Pro 87% และ AIME 2024 94%
ความเร็วเอาต์พุต 75 โทเคน/วินาที ช้ากว่า o3 (188), Gemini 2.5 Pro (142), Claude 4 Sonnet Thinking (85) แต่เร็วกว่า Claude 4 Opus Thinking (66)

ข้อมูลสำคัญอื่น ๆ

มี context window 256k โทเคน (อยู่ในกลุ่มระดับบนเมื่อเทียบกับ Gemini 2.5 Pro: 1M, Claude 4 Sonnet/Opus: 200k, o3: 200k, R1 0528: 128k)
รองรับอินพุตข้อความและภาพ
รองรับ function calling และ structured output
นโยบายราคา: เท่ากับ Grok 3 คือ $3/$15 ต่อ 1M โทเคนอินพุต/เอาต์พุต และ $0.75 ต่อโทเคนอินพุตแบบแคช
- เท่ากับ Claude 4 Sonnet แต่แพงกว่า Gemini 2.5 Pro และ o3 เล็กน้อย
Grok 4 มีกำหนดให้ใช้งานผ่าน xAI API, แชตบอต Grok (X/Twitter), Microsoft Azure AI Foundry เป็นต้น

สรุป

Grok 4 คือโมเดล AI ตัวแรกที่ทำให้ xAI ขึ้นเป็นผู้นำ โดยนำหน้าคู่แข่งหลักทั้งหมดทั้งในเชิงเบนช์มาร์กและตัวเลข
แสดงความเป็นผู้นำของอุตสาหกรรมด้วย ความสามารถด้านการให้เหตุผล ที่แข็งแกร่ง, รูปแบบอินพุต/เอาต์พุตที่หลากหลาย และการรองรับคอนเท็กซ์ในระดับสูง
รายละเอียดการใช้งานจริงของโมเดลสำหรับ X/Twitter และสำหรับ API อาจแตกต่างกัน

5 ความคิดเห็น

slowandsnow 2025-07-11

ตอนนี้ยังไม่เชื่อหรอก จนกว่าจะปล่อยให้ใช้ฟรีก่อน Grok นี่ถึงขั้น 30 ดอลลาร์เลย เลยไม่กล้าสมัครสมาชิก...

paruaa 2025-07-11

น่าจะคิดได้ว่าเป็นประสิทธิภาพของโมเดลที่ผ่านกระบวนการ alignment มาน้อย แต่ก็คงโดนตีกลับแล้วประสิทธิภาพลดลงหรือเปล่า

click 2025-07-11

ตอนใช้ gemini cli ด้วยคอนเท็กซ์ 1M ประสบการณ์ผู้ใช้ต่างไปคนละระดับเลย
การยกทั้งโค้ดเบสขึ้นไปไว้ในคอนเท็กซ์ได้แบบนี้ถือเป็น game changer จริง ๆ

koolgu 2025-07-11

สงสัยว่าขนาดคอนเท็กซ์ส่งผลต่อการใช้งานโมเดลมากแค่ไหน แต่จนถึงตอนนี้การยังพูดกันว่าอะไรเป็นที่ 1 โดยอิงแค่เบนช์มาร์กกับภาพลักษณ์ภายนอก มันต่างอะไรจากการทำไวรัลมาร์เก็ตติ้งใส่คนที่ไม่รู้อะไรเลย

GN⁺ 2025-07-11

ความคิดเห็นจาก Hacker News

นึกภาพไม่ออกเลยว่าใครจะยอมจ่ายเงินเพื่อใช้ Grok แถมช่วงนี้ก็ดูเหมือนมันมีปัญหาไปหมดแล้ว มูลค่าประเมินของ xAI ก็เป็นแค่ภาพลวงตา
- ฉันจ่ายเงินใช้ Grok อยู่ ใช้มันแทน Google มาหลายเดือนแล้ว การเข้าถึง X graph ทำให้มันมีประโยชน์มาก และยังมีข้อมูลล่าสุดเยอะด้วย ถ้าใช้ได้ใน Cline หรือ Cursor ด้วยก็คงดี
- สงสัยว่าคุณรู้ไหมว่าที่ก่อปัญหาไม่ใช่โมเดล Grok แต่เป็นบอต @grok บน X เวอร์ชัน API ของ Grok ไม่ได้จู่ ๆ ก็เลียนแบบฮิตเลอร์แบบไร้เหตุผลหรอก (เว้นแต่จะสั่งให้ทำโดยตรง)
ทำผลงานบน ARC-AGI2 ได้ดีกว่า o3 4 เท่า และดีกว่า opus 4 2 เท่า… เบนช์มาร์กอิสระอื่น ๆ ก็ออกมาแรงเหมือนกัน วงจรสั้น ๆ ที่แต่ละโมเดลอ้างตัวว่าเป็น "ดีที่สุดในโลก" อยู่เดือนหนึ่งยังคงหมุนต่อไป ในราคาแบบนี้ถือว่าดีกับผู้บริโภค และชุดข้อมูลฝึกของโมเดลเปิดก็กำลังหลากหลายขึ้นด้วย เป็นวิน-วิน น่าเสียดายที่ได้เห็นคนปล่อยข้อแก้ตัวชวนปวดหัวเพราะเอาอารมณ์ไปตีกับคนดัง หลายคนน่าจะต้องทำ media detox กันบ้าง เมื่อก่อนคนเรียก LLM ว่าเป็น "นกแก้วเชิงสถิติ" แต่ตอนนี้พอมองกระทู้นี้กับ Reddit แล้ว กลับรู้สึกว่าคนต่างหากที่กำลังพูดซ้ำเรื่องโง่ ๆ และเต็มไปด้วยความเกลียดชังเหมือนนกแก้ว เราควรทำให้ดีกว่านี้
ฉันสงสัยว่าในโค้ดของฉันต่อจากนี้จะยังมีคำตอบเกี่ยวกับฮิตเลอร์โผล่มาอีกไหม แก้ไข: ฉันรู้สึกว่าตัวเองโง่ที่ไม่ทันนึกว่านี่เป็นการตลาดแบบ "อัจฉริยะ" อีกครั้ง