- Grok 4 ของ xAI ขึ้นเป็น โมเดล AI อันดับ 1 ในเบนช์มาร์กหลัก
- ใน AAI Index Grok 4 ได้ 73 คะแนน นำหน้า OpenAI o3 (70 คะแนน), Google Gemini 2.5 Pro (70 คะแนน), Anthropic Claude 4 Opus (64 คะแนน), DeepSeek R1 0528 (68 คะแนน)
- Grok 4 ทำคะแนนสูงสุดในเบนช์มาร์กด้านโค้ดและคณิตศาสตร์ พร้อมสร้างสถิติใหม่ใน GPQA Diamond (88%) และ Humanity’s Last Exam (24%)
- ราคาเท่ากับ Grok 3 โดยราคาต่อโทเคนเท่ากับ Claude 4 Sonnet และแพงกว่า Gemini 2.5 Pro หรือ o3 เล็กน้อย
- มีฟีเจอร์หลักอย่าง context window 256k โทเคน, รองรับอินพุตข้อความ/ภาพ, function calling และ structured output
Grok 4 ขึ้นเป็นโมเดลเรือธงของ xAI
- ด้วย 73 คะแนนใน Artificial Analysis Intelligence Index ทำให้ Grok 4 ครองอันดับ 1 ในเบนช์มาร์กหลัก
- ได้คะแนนสูงกว่า OpenAI o3 (70 คะแนน), Google Gemini 2.5 Pro (70 คะแนน), Anthropic Claude 4 Opus (64 คะแนน), DeepSeek R1 0528 (68 คะแนน) จึงเป็น ครั้งแรกที่ xAI ขึ้นมาเป็นผู้นำด้าน AI
- Grok 3 รุ่นก่อนหน้าก็มีความสามารถในการแข่งขันเช่นกัน แต่ Grok 4 คือ โมเดลแรกที่ทำให้ xAI ขึ้นเป็นผู้นำ
ผลเบนช์มาร์กและการประเมิน
- ครองอันดับ 1 ทั้งดัชนีการเขียนโค้ด (LiveCodeBench & SciCode) และดัชนีคณิตศาสตร์ (AIME24 & MATH-500)
- GPQA Diamond 88% ทำลายสถิติเดิมของ Gemini 2.5 Pro (84%)
- Humanity’s Last Exam 24% สูงกว่าสถิติเดิมของ Gemini 2.5 Pro (21%)
- ทำสถิติสูงสุดร่วมใน MMLU-Pro 87% และ AIME 2024 94%
- ความเร็วเอาต์พุต 75 โทเคน/วินาที ช้ากว่า o3 (188), Gemini 2.5 Pro (142), Claude 4 Sonnet Thinking (85) แต่เร็วกว่า Claude 4 Opus Thinking (66)
ข้อมูลสำคัญอื่น ๆ
- มี context window 256k โทเคน (อยู่ในกลุ่มระดับบนเมื่อเทียบกับ Gemini 2.5 Pro: 1M, Claude 4 Sonnet/Opus: 200k, o3: 200k, R1 0528: 128k)
- รองรับอินพุตข้อความและภาพ
- รองรับ function calling และ structured output
- นโยบายราคา: เท่ากับ Grok 3 คือ $3/$15 ต่อ 1M โทเคนอินพุต/เอาต์พุต และ $0.75 ต่อโทเคนอินพุตแบบแคช
- เท่ากับ Claude 4 Sonnet แต่แพงกว่า Gemini 2.5 Pro และ o3 เล็กน้อย
- Grok 4 มีกำหนดให้ใช้งานผ่าน xAI API, แชตบอต Grok (X/Twitter), Microsoft Azure AI Foundry เป็นต้น
สรุป
- Grok 4 คือโมเดล AI ตัวแรกที่ทำให้ xAI ขึ้นเป็นผู้นำ โดยนำหน้าคู่แข่งหลักทั้งหมดทั้งในเชิงเบนช์มาร์กและตัวเลข
- แสดงความเป็นผู้นำของอุตสาหกรรมด้วย ความสามารถด้านการให้เหตุผล ที่แข็งแกร่ง, รูปแบบอินพุต/เอาต์พุตที่หลากหลาย และการรองรับคอนเท็กซ์ในระดับสูง
- รายละเอียดการใช้งานจริงของโมเดลสำหรับ X/Twitter และสำหรับ API อาจแตกต่างกัน
5 ความคิดเห็น
ตอนนี้ยังไม่เชื่อหรอก จนกว่าจะปล่อยให้ใช้ฟรีก่อน Grok นี่ถึงขั้น 30 ดอลลาร์เลย เลยไม่กล้าสมัครสมาชิก...
น่าจะคิดได้ว่าเป็นประสิทธิภาพของโมเดลที่ผ่านกระบวนการ alignment มาน้อย แต่ก็คงโดนตีกลับแล้วประสิทธิภาพลดลงหรือเปล่า
ตอนใช้ gemini cli ด้วยคอนเท็กซ์ 1M ประสบการณ์ผู้ใช้ต่างไปคนละระดับเลย
การยกทั้งโค้ดเบสขึ้นไปไว้ในคอนเท็กซ์ได้แบบนี้ถือเป็น game changer จริง ๆ
สงสัยว่าขนาดคอนเท็กซ์ส่งผลต่อการใช้งานโมเดลมากแค่ไหน แต่จนถึงตอนนี้การยังพูดกันว่าอะไรเป็นที่ 1 โดยอิงแค่เบนช์มาร์กกับภาพลักษณ์ภายนอก มันต่างอะไรจากการทำไวรัลมาร์เก็ตติ้งใส่คนที่ไม่รู้อะไรเลย
ความคิดเห็นจาก Hacker News