- Gemini 2.5 Pro ที่ Google เปิดตัวได้รับความสนใจน้อยลงเพราะการเปิดตัวความสามารถสร้างภาพอันโดดเด่นของ GPT-4o แต่จริง ๆ แล้วนี่คือพัฒนาการที่สำคัญ
- ประสิทธิภาพการเขียนโค้ดยอดเยี่ยมมาก และด้วยความยาวคอนเท็กซ์สูงสุด 1 ล้านโทเคน จึงสามารถรองรับการประมวลผลทั้งโค้ดเบสได้
- ฟีดแบ็กจากผู้ใช้ก็เป็นบวกอย่างมาก และแสดงผลลัพธ์ที่ยอดเยี่ยมในการทดสอบโค้ดจริง
- ในทางกลับกัน สำหรับโจทย์การให้เหตุผลที่ซับซ้อนนั้นยังด้อยกว่า Grok 3 หรือ Claude 3.7 Sonnet
การปรับปรุงที่สำคัญ
- Gemini 2.5 Pro พัฒนาประสิทธิภาพขึ้นจากสถาปัตยกรรมพื้นฐานของ Gemini 2.0 Flash ผ่านการปรับแต่งหลังการฝึกและการขยายพารามิเตอร์
- รองรับความยาวคอนเท็กซ์สูงสุด 1,000,000 ทำให้สามารถใส่ทั้งโค้ดเบสเข้าไปและยังได้ผลลัพธ์ที่ดี
- ความสามารถในการเข้าใจหลายภาษาได้รับการเสริมขึ้น และสร้างสถิติใหม่ด้านการประมวลผลภาษาสเปนในอันดับ LMSYS
ประสิทธิภาพในเบนช์มาร์ก
- ทำผลงานได้โดดเด่นในเบนช์มาร์กสำคัญอย่าง LMSYS, Livebench, GPQA, AIME, SWEbench verified เป็นต้น
- ใน ARC-AGI มีระดับใกล้เคียงกับ Deepseek r1 และต่ำกว่า Claude 3.7
- ได้อันดับ 1 ในเบนช์มาร์ก WeirdML และมีความสามารถโดดเด่นในการเขียนโค้ด PyTorch ที่ใช้งานได้สำหรับโจทย์ ML แปลก ๆ
- ยังนำเป็นอันดับต้น ๆ ในเบนช์มาร์ก Aider Polyglot ด้วย
กรณีใช้งานจริง
- ให้ผลลัพธ์ยอดเยี่ยมในตัวอย่างหลากหลาย เช่น โจทย์ Wordle, การสร้างเชดเดอร์, โปรแกรมจำลองการบิน, รูบิกส์คิวบ์, เกมซอมบี้ และการสร้างเกมอาร์เคด
- โดยเฉพาะงานสร้างเกม ให้คุณภาพการทำงานที่ลื่นไหลและอยู่ในระดับสูง
Gemini 2.5 Pro vs Claude 3.7 vs Grok 3 - เปรียบเทียบความสามารถด้านการเขียนโค้ด
1. ลูกบอลเด้งในลูกบาศก์ 3D (Three.js)
- Gemini 2.5: ให้ผลลัพธ์ดีที่สุด ด้วยการเคลื่อนไหวที่ลื่นไหลและสมจริง
- Grok 3: ช่วงแรกทำได้ดี แต่เมื่อเวลาผ่านไปลูกบอลติดกันจนทำงานไม่ถูกต้อง
- Claude 3.7: การตั้งค่าทำได้ดีเยี่ยม แต่ลูกบอลหยุดนิ่งและขาดปฏิสัมพันธ์
2. เกมสไตล์ Minecraft (Pygame)
- Gemini 2.5: เกมเพลย์ลื่นไหลและประณีต ตอบโจทย์ทุกข้อกำหนด
- Claude 3.7: ให้ผลลัพธ์ระดับสูงพร้อมเอฟเฟ็กต์ภาพและองค์ประกอบ UI
- Grok 3: ใช้งานพื้นฐานได้ แต่การเคลื่อนไหวและการจัดวางยังไม่ลื่นไหล
3. เว็บแอป Task Tracker
- Gemini 2.5: UI สมบูรณ์และลำดับการใช้งานเป็นธรรมชาติ
- Claude 3.7: เรียบง่ายและดึงดูดสายตา
- Grok 3: ตอบโจทย์ความต้องการ แต่ความสมบูรณ์ยังด้อยกว่าโมเดลอื่น
ความสามารถด้านการให้เหตุผลที่ซับซ้อน
1. แบบทดสอบอคติทางความคิด (ปัญหาหมอกับลูกชาย)
- Claude 3.7, Grok 3 แก้โจทย์ได้ถูกต้องทั้งคู่
- Gemini 2.5 แสดงอาการสับสนเล็กน้อย
2. หาเดินหมากที่ดีที่สุดใน Tic-tac-toe
- ทั้งสามโมเดล ให้คำตอบถูกต้อง แต่ Grok 3 ให้การวิเคราะห์ที่ชัดเจนที่สุด
- อย่างไรก็ตาม ไม่มีโมเดลใดหาจุดคำตอบที่ถูกต้องครบทั้งหมดได้ (ข้อ 3 และ 5)
3. ปัญหาความสัมพันธ์ทางเครือญาติที่ซับซ้อน
- Claude 3.7 ให้คำตอบที่ถูกต้องคือ 12 คน
- Gemini 2.5, Grok 3 ตอบผิดเป็น 15 คน แต่ยังพอเข้าใจตรรกะที่ใช้ได้
ความสามารถด้านคณิตศาสตร์
1. หา GCD ของลำดับอนันต์
- Gemini 2.5 เท่านั้นที่ตอบถูก
- Grok 3 ตอบผิด
2. ประเมินนิพจน์โดยอิงจากจำนวนสระ
- Claude 3.7 เป็นเพียงโมเดลเดียวที่ได้คำตอบถูกต้อง
- Grok 3 ไม่เข้าใจบริบท
- Gemini 2.5 ยังไม่แน่ชัด
สรุปความสามารถด้านคณิตศาสตร์
- สำหรับโจทย์คณิตศาสตร์ล้วน ๆ Gemini 2.5 Pro ทำได้ดี
- สำหรับโจทย์คณิตศาสตร์ที่ผสมการให้เหตุผล Claude 3.7 Sonnet มีความสมดุลมากกว่า
- Grok 3 มีประสิทธิภาพด้านคณิตศาสตร์ต่ำที่สุด
บทสรุป
- Gemini 2.5 Pro ของ Google เป็นโมเดลที่โดดเด่นด้านการเขียนโค้ด และแสดงผลงานยอดเยี่ยมในกรณีใช้งานจริง
- ในโจทย์ด้านการให้เหตุผลและการคิดที่ซับซ้อน ยังด้อยกว่าคู่แข่งเล็กน้อย
- แม้จะแข็งแกร่งในโจทย์คณิตศาสตร์ แต่เมื่อมีการให้เหตุผลเชิงตรรกะรวมอยู่ด้วย ประสิทธิภาพจะลดลง
- มีข้อได้เปรียบสำคัญด้านการประมวลผลหลายภาษาและการรับอินพุตขนาดใหญ่
- ประสิทธิภาพด้านการเขียนโค้ด: ยอดเยี่ยมมาก
- ความสามารถด้านการให้เหตุผล: ด้อยกว่า Claude 3.7 และ Grok 3
- ความสามารถด้านคณิตศาสตร์: ความสามารถด้านการคำนวณล้วนทำได้ดี
ยังไม่มีความคิดเห็น