• Gemini 2.5 Pro ที่ Google เปิดตัวได้รับความสนใจน้อยลงเพราะการเปิดตัวความสามารถสร้างภาพอันโดดเด่นของ GPT-4o แต่จริง ๆ แล้วนี่คือพัฒนาการที่สำคัญ
  • ประสิทธิภาพการเขียนโค้ดยอดเยี่ยมมาก และด้วยความยาวคอนเท็กซ์สูงสุด 1 ล้านโทเคน จึงสามารถรองรับการประมวลผลทั้งโค้ดเบสได้
  • ฟีดแบ็กจากผู้ใช้ก็เป็นบวกอย่างมาก และแสดงผลลัพธ์ที่ยอดเยี่ยมในการทดสอบโค้ดจริง
  • ในทางกลับกัน สำหรับโจทย์การให้เหตุผลที่ซับซ้อนนั้นยังด้อยกว่า Grok 3 หรือ Claude 3.7 Sonnet

การปรับปรุงที่สำคัญ

  • Gemini 2.5 Pro พัฒนาประสิทธิภาพขึ้นจากสถาปัตยกรรมพื้นฐานของ Gemini 2.0 Flash ผ่านการปรับแต่งหลังการฝึกและการขยายพารามิเตอร์
  • รองรับความยาวคอนเท็กซ์สูงสุด 1,000,000 ทำให้สามารถใส่ทั้งโค้ดเบสเข้าไปและยังได้ผลลัพธ์ที่ดี
  • ความสามารถในการเข้าใจหลายภาษาได้รับการเสริมขึ้น และสร้างสถิติใหม่ด้านการประมวลผลภาษาสเปนในอันดับ LMSYS

ประสิทธิภาพในเบนช์มาร์ก

  • ทำผลงานได้โดดเด่นในเบนช์มาร์กสำคัญอย่าง LMSYS, Livebench, GPQA, AIME, SWEbench verified เป็นต้น
  • ใน ARC-AGI มีระดับใกล้เคียงกับ Deepseek r1 และต่ำกว่า Claude 3.7
  • ได้อันดับ 1 ในเบนช์มาร์ก WeirdML และมีความสามารถโดดเด่นในการเขียนโค้ด PyTorch ที่ใช้งานได้สำหรับโจทย์ ML แปลก ๆ
  • ยังนำเป็นอันดับต้น ๆ ในเบนช์มาร์ก Aider Polyglot ด้วย

กรณีใช้งานจริง

  • ให้ผลลัพธ์ยอดเยี่ยมในตัวอย่างหลากหลาย เช่น โจทย์ Wordle, การสร้างเชดเดอร์, โปรแกรมจำลองการบิน, รูบิกส์คิวบ์, เกมซอมบี้ และการสร้างเกมอาร์เคด
  • โดยเฉพาะงานสร้างเกม ให้คุณภาพการทำงานที่ลื่นไหลและอยู่ในระดับสูง

Gemini 2.5 Pro vs Claude 3.7 vs Grok 3 - เปรียบเทียบความสามารถด้านการเขียนโค้ด

1. ลูกบอลเด้งในลูกบาศก์ 3D (Three.js)

  • Gemini 2.5: ให้ผลลัพธ์ดีที่สุด ด้วยการเคลื่อนไหวที่ลื่นไหลและสมจริง
  • Grok 3: ช่วงแรกทำได้ดี แต่เมื่อเวลาผ่านไปลูกบอลติดกันจนทำงานไม่ถูกต้อง
  • Claude 3.7: การตั้งค่าทำได้ดีเยี่ยม แต่ลูกบอลหยุดนิ่งและขาดปฏิสัมพันธ์

2. เกมสไตล์ Minecraft (Pygame)

  • Gemini 2.5: เกมเพลย์ลื่นไหลและประณีต ตอบโจทย์ทุกข้อกำหนด
  • Claude 3.7: ให้ผลลัพธ์ระดับสูงพร้อมเอฟเฟ็กต์ภาพและองค์ประกอบ UI
  • Grok 3: ใช้งานพื้นฐานได้ แต่การเคลื่อนไหวและการจัดวางยังไม่ลื่นไหล

3. เว็บแอป Task Tracker

  • Gemini 2.5: UI สมบูรณ์และลำดับการใช้งานเป็นธรรมชาติ
  • Claude 3.7: เรียบง่ายและดึงดูดสายตา
  • Grok 3: ตอบโจทย์ความต้องการ แต่ความสมบูรณ์ยังด้อยกว่าโมเดลอื่น

ความสามารถด้านการให้เหตุผลที่ซับซ้อน

1. แบบทดสอบอคติทางความคิด (ปัญหาหมอกับลูกชาย)

  • Claude 3.7, Grok 3 แก้โจทย์ได้ถูกต้องทั้งคู่
  • Gemini 2.5 แสดงอาการสับสนเล็กน้อย

2. หาเดินหมากที่ดีที่สุดใน Tic-tac-toe

  • ทั้งสามโมเดล ให้คำตอบถูกต้อง แต่ Grok 3 ให้การวิเคราะห์ที่ชัดเจนที่สุด
  • อย่างไรก็ตาม ไม่มีโมเดลใดหาจุดคำตอบที่ถูกต้องครบทั้งหมดได้ (ข้อ 3 และ 5)

3. ปัญหาความสัมพันธ์ทางเครือญาติที่ซับซ้อน

  • Claude 3.7 ให้คำตอบที่ถูกต้องคือ 12 คน
  • Gemini 2.5, Grok 3 ตอบผิดเป็น 15 คน แต่ยังพอเข้าใจตรรกะที่ใช้ได้

ความสามารถด้านคณิตศาสตร์

1. หา GCD ของลำดับอนันต์

  • Gemini 2.5 เท่านั้นที่ตอบถูก
  • Grok 3 ตอบผิด

2. ประเมินนิพจน์โดยอิงจากจำนวนสระ

  • Claude 3.7 เป็นเพียงโมเดลเดียวที่ได้คำตอบถูกต้อง
  • Grok 3 ไม่เข้าใจบริบท
  • Gemini 2.5 ยังไม่แน่ชัด

สรุปความสามารถด้านคณิตศาสตร์

  • สำหรับโจทย์คณิตศาสตร์ล้วน ๆ Gemini 2.5 Pro ทำได้ดี
  • สำหรับโจทย์คณิตศาสตร์ที่ผสมการให้เหตุผล Claude 3.7 Sonnet มีความสมดุลมากกว่า
  • Grok 3 มีประสิทธิภาพด้านคณิตศาสตร์ต่ำที่สุด

บทสรุป

  • Gemini 2.5 Pro ของ Google เป็นโมเดลที่โดดเด่นด้านการเขียนโค้ด และแสดงผลงานยอดเยี่ยมในกรณีใช้งานจริง
  • ในโจทย์ด้านการให้เหตุผลและการคิดที่ซับซ้อน ยังด้อยกว่าคู่แข่งเล็กน้อย
  • แม้จะแข็งแกร่งในโจทย์คณิตศาสตร์ แต่เมื่อมีการให้เหตุผลเชิงตรรกะรวมอยู่ด้วย ประสิทธิภาพจะลดลง
  • มีข้อได้เปรียบสำคัญด้านการประมวลผลหลายภาษาและการรับอินพุตขนาดใหญ่
  • ประสิทธิภาพด้านการเขียนโค้ด: ยอดเยี่ยมมาก
  • ความสามารถด้านการให้เหตุผล: ด้อยกว่า Claude 3.7 และ Grok 3
  • ความสามารถด้านคณิตศาสตร์: ความสามารถด้านการคำนวณล้วนทำได้ดี

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น