- Gemini 2.5 Pro ทำได้ดีกว่าในการเขียนโค้ด
- Claude 3.7 Sonnet ก็ยอดเยี่ยมเช่นกัน แต่ตอนนี้การใช้ Gemini 2.5 Pro คุ้มค่ากว่า
- จุดเด่นสำคัญคือ context window 1 ล้านโทเค็น และเปิดให้ใช้งานฟรี
- ในอดีต Claude 3.7 Sonnet เป็นมาตรฐานอ้างอิงในการเปรียบเทียบมาโดยตลอด แต่ตอนนี้เปลี่ยนไปแล้ว
แนะนำ Gemini 2.5 Pro แบบย่อ
- โมเดล reasoning เชิงทดลองที่ Google เปิดตัวเมื่อ 26 มีนาคม 2025
- หลังเปิดตัวได้รับกระแสตอบรับอย่างมากบน Twitter(X), YouTube และแพลตฟอร์มอื่น ๆ
- ขึ้น อันดับ 1 บน LMArena และแสดงประสิทธิภาพยอดเยี่ยมมากในด้านการเขียนโค้ด คณิตศาสตร์ วิทยาศาสตร์ และการทำความเข้าใจภาพ
- ให้ context window 1 ล้านโทเค็น และมีการประกาศล่วงหน้าว่าในอนาคตจะขยายเป็น 2 ล้านโทเค็น
- มีความแม่นยำ 63.8% บนเกณฑ์ SWE Bench สูงกว่า 62.3% ของ Claude 3.7 Sonnet
- พิสูจน์ประสิทธิภาพอันยอดเยี่ยมผ่านตัวอย่างหลากหลาย เช่น เดโมเกมไดโนเสาร์ที่ Google นำเสนอ
- โดยรวมถูกประเมินว่าเป็น โมเดลอเนกประสงค์ที่เหมาะกับงานเชิงสติปัญญาทุกประเภท ไม่ใช่แค่การเขียนโค้ด
เปรียบเทียบการทดสอบด้านการเขียนโค้ด
1. สร้าง flight simulator
- Gemini 2.5 Pro
- สร้างซิมูเลเตอร์ที่ทำงานได้สมบูรณ์
- ตอบโจทย์ทุกเงื่อนไข ทั้งการบังคับเครื่องบิน การสร้างเมืองสไตล์ Minecraft และอื่น ๆ
- ความสมบูรณ์ 10/10
- Claude 3.7 Sonnet
- มีปัญหาเครื่องบินบินเอียงด้านข้างและหลุดออกนอกเมือง
- ความสมบูรณ์เชิงฟังก์ชันต่ำกว่า
- สรุป: Gemini 2.5 Pro ชนะขาด
2. การแสดงภาพและการแก้ Rubik’s Cube
- Gemini 2.5 Pro
- สร้างการแสดงภาพและตัวแก้ได้อย่างถูกต้องในครั้งเดียว
- ใช้ Three.js และทำได้สมบูรณ์ทั้งสีของลูกบาศก์ การสุ่มสลับ และแอนิเมชัน
- Claude 3.7 Sonnet
- แสดงสีไม่สำเร็จและแก้โจทย์ไม่สำเร็จ
- มีข้อจำกัดคล้ายกับ LLM อื่น ๆ
- สรุป: Gemini 2.5 Pro เหนือกว่าอย่างชัดเจนในข้อนี้เช่นกัน
3. การแสดงภาพลูกบอลเด้งภายใน tesseract 4 มิติ
- Gemini 2.5 Pro
- ตอบโจทย์ครบทั้งการชนตามหลักฟิสิกส์ การเน้นพื้นผิว และข้อกำหนดอื่น ๆ
- คุณภาพโค้ดและการทำงานยอดเยี่ยมมาก
- Claude 3.7 Sonnet
- ฟังก์ชันทำงานได้ แต่เพิ่มสีที่ไม่จำเป็น
- ถึงอย่างนั้นก็ยังตอบโจทย์ฟังก์ชันที่ต้องการ
- สรุป: ทั้งสองโมเดลผ่านข้อกำหนด โดย Claude ก็ทำสำเร็จได้ในที่สุด
4. โจทย์ LeetCode: หาผลรวมสูงสุดจากการวาง rook 3 ตัว
- Gemini 2.5 Pro
- โค้ดค่อนข้างซับซ้อน แต่ให้คำตอบที่ถูกต้อง
- คำนึงถึง time complexity ได้อย่างเหมาะสม
- Claude 3.7 Sonnet
- เขียนโค้ดได้กระชับ แต่เกิด time limit exceeded (TLE)
- เข้าใจง่าย แต่ยังด้อยกว่าในด้านประสิทธิภาพ
- สรุป: Gemini 2.5 Pro นำหน้าในทั้งด้านประสิทธิภาพและความแม่นยำ
บทสรุป
- Gemini 2.5 Pro เหนือกว่าอย่างชัดเจน
- นำหน้า Claude 3.7 Sonnet ในด้าน context window ความแม่นยำ และประสิทธิภาพในการทำงานหลายอย่างพร้อมกัน
- Claude ยังคงเป็นโมเดลที่ยอดเยี่ยม แต่ ณ ตอนนี้ การใช้ Gemini มีประสิทธิภาพมากกว่า
- หากขยายเป็น หน้าต่าง 2 ล้านโทเค็น ในอนาคต ประสิทธิภาพก็น่าจะยิ่งดีขึ้นอีก
- เมื่อรวมกับโมเดลขนาดเล็ก Gemma 3 27B ที่ Google เปิดตัวล่าสุด ก็ทำให้เกิดไลน์อัป AI ที่แข็งแกร่ง
1 ความคิดเห็น
ความเห็นจาก Hacker News
อยากจัดการแข่งขันพร้อมเงินรางวัลสำหรับปัญหาเขียนโค้ดจริง แต่ต้องกำหนดกติกาก่อน และยังสงสัยว่า LLM จะสามารถแก้ปัญหานี้ได้หรือไม่
Gemini เป็นโมเดลเดียวที่บอกได้ว่าควรหยุดบทสนทนาเมื่อไร
เคยใช้ Gemini 2.5 Pro และคิดว่ามันค่อนข้างดี
ผู้แพ้ในการแข่งขันของโมเดล AI ดูเหมือนจะเป็น Microsoft
Gemini 2.5 Pro ทำคะแนนได้สูงบนกระดานผู้นำ aider polyglot coding
ในตัวอย่าง Rubik's Cube, Gemini 2.5 ใช้ลำดับการสครับเบิลที่จำมาล่วงหน้า
ตอนที่ใช้ Visual Basic ในยุค 90 การสร้างโปรเจ็กต์ใหม่จากเทมเพลตก็น่าสนใจดี
Gemini 2.5 ไม่ค่อยดีนักกับโค้ด Cython ที่ซับซ้อน
มีคำถามว่าจำเป็นต้องมีการอภิปรายที่เป็นกลางหรือไม่
งานทดสอบทั้งหมดเป็นโปรเจ็กต์แบบ greenfield