เปรียบเทียบการเขียนโค้ดของ Gemini 2.5 Pro กับ Claude 3.7 Sonnet

(composio.dev)

9 คะแนน โดย GN⁺ 2025-04-01 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Gemini 2.5 Pro ทำได้ดีกว่าในการเขียนโค้ด
Claude 3.7 Sonnet ก็ยอดเยี่ยมเช่นกัน แต่ตอนนี้การใช้ Gemini 2.5 Pro คุ้มค่ากว่า
จุดเด่นสำคัญคือ context window 1 ล้านโทเค็น และเปิดให้ใช้งานฟรี
ในอดีต Claude 3.7 Sonnet เป็นมาตรฐานอ้างอิงในการเปรียบเทียบมาโดยตลอด แต่ตอนนี้เปลี่ยนไปแล้ว

แนะนำ Gemini 2.5 Pro แบบย่อ

โมเดล reasoning เชิงทดลองที่ Google เปิดตัวเมื่อ 26 มีนาคม 2025
หลังเปิดตัวได้รับกระแสตอบรับอย่างมากบน Twitter(X), YouTube และแพลตฟอร์มอื่น ๆ
ขึ้น อันดับ 1 บน LMArena และแสดงประสิทธิภาพยอดเยี่ยมมากในด้านการเขียนโค้ด คณิตศาสตร์ วิทยาศาสตร์ และการทำความเข้าใจภาพ
ให้ context window 1 ล้านโทเค็น และมีการประกาศล่วงหน้าว่าในอนาคตจะขยายเป็น 2 ล้านโทเค็น
มีความแม่นยำ 63.8% บนเกณฑ์ SWE Bench สูงกว่า 62.3% ของ Claude 3.7 Sonnet
พิสูจน์ประสิทธิภาพอันยอดเยี่ยมผ่านตัวอย่างหลากหลาย เช่น เดโมเกมไดโนเสาร์ที่ Google นำเสนอ
โดยรวมถูกประเมินว่าเป็น โมเดลอเนกประสงค์ที่เหมาะกับงานเชิงสติปัญญาทุกประเภท ไม่ใช่แค่การเขียนโค้ด

เปรียบเทียบการทดสอบด้านการเขียนโค้ด

1. สร้าง flight simulator

Gemini 2.5 Pro
- สร้างซิมูเลเตอร์ที่ทำงานได้สมบูรณ์
- ตอบโจทย์ทุกเงื่อนไข ทั้งการบังคับเครื่องบิน การสร้างเมืองสไตล์ Minecraft และอื่น ๆ
- ความสมบูรณ์ 10/10
Claude 3.7 Sonnet
- มีปัญหาเครื่องบินบินเอียงด้านข้างและหลุดออกนอกเมือง
- ความสมบูรณ์เชิงฟังก์ชันต่ำกว่า
สรุป: Gemini 2.5 Pro ชนะขาด

2. การแสดงภาพและการแก้ Rubik’s Cube

Gemini 2.5 Pro
- สร้างการแสดงภาพและตัวแก้ได้อย่างถูกต้องในครั้งเดียว
- ใช้ Three.js และทำได้สมบูรณ์ทั้งสีของลูกบาศก์ การสุ่มสลับ และแอนิเมชัน
Claude 3.7 Sonnet
- แสดงสีไม่สำเร็จและแก้โจทย์ไม่สำเร็จ
- มีข้อจำกัดคล้ายกับ LLM อื่น ๆ
สรุป: Gemini 2.5 Pro เหนือกว่าอย่างชัดเจนในข้อนี้เช่นกัน

3. การแสดงภาพลูกบอลเด้งภายใน tesseract 4 มิติ

Gemini 2.5 Pro
- ตอบโจทย์ครบทั้งการชนตามหลักฟิสิกส์ การเน้นพื้นผิว และข้อกำหนดอื่น ๆ
- คุณภาพโค้ดและการทำงานยอดเยี่ยมมาก
Claude 3.7 Sonnet
- ฟังก์ชันทำงานได้ แต่เพิ่มสีที่ไม่จำเป็น
- ถึงอย่างนั้นก็ยังตอบโจทย์ฟังก์ชันที่ต้องการ
สรุป: ทั้งสองโมเดลผ่านข้อกำหนด โดย Claude ก็ทำสำเร็จได้ในที่สุด

4. โจทย์ LeetCode: หาผลรวมสูงสุดจากการวาง rook 3 ตัว

Gemini 2.5 Pro
- โค้ดค่อนข้างซับซ้อน แต่ให้คำตอบที่ถูกต้อง
- คำนึงถึง time complexity ได้อย่างเหมาะสม
Claude 3.7 Sonnet
- เขียนโค้ดได้กระชับ แต่เกิด time limit exceeded (TLE)
- เข้าใจง่าย แต่ยังด้อยกว่าในด้านประสิทธิภาพ
สรุป: Gemini 2.5 Pro นำหน้าในทั้งด้านประสิทธิภาพและความแม่นยำ

บทสรุป

Gemini 2.5 Pro เหนือกว่าอย่างชัดเจน
- นำหน้า Claude 3.7 Sonnet ในด้าน context window ความแม่นยำ และประสิทธิภาพในการทำงานหลายอย่างพร้อมกัน
Claude ยังคงเป็นโมเดลที่ยอดเยี่ยม แต่ ณ ตอนนี้ การใช้ Gemini มีประสิทธิภาพมากกว่า
หากขยายเป็น หน้าต่าง 2 ล้านโทเค็น ในอนาคต ประสิทธิภาพก็น่าจะยิ่งดีขึ้นอีก
เมื่อรวมกับโมเดลขนาดเล็ก Gemma 3 27B ที่ Google เปิดตัวล่าสุด ก็ทำให้เกิดไลน์อัป AI ที่แข็งแกร่ง

1 ความคิดเห็น

GN⁺ 2025-04-01

ความเห็นจาก Hacker News

อยากจัดการแข่งขันพร้อมเงินรางวัลสำหรับปัญหาเขียนโค้ดจริง แต่ต้องกำหนดกติกาก่อน และยังสงสัยว่า LLM จะสามารถแก้ปัญหานี้ได้หรือไม่
- คือการทำ Solvespace เวอร์ชัน GTK 4
- มีไฟล์ C++ เดียวสำหรับแต่ละแพลตฟอร์ม
- เป้าหมายคือเขียนไฟล์ GTK3 ใหม่ให้เป็น GTK4
- ถ้าต้องการพิสูจน์ประสิทธิภาพของ AI ก็แนะนำให้บันทึกทั้งเซสชันและทำเป็นวิดีโอ YouTube
- การทดสอบสุดท้ายคือจะยอมรับ PR หรือไม่
Gemini เป็นโมเดลเดียวที่บอกได้ว่าควรหยุดบทสนทนาเมื่อไร
- ChatGPT มักจะลืมบทสนทนาเมื่อบริบทเต็ม
- Gemini ยังขาดเครื่องมือ แต่โดยพื้นฐานแล้วให้ความรู้สึกว่าเป็นโมเดลที่ดีกว่า
เคยใช้ Gemini 2.5 Pro และคิดว่ามันค่อนข้างดี
- ดูเหมือนว่า Claude 3.5 จะทำตามคำสั่งได้ดีกว่า
- รู้สึกผิดหวังกับเครื่องมือ Cursor และ Claude CLI
- ชอบวิธีที่ Gemini แสดงหน้าต่างบริบท
- คิดว่าตลาดไม่อาจรองรับการประเมินมูลค่าของบริษัท AI รายใหญ่ได้
- บางครั้งโมเดลฟรีก็ดีกว่า
ผู้แพ้ในการแข่งขันของโมเดล AI ดูเหมือนจะเป็น Microsoft
- ตอนที่ ChatGPT เป็นตัวเลือกเดียว Microsoft เคยถูกมองว่าเป็นผู้นำ
- Copilot เป็นงานที่ล้มเหลว และ Bing ก็ใช้ AI ได้ไม่คุ้มค่า
- Sundar Pichai ของ Google พูดถึงการอยากเปรียบเทียบกับโมเดลของ Microsoft
Gemini 2.5 Pro ทำคะแนนได้สูงบนกระดานผู้นำ aider polyglot coding
- ถูกใช้เป็นหลักกับงานรีลีสล่าสุดของ aider
- ตอนนี้ปัญหาใหญ่ที่สุดของ Gemini คือการจำกัดความเร็วที่เข้มงวดมาก
ในตัวอย่าง Rubik's Cube, Gemini 2.5 ใช้ลำดับการสครับเบิลที่จำมาล่วงหน้า
- มันแก้ลูกบาศก์โดยกลับลำดับสครับเบิลนั้น
ตอนที่ใช้ Visual Basic ในยุค 90 การสร้างโปรเจ็กต์ใหม่จากเทมเพลตก็น่าสนใจดี
- การเขียนโค้ดด้วย AI ก็คล้ายกัน แต่รู้สึกว่าถูกพูดเกินจริง
- มีการพูดถึงว่ารู้สึกสับสนที่เครื่องบินของ Claude อยู่ด้านข้าง
Gemini 2.5 ไม่ค่อยดีนักกับโค้ด Cython ที่ซับซ้อน
- Claude และ o3 ทำตามคำสั่งได้ดี
- Gemini พยายามแก้ไขสิ่งที่ไม่เกี่ยวข้อง
มีคำถามว่าจำเป็นต้องมีการอภิปรายที่เป็นกลางหรือไม่
- ลิงก์ของ OP ดูเหมือนเป็นโฆษณาเอนเอียงให้ Composio
- มีคำอธิบายเกินจริงเกี่ยวกับ Gemini 2.5 Pro
งานทดสอบทั้งหมดเป็นโปรเจ็กต์แบบ greenfield
- หากจะใช้ LLM ต้องมีการเปลี่ยนแปลงหรือแก้ไขในโปรเจ็กต์ที่มีอยู่แล้ว
- คิดว่าการทดสอบเหล่านี้ไม่มีความหมายในการวัดความมีประโยชน์ของโมเดล

เปรียบเทียบการเขียนโค้ดของ Gemini 2.5 Pro กับ Claude 3.7 Sonnet

แนะนำ Gemini 2.5 Pro แบบย่อ

เปรียบเทียบการทดสอบด้านการเขียนโค้ด

1. สร้าง flight simulator

2. การแสดงภาพและการแก้ Rubik’s Cube

3. การแสดงภาพลูกบอลเด้งภายใน tesseract 4 มิติ

4. โจทย์ LeetCode: หาผลรวมสูงสุดจากการวาง rook 3 ตัว

บทสรุป

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News