Anthropic เปิดตัว Claude Opus 4.7 - มีการตรวจสอบตนเอง วิสัยทัศน์ความละเอียดสูงขึ้น 3.3 เท่า และการเขียนโค้ดดีขึ้น 13%
(anthropic.com)Anthropic เปิดตัว Claude Opus 4.7 ซึ่งเป็นโมเดลเรือธง
- SWE-bench Verified 87.6% (+6.8pp), SWE-bench Pro 64.3% แซง GPT-5.4(57.7%) ขึ้นอันดับ 1
- ทำได้ 94.2% ใน GPQA Diamond, 69.4% ใน Terminal-Bench 2.0, และ 64.4% ใน Finance Agent
- ดีขึ้น 13% ในเบนช์มาร์กด้านการเขียนโค้ดเมื่อเทียบกับ Opus 4.6 และอัตราการแก้งานระดับโปรดักชันสำเร็จเพิ่มขึ้น 3 เท่า
- ฟีเจอร์ใหม่ Self-Verification: ออกแบบและรันขั้นตอนตรวจสอบด้วยตนเองก่อนงานเสร็จสิ้น
- วิสัยทัศน์ความละเอียดสูงขึ้น 3.3 เท่า (สูงสุด 2,576px) และใช้โทเคไนเซอร์ใหม่
- เพิ่มระดับ xhigh effort ปรับปรุงการให้เหตุผลแบบเอเจนต์ 14% และลดข้อผิดพลาดของเครื่องมือเหลือ 1/3
- ราคาเท่าเดิมกับ Opus 4.6 ($5/$25 per MTok)
- Anthropic ยอมรับเองว่าประสิทธิภาพยังต่ำกว่าโมเดลปิด Mythos
ใช้งานได้บน Amazon Bedrock, Google Cloud Vertex AI และ Microsoft Foundry ด้วย
1 ความคิดเห็น
OPUS 4.7 > GPT 5.4 > OPUS 4.6