รีวิว Claude 4.5 Opus ของ Simon Willison
(simonwillison.net)Claude Opus 4.5 และเหตุผลที่การประเมิน LLM แบบใหม่ยิ่งยากขึ้นเรื่อยๆ
ราคาน่าพอใจมาก
- อินพุตอยู่ที่ 5 ดอลลาร์ต่อ 1 ล้านดอลลาร์ เอาต์พุตอยู่ที่ 25 ดอลลาร์ต่อ 1 ล้านดอลลาร์
- ถูกกว่า Opus รุ่นก่อนหน้าที่ 15 ดอลลาร์/75 ดอลลาร์อย่างมาก
- เมื่อเทียบกับตระกูล GPT-5.1 (1.25 ดอลลาร์/10 ดอลลาร์) และ Gemini 3 Pro (2 ดอลลาร์/12 ดอลลาร์ หรือ 4 ดอลลาร์/18 ดอลลาร์เมื่อซื้อเกิน 200,000 โทเค็น) ก็ยังถือว่าแข่งขันได้
การเปลี่ยนแปลงใน Opus 4.5 ที่น่าสนใจ
- Opus 4.5 เพิ่มพารามิเตอร์
effortใหม่ ซึ่งค่าเริ่มต้นถูกตั้งเป็นสูง - รองรับ
Computer useที่ดีขึ้น โดยเฉพาะมีzoomให้ใช้เป็นเครื่องมือสำหรับขอให้ตรวจสอบบริเวณที่ขยายบนหน้าจอได้ - บล็อกการคิดจากเทิร์นผู้ช่วยก่อนหน้าจะถูกเก็บไว้ในบริบทของโมเดลตามค่าเริ่มต้น ซึ่งต่างจากเดิม
ความยากของการประเมิน
- แยกความแตกต่างของประสิทธิภาพ LLM ระดับแนวหน้าได้ยากขึ้น
- บนเบนช์มาร์กอย่าง SWE-bench Verified โมเดลต่างๆ แสดงให้เห็นความต่างกันเพียงเลขหลักเดียวในหน่วยเปอร์เซ็นต์พอยต์
- แต่สิ่งนี้ไม่ได้อธิบายว่าเมื่อพยายามแก้ปัญหาจริงแล้ว จะให้ผลลัพธ์แบบไหน หรือความต่างนั้นจะส่งผลอย่างไร
- อย่างน้อยการวาด นกกระทุงขี่จักรยาน ก็ยังคงดำเนินต่อไป
2 ความคิดเห็น
แปล: https://rosettalens.com/s/ko/claude-opus
Anthropic มี กราฟเบนช์มาร์ก Opus 4.5