รีวิว Claude 4.5 Opus ของ Simon Willison

(simonwillison.net)

8 คะแนน โดย laeyoung 2025-11-26 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

Claude Opus 4.5 และเหตุผลที่การประเมิน LLM แบบใหม่ยิ่งยากขึ้นเรื่อยๆ

ราคาน่าพอใจมาก

อินพุตอยู่ที่ 5 ดอลลาร์ต่อ 1 ล้านดอลลาร์ เอาต์พุตอยู่ที่ 25 ดอลลาร์ต่อ 1 ล้านดอลลาร์
ถูกกว่า Opus รุ่นก่อนหน้าที่ 15 ดอลลาร์/75 ดอลลาร์อย่างมาก
เมื่อเทียบกับตระกูล GPT-5.1 (1.25 ดอลลาร์/10 ดอลลาร์) และ Gemini 3 Pro (2 ดอลลาร์/12 ดอลลาร์ หรือ 4 ดอลลาร์/18 ดอลลาร์เมื่อซื้อเกิน 200,000 โทเค็น) ก็ยังถือว่าแข่งขันได้

การเปลี่ยนแปลงใน Opus 4.5 ที่น่าสนใจ

Opus 4.5 เพิ่มพารามิเตอร์ effort ใหม่ ซึ่งค่าเริ่มต้นถูกตั้งเป็นสูง
รองรับ Computer use ที่ดีขึ้น โดยเฉพาะมี zoom ให้ใช้เป็นเครื่องมือสำหรับขอให้ตรวจสอบบริเวณที่ขยายบนหน้าจอได้
บล็อกการคิดจากเทิร์นผู้ช่วยก่อนหน้าจะถูกเก็บไว้ในบริบทของโมเดลตามค่าเริ่มต้น ซึ่งต่างจากเดิม

ความยากของการประเมิน

แยกความแตกต่างของประสิทธิภาพ LLM ระดับแนวหน้าได้ยากขึ้น
บนเบนช์มาร์กอย่าง SWE-bench Verified โมเดลต่างๆ แสดงให้เห็นความต่างกันเพียงเลขหลักเดียวในหน่วยเปอร์เซ็นต์พอยต์
แต่สิ่งนี้ไม่ได้อธิบายว่าเมื่อพยายามแก้ปัญหาจริงแล้ว จะให้ผลลัพธ์แบบไหน หรือความต่างนั้นจะส่งผลอย่างไร
อย่างน้อยการวาด นกกระทุงขี่จักรยาน ก็ยังคงดำเนินต่อไป

2 ความคิดเห็น

youknowone 2025-11-26

แปล: https://rosettalens.com/s/ko/claude-opus

laeyoung 2025-11-26

Anthropic มี กราฟเบนช์มาร์ก Opus 4.5

ถ้าวาดแบบปกติ ความสูงจะเกือบเท่ากันทั้งหมด จึงมีการย่อช่วง 0-70 ของแกน Y ในกราฟ