8 คะแนน โดย laeyoung 2025-11-26 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

Claude Opus 4.5 และเหตุผลที่การประเมิน LLM แบบใหม่ยิ่งยากขึ้นเรื่อยๆ

ราคาน่าพอใจมาก

  • อินพุตอยู่ที่ 5 ดอลลาร์ต่อ 1 ล้านดอลลาร์ เอาต์พุตอยู่ที่ 25 ดอลลาร์ต่อ 1 ล้านดอลลาร์
  • ถูกกว่า Opus รุ่นก่อนหน้าที่ 15 ดอลลาร์/75 ดอลลาร์อย่างมาก
  • เมื่อเทียบกับตระกูล GPT-5.1 (1.25 ดอลลาร์/10 ดอลลาร์) และ Gemini 3 Pro (2 ดอลลาร์/12 ดอลลาร์ หรือ 4 ดอลลาร์/18 ดอลลาร์เมื่อซื้อเกิน 200,000 โทเค็น) ก็ยังถือว่าแข่งขันได้

การเปลี่ยนแปลงใน Opus 4.5 ที่น่าสนใจ

  • Opus 4.5 เพิ่มพารามิเตอร์ effort ใหม่ ซึ่งค่าเริ่มต้นถูกตั้งเป็นสูง
  • รองรับ Computer use ที่ดีขึ้น โดยเฉพาะมี zoom ให้ใช้เป็นเครื่องมือสำหรับขอให้ตรวจสอบบริเวณที่ขยายบนหน้าจอได้
  • บล็อกการคิดจากเทิร์นผู้ช่วยก่อนหน้าจะถูกเก็บไว้ในบริบทของโมเดลตามค่าเริ่มต้น ซึ่งต่างจากเดิม

ความยากของการประเมิน

  • แยกความแตกต่างของประสิทธิภาพ LLM ระดับแนวหน้าได้ยากขึ้น
  • บนเบนช์มาร์กอย่าง SWE-bench Verified โมเดลต่างๆ แสดงให้เห็นความต่างกันเพียงเลขหลักเดียวในหน่วยเปอร์เซ็นต์พอยต์
  • แต่สิ่งนี้ไม่ได้อธิบายว่าเมื่อพยายามแก้ปัญหาจริงแล้ว จะให้ผลลัพธ์แบบไหน หรือความต่างนั้นจะส่งผลอย่างไร
  • อย่างน้อยการวาด นกกระทุงขี่จักรยาน ก็ยังคงดำเนินต่อไป

2 ความคิดเห็น

 
laeyoung 2025-11-26

Anthropic มี กราฟเบนช์มาร์ก Opus 4.5

  • ถ้าวาดแบบปกติ ความสูงจะเกือบเท่ากันทั้งหมด จึงมีการย่อช่วง 0-70 ของแกน Y ในกราฟ