- Claude Opus 4.1 เป็นเวอร์ชันอัปเกรดที่เสริมความสามารถด้าน การเขียนโค้ดเชิงปฏิบัติจริง งานแบบ agentic และความสามารถในการอนุมาน
- บันทึกผลการทำงานด้านโค้ดสูงสุด 74.5% ใน SWE-bench Verified และแสดงผลลัพธ์โดดเด่นใน การดีบักอย่างละเอียดใน codebase ขนาดใหญ่ การรีแฟกเตอร์หลายไฟล์ ฯลฯ
- ได้รับคำชื่นชมจากผู้ใช้งานจริงอย่าง Rakuten, GitHub, Windsurf ในด้านความแม่นยำการแก้โค้ด การเพิ่มประสิทธิภาพการดีบักประจำวัน และความก้าวหน้าที่ชัดเจนใน benchmark ของนักพัฒนาระดับเริ่มต้น
- แสดงประสิทธิภาพที่ละเอียดมากขึ้นในสภาพแวดล้อมการพัฒนาจริง โดยเฉพาะ รีแฟกเตอร์หลายไฟล์ และการแก้ไขโค้ดอย่างละเอียด
- ผู้ใช้ Opus 4 ที่มีอยู่แล้วสามารถใช้งานได้ทันทีบน API, Claude Code, Amazon Bedrock, Google Vertex AI โดยไม่ต้องจ่ายเพิ่ม
คุณลักษณะหลักของ Claude Opus 4.1
- มีประสิทธิภาพดีขึ้นกว่า Claude Opus 4 รุ่นเดิมใน งานแบบ agentic การเขียนโค้ดจริง และงานอนุมานที่ซับซ้อน
- ในไม่กี่สัปดาห์ข้างหน้าโมเดลนี้คาดว่าจะได้รับการปรับปรุงในสเกลที่ใหญ่ขึ้น
จุดเด่นหลัก
- SWE-bench Verified บรรลุความสามารถด้านโค้ด 74.5%
- แสดงการปรับปรุงอย่างชัดเจนด้าน ความสามารถในการวิจัยเชิงลึกและวิเคราะห์ข้อมูล โดยเฉพาะการติดตามรายละเอียดและการค้นหาแบบ agentic
- ได้รับคะแนนยอดเยี่ยมใน benchmark ที่อิงโค้ดจริงสำหรับการแก้ปัญหาบั๊กในคลังโค้ดโอเพ่นซอร์สขนาดใหญ่
- รีแฟกเตอร์หลายไฟล์ และ การดีบักอย่างละเอียดใน codebase ขนาดใหญ่ ได้รับการปรับให้เหมาะกับงานของวิศวกรในสถานการณ์จริง
- ที่ GitHub Opus 4.1 แสดงผลลัพธ์ที่ดีขึ้นในฟีเจอร์ส่วนใหญ่เมื่อเทียบกับ Opus 4 เดิม โดยเฉพาะผลลัพธ์ที่เด่นชัดในงาน รีแฟกเตอร์โค้ดหลายไฟล์
- Rakuten Group ให้การประเมินสูงกับ Opus 4.1 ที่สามารถแก้ไขเฉพาะจุดที่จำเป็นใน codebase ขนาดใหญ่ รักษาสไตล์เดิมได้ และลดการแก้ไขที่ไม่จำเป็นหรือการเกิดบั๊กใหม่
- Windsurf รายงานว่า benchmark สำหรับนักพัฒนาระดับเริ่มต้นของบริษัทแสดงว่าคะแนนของ Opus 4.1 เพิ่มขึ้นกว่าคะแนน Opus 4 ถึงหนึ่งส่วนเบี่ยงเบนมาตรฐาน และมองว่าเป็นการกระโดดของประสิทธิภาพใกล้เคียงกับการอัปเกรดจาก Sonnet 3.7 สู่ Sonnet 4
เปรียบเทียบประสิทธิภาพตามรายการหลัก
- Agentic coding (SWE-bench Verified)
- Claude Opus 4.1: 74.5%
- Claude(Opus 4) ก่อนหน้า: 72.5%, Claude Sonnet 4: 72.7%
- OpenAI o3: 69.1%
- Gemini 2.5 Pro: 67.2%
- → บันทึกความแม่นยำสูงสุดในการแก้โค้ดโอเพ่นซอร์สจริง
- Agentic terminal coding (Terminal-Bench)
- Claude Opus 4.1: 43.3% (สูงสุด)
- Opus 4: 39.2%
- Sonnet 4: 35.5%
- OpenAI o3: 30.2%
- Gemini 2.5 Pro: 25.3%
- การอนุมานระดับบัณฑิตศึกษา (GPQA Diamond)
- Claude Opus 4.1: 80.9%
- Opus 4: 79.6%
- Sonnet 4: 75.4%
- OpenAI o3: 83.3% (สูงสุด)
- Gemini 2.5 Pro: 86.4% (สูงสุด)
- Agentic tool use (TAU-bench)
- สถานการณ์ค้าปลีก: Claude Opus 4.1 82.4% (สูงสุด), Opus 4 81.4%, Sonnet 4 80.5%, OpenAI o3 70.4%
- สถานการณ์สายการบิน: Claude Opus 4.1 56.0%, Opus 4 59.6%, Sonnet 4 60.0%, OpenAI o3 52.0%
- Gemini 2.5 Pro ไม่ได้ให้คะแนนในรายการนี้
- Multilingual Q&A (MMMLU)
- Claude Opus 4.1: 89.5% (สูงสุด)
- Opus 4: 88.8%
- Sonnet 4: 86.5%
- OpenAI o3: 88.8%
- Gemini 2.5 Pro: ไม่ได้เผยแพร่
- Visual reasoning (MMMU)
- Claude Opus 4.1: 77.1%
- Opus 4: 76.5%
- Sonnet 4: 74.4%
- OpenAI o3: 82.9% (สูงสุด)
- Gemini 2.5 Pro: 82% (สูงสุด)
- การแข่งขันคณิตศาสตร์ระดับมัธยมปลาย (AIME 2025)
- Claude Opus 4.1: 78.0%
- Opus 4: 75.5%
- Sonnet 4: 70.5%
- OpenAI o3: 88.9% (สูงสุด)
- Gemini 2.5 Pro: 88% (สูงสุด)
-
สรุปตาราง Benchmark
- Claude Opus 4.1 เติบโตสม่ำเสมอในทุกหมวดเมื่อเทียบกับรุ่นก่อน และได้คะแนนสูงสุดใน benchmark เชิงปฏิบัติจริงด้านอัตโนมัติการเขียนโค้ด การรีแฟกเตอร์หลายไฟล์ และการใช้เครื่องมือแบบหลายภาษา QA
- แม้ว่าในด้านคณิตศาสตร์ การอนุมานเชิงภาพ และการอนุมานขั้นสูง (GPQA) แบบบางด้าน โมเดล OpenAI o3 และ Gemini 2.5 Pro จะนำหน้า แต่ Claude Opus 4.1 ทำได้ดีที่สุดในด้าน การเพิ่มผลผลิตการเขียนโค้ดจริงและ QA หลายภาษา
- สถานการณ์สายการบิน (Agentic tool use) มีการลดลงเล็กน้อย ในขณะที่การอนุมานเชิงภาพและคณิตศาสตร์ถูกแซงหน้าท่วมท้วมเล็กน้อยโดยโมเดลอื่น
สภาพแวดล้อมการใช้งานและปรับใช้จริง
- ผู้ใช้ Opus 4 รุ่นเดิมจะแนะนำให้อัปเกรดเป็น
claude-opus-4-1-20250805 บน API โดยตรง
- สามารถนำไปใช้และปรับใช้ผ่าน API, Claude Code, Amazon Bedrock, Google Vertex AI และช่องทางอื่นๆ
- ใช้โครงสร้างราคาตาม Opus 4 เดิม และแนะนำให้ผู้ใช้เดิมอัปเกรดทันที
- พร้อมเผยแพร่ระบบการ์ด คำอธิบายโมเดล ราคา และเอกสารทางการ ควบคู่กับ benchmark และวิธีการประเมินอย่างละเอียด
แผนในอนาคต
- Opus 4.1 เป็นการอัปเกรดแบบค่อยเป็นค่อยไปที่สะท้อนความก้าวหน้าล่าสุดในด้านการเขียนโค้ดและการอนุมาน และคาดว่าจะมีการกระโดดที่ใหญ่ขึ้นภายในอีกไม่กี่สัปดาห์
- จะมีการปรับปรุงและขยายฟีเจอร์ตามข้อมูลย้อนกลับจากผู้ใช้เพื่อยกระดับประสิทธิภาพอย่างต่อเนื่อง
อ้างอิง
- ระบุแหล่งข้อมูลการเปรียบเทียบข้อมูลล่าสุด เช่น OpenAI o3 และ Gemini 2.5 Pro, ผลลัพธ์ benchmark และการแสดงการใช้ความสามารถการคิดแบบขยายของแต่ละโมเดลอย่างโปร่งใส
ยังไม่มีความคิดเห็น