• Claude Opus 4.1 เป็นเวอร์ชันอัปเกรดที่เสริมความสามารถด้าน การเขียนโค้ดเชิงปฏิบัติจริง งานแบบ agentic และความสามารถในการอนุมาน
  • บันทึกผลการทำงานด้านโค้ดสูงสุด 74.5% ใน SWE-bench Verified และแสดงผลลัพธ์โดดเด่นใน การดีบักอย่างละเอียดใน codebase ขนาดใหญ่ การรีแฟกเตอร์หลายไฟล์ ฯลฯ
  • ได้รับคำชื่นชมจากผู้ใช้งานจริงอย่าง Rakuten, GitHub, Windsurf ในด้านความแม่นยำการแก้โค้ด การเพิ่มประสิทธิภาพการดีบักประจำวัน และความก้าวหน้าที่ชัดเจนใน benchmark ของนักพัฒนาระดับเริ่มต้น
  • แสดงประสิทธิภาพที่ละเอียดมากขึ้นในสภาพแวดล้อมการพัฒนาจริง โดยเฉพาะ รีแฟกเตอร์หลายไฟล์ และการแก้ไขโค้ดอย่างละเอียด
  • ผู้ใช้ Opus 4 ที่มีอยู่แล้วสามารถใช้งานได้ทันทีบน API, Claude Code, Amazon Bedrock, Google Vertex AI โดยไม่ต้องจ่ายเพิ่ม

คุณลักษณะหลักของ Claude Opus 4.1

  • มีประสิทธิภาพดีขึ้นกว่า Claude Opus 4 รุ่นเดิมใน งานแบบ agentic การเขียนโค้ดจริง และงานอนุมานที่ซับซ้อน
  • ในไม่กี่สัปดาห์ข้างหน้าโมเดลนี้คาดว่าจะได้รับการปรับปรุงในสเกลที่ใหญ่ขึ้น

จุดเด่นหลัก

  • SWE-bench Verified บรรลุความสามารถด้านโค้ด 74.5%
    • แสดงการปรับปรุงอย่างชัดเจนด้าน ความสามารถในการวิจัยเชิงลึกและวิเคราะห์ข้อมูล โดยเฉพาะการติดตามรายละเอียดและการค้นหาแบบ agentic
    • ได้รับคะแนนยอดเยี่ยมใน benchmark ที่อิงโค้ดจริงสำหรับการแก้ปัญหาบั๊กในคลังโค้ดโอเพ่นซอร์สขนาดใหญ่
  • รีแฟกเตอร์หลายไฟล์ และ การดีบักอย่างละเอียดใน codebase ขนาดใหญ่ ได้รับการปรับให้เหมาะกับงานของวิศวกรในสถานการณ์จริง
    • ที่ GitHub Opus 4.1 แสดงผลลัพธ์ที่ดีขึ้นในฟีเจอร์ส่วนใหญ่เมื่อเทียบกับ Opus 4 เดิม โดยเฉพาะผลลัพธ์ที่เด่นชัดในงาน รีแฟกเตอร์โค้ดหลายไฟล์
    • Rakuten Group ให้การประเมินสูงกับ Opus 4.1 ที่สามารถแก้ไขเฉพาะจุดที่จำเป็นใน codebase ขนาดใหญ่ รักษาสไตล์เดิมได้ และลดการแก้ไขที่ไม่จำเป็นหรือการเกิดบั๊กใหม่
    • Windsurf รายงานว่า benchmark สำหรับนักพัฒนาระดับเริ่มต้นของบริษัทแสดงว่าคะแนนของ Opus 4.1 เพิ่มขึ้นกว่าคะแนน Opus 4 ถึงหนึ่งส่วนเบี่ยงเบนมาตรฐาน และมองว่าเป็นการกระโดดของประสิทธิภาพใกล้เคียงกับการอัปเกรดจาก Sonnet 3.7 สู่ Sonnet 4

เปรียบเทียบประสิทธิภาพตามรายการหลัก

  • Agentic coding (SWE-bench Verified)
    • Claude Opus 4.1: 74.5%
    • Claude(Opus 4) ก่อนหน้า: 72.5%, Claude Sonnet 4: 72.7%
    • OpenAI o3: 69.1%
    • Gemini 2.5 Pro: 67.2%
    • บันทึกความแม่นยำสูงสุดในการแก้โค้ดโอเพ่นซอร์สจริง
  • Agentic terminal coding (Terminal-Bench)
    • Claude Opus 4.1: 43.3% (สูงสุด)
    • Opus 4: 39.2%
    • Sonnet 4: 35.5%
    • OpenAI o3: 30.2%
    • Gemini 2.5 Pro: 25.3%
  • การอนุมานระดับบัณฑิตศึกษา (GPQA Diamond)
    • Claude Opus 4.1: 80.9%
    • Opus 4: 79.6%
    • Sonnet 4: 75.4%
    • OpenAI o3: 83.3% (สูงสุด)
    • Gemini 2.5 Pro: 86.4% (สูงสุด)
  • Agentic tool use (TAU-bench)
    • สถานการณ์ค้าปลีก: Claude Opus 4.1 82.4% (สูงสุด), Opus 4 81.4%, Sonnet 4 80.5%, OpenAI o3 70.4%
    • สถานการณ์สายการบิน: Claude Opus 4.1 56.0%, Opus 4 59.6%, Sonnet 4 60.0%, OpenAI o3 52.0%
    • Gemini 2.5 Pro ไม่ได้ให้คะแนนในรายการนี้
  • Multilingual Q&A (MMMLU)
    • Claude Opus 4.1: 89.5% (สูงสุด)
    • Opus 4: 88.8%
    • Sonnet 4: 86.5%
    • OpenAI o3: 88.8%
    • Gemini 2.5 Pro: ไม่ได้เผยแพร่
  • Visual reasoning (MMMU)
    • Claude Opus 4.1: 77.1%
    • Opus 4: 76.5%
    • Sonnet 4: 74.4%
    • OpenAI o3: 82.9% (สูงสุด)
    • Gemini 2.5 Pro: 82% (สูงสุด)
  • การแข่งขันคณิตศาสตร์ระดับมัธยมปลาย (AIME 2025)
    • Claude Opus 4.1: 78.0%
    • Opus 4: 75.5%
    • Sonnet 4: 70.5%
    • OpenAI o3: 88.9% (สูงสุด)
    • Gemini 2.5 Pro: 88% (สูงสุด)
  • สรุปตาราง Benchmark

    • Claude Opus 4.1 เติบโตสม่ำเสมอในทุกหมวดเมื่อเทียบกับรุ่นก่อน และได้คะแนนสูงสุดใน benchmark เชิงปฏิบัติจริงด้านอัตโนมัติการเขียนโค้ด การรีแฟกเตอร์หลายไฟล์ และการใช้เครื่องมือแบบหลายภาษา QA
    • แม้ว่าในด้านคณิตศาสตร์ การอนุมานเชิงภาพ และการอนุมานขั้นสูง (GPQA) แบบบางด้าน โมเดล OpenAI o3 และ Gemini 2.5 Pro จะนำหน้า แต่ Claude Opus 4.1 ทำได้ดีที่สุดในด้าน การเพิ่มผลผลิตการเขียนโค้ดจริงและ QA หลายภาษา
    • สถานการณ์สายการบิน (Agentic tool use) มีการลดลงเล็กน้อย ในขณะที่การอนุมานเชิงภาพและคณิตศาสตร์ถูกแซงหน้าท่วมท้วมเล็กน้อยโดยโมเดลอื่น

สภาพแวดล้อมการใช้งานและปรับใช้จริง

  • ผู้ใช้ Opus 4 รุ่นเดิมจะแนะนำให้อัปเกรดเป็น claude-opus-4-1-20250805 บน API โดยตรง
  • สามารถนำไปใช้และปรับใช้ผ่าน API, Claude Code, Amazon Bedrock, Google Vertex AI และช่องทางอื่นๆ
  • ใช้โครงสร้างราคาตาม Opus 4 เดิม และแนะนำให้ผู้ใช้เดิมอัปเกรดทันที
  • พร้อมเผยแพร่ระบบการ์ด คำอธิบายโมเดล ราคา และเอกสารทางการ ควบคู่กับ benchmark และวิธีการประเมินอย่างละเอียด

แผนในอนาคต

  • Opus 4.1 เป็นการอัปเกรดแบบค่อยเป็นค่อยไปที่สะท้อนความก้าวหน้าล่าสุดในด้านการเขียนโค้ดและการอนุมาน และคาดว่าจะมีการกระโดดที่ใหญ่ขึ้นภายในอีกไม่กี่สัปดาห์
  • จะมีการปรับปรุงและขยายฟีเจอร์ตามข้อมูลย้อนกลับจากผู้ใช้เพื่อยกระดับประสิทธิภาพอย่างต่อเนื่อง

อ้างอิง

  • ระบุแหล่งข้อมูลการเปรียบเทียบข้อมูลล่าสุด เช่น OpenAI o3 และ Gemini 2.5 Pro, ผลลัพธ์ benchmark และการแสดงการใช้ความสามารถการคิดแบบขยายของแต่ละโมเดลอย่างโปร่งใส

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น