Anthropic เผยแพร่ Claude Opus 4.1
(anthropic.com)- Claude Opus 4.1 เป็นเวอร์ชันอัปเกรดที่เสริมความสามารถด้าน การเขียนโค้ดเชิงปฏิบัติจริง งานแบบ agentic และความสามารถในการอนุมาน
- บันทึกผลการทำงานด้านโค้ดสูงสุด 74.5% ใน SWE-bench Verified และแสดงผลลัพธ์โดดเด่นใน การดีบักอย่างละเอียดใน codebase ขนาดใหญ่ การรีแฟกเตอร์หลายไฟล์ ฯลฯ
- ได้รับคำชื่นชมจากผู้ใช้งานจริงอย่าง Rakuten, GitHub, Windsurf ในด้านความแม่นยำการแก้โค้ด การเพิ่มประสิทธิภาพการดีบักประจำวัน และความก้าวหน้าที่ชัดเจนใน benchmark ของนักพัฒนาระดับเริ่มต้น
- แสดงประสิทธิภาพที่ละเอียดมากขึ้นในสภาพแวดล้อมการพัฒนาจริง โดยเฉพาะ รีแฟกเตอร์หลายไฟล์ และการแก้ไขโค้ดอย่างละเอียด
- ผู้ใช้ Opus 4 ที่มีอยู่แล้วสามารถใช้งานได้ทันทีบน API, Claude Code, Amazon Bedrock, Google Vertex AI โดยไม่ต้องจ่ายเพิ่ม
คุณลักษณะหลักของ Claude Opus 4.1
- มีประสิทธิภาพดีขึ้นกว่า Claude Opus 4 รุ่นเดิมใน งานแบบ agentic การเขียนโค้ดจริง และงานอนุมานที่ซับซ้อน
- ในไม่กี่สัปดาห์ข้างหน้าโมเดลนี้คาดว่าจะได้รับการปรับปรุงในสเกลที่ใหญ่ขึ้น
จุดเด่นหลัก
- SWE-bench Verified บรรลุความสามารถด้านโค้ด 74.5%
- แสดงการปรับปรุงอย่างชัดเจนด้าน ความสามารถในการวิจัยเชิงลึกและวิเคราะห์ข้อมูล โดยเฉพาะการติดตามรายละเอียดและการค้นหาแบบ agentic
- ได้รับคะแนนยอดเยี่ยมใน benchmark ที่อิงโค้ดจริงสำหรับการแก้ปัญหาบั๊กในคลังโค้ดโอเพ่นซอร์สขนาดใหญ่
- รีแฟกเตอร์หลายไฟล์ และ การดีบักอย่างละเอียดใน codebase ขนาดใหญ่ ได้รับการปรับให้เหมาะกับงานของวิศวกรในสถานการณ์จริง
- ที่ GitHub Opus 4.1 แสดงผลลัพธ์ที่ดีขึ้นในฟีเจอร์ส่วนใหญ่เมื่อเทียบกับ Opus 4 เดิม โดยเฉพาะผลลัพธ์ที่เด่นชัดในงาน รีแฟกเตอร์โค้ดหลายไฟล์
- Rakuten Group ให้การประเมินสูงกับ Opus 4.1 ที่สามารถแก้ไขเฉพาะจุดที่จำเป็นใน codebase ขนาดใหญ่ รักษาสไตล์เดิมได้ และลดการแก้ไขที่ไม่จำเป็นหรือการเกิดบั๊กใหม่
- Windsurf รายงานว่า benchmark สำหรับนักพัฒนาระดับเริ่มต้นของบริษัทแสดงว่าคะแนนของ Opus 4.1 เพิ่มขึ้นกว่าคะแนน Opus 4 ถึงหนึ่งส่วนเบี่ยงเบนมาตรฐาน และมองว่าเป็นการกระโดดของประสิทธิภาพใกล้เคียงกับการอัปเกรดจาก Sonnet 3.7 สู่ Sonnet 4
เปรียบเทียบประสิทธิภาพตามรายการหลัก
- Agentic coding (SWE-bench Verified)
- Claude Opus 4.1: 74.5%
- Claude(Opus 4) ก่อนหน้า: 72.5%, Claude Sonnet 4: 72.7%
- OpenAI o3: 69.1%
- Gemini 2.5 Pro: 67.2%
- → บันทึกความแม่นยำสูงสุดในการแก้โค้ดโอเพ่นซอร์สจริง
- Agentic terminal coding (Terminal-Bench)
- Claude Opus 4.1: 43.3% (สูงสุด)
- Opus 4: 39.2%
- Sonnet 4: 35.5%
- OpenAI o3: 30.2%
- Gemini 2.5 Pro: 25.3%
- การอนุมานระดับบัณฑิตศึกษา (GPQA Diamond)
- Claude Opus 4.1: 80.9%
- Opus 4: 79.6%
- Sonnet 4: 75.4%
- OpenAI o3: 83.3% (สูงสุด)
- Gemini 2.5 Pro: 86.4% (สูงสุด)
- Agentic tool use (TAU-bench)
- สถานการณ์ค้าปลีก: Claude Opus 4.1 82.4% (สูงสุด), Opus 4 81.4%, Sonnet 4 80.5%, OpenAI o3 70.4%
- สถานการณ์สายการบิน: Claude Opus 4.1 56.0%, Opus 4 59.6%, Sonnet 4 60.0%, OpenAI o3 52.0%
- Gemini 2.5 Pro ไม่ได้ให้คะแนนในรายการนี้
- Multilingual Q&A (MMMLU)
- Claude Opus 4.1: 89.5% (สูงสุด)
- Opus 4: 88.8%
- Sonnet 4: 86.5%
- OpenAI o3: 88.8%
- Gemini 2.5 Pro: ไม่ได้เผยแพร่
- Visual reasoning (MMMU)
- Claude Opus 4.1: 77.1%
- Opus 4: 76.5%
- Sonnet 4: 74.4%
- OpenAI o3: 82.9% (สูงสุด)
- Gemini 2.5 Pro: 82% (สูงสุด)
- การแข่งขันคณิตศาสตร์ระดับมัธยมปลาย (AIME 2025)
- Claude Opus 4.1: 78.0%
- Opus 4: 75.5%
- Sonnet 4: 70.5%
- OpenAI o3: 88.9% (สูงสุด)
- Gemini 2.5 Pro: 88% (สูงสุด)
-
สรุปตาราง Benchmark
- Claude Opus 4.1 เติบโตสม่ำเสมอในทุกหมวดเมื่อเทียบกับรุ่นก่อน และได้คะแนนสูงสุดใน benchmark เชิงปฏิบัติจริงด้านอัตโนมัติการเขียนโค้ด การรีแฟกเตอร์หลายไฟล์ และการใช้เครื่องมือแบบหลายภาษา QA
- แม้ว่าในด้านคณิตศาสตร์ การอนุมานเชิงภาพ และการอนุมานขั้นสูง (GPQA) แบบบางด้าน โมเดล OpenAI o3 และ Gemini 2.5 Pro จะนำหน้า แต่ Claude Opus 4.1 ทำได้ดีที่สุดในด้าน การเพิ่มผลผลิตการเขียนโค้ดจริงและ QA หลายภาษา
- สถานการณ์สายการบิน (Agentic tool use) มีการลดลงเล็กน้อย ในขณะที่การอนุมานเชิงภาพและคณิตศาสตร์ถูกแซงหน้าท่วมท้วมเล็กน้อยโดยโมเดลอื่น
สภาพแวดล้อมการใช้งานและปรับใช้จริง
- ผู้ใช้ Opus 4 รุ่นเดิมจะแนะนำให้อัปเกรดเป็น
claude-opus-4-1-20250805บน API โดยตรง - สามารถนำไปใช้และปรับใช้ผ่าน API, Claude Code, Amazon Bedrock, Google Vertex AI และช่องทางอื่นๆ
- ใช้โครงสร้างราคาตาม Opus 4 เดิม และแนะนำให้ผู้ใช้เดิมอัปเกรดทันที
- พร้อมเผยแพร่ระบบการ์ด คำอธิบายโมเดล ราคา และเอกสารทางการ ควบคู่กับ benchmark และวิธีการประเมินอย่างละเอียด
แผนในอนาคต
- Opus 4.1 เป็นการอัปเกรดแบบค่อยเป็นค่อยไปที่สะท้อนความก้าวหน้าล่าสุดในด้านการเขียนโค้ดและการอนุมาน และคาดว่าจะมีการกระโดดที่ใหญ่ขึ้นภายในอีกไม่กี่สัปดาห์
- จะมีการปรับปรุงและขยายฟีเจอร์ตามข้อมูลย้อนกลับจากผู้ใช้เพื่อยกระดับประสิทธิภาพอย่างต่อเนื่อง
อ้างอิง
- ระบุแหล่งข้อมูลการเปรียบเทียบข้อมูลล่าสุด เช่น OpenAI o3 และ Gemini 2.5 Pro, ผลลัพธ์ benchmark และการแสดงการใช้ความสามารถการคิดแบบขยายของแต่ละโมเดลอย่างโปร่งใส
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
รู้สึกเหมือนหน่วยวิจัยหลัก 3 แห่งประกาศอะไรบางอย่างพร้อมกันห่างกันไม่กี่ชั่วโมงเลย เหมือนฉากหมุนมุมแบบบ้าคลั่งของอนิเมะเลย
Opus 4(.1) แพงมาก ลิงก์, Sonnet ก็ราคาราว 5 ดอลลาร์ต่อชั่วโมงถ้าใช้ผ่าน OpenRouter + Codename Goose ลิงก์, สิ่งที่น่าสนใจคือ Sonnet 3.5 ก็มีราคาเดียวกัน ลิงก์, ในขณะเดียวกัน Gemini Flash ลิงก์ ดูจะสมเหตุสมผลที่สุด แต่สุดท้ายผมก็ยังวนคิดไม่ลงตัว
CTRL-Cระหว่างทาง API จะส่ง error 400 กลับมา ซึ่งไม่สะดวกOpus ถูกโปรโมตว่าดีกว่า Sonnet ในงานโค้ดเกือบทุกด้าน แต่ในความรู้สึกจริง ๆ ผมกลับรู้สึกว่า Sonnet ดีกว่าเยอะ พูดแทนว่าเคยมีคนย้ายจาก Sonnet ไป Opus แบบเต็มตัวไหม หรือมีแค่บางงานที่ใช้ Opus แทน Sonnet เฉพาะทางบางอย่างหรือไม่
Opus 4.1 รู้สึกคล้าย Opus 4 มากเกินไป รู้สึกเหมือนแค่กินโทเคนเร็วขึ้น, อยากให้มีการแสดงปริมาณการใช้จริงที่ชัดเจนสักหน่อย อย่างน้อย Sonnet 4 ยังใช้งานได้อยู่ แต่ผลลัพธ์ค่อย ๆ เบลอลง, วันนี้เช้าสูญเวลากับ Claude Code ไปเยอะมาก จนคิดว่าถ้าทำเองตั้งแต่แรกคงดีกว่า
การสตรีม “Claude Plays Pokemon” กลับมาอีกครั้งด้วยโมเดลใหม่ ลิงก์ ซึ่งก่อนหน้านี้มันเคยติดอยู่ในที่ลับของ Team Rocket มาหลายสัปดาห์
ในข่าวเขาพูดว่า “คาดว่าจะมีการปรับปรุงโมเดลอย่างมีนัยสำคัญภายในไม่กี่สัปดาห์” โดย Sonnet 4 ยังเหมาะกับสินค้าของเราเด่นที่สุด แต่ผมอยากลอง Haiku 4 (หรือ 4.1) ที่ราคาถูกกว่า และแปลกที่ Anthropic ไม่ได้พูดถึง Haiku 4 เลยในรอบนี้
วันนี้คือวันที่แย่ที่สุดที่เคยใช้ Claude เลย ทั้งหมดพังไปหมด จนไม่รู้ว่าเกิดจากการ deploy วันนี้หรือไม่ มีคำหยาบในเอกสารและจอปัดไปมาหลายชั่วโมงก็ยังไม่ซ่อมบั๊กได้
สิ่งที่ผมสนใจจากข่าวมากที่สุดคือช่วงที่บอกว่า “คาดว่าภายในไม่กี่สัปดาห์ โมเดลจะดีขึ้นอย่างมาก”
การอัปเดตครั้งนี้แทบไม่ใช่การอัปเกรดที่ชัดเจนสำหรับคนทำงานของพวกเขาเอง มันไม่เลว แต่ก็น่าจะไม่มีใครรู้สึกถึงความแตกต่าง
ในเมื่อราคาของ Opus กับ Sonnet แพงไปพร้อมกัน ผมคิดว่าปริมาณการใช้ Opus คงไม่สามารถเกิน Sonnet ได้ และจาก OpenRouter rankings ลิงก์ ตัวเลขบอกว่า Sonnet 3.7 และ 4 รวมกันกำลังประมวลผลโทเคนได้มากกว่า Opus 4 ถึง 17 เท่า