Anthropic เผยแพร่ Claude Opus 4.1

(anthropic.com)

7 คะแนน โดย GN⁺ 2025-08-06 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Claude Opus 4.1 เป็นเวอร์ชันอัปเกรดที่เสริมความสามารถด้าน การเขียนโค้ดเชิงปฏิบัติจริง งานแบบ agentic และความสามารถในการอนุมาน
บันทึกผลการทำงานด้านโค้ดสูงสุด 74.5% ใน SWE-bench Verified และแสดงผลลัพธ์โดดเด่นใน การดีบักอย่างละเอียดใน codebase ขนาดใหญ่ การรีแฟกเตอร์หลายไฟล์ ฯลฯ
ได้รับคำชื่นชมจากผู้ใช้งานจริงอย่าง Rakuten, GitHub, Windsurf ในด้านความแม่นยำการแก้โค้ด การเพิ่มประสิทธิภาพการดีบักประจำวัน และความก้าวหน้าที่ชัดเจนใน benchmark ของนักพัฒนาระดับเริ่มต้น
แสดงประสิทธิภาพที่ละเอียดมากขึ้นในสภาพแวดล้อมการพัฒนาจริง โดยเฉพาะ รีแฟกเตอร์หลายไฟล์ และการแก้ไขโค้ดอย่างละเอียด
ผู้ใช้ Opus 4 ที่มีอยู่แล้วสามารถใช้งานได้ทันทีบน API, Claude Code, Amazon Bedrock, Google Vertex AI โดยไม่ต้องจ่ายเพิ่ม

คุณลักษณะหลักของ Claude Opus 4.1

มีประสิทธิภาพดีขึ้นกว่า Claude Opus 4 รุ่นเดิมใน งานแบบ agentic การเขียนโค้ดจริง และงานอนุมานที่ซับซ้อน
ในไม่กี่สัปดาห์ข้างหน้าโมเดลนี้คาดว่าจะได้รับการปรับปรุงในสเกลที่ใหญ่ขึ้น

จุดเด่นหลัก

SWE-bench Verified บรรลุความสามารถด้านโค้ด 74.5%
- แสดงการปรับปรุงอย่างชัดเจนด้าน ความสามารถในการวิจัยเชิงลึกและวิเคราะห์ข้อมูล โดยเฉพาะการติดตามรายละเอียดและการค้นหาแบบ agentic
- ได้รับคะแนนยอดเยี่ยมใน benchmark ที่อิงโค้ดจริงสำหรับการแก้ปัญหาบั๊กในคลังโค้ดโอเพ่นซอร์สขนาดใหญ่
รีแฟกเตอร์หลายไฟล์ และ การดีบักอย่างละเอียดใน codebase ขนาดใหญ่ ได้รับการปรับให้เหมาะกับงานของวิศวกรในสถานการณ์จริง
- ที่ GitHub Opus 4.1 แสดงผลลัพธ์ที่ดีขึ้นในฟีเจอร์ส่วนใหญ่เมื่อเทียบกับ Opus 4 เดิม โดยเฉพาะผลลัพธ์ที่เด่นชัดในงาน รีแฟกเตอร์โค้ดหลายไฟล์
- Rakuten Group ให้การประเมินสูงกับ Opus 4.1 ที่สามารถแก้ไขเฉพาะจุดที่จำเป็นใน codebase ขนาดใหญ่ รักษาสไตล์เดิมได้ และลดการแก้ไขที่ไม่จำเป็นหรือการเกิดบั๊กใหม่
- Windsurf รายงานว่า benchmark สำหรับนักพัฒนาระดับเริ่มต้นของบริษัทแสดงว่าคะแนนของ Opus 4.1 เพิ่มขึ้นกว่าคะแนน Opus 4 ถึงหนึ่งส่วนเบี่ยงเบนมาตรฐาน และมองว่าเป็นการกระโดดของประสิทธิภาพใกล้เคียงกับการอัปเกรดจาก Sonnet 3.7 สู่ Sonnet 4

เปรียบเทียบประสิทธิภาพตามรายการหลัก

Agentic coding (SWE-bench Verified)
- Claude Opus 4.1: 74.5%
- Claude(Opus 4) ก่อนหน้า: 72.5%, Claude Sonnet 4: 72.7%
- OpenAI o3: 69.1%
- Gemini 2.5 Pro: 67.2%
- → บันทึกความแม่นยำสูงสุดในการแก้โค้ดโอเพ่นซอร์สจริง
โฆษณา
Agentic terminal coding (Terminal-Bench)
- Claude Opus 4.1: 43.3% (สูงสุด)
- Opus 4: 39.2%
- Sonnet 4: 35.5%
- OpenAI o3: 30.2%
- Gemini 2.5 Pro: 25.3%
การอนุมานระดับบัณฑิตศึกษา (GPQA Diamond)
- Claude Opus 4.1: 80.9%
- Opus 4: 79.6%
- Sonnet 4: 75.4%
- OpenAI o3: 83.3% (สูงสุด)
- Gemini 2.5 Pro: 86.4% (สูงสุด)
Agentic tool use (TAU-bench)
- สถานการณ์ค้าปลีก: Claude Opus 4.1 82.4% (สูงสุด), Opus 4 81.4%, Sonnet 4 80.5%, OpenAI o3 70.4%
- สถานการณ์สายการบิน: Claude Opus 4.1 56.0%, Opus 4 59.6%, Sonnet 4 60.0%, OpenAI o3 52.0%
- Gemini 2.5 Pro ไม่ได้ให้คะแนนในรายการนี้
Multilingual Q&A (MMMLU)
- Claude Opus 4.1: 89.5% (สูงสุด)
- Opus 4: 88.8%
- Sonnet 4: 86.5%
- OpenAI o3: 88.8%
- Gemini 2.5 Pro: ไม่ได้เผยแพร่
Visual reasoning (MMMU)
- Claude Opus 4.1: 77.1%
- Opus 4: 76.5%
- Sonnet 4: 74.4%
- OpenAI o3: 82.9% (สูงสุด)
- Gemini 2.5 Pro: 82% (สูงสุด)
โฆษณา
การแข่งขันคณิตศาสตร์ระดับมัธยมปลาย (AIME 2025)
- Claude Opus 4.1: 78.0%
- Opus 4: 75.5%
- Sonnet 4: 70.5%
- OpenAI o3: 88.9% (สูงสุด)
- Gemini 2.5 Pro: 88% (สูงสุด)
สรุปตาราง Benchmark
- Claude Opus 4.1 เติบโตสม่ำเสมอในทุกหมวดเมื่อเทียบกับรุ่นก่อน และได้คะแนนสูงสุดใน benchmark เชิงปฏิบัติจริงด้านอัตโนมัติการเขียนโค้ด การรีแฟกเตอร์หลายไฟล์ และการใช้เครื่องมือแบบหลายภาษา QA
- แม้ว่าในด้านคณิตศาสตร์ การอนุมานเชิงภาพ และการอนุมานขั้นสูง (GPQA) แบบบางด้าน โมเดล OpenAI o3 และ Gemini 2.5 Pro จะนำหน้า แต่ Claude Opus 4.1 ทำได้ดีที่สุดในด้าน การเพิ่มผลผลิตการเขียนโค้ดจริงและ QA หลายภาษา
- สถานการณ์สายการบิน (Agentic tool use) มีการลดลงเล็กน้อย ในขณะที่การอนุมานเชิงภาพและคณิตศาสตร์ถูกแซงหน้าท่วมท้วมเล็กน้อยโดยโมเดลอื่น

สภาพแวดล้อมการใช้งานและปรับใช้จริง

ผู้ใช้ Opus 4 รุ่นเดิมจะแนะนำให้อัปเกรดเป็น claude-opus-4-1-20250805 บน API โดยตรง
สามารถนำไปใช้และปรับใช้ผ่าน API, Claude Code, Amazon Bedrock, Google Vertex AI และช่องทางอื่นๆ
ใช้โครงสร้างราคาตาม Opus 4 เดิม และแนะนำให้ผู้ใช้เดิมอัปเกรดทันที
พร้อมเผยแพร่ระบบการ์ด คำอธิบายโมเดล ราคา และเอกสารทางการ ควบคู่กับ benchmark และวิธีการประเมินอย่างละเอียด

แผนในอนาคต

Opus 4.1 เป็นการอัปเกรดแบบค่อยเป็นค่อยไปที่สะท้อนความก้าวหน้าล่าสุดในด้านการเขียนโค้ดและการอนุมาน และคาดว่าจะมีการกระโดดที่ใหญ่ขึ้นภายในอีกไม่กี่สัปดาห์
จะมีการปรับปรุงและขยายฟีเจอร์ตามข้อมูลย้อนกลับจากผู้ใช้เพื่อยกระดับประสิทธิภาพอย่างต่อเนื่อง

อ้างอิง

ระบุแหล่งข้อมูลการเปรียบเทียบข้อมูลล่าสุด เช่น OpenAI o3 และ Gemini 2.5 Pro, ผลลัพธ์ benchmark และการแสดงการใช้ความสามารถการคิดแบบขยายของแต่ละโมเดลอย่างโปร่งใส

1 ความคิดเห็น

GN⁺ 2025-08-06

ความคิดเห็นบน Hacker News

รู้สึกเหมือนหน่วยวิจัยหลัก 3 แห่งประกาศอะไรบางอย่างพร้อมกันห่างกันไม่กี่ชั่วโมงเลย เหมือนฉากหมุนมุมแบบบ้าคลั่งของอนิเมะเลย
- มันชัดเจนว่าเป็นเหตุผลที่มีทีม PR อยู่ การได้เป็นข่าวบนหน้าแรกของ HN หรือไซต์ข่าวสำคัญมาก และถึงแม้จะไม่ได้เป็นอันดับ 1 ก็ยังจำเป็นที่ต้องกระจายความสนใจของตลาดให้คู่แข่ง
- ถ้าคิดถึงข่าวลือของ GPT5 ผมว่าเรายังอยู่แค่ต้นเดือนสิงหาคมเท่านั้น
- แปลกใจจริง ๆ ที่ได้อยู่ในยุคแบบนี้
- มันให้ความรู้สึกว่าเขารอให้คู่แข่งประกาศก่อน แล้วค่อยปล่อยไปพร้อมกันเพื่อให้ตลาดได้ตัดสินว่าสิ่งไหนดีที่สุด
- ผมคิดว่ามันไม่ใช่เรื่องบังเอิญนะ
Opus 4(.1) แพงมาก ลิงก์, Sonnet ก็ราคาราว 5 ดอลลาร์ต่อชั่วโมงถ้าใช้ผ่าน OpenRouter + Codename Goose ลิงก์, สิ่งที่น่าสนใจคือ Sonnet 3.5 ก็มีราคาเดียวกัน ลิงก์, ในขณะเดียวกัน Gemini Flash ลิงก์ ดูจะสมเหตุสมผลที่สุด แต่สุดท้ายผมก็ยังวนคิดไม่ลงตัว
- ผมไม่คิดว่า OpenAI จะไม่ดี แต่ยังทำงานตามผลงานของ Claude ไม่ได้เต็มที่
- อย่างไรก็ตาม เวลาเจอให้กด CTRL-C ระหว่างทาง API จะส่ง error 400 กลับมา ซึ่งไม่สะดวก
- ผมให้ความสำคัญกับความคุ้มค่ากับต้นทุน ค่า ROI ที่ดีที่สุดคือ OpenAI ChatGPT 4.1 mini ลิงก์, ไม่มีการทิ้งโทเคนอย่างไร้เหตุผล และ API ก็ทำงานเสถียรตลอด, บางครั้งยังสับสนเล็กน้อยแต่โดยรวมก็ช่วยแก้ได้
- ผมมองว่ารุ่นใหญ่เหมาะกับงานถาม-ตอบเชิงโมเดล ส่วนรุ่นเล็กเหมาะกับคำถามเชิง context; ถ้าใช้ Opus ให้ตรงจุด มันก็ไม่ถึงกับแพง
- ถ้าใช้ Claude Code แบบสมัครสมาชิกจะคุ้มค่ากว่ามาก ผมอยู่แผน Max และแม้ใช้ Claude Code ตลอดวันติดต่อกัน ใน 2 สัปดาห์ล่าสุดโดนจำกัดเพียง 2 ครั้งเท่านั้น
- ทุกครั้งที่ผมเทียบราคา Claude API มักจะถูกสุดเสมอ ถ้าใช้งาน context cache ให้คุ้ม ราคาป้อนคำสั่งใน input อาจลดลงได้เกือบ 90% ซึ่งเป็นเรื่องใหญ่มาก
- ผมยังอยากชี้ว่า GLM 4.5, Kimi K2, Qwen Coder 3, Gemini Pro 2.5 ก็เป็นทางเลือกที่พูดถึงได้
Opus ถูกโปรโมตว่าดีกว่า Sonnet ในงานโค้ดเกือบทุกด้าน แต่ในความรู้สึกจริง ๆ ผมกลับรู้สึกว่า Sonnet ดีกว่าเยอะ พูดแทนว่าเคยมีคนย้ายจาก Sonnet ไป Opus แบบเต็มตัวไหม หรือมีแค่บางงานที่ใช้ Opus แทน Sonnet เฉพาะทางบางอย่างหรือไม่
- Opus อาจดีกว่าเชิงเทคนิคจริง แต่ในทางปฏิบัติผมแทบไม่รู้สึกความต่าง, งาน implement ที่ซับซ้อนให้ LLM ทำสำเร็จได้ในครั้งเดียวแทบเป็นไปไม่ได้, เพราะต้องอธิบายมากเกินและสุดท้ายผมก็ต้องค่อย ๆ ค้นหาคำตอบที่ถูกต้องในโค้ดเอง
- แม้ Opus จะตอบได้ดูดี แต่มักต้องเข้าใจว่าทำไมผลลัพธ์ออกมาเช่นนั้น ทำไมมันถึงเข้ากับ context ของผมได้ จึงทำให้รกรุงรัง
- งานของผมส่วนใหญ่เป็นงานแบบค่อย ๆ ดำเนินไปทีละนิด จึงรู้สึกว่า Sonnet พอเพียงแล้ว
- เมื่อ Sonnet พิการแบบไม่คาดคิด (วันละหนึ่งถึงสองครั้ง) การเปลี่ยนไป Opus ดูเหมือนจะแก้ปัญหาเร็วมาก, แน่นอนว่าเป็นประสบการณ์แบบไม่เชิงวิทยาศาสตร์ และอาจเป็นแค่การเปลี่ยนโมเดลไหน ๆ ก็น่าจะช่วยได้
- การที่คำว่า “Sonnet ดีกว่า” ถูกพูดถึงมาก คงเพราะขาดหลักฐานเชิงวิทยาศาสตร์ และเรื่องที่โมเดลใหญ่ดีกว่านั้นชัดเจนอยู่แล้ว คนจึงไม่ค่อยเอ่ยถึง, แต่เมื่อพูดว่า “บางครั้งรุ่นเล็กอาจดีกว่า” มันกลับได้ยินดูเหมือนคำแนะนำมากกว่า เลยถูกแชร์บ่อยกว่า
- เมื่อวานผมดึงข้อมูลมาดูแล้วแต่คนก็พูดไม่เหมือนกัน สรุปที่คุ้มที่สุดคือแม้จะเลิกใช้ Opus ไป Sonnet ชั่วคราวบนแผน Max ก็ไม่ต้องตื่นตระหนกว่าคุณภาพจะตกฮวบ
- Opus ดูเหมือนจะดีกว่าในงานที่ซับซ้อนมาก มีหลายขั้นตอน หรือที่ต้องติดตามบริบทการทำงานยาว ๆ ดังนั้นผมจึงเก็บ Opus ไว้ใช้เฉพาะงานยาก ๆ ที่เหลือใช้ Sonnet ซึ่งโดยรวมก็พอใจและไม่ชนข้อจำกัดโทเคนถี่เท่าเดิม
- กรณีของผมใช้ Max plan แล้วผลลัพธ์ของ Opus ดูดีขึ้นนิดหน่อยเมื่อเทียบกับ Sonnet แต่ข้อสำคัญคือใช้ได้เฉพาะตอนที่ Opus มีให้เท่านั้น และที่ตลกคือแม้เป็น Max plan ก็ยังติด limit เร็วมาก, เมื่อวานเช้าก็ถึงขีดจำกัดในไม่กี่นาทีกับการกลับมาทำงาน
Opus 4.1 รู้สึกคล้าย Opus 4 มากเกินไป รู้สึกเหมือนแค่กินโทเคนเร็วขึ้น, อยากให้มีการแสดงปริมาณการใช้จริงที่ชัดเจนสักหน่อย อย่างน้อย Sonnet 4 ยังใช้งานได้อยู่ แต่ผลลัพธ์ค่อย ๆ เบลอลง, วันนี้เช้าสูญเวลากับ Claude Code ไปเยอะมาก จนคิดว่าถ้าทำเองตั้งแต่แรกคงดีกว่า
- ผมเองก็รู้สึกว่า Sonnet คุณภาพเริ่มตก: คำอธิบายยืดยาวขึ้น มีส่วนเกินมากขึ้น พยายามจัดเป็นลิสต์ตลอด และถึงกับยอมรับในสิ่งที่คู่แข่งพูดมากเกินไปจนกลายเป็นนิสัย
- คิดว่าเพราะโปรเจกต์ของผมโตขึ้นมาก จาก 2,000 บรรทัดไปไกลกว่า 100,000 บรรทัด ทำให้ตาม context ให้ทันยากขึ้นตามขนาด
- Opus 4.1 รุ่นใหม่ดูเหมือนตั้งใจทำเว็บแอปทั้งหมดตั้งแต่บทสนทนาครั้งแรก, แต่น้อยกว่าหุ่นยนต์เก่า มันจับใจความบริบทได้เร็วขึ้น และถามคำถามเกี่ยวกับระบบได้ถูกต้องจนทำเอกสารอัปเดตเสร็จครบ, เดิมต้องอธิบายซ้ำเดิมทุกแชตจนหงุดหงิด ตอนนี้ไม่ใช่แล้ว แต่ด้วยการใช้โทเคนที่เร็วขึ้นมาก ทำให้แชตยาวๆ แบบสมัยก่อนทำได้ยากกว่า
- ถ้ามันสามารถทำงานสุดท้ายเสร็จทันก่อนโทเคนหมด ผมก็พอใจแล้ว
- ประโยคว่า “สละเวลาไปกับ Claude Code ตลอดเช้านั้น” ทำให้นึกถึง ‘Welcome to the machine’ ลิงก์
การสตรีม “Claude Plays Pokemon” กลับมาอีกครั้งด้วยโมเดลใหม่ ลิงก์ ซึ่งก่อนหน้านี้มันเคยติดอยู่ในที่ลับของ Team Rocket มาหลายสัปดาห์
ในข่าวเขาพูดว่า “คาดว่าจะมีการปรับปรุงโมเดลอย่างมีนัยสำคัญภายในไม่กี่สัปดาห์” โดย Sonnet 4 ยังเหมาะกับสินค้าของเราเด่นที่สุด แต่ผมอยากลอง Haiku 4 (หรือ 4.1) ที่ราคาถูกกว่า และแปลกที่ Anthropic ไม่ได้พูดถึง Haiku 4 เลยในรอบนี้
วันนี้คือวันที่แย่ที่สุดที่เคยใช้ Claude เลย ทั้งหมดพังไปหมด จนไม่รู้ว่าเกิดจากการ deploy วันนี้หรือไม่ มีคำหยาบในเอกสารและจอปัดไปมาหลายชั่วโมงก็ยังไม่ซ่อมบั๊กได้
สิ่งที่ผมสนใจจากข่าวมากที่สุดคือช่วงที่บอกว่า “คาดว่าภายในไม่กี่สัปดาห์ โมเดลจะดีขึ้นอย่างมาก”
- ผมตีความว่านี่เป็นสัญญาณให้คนไม่ควรย้ายไป GPT5 ทันที
การอัปเดตครั้งนี้แทบไม่ใช่การอัปเกรดที่ชัดเจนสำหรับคนทำงานของพวกเขาเอง มันไม่เลว แต่ก็น่าจะไม่มีใครรู้สึกถึงความแตกต่าง
- อาจเป็นแค่ความรู้สึก (vibe) เป็นหลัก แต่ผมคิดว่าส่วนนี้สำคัญ แทนที่ benchmark อย่างเป็นทางการ, Opus 4.1 แสดงการดีขึ้นราวหนึ่งส่วนเบี่ยงเบนมาตรฐานจาก Opus 4 ใน benchmark นักพัฒนาระดับต้น, ซึ่งเทียบได้กับการกระโดดจาก Sonnet 3.7 ไป Sonnet 4
- ผมยังไม่เคยทดสอบเต็มรูปแบบ แต่ไม่เห็นความต่างที่ชัดในคุณภาพ output อย่างแท้จริง อย่างน้อยรู้สึกได้ว่าปฏิบัติตามเอกสาร/คำแนะนำที่ให้มากขึ้น เพียงแต่ยังยืนยันเชิงปริมาณหรือวิเคราะห์เชิงวัตถุได้ไม่ชัด, Opus 4.1 ไม่ได้เก่งเรื่องหา hidden info แบบ Needles-in-the-Haystack อย่างเดียว แต่ยังทำตามสิ่งนั้นได้ดีขึ้นแม้ไม่สั่งตรง
- นั่นทำให้ผมนึกว่าเหตุผลที่ตั้งชื่อเป็น 4.1 ก็เพราะแบบนี้ ไม่ใช่ 4.5 อย่างแน่นอน
- ดูเหมือนพวกเขาปล่อยช่องว่างไว้ให้ปล่อยโมเดลเพิ่มได้อีก 10 ตัว ถ้าคะแนน benchmark ขึ้นไป 100% ทุกตัวก็ไม่จำเป็นต้องมีโมเดลใหม่แล้ว พอได้ส่วนผสมตัวเลขเพื่อการตลาดบ้าง, ในขณะเดียวกัน โมเดลก็ยังยังกังวลกับคำถามใหม่ ๆ เพราะมันยังคงแก้โจทย์ชนิดเดียวกับชุดข้อมูลฝึก
- แปลกดีที่ในภาพรายงานผล เฉพาะ Opus 4.1 เท่านั้นที่ถูกไฮไลต์ ทั้งที่มันได้คะแนนสูงสุดเพียงประมาณครึ่งหนึ่งของ benchmark เท่านั้น อีกกว่าครึ่งไม่ได้ดีหรือบางตัวยังต่ำกว่า Opus 4.0 และคะแนนของโมเดลคู่แข่งก็มักไม่แสดงเลย
ในเมื่อราคาของ Opus กับ Sonnet แพงไปพร้อมกัน ผมคิดว่าปริมาณการใช้ Opus คงไม่สามารถเกิน Sonnet ได้ และจาก OpenRouter rankings ลิงก์ ตัวเลขบอกว่า Sonnet 3.7 และ 4 รวมกันกำลังประมวลผลโทเคนได้มากกว่า Opus 4 ถึง 17 เท่า

Anthropic เผยแพร่ Claude Opus 4.1

คุณลักษณะหลักของ Claude Opus 4.1

จุดเด่นหลัก

เปรียบเทียบประสิทธิภาพตามรายการหลัก

สรุปตาราง Benchmark

สภาพแวดล้อมการใช้งานและปรับใช้จริง

แผนในอนาคต

อ้างอิง

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News