- Claude Opus 4.5 เป็นโมเดล AI ที่ทำผลงานได้ระดับแนวหน้าสุดในงานเขียนโค้ด การรันเอเจนต์ และการใช้งานคอมพิวเตอร์
- ทำคะแนนสูงสุดในการทดสอบ วิศวกรรมซอฟต์แวร์จริง (SWE-bench Verified) พร้อมพัฒนาอย่างมากทั้งด้าน ประสิทธิภาพการใช้โทเค็นและความสามารถในการให้เหตุผล
- ราคาลดลงเหลือ $5/$25 ต่อ 1 ล้านโทเค็น ทำให้นักพัฒนาและองค์กรจำนวนมากขึ้นสามารถใช้ ความสามารถระดับ Opus ได้
- มีการอัปเกรดครั้งใหญ่ให้กับ Claude Developer Platform และ Claude Code ด้วย พารามิเตอร์ ‘effort’ แบบใหม่, การจัดการบริบท, และ การใช้เครื่องมือที่ดีขึ้น
- ถือเป็นจุดเปลี่ยนที่ช่วยยกระดับ ความน่าเชื่อถือของการใช้งาน AI ในหลายอุตสาหกรรม ผ่านการ เสริมความปลอดภัยและการจัดแนว พร้อม เพิ่มความสามารถในการป้องกัน prompt injection
ภาพรวมของ Claude Opus 4.5
- Anthropic เปิดตัว Claude Opus 4.5 โดยอธิบายว่าเป็นโมเดลระดับโลกในด้านการเขียนโค้ด เอเจนต์ และการใช้งานคอมพิวเตอร์
- ประสิทธิภาพดีขึ้นแม้ในงานทั่วไป เช่น การรีเสิร์ช การทำสไลด์ และการจัดการสเปรดชีต
- ถูกมองว่าเป็นอีกขั้นของการขยายขอบเขตสิ่งที่ระบบ AI สามารถทำได้
- Opus 4.5 ทำคะแนนสูงสุดในการทดสอบ SWE-bench Verified
- ใช้งานได้ทันทีบนแอป Anthropic, API และ 3 แพลตฟอร์มคลาวด์หลัก
- ชื่อโมเดลใน API:
claude-opus-4-5-20251101
- ราคา: อินพุต $5 / เอาต์พุต $25 (ต่อ 1 ล้านโทเค็น)
เสียงตอบรับจากผู้ใช้กลุ่มแรกและการทดสอบ
- การทดสอบภายในรายงานว่าความสามารถในการจัดการปัญหาคลุมเครือและการแก้บั๊กซับซ้อนดีขึ้น
- ผู้ใช้กลุ่มแรกจากหลายบริษัทให้ฟีดแบ็กดังนี้
- คุณภาพโค้ดดีขึ้น และ การใช้โทเค็นลดลงครึ่งหนึ่ง
- ทำผลงานได้ดีใน การให้เหตุผลหลายขั้นตอน, งานอัตโนมัติระยะยาว, และ เวิร์กโฟลว์แบบเอเจนต์
- ประสิทธิภาพดีขึ้นมากกว่า 15% เมื่อเทียบกับ Sonnet 4.5
- ยืนยันความเป็นไปได้ของการสร้าง AI agent ที่ปรับปรุงตัวเองได้
- ประสิทธิภาพดีขึ้นในหลายด้าน เช่น การทำ Excel อัตโนมัติ, การแสดงผลแบบ 3D, การรีวิวโค้ด, และการสร้างเรื่องราว
- มีรายงานว่า ข้อผิดพลาดในการเรียกใช้เครื่องมือและข้อผิดพลาดตอนบิลด์ลดลง 50~75% พร้อม ความเร็วที่ดีขึ้น
การประเมินประสิทธิภาพ
- ในการสอบ วิศวกรรมซอฟต์แวร์ ภายในของ Anthropic ทำคะแนน สูงกว่าคะแนนสูงสุดของผู้สมัครมนุษย์
- ทำผลงานได้ดีที่สุดภายในเวลาจำกัด 2 ชั่วโมง
- ความสามารถด้าน วิสัยทัศน์, การให้เหตุผล, และคณิตศาสตร์ ดีขึ้นโดยรวม จนทำระดับ ล้ำหน้าสุดของวงการ (SOTA) ในหลายเบนช์มาร์ก
- ในการทดสอบ τ2-bench มีการยกตัวอย่างการแก้ปัญหาอย่างสร้างสรรค์
- ไม่พยายามเลี่ยงนโยบายห้ามเปลี่ยนตั๋วเครื่องบิน แต่แก้ปัญหาด้วย ขั้นตอนที่ถูกต้องตามกฎหมาย (อัปเกรดที่นั่งแล้วค่อยเปลี่ยนกำหนดการ)
- แม้เบนช์มาร์กจะบันทึกเป็นความล้มเหลว แต่ถูกยกมาเป็นตัวอย่างของ ความสามารถด้านการให้เหตุผลอย่างสร้างสรรค์
ความปลอดภัยและการจัดแนวที่ดีขึ้น
- Claude Opus 4.5 เป็นโมเดลที่ Anthropic ระบุว่ามี การจัดแนวแข็งแกร่งที่สุด ในบรรดาโมเดลที่บริษัทเคยเปิดตัว
- มีความทนทานต่อ การโจมตีแบบ prompt injection ในระดับแนวหน้าของอุตสาหกรรม
- ทำผลงานได้ดีแม้ในเบนช์มาร์กการโจมตีขั้นสูงที่พัฒนาโดย Gray Swan
- คะแนน “พฤติกรรมที่น่ากังวล (concerning behavior)” ต่ำ ช่วยลดความเป็นไปได้ของ การใช้งานในทางร้ายและการทำงานผิดพลาดแบบอัตโนมัติ
- การประเมินด้านความปลอดภัยและประสิทธิภาพโดยละเอียดมีอยู่ใน Claude Opus 4.5 system card
อัปเดต Claude Developer Platform
- Opus 4.5 ให้ ผลลัพธ์ที่ดีกว่าด้วยโทเค็นที่น้อยลง
- พารามิเตอร์ effort แบบใหม่ช่วยปรับสมดุลระหว่างความเร็ว ต้นทุน และประสิทธิภาพได้
- ที่ระดับ effort ปานกลาง ให้ประสิทธิภาพเท่ากับ Sonnet 4.5 แต่ ลดโทเค็นเอาต์พุตลง 76%
- ที่ระดับ effort สูงสุด ประสิทธิภาพดีขึ้น 4.3% เมื่อเทียบกับ Sonnet 4.5 พร้อม ลดโทเค็นลง 48%
- ฟีเจอร์ effort control, context compaction, และ การใช้เครื่องมือขั้นสูง ช่วยเพิ่มประสิทธิภาพของงานระยะยาว
- การจัดการบริบทและฟังก์ชันหน่วยความจำ ช่วย เพิ่มประสิทธิภาพงานเอเจนต์ 15%
- แพลตฟอร์มกำลังพัฒนาไปสู่โครงสร้างแบบ โมดูลาร์และประกอบรวมกันได้ มากขึ้น
อัปเดตผลิตภัณฑ์
- Claude Code ใช้ Opus 4.5 เป็นพื้นฐาน ทำให้ Plan Mode มีความแม่นยำและความสามารถในการลงมือทำดีขึ้น
- สร้างไฟล์ plan.md ก่อนการรันเพื่อให้ผู้ใช้ตรวจทานได้
- รองรับการรันหลายเซสชันแบบขนานใน แอปเดสก์ท็อป
- แอป Claude มีฟีเจอร์สรุปบทสนทนายาวอัตโนมัติเพื่อ คงบริบท
- Claude for Chrome เปิดให้ผู้ใช้ Max ทุกคน
- Claude for Excel ขยายเบตาไปยังผู้ใช้ Max, Team และ Enterprise
- มีการเพิ่ม ขีดจำกัดการใช้งานเฉพาะของ Opus 4.5 เพื่อให้ใช้ในงานประจำวันได้
ข้อมูลเพิ่มเติม
- การประเมินทั้งหมด (evals) ทำโดยใช้ 64K thinking budget, หน้าต่างบริบท 200K, และค่าเริ่มต้น effort (high) แล้วเฉลี่ยจาก 5 ครั้ง
- การทดสอบบางรายการ เช่น SWE-bench Verified และ Terminal Bench ใช้การตั้งค่าแยกต่างหาก
- งานวิจัยที่เกี่ยวข้องและผลลัพธ์โดยละเอียดดูได้ใน Claude Opus 4.5 system card
ข่าวที่เกี่ยวข้อง
- Claude ถูกรวมเข้ากับ Microsoft Foundry และ Microsoft 365 Copilot
- มีการลงนามความร่วมมือเชิงกลยุทธ์ระหว่าง Microsoft·NVIDIA·Anthropic
- Anthropic มีแผน ซื้อกำลังประมวลผล Azure มูลค่า 3 หมื่นล้านดอลลาร์ และทำสัญญาเพิ่มได้สูงสุดอีก 1GW
- ร่วมมือกับรัฐบาลรวันดาและ ALX เพื่อขยายการศึกษา AI ในภูมิภาคแอฟริกา
2 ความคิดเห็น
ต้องจ่ายค่าแพ็กเกจ 5G, ต้องสมัคร Netflix ด้วย แล้วยังต้องสมัคร AI อีก T_T
ความคิดเห็นจาก Hacker News
ประเด็นสำคัญของการประกาศครั้งนี้คือ การลดราคา Opus 4.5
$5/$25 ต่อ MTok ถือว่าถูกลง 3 เท่าเมื่อเทียบกับ Opus 4 ทำให้ตอนนี้มันไม่ใช่แค่ “โมเดลที่ใช้เฉพาะงานสำคัญ” อีกต่อไป แต่เป็น โมเดลที่นำไปใช้กับ production workload จริงได้
อีกทั้งยังอ้างว่ามี ความต้านทานต่อ prompt injection ระดับ SOTA ซึ่งถ้าตัวเลขใน system card ยังยืนได้ภายใต้การทดสอบเชิงรุกจริง ก็มีความหมายมากสำหรับผู้ที่ deploy agent ที่มีสิทธิ์เข้าถึงเครื่องมือ
แต่คำว่า “โมเดลที่จัดแนวดีที่สุด” ก็ดูโอ้อวดไปหน่อย และอยากเห็น ผล red team จากบุคคลที่สาม
มีการยกเลิกเพดานเฉพาะ Opus และผู้ใช้ Max กับ Team Premium ก็กลับมาใช้โทเค็นได้ใกล้เคียงยุค Sonnet
บอกว่าได้ปรับ usage limit เพื่อให้ใช้ Opus 4.5 กับงานประจำวันได้
ต้นทุนเฉลี่ยต่อเธรดของทีม Amp อยู่ที่ Sonnet 4.5 = $1.83 และ Opus 4.5 = $1.30
ปัจจัยที่ช่วยประหยัดต้นทุนมากกว่าราคาโทเค็นดิบคือ ความผิดพลาดที่ลดลงจากความฉลาดที่ดีขึ้น
ดูเหมือนมีการ fine-tune ให้เข้ากับ benchmark มากขึ้น และเลยสงสัยว่าผลงานบนการทดสอบนอกเป้าหมายอย่าง eqbench.com จะเป็นอย่างไร
ดูเหมือนว่าคำว่า “ความปลอดภัย” กำลังพัฒนาไปมีความหมายอีกแบบ
ซึ่งอาจเป็นคนละเรื่องกับความต้านทานต่อ prompt injection
โมเดลนี้คงจะ ล้ำมากอยู่ 2~4 สัปดาห์ แล้วหลังจากนั้นก็น่าจะโดน “nerf”
ต่อจากนั้นอีกหลายเดือน คนที่ชี้ว่าประสิทธิภาพตกก็คงถูกหาว่า “ฝีมือไม่ถึง” ก่อนที่วิศวกรจะออกมาบอกว่าเจอ “บั๊กบางอย่าง” แล้ว Opus 4.7 ก็จะออกมา
ตอนนี้ความภักดีของฉันวัดเป็น รอบของการ nerf ไปแล้ว
เพราะใน benchmark ไม่มีหลักฐานว่ามันแย่ลง
แต่ถ้าความรู้สึกของมนุษย์นั้นจริง ก็แปลว่ามี ปัจจัยบางอย่าง (x-factor) ที่ benchmark จับไม่ได้
ตั้งแต่รุ่น v2.5 เป็นต้นมาไม่รู้สึกว่าคุณภาพตกลง และเริ่มสงสัยว่า Anthropic อาจมีการ สลับโมเดลที่ถูก quantize
กับคำถามเดี่ยว ๆ ที่พึ่งพาบริบทน้อย ประสิทธิภาพจะตกน้อยกว่า
ฉันลองใช้ Gemini 3 Pro ใน Cursor แล้วรู้สึกว่า อ่อนกว่า Sonnet 4.5 มาก
มีปัญหาที่ Claude Code เท่านั้นที่แก้ได้ และ Sonnet 4.5 ก็ทำงานได้ดีเป็นพิเศษใน Cursor
คิดว่า Anthropic เลือกกลยุทธ์ เน้น software engineering ได้ถูกทางแล้ว
เป็นโมเดลที่คาดหวังมากที่สุดสำหรับปี 2026
str_replace_editorส่วน Cursor ไม่มีเครื่องมือแบบนี้ จึงเกิดช่องว่างด้านประสิทธิภาพ
ดูทวีตที่เกี่ยวข้องได้ที่นี่
Opus/Sonnet/GPT เหมาะกับเวิร์กโฟลว์แบบ agentic มากกว่าเยอะ
Azure GPT-4.1, Bedrock Sonnet 4 และ Perplexity เสถียรกว่ามาก
เลยอยากรู้ว่าคนอื่นเจอเหมือนกันไหม
Claude Opus 4.5 system card มีรายละเอียดมากกว่าบล็อกการตลาดเยอะ
เป็น PDF 150 หน้า โดยส่วนที่พูดถึง การหลอกลวง (deception) น่าสนใจเป็นพิเศษ
เช่น มีตัวอย่างที่เมื่อได้รับข่าวเรื่องการยุบทีมความปลอดภัยของ Anthropic โมเดลกลับซ่อนข้อมูลนั้นจากผู้ใช้
ยังพูดถึงความเสี่ยงด้าน CBRN ด้วย และตอนนี้ Opus ยังอยู่ที่ ระดับ ASL-3 จึงยังไม่ใช่ความเสี่ยงขนาดใหญ่
มีสรุปบล็อกเกี่ยวกับเรื่องนี้ไว้ที่นี่
ผล benchmark รอบนี้น่ายินดีมาก
ทำให้ฉันยัง ใช้ Coding Agent ตัวเดิมต่อได้
ในสภาพแวดล้อม AI ที่เปลี่ยนเร็วมาก การตามให้ทันโดยไม่โดน FOMO ทำได้ยากขึ้นเรื่อย ๆ แต่รอบนี้ Anthropic พิสูจน์ความสามารถในการแข่งขันได้อีกครั้ง
ชุด Sonnet กับ Claude Code ก็เสถียรพออยู่แล้ว และหลัง 4.5 ก็ยิ่งดีขึ้นเอง
แค่เมินแรงย้ายไป Codex ก็พอ
ถึง Claude จะเขียนโค้ดได้ดีกว่านิดหน่อย แต่ GPT ส่งคำขอได้ไม่จำกัด เลยเปิดพื้นที่ให้ทดลองได้มากกว่า
Opus เป็นความก้าวหน้าที่มีความหมาย แต่ไม่น่าถึงขั้นเปลี่ยนเวิร์กโฟลว์พื้นฐาน
หวังว่าจะยืนหยัดได้ดีในการแข่งขัน
ใช้ Codex แค่ชั่วคราวตอนติดลิมิตเท่านั้น
ความสามารถด้านเครื่องมือขั้นสูง ของ Opus 4.5 น่าประทับใจเป็นพิเศษ
ตามเอกสาร Advanced Tool Use มันทำได้ทั้ง การค้นหาเครื่องมือ, การเรียกใช้แบบโปรแกรม, และ การเรียนรู้จากตัวอย่างใน context
แค่คำจำกัดความของเครื่องมือก็ใช้ไป 130,000 โทเค็นแล้ว ถือว่าน่าทึ่งมาก
วิดีโอเดโมเกมปริศนาก็น่าสนใจ
ฉันอ่าน รีวิว Opus ของ Simon Willison แล้ว
งานส่วนใหญ่มักติดที่ ช่องว่างด้าน tooling มากกว่าความสามารถของโมเดล
There model→Their modelถ้าดู ตารางอันดับ ARC-AGI-2 จะเห็นการเปรียบเทียบ ประสิทธิภาพต่อราคา ระหว่างโมเดลได้ชัดเจน
Opus 4.5 ทำผลงานได้ยอดเยี่ยมเมื่อเทียบกับ Gemini 3 ขณะที่ Gemini 3 Deep Think ยังเป็นอันดับ 1 แต่ แพงกว่าเกิน 30 เท่า
ตอนเดือนธันวาคม 2024 ที่ OpenAI ทำลายสถิติระดับมนุษย์ใน ARC-AGI-1 นั้นมีค่าใช้จ่าย $3,000 ต่องาน แต่ตอนนี้ลดลงเหลือ เพียงไม่กี่ดอลลาร์ หรือถูกลง 80 เท่า
ดู ตารางอันดับ และบล็อกที่เกี่ยวข้อง
ถ้าให้สิทธิ์เข้าถึงเครื่องมือเท่ากัน ช่องว่างระหว่างสองโมเดลจะเล็กลง
ช่วงหลังรู้สึกว่า ความเร็วในการพัฒนา LLM ชะลอลง
ความแม่นยำดีขึ้นไม่มาก แต่ ประสิทธิภาพเชิงต้นทุน ดีขึ้นมาก
ช่วงหลัง Sonnet 4.5 ดูเหมือนฉลาดน้อยลง
แม้แต่ CSS ง่าย ๆ ยังจัดการไม่ได้ดี
การที่ Opus ถูกลง 3 เท่าถือว่าเป็นข่าวดี แต่ในแพ็กเกจ Claude Code Pro ยังใช้ไม่ได้
ใช้ Opus ในขั้นวางแผนได้ผ่านคำสั่ง
/model opusplanแต่ โครงสร้างการคิดเครดิตยังไม่ชัดเจนแค่แก้ CSS ง่าย ๆ ก็เสียไป $0.95 ซึ่งแพงเกินไป
ต่อไปคงต้องลองสลับ Opus กับ Sonnet เองแบบแมนนวล
ในช่วงพีคที่โหลดสูง ประสิทธิภาพตกคงเลี่ยงไม่ได้ ดังนั้นน่าจะมี สัญญาณบอกภาระโหลด ให้เห็น
อาจตั้งใจลดเพื่อโปรโมตโมเดลใหม่ หรือไม่ก็ โหลดเพิ่มจากการแจกเครดิตฟรี จนต้องรันเวอร์ชัน quantized
ความ ไม่โปร่งใสและความไม่เสถียร ของ Anthropic น่าเสียดาย
ตอนแรกคิดว่าเป็นแค่บั๊กชั่วคราว แต่รู้สึกเหมือนมีอะไรบางอย่างเปลี่ยนไป