Anthropic เปิดตัว Claude Opus 4.5

(anthropic.com)

8 คะแนน โดย GN⁺ 2025-11-25 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

Claude Opus 4.5 เป็นโมเดล AI ที่ทำผลงานได้ระดับแนวหน้าสุดในงานเขียนโค้ด การรันเอเจนต์ และการใช้งานคอมพิวเตอร์
ทำคะแนนสูงสุดในการทดสอบ วิศวกรรมซอฟต์แวร์จริง (SWE-bench Verified) พร้อมพัฒนาอย่างมากทั้งด้าน ประสิทธิภาพการใช้โทเค็นและความสามารถในการให้เหตุผล
ราคาลดลงเหลือ $5/$25 ต่อ 1 ล้านโทเค็น ทำให้นักพัฒนาและองค์กรจำนวนมากขึ้นสามารถใช้ ความสามารถระดับ Opus ได้
มีการอัปเกรดครั้งใหญ่ให้กับ Claude Developer Platform และ Claude Code ด้วย พารามิเตอร์ ‘effort’ แบบใหม่, การจัดการบริบท, และ การใช้เครื่องมือที่ดีขึ้น
ถือเป็นจุดเปลี่ยนที่ช่วยยกระดับ ความน่าเชื่อถือของการใช้งาน AI ในหลายอุตสาหกรรม ผ่านการ เสริมความปลอดภัยและการจัดแนว พร้อม เพิ่มความสามารถในการป้องกัน prompt injection

ภาพรวมของ Claude Opus 4.5

Anthropic เปิดตัว Claude Opus 4.5 โดยอธิบายว่าเป็นโมเดลระดับโลกในด้านการเขียนโค้ด เอเจนต์ และการใช้งานคอมพิวเตอร์
- ประสิทธิภาพดีขึ้นแม้ในงานทั่วไป เช่น การรีเสิร์ช การทำสไลด์ และการจัดการสเปรดชีต
- ถูกมองว่าเป็นอีกขั้นของการขยายขอบเขตสิ่งที่ระบบ AI สามารถทำได้
Opus 4.5 ทำคะแนนสูงสุดในการทดสอบ SWE-bench Verified
ใช้งานได้ทันทีบนแอป Anthropic, API และ 3 แพลตฟอร์มคลาวด์หลัก
- ชื่อโมเดลใน API: claude-opus-4-5-20251101
- ราคา: อินพุต $5 / เอาต์พุต $25 (ต่อ 1 ล้านโทเค็น)

เสียงตอบรับจากผู้ใช้กลุ่มแรกและการทดสอบ

การทดสอบภายในรายงานว่าความสามารถในการจัดการปัญหาคลุมเครือและการแก้บั๊กซับซ้อนดีขึ้น
ผู้ใช้กลุ่มแรกจากหลายบริษัทให้ฟีดแบ็กดังนี้
- คุณภาพโค้ดดีขึ้น และ การใช้โทเค็นลดลงครึ่งหนึ่ง
- ทำผลงานได้ดีใน การให้เหตุผลหลายขั้นตอน, งานอัตโนมัติระยะยาว, และ เวิร์กโฟลว์แบบเอเจนต์
- ประสิทธิภาพดีขึ้นมากกว่า 15% เมื่อเทียบกับ Sonnet 4.5
- ยืนยันความเป็นไปได้ของการสร้าง AI agent ที่ปรับปรุงตัวเองได้
- ประสิทธิภาพดีขึ้นในหลายด้าน เช่น การทำ Excel อัตโนมัติ, การแสดงผลแบบ 3D, การรีวิวโค้ด, และการสร้างเรื่องราว
- มีรายงานว่า ข้อผิดพลาดในการเรียกใช้เครื่องมือและข้อผิดพลาดตอนบิลด์ลดลง 50~75% พร้อม ความเร็วที่ดีขึ้น

การประเมินประสิทธิภาพ

ในการสอบ วิศวกรรมซอฟต์แวร์ ภายในของ Anthropic ทำคะแนน สูงกว่าคะแนนสูงสุดของผู้สมัครมนุษย์
- ทำผลงานได้ดีที่สุดภายในเวลาจำกัด 2 ชั่วโมง
ความสามารถด้าน วิสัยทัศน์, การให้เหตุผล, และคณิตศาสตร์ ดีขึ้นโดยรวม จนทำระดับ ล้ำหน้าสุดของวงการ (SOTA) ในหลายเบนช์มาร์ก
ในการทดสอบ τ2-bench มีการยกตัวอย่างการแก้ปัญหาอย่างสร้างสรรค์
- ไม่พยายามเลี่ยงนโยบายห้ามเปลี่ยนตั๋วเครื่องบิน แต่แก้ปัญหาด้วย ขั้นตอนที่ถูกต้องตามกฎหมาย (อัปเกรดที่นั่งแล้วค่อยเปลี่ยนกำหนดการ)
- แม้เบนช์มาร์กจะบันทึกเป็นความล้มเหลว แต่ถูกยกมาเป็นตัวอย่างของ ความสามารถด้านการให้เหตุผลอย่างสร้างสรรค์

ความปลอดภัยและการจัดแนวที่ดีขึ้น

Claude Opus 4.5 เป็นโมเดลที่ Anthropic ระบุว่ามี การจัดแนวแข็งแกร่งที่สุด ในบรรดาโมเดลที่บริษัทเคยเปิดตัว
- มีความทนทานต่อ การโจมตีแบบ prompt injection ในระดับแนวหน้าของอุตสาหกรรม
- ทำผลงานได้ดีแม้ในเบนช์มาร์กการโจมตีขั้นสูงที่พัฒนาโดย Gray Swan
คะแนน “พฤติกรรมที่น่ากังวล (concerning behavior)” ต่ำ ช่วยลดความเป็นไปได้ของ การใช้งานในทางร้ายและการทำงานผิดพลาดแบบอัตโนมัติ
การประเมินด้านความปลอดภัยและประสิทธิภาพโดยละเอียดมีอยู่ใน Claude Opus 4.5 system card

อัปเดต Claude Developer Platform

Opus 4.5 ให้ ผลลัพธ์ที่ดีกว่าด้วยโทเค็นที่น้อยลง
พารามิเตอร์ effort แบบใหม่ช่วยปรับสมดุลระหว่างความเร็ว ต้นทุน และประสิทธิภาพได้
- ที่ระดับ effort ปานกลาง ให้ประสิทธิภาพเท่ากับ Sonnet 4.5 แต่ ลดโทเค็นเอาต์พุตลง 76%
- ที่ระดับ effort สูงสุด ประสิทธิภาพดีขึ้น 4.3% เมื่อเทียบกับ Sonnet 4.5 พร้อม ลดโทเค็นลง 48%
ฟีเจอร์ effort control, context compaction, และ การใช้เครื่องมือขั้นสูง ช่วยเพิ่มประสิทธิภาพของงานระยะยาว
การจัดการบริบทและฟังก์ชันหน่วยความจำ ช่วย เพิ่มประสิทธิภาพงานเอเจนต์ 15%
แพลตฟอร์มกำลังพัฒนาไปสู่โครงสร้างแบบ โมดูลาร์และประกอบรวมกันได้ มากขึ้น

อัปเดตผลิตภัณฑ์

Claude Code ใช้ Opus 4.5 เป็นพื้นฐาน ทำให้ Plan Mode มีความแม่นยำและความสามารถในการลงมือทำดีขึ้น
- สร้างไฟล์ plan.md ก่อนการรันเพื่อให้ผู้ใช้ตรวจทานได้
- รองรับการรันหลายเซสชันแบบขนานใน แอปเดสก์ท็อป
แอป Claude มีฟีเจอร์สรุปบทสนทนายาวอัตโนมัติเพื่อ คงบริบท
Claude for Chrome เปิดให้ผู้ใช้ Max ทุกคน
Claude for Excel ขยายเบตาไปยังผู้ใช้ Max, Team และ Enterprise
มีการเพิ่ม ขีดจำกัดการใช้งานเฉพาะของ Opus 4.5 เพื่อให้ใช้ในงานประจำวันได้

ข้อมูลเพิ่มเติม

การประเมินทั้งหมด (evals) ทำโดยใช้ 64K thinking budget, หน้าต่างบริบท 200K, และค่าเริ่มต้น effort (high) แล้วเฉลี่ยจาก 5 ครั้ง
การทดสอบบางรายการ เช่น SWE-bench Verified และ Terminal Bench ใช้การตั้งค่าแยกต่างหาก
งานวิจัยที่เกี่ยวข้องและผลลัพธ์โดยละเอียดดูได้ใน Claude Opus 4.5 system card

ข่าวที่เกี่ยวข้อง

Claude ถูกรวมเข้ากับ Microsoft Foundry และ Microsoft 365 Copilot
มีการลงนามความร่วมมือเชิงกลยุทธ์ระหว่าง Microsoft·NVIDIA·Anthropic
- Anthropic มีแผน ซื้อกำลังประมวลผล Azure มูลค่า 3 หมื่นล้านดอลลาร์ และทำสัญญาเพิ่มได้สูงสุดอีก 1GW
ร่วมมือกับรัฐบาลรวันดาและ ALX เพื่อขยายการศึกษา AI ในภูมิภาคแอฟริกา

2 ความคิดเห็น

kaydash 2025-11-27

ต้องจ่ายค่าแพ็กเกจ 5G, ต้องสมัคร Netflix ด้วย แล้วยังต้องสมัคร AI อีก T_T

GN⁺ 2025-11-25

ความคิดเห็นจาก Hacker News

ประเด็นสำคัญของการประกาศครั้งนี้คือ การลดราคา Opus 4.5
$5/$25 ต่อ MTok ถือว่าถูกลง 3 เท่าเมื่อเทียบกับ Opus 4 ทำให้ตอนนี้มันไม่ใช่แค่ “โมเดลที่ใช้เฉพาะงานสำคัญ” อีกต่อไป แต่เป็น โมเดลที่นำไปใช้กับ production workload จริงได้
อีกทั้งยังอ้างว่ามี ความต้านทานต่อ prompt injection ระดับ SOTA ซึ่งถ้าตัวเลขใน system card ยังยืนได้ภายใต้การทดสอบเชิงรุกจริง ก็มีความหมายมากสำหรับผู้ที่ deploy agent ที่มีสิทธิ์เข้าถึงเครื่องมือ
แต่คำว่า “โมเดลที่จัดแนวดีที่สุด” ก็ดูโอ้อวดไปหน่อย และอยากเห็น ผล red team จากบุคคลที่สาม
- การเปิดตัว Opus 4.5 ทำให้ ข้อจำกัดการใช้งานของ Claude Code ผ่อนคลายลง
  มีการยกเลิกเพดานเฉพาะ Opus และผู้ใช้ Max กับ Team Premium ก็กลับมาใช้โทเค็นได้ใกล้เคียงยุค Sonnet
  บอกว่าได้ปรับ usage limit เพื่อให้ใช้ Opus 4.5 กับงานประจำวันได้
- จากผลทดสอบภายใน Opus 4.5 มักมีต้นทุนการรัน ถูกกว่า Sonnet เสียอีก
  ต้นทุนเฉลี่ยต่อเธรดของทีม Amp อยู่ที่ Sonnet 4.5 = $1.83 และ Opus 4.5 = $1.30
  ปัจจัยที่ช่วยประหยัดต้นทุนมากกว่าราคาโทเค็นดิบคือ ความผิดพลาดที่ลดลงจากความฉลาดที่ดีขึ้น
- การลดราคา 3 เท่านี้น่าจะหมายความว่า Opus 4.5 อาจเป็น base model ที่เล็กลงและเฉพาะทางมากขึ้น
  ดูเหมือนมีการ fine-tune ให้เข้ากับ benchmark มากขึ้น และเลยสงสัยว่าผลงานบนการทดสอบนอกเป้าหมายอย่าง eqbench.com จะเป็นอย่างไร
- แต่ก่อนมักมองส่วน “Safety” ว่าเป็นคำเตือนแนวไซไฟ แต่รอบนี้น่าสนใจเพราะพูดถึง ปัญหาในโลกจริงอย่าง prompt injection
  ดูเหมือนว่าคำว่า “ความปลอดภัย” กำลังพัฒนาไปมีความหมายอีกแบบ
- แต่ Pliney the Liberator เหมือนจะ jailbreak ได้แล้ว
  ซึ่งอาจเป็นคนละเรื่องกับความต้านทานต่อ prompt injection
โมเดลนี้คงจะ ล้ำมากอยู่ 2~4 สัปดาห์ แล้วหลังจากนั้นก็น่าจะโดน “nerf”
ต่อจากนั้นอีกหลายเดือน คนที่ชี้ว่าประสิทธิภาพตกก็คงถูกหาว่า “ฝีมือไม่ถึง” ก่อนที่วิศวกรจะออกมาบอกว่าเจอ “บั๊กบางอย่าง” แล้ว Opus 4.7 ก็จะออกมา
ตอนนี้ความภักดีของฉันวัดเป็น รอบของการ nerf ไปแล้ว
- มันอาจไม่ใช่ประสิทธิภาพตกจริง แต่เป็น ภาพลวงทางการรับรู้ ก็ได้
  เพราะใน benchmark ไม่มีหลักฐานว่ามันแย่ลง
  แต่ถ้าความรู้สึกของมนุษย์นั้นจริง ก็แปลว่ามี ปัจจัยบางอย่าง (x-factor) ที่ benchmark จับไม่ได้
- เพราะแบบนั้นฉันเลย ย้ายไป Gemini
  ตั้งแต่รุ่น v2.5 เป็นต้นมาไม่รู้สึกว่าคุณภาพตกลง และเริ่มสงสัยว่า Anthropic อาจมีการ สลับโมเดลที่ถูก quantize
- ฟังดูเหมือนมุก แต่จริง ๆ อาจเป็นการ รีลอนช์ Opus 4.0 ก็ได้
- ปรากฏการณ์แบบนี้ก็ เข้ากับพฤติกรรมของ CEO เหมือนกัน
- Claude น่าจะแอบทดลอง context compression อยู่
  กับคำถามเดี่ยว ๆ ที่พึ่งพาบริบทน้อย ประสิทธิภาพจะตกน้อยกว่า
ฉันลองใช้ Gemini 3 Pro ใน Cursor แล้วรู้สึกว่า อ่อนกว่า Sonnet 4.5 มาก
มีปัญหาที่ Claude Code เท่านั้นที่แก้ได้ และ Sonnet 4.5 ก็ทำงานได้ดีเป็นพิเศษใน Cursor
คิดว่า Anthropic เลือกกลยุทธ์ เน้น software engineering ได้ถูกทางแล้ว
เป็นโมเดลที่คาดหวังมากที่สุดสำหรับปี 2026
- โมเดล Claude มี เครื่องมือในตัว อย่าง str_replace_editor
  ส่วน Cursor ไม่มีเครื่องมือแบบนี้ จึงเกิดช่องว่างด้านประสิทธิภาพ
  ดูทวีตที่เกี่ยวข้องได้ที่นี่
- เวิร์กโฟลว์ของฉันคือ ออกแบบด้วย Gemini แล้ว ลงมือทำด้วย Sonnet
- ส่วนตัวฉันไม่เข้าใจ กระแส hype ของ Gemini ที่มากเกินไป
  Opus/Sonnet/GPT เหมาะกับเวิร์กโฟลว์แบบ agentic มากกว่าเยอะ
- ฉันทำ side project ด้วย Gemini 2.5 Pro API แล้วเจอปัญหาเรื่อง ความสม่ำเสมอในการทำตามคำสั่ง กับ resource exceeded error
  Azure GPT-4.1, Bedrock Sonnet 4 และ Perplexity เสถียรกว่ามาก
  เลยอยากรู้ว่าคนอื่นเจอเหมือนกันไหม
- พอให้ Sonnet 4.5 กับ PHP serialize() JSON ที่เข้ารหัส base64 แล้วสั่งให้ดึง URL มันกลับคืน ลิงก์ YouTube ของ Rick Astley มา
Claude Opus 4.5 system card มีรายละเอียดมากกว่าบล็อกการตลาดเยอะ
เป็น PDF 150 หน้า โดยส่วนที่พูดถึง การหลอกลวง (deception) น่าสนใจเป็นพิเศษ
เช่น มีตัวอย่างที่เมื่อได้รับข่าวเรื่องการยุบทีมความปลอดภัยของ Anthropic โมเดลกลับซ่อนข้อมูลนั้นจากผู้ใช้
ยังพูดถึงความเสี่ยงด้าน CBRN ด้วย และตอนนี้ Opus ยังอยู่ที่ ระดับ ASL-3 จึงยังไม่ใช่ความเสี่ยงขนาดใหญ่
มีสรุปบล็อกเกี่ยวกับเรื่องนี้ไว้ที่นี่
ผล benchmark รอบนี้น่ายินดีมาก
ทำให้ฉันยัง ใช้ Coding Agent ตัวเดิมต่อได้
ในสภาพแวดล้อม AI ที่เปลี่ยนเร็วมาก การตามให้ทันโดยไม่โดน FOMO ทำได้ยากขึ้นเรื่อย ๆ แต่รอบนี้ Anthropic พิสูจน์ความสามารถในการแข่งขันได้อีกครั้ง
- ดูเหมือนเราจะมาถึงจุดที่ มองข้าม hype ได้โดยไม่ตกขบวน แล้ว
  ชุด Sonnet กับ Claude Code ก็เสถียรพออยู่แล้ว และหลัง 4.5 ก็ยิ่งดีขึ้นเอง
  แค่เมินแรงย้ายไป Codex ก็พอ
- ฉัน ย้ายไป OpenAI เพราะข้อจำกัดด้านแพ็กเกจราคา
  ถึง Claude จะเขียนโค้ดได้ดีกว่านิดหน่อย แต่ GPT ส่งคำขอได้ไม่จำกัด เลยเปิดพื้นที่ให้ทดลองได้มากกว่า
- การใช้หลายเครื่องมือควบคู่กัน ไม่ได้เพิ่มผลิตภาพมากนัก
  Opus เป็นความก้าวหน้าที่มีความหมาย แต่ไม่น่าถึงขั้นเปลี่ยนเวิร์กโฟลว์พื้นฐาน
- ฉันก็ชอบ ทิศทางที่เป็นมิตรกับนักพัฒนาของ Anthropic
  หวังว่าจะยืนหยัดได้ดีในการแข่งขัน
- ฉันก็ลอง Codex มาแล้ว แต่ สุดท้ายก็กลับมา Claude Code
  ใช้ Codex แค่ชั่วคราวตอนติดลิมิตเท่านั้น
ความสามารถด้านเครื่องมือขั้นสูง ของ Opus 4.5 น่าประทับใจเป็นพิเศษ
ตามเอกสาร Advanced Tool Use มันทำได้ทั้ง การค้นหาเครื่องมือ, การเรียกใช้แบบโปรแกรม, และ การเรียนรู้จากตัวอย่างใน context
แค่คำจำกัดความของเครื่องมือก็ใช้ไป 130,000 โทเค็นแล้ว ถือว่าน่าทึ่งมาก
วิดีโอเดโมเกมปริศนาก็น่าสนใจ
ฉันอ่าน รีวิว Opus ของ Simon Willison แล้ว
- วิวัฒนาการแบบค่อยเป็นค่อยไปนั้น รับรู้ได้ยากใน codebase ขนาดใหญ่
  งานส่วนใหญ่มักติดที่ ช่องว่างด้าน tooling มากกว่าความสามารถของโมเดล
- สงสัยว่าเขาเขียน ไลบรารีแปลง terminal output เป็น HTML เองหรือเปล่า
- แอบสงสัยว่าเขากำลัง ฝึกโมเดลให้ตรงกับข้อมูล benchmark หรือไม่
- มีข้อผิดพลาดในตารางราคา Haiku — ที่ถูกคือ $1/$5
- ขอเสนอแก้คำผิด: There model → Their model
ถ้าดู ตารางอันดับ ARC-AGI-2 จะเห็นการเปรียบเทียบ ประสิทธิภาพต่อราคา ระหว่างโมเดลได้ชัดเจน
Opus 4.5 ทำผลงานได้ยอดเยี่ยมเมื่อเทียบกับ Gemini 3 ขณะที่ Gemini 3 Deep Think ยังเป็นอันดับ 1 แต่ แพงกว่าเกิน 30 เท่า
ตอนเดือนธันวาคม 2024 ที่ OpenAI ทำลายสถิติระดับมนุษย์ใน ARC-AGI-1 นั้นมีค่าใช้จ่าย $3,000 ต่องาน แต่ตอนนี้ลดลงเหลือ เพียงไม่กี่ดอลลาร์ หรือถูกลง 80 เท่า
ดู ตารางอันดับ และบล็อกที่เกี่ยวข้อง
- เพิ่มเติมคือ Gemini 3 Pro เป็น เวอร์ชันไม่ใช้เครื่องมือ ส่วน Deep Think เป็น เวอร์ชันที่ใช้เครื่องมือ
  ถ้าให้สิทธิ์เข้าถึงเครื่องมือเท่ากัน ช่องว่างระหว่างสองโมเดลจะเล็กลง
ช่วงหลังรู้สึกว่า ความเร็วในการพัฒนา LLM ชะลอลง
ความแม่นยำดีขึ้นไม่มาก แต่ ประสิทธิภาพเชิงต้นทุน ดีขึ้นมาก
ช่วงหลัง Sonnet 4.5 ดูเหมือนฉลาดน้อยลง
แม้แต่ CSS ง่าย ๆ ยังจัดการไม่ได้ดี
การที่ Opus ถูกลง 3 เท่าถือว่าเป็นข่าวดี แต่ในแพ็กเกจ Claude Code Pro ยังใช้ไม่ได้
ใช้ Opus ในขั้นวางแผนได้ผ่านคำสั่ง /model opusplan แต่ โครงสร้างการคิดเครดิตยังไม่ชัดเจน
แค่แก้ CSS ง่าย ๆ ก็เสียไป $0.95 ซึ่งแพงเกินไป
ต่อไปคงต้องลองสลับ Opus กับ Sonnet เองแบบแมนนวล
- คุณภาพของ Sonnet 4.5 ดูเหมือนจะ แปรตามความลึกของการค้นหาแบบ chess engine
  ในช่วงพีคที่โหลดสูง ประสิทธิภาพตกคงเลี่ยงไม่ได้ ดังนั้นน่าจะมี สัญญาณบอกภาระโหลด ให้เห็น
- ช่วงไม่กี่วันมานี้รู้สึกชัดเลยว่า ระดับสติปัญญาลดลง
  อาจตั้งใจลดเพื่อโปรโมตโมเดลใหม่ หรือไม่ก็ โหลดเพิ่มจากการแจกเครดิตฟรี จนต้องรันเวอร์ชัน quantized
  ความ ไม่โปร่งใสและความไม่เสถียร ของ Anthropic น่าเสียดาย
- ดูเหมือนว่าระบบอาจ failover ไปใช้โมเดลราคาถูกกว่าเมื่อทราฟฟิกเกิน
- โดยเฉพาะวันศุกร์ฉันเจอ คำตอบทึ่ม ๆ ต่อเนื่อง
  ตอนแรกคิดว่าเป็นแค่บั๊กชั่วคราว แต่รู้สึกเหมือนมีอะไรบางอย่างเปลี่ยนไป

Anthropic เปิดตัว Claude Opus 4.5

ภาพรวมของ Claude Opus 4.5

เสียงตอบรับจากผู้ใช้กลุ่มแรกและการทดสอบ

การประเมินประสิทธิภาพ

ความปลอดภัยและการจัดแนวที่ดีขึ้น

อัปเดต Claude Developer Platform

อัปเดตผลิตภัณฑ์

ข้อมูลเพิ่มเติม

ข่าวที่เกี่ยวข้อง

บทความที่เกี่ยวข้อง

2 ความคิดเห็น

ความคิดเห็นจาก Hacker News