8 คะแนน โดย GN⁺ 2025-11-25 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • Claude Opus 4.5 เป็นโมเดล AI ที่ทำผลงานได้ระดับแนวหน้าสุดในงานเขียนโค้ด การรันเอเจนต์ และการใช้งานคอมพิวเตอร์
  • ทำคะแนนสูงสุดในการทดสอบ วิศวกรรมซอฟต์แวร์จริง (SWE-bench Verified) พร้อมพัฒนาอย่างมากทั้งด้าน ประสิทธิภาพการใช้โทเค็นและความสามารถในการให้เหตุผล
  • ราคาลดลงเหลือ $5/$25 ต่อ 1 ล้านโทเค็น ทำให้นักพัฒนาและองค์กรจำนวนมากขึ้นสามารถใช้ ความสามารถระดับ Opus ได้
  • มีการอัปเกรดครั้งใหญ่ให้กับ Claude Developer Platform และ Claude Code ด้วย พารามิเตอร์ ‘effort’ แบบใหม่, การจัดการบริบท, และ การใช้เครื่องมือที่ดีขึ้น
  • ถือเป็นจุดเปลี่ยนที่ช่วยยกระดับ ความน่าเชื่อถือของการใช้งาน AI ในหลายอุตสาหกรรม ผ่านการ เสริมความปลอดภัยและการจัดแนว พร้อม เพิ่มความสามารถในการป้องกัน prompt injection

ภาพรวมของ Claude Opus 4.5

  • Anthropic เปิดตัว Claude Opus 4.5 โดยอธิบายว่าเป็นโมเดลระดับโลกในด้านการเขียนโค้ด เอเจนต์ และการใช้งานคอมพิวเตอร์
    • ประสิทธิภาพดีขึ้นแม้ในงานทั่วไป เช่น การรีเสิร์ช การทำสไลด์ และการจัดการสเปรดชีต
    • ถูกมองว่าเป็นอีกขั้นของการขยายขอบเขตสิ่งที่ระบบ AI สามารถทำได้
  • Opus 4.5 ทำคะแนนสูงสุดในการทดสอบ SWE-bench Verified
  • ใช้งานได้ทันทีบนแอป Anthropic, API และ 3 แพลตฟอร์มคลาวด์หลัก
    • ชื่อโมเดลใน API: claude-opus-4-5-20251101
    • ราคา: อินพุต $5 / เอาต์พุต $25 (ต่อ 1 ล้านโทเค็น)

เสียงตอบรับจากผู้ใช้กลุ่มแรกและการทดสอบ

  • การทดสอบภายในรายงานว่าความสามารถในการจัดการปัญหาคลุมเครือและการแก้บั๊กซับซ้อนดีขึ้น
  • ผู้ใช้กลุ่มแรกจากหลายบริษัทให้ฟีดแบ็กดังนี้
    • คุณภาพโค้ดดีขึ้น และ การใช้โทเค็นลดลงครึ่งหนึ่ง
    • ทำผลงานได้ดีใน การให้เหตุผลหลายขั้นตอน, งานอัตโนมัติระยะยาว, และ เวิร์กโฟลว์แบบเอเจนต์
    • ประสิทธิภาพดีขึ้นมากกว่า 15% เมื่อเทียบกับ Sonnet 4.5
    • ยืนยันความเป็นไปได้ของการสร้าง AI agent ที่ปรับปรุงตัวเองได้
    • ประสิทธิภาพดีขึ้นในหลายด้าน เช่น การทำ Excel อัตโนมัติ, การแสดงผลแบบ 3D, การรีวิวโค้ด, และการสร้างเรื่องราว
    • มีรายงานว่า ข้อผิดพลาดในการเรียกใช้เครื่องมือและข้อผิดพลาดตอนบิลด์ลดลง 50~75% พร้อม ความเร็วที่ดีขึ้น

การประเมินประสิทธิภาพ

  • ในการสอบ วิศวกรรมซอฟต์แวร์ ภายในของ Anthropic ทำคะแนน สูงกว่าคะแนนสูงสุดของผู้สมัครมนุษย์
    • ทำผลงานได้ดีที่สุดภายในเวลาจำกัด 2 ชั่วโมง
  • ความสามารถด้าน วิสัยทัศน์, การให้เหตุผล, และคณิตศาสตร์ ดีขึ้นโดยรวม จนทำระดับ ล้ำหน้าสุดของวงการ (SOTA) ในหลายเบนช์มาร์ก
  • ในการทดสอบ τ2-bench มีการยกตัวอย่างการแก้ปัญหาอย่างสร้างสรรค์
    • ไม่พยายามเลี่ยงนโยบายห้ามเปลี่ยนตั๋วเครื่องบิน แต่แก้ปัญหาด้วย ขั้นตอนที่ถูกต้องตามกฎหมาย (อัปเกรดที่นั่งแล้วค่อยเปลี่ยนกำหนดการ)
    • แม้เบนช์มาร์กจะบันทึกเป็นความล้มเหลว แต่ถูกยกมาเป็นตัวอย่างของ ความสามารถด้านการให้เหตุผลอย่างสร้างสรรค์

ความปลอดภัยและการจัดแนวที่ดีขึ้น

  • Claude Opus 4.5 เป็นโมเดลที่ Anthropic ระบุว่ามี การจัดแนวแข็งแกร่งที่สุด ในบรรดาโมเดลที่บริษัทเคยเปิดตัว
    • มีความทนทานต่อ การโจมตีแบบ prompt injection ในระดับแนวหน้าของอุตสาหกรรม
    • ทำผลงานได้ดีแม้ในเบนช์มาร์กการโจมตีขั้นสูงที่พัฒนาโดย Gray Swan
  • คะแนน “พฤติกรรมที่น่ากังวล (concerning behavior)” ต่ำ ช่วยลดความเป็นไปได้ของ การใช้งานในทางร้ายและการทำงานผิดพลาดแบบอัตโนมัติ
  • การประเมินด้านความปลอดภัยและประสิทธิภาพโดยละเอียดมีอยู่ใน Claude Opus 4.5 system card

อัปเดต Claude Developer Platform

  • Opus 4.5 ให้ ผลลัพธ์ที่ดีกว่าด้วยโทเค็นที่น้อยลง
  • พารามิเตอร์ effort แบบใหม่ช่วยปรับสมดุลระหว่างความเร็ว ต้นทุน และประสิทธิภาพได้
    • ที่ระดับ effort ปานกลาง ให้ประสิทธิภาพเท่ากับ Sonnet 4.5 แต่ ลดโทเค็นเอาต์พุตลง 76%
    • ที่ระดับ effort สูงสุด ประสิทธิภาพดีขึ้น 4.3% เมื่อเทียบกับ Sonnet 4.5 พร้อม ลดโทเค็นลง 48%
  • ฟีเจอร์ effort control, context compaction, และ การใช้เครื่องมือขั้นสูง ช่วยเพิ่มประสิทธิภาพของงานระยะยาว
  • การจัดการบริบทและฟังก์ชันหน่วยความจำ ช่วย เพิ่มประสิทธิภาพงานเอเจนต์ 15%
  • แพลตฟอร์มกำลังพัฒนาไปสู่โครงสร้างแบบ โมดูลาร์และประกอบรวมกันได้ มากขึ้น

อัปเดตผลิตภัณฑ์

  • Claude Code ใช้ Opus 4.5 เป็นพื้นฐาน ทำให้ Plan Mode มีความแม่นยำและความสามารถในการลงมือทำดีขึ้น
    • สร้างไฟล์ plan.md ก่อนการรันเพื่อให้ผู้ใช้ตรวจทานได้
    • รองรับการรันหลายเซสชันแบบขนานใน แอปเดสก์ท็อป
  • แอป Claude มีฟีเจอร์สรุปบทสนทนายาวอัตโนมัติเพื่อ คงบริบท
  • Claude for Chrome เปิดให้ผู้ใช้ Max ทุกคน
  • Claude for Excel ขยายเบตาไปยังผู้ใช้ Max, Team และ Enterprise
  • มีการเพิ่ม ขีดจำกัดการใช้งานเฉพาะของ Opus 4.5 เพื่อให้ใช้ในงานประจำวันได้

ข้อมูลเพิ่มเติม

  • การประเมินทั้งหมด (evals) ทำโดยใช้ 64K thinking budget, หน้าต่างบริบท 200K, และค่าเริ่มต้น effort (high) แล้วเฉลี่ยจาก 5 ครั้ง
  • การทดสอบบางรายการ เช่น SWE-bench Verified และ Terminal Bench ใช้การตั้งค่าแยกต่างหาก
  • งานวิจัยที่เกี่ยวข้องและผลลัพธ์โดยละเอียดดูได้ใน Claude Opus 4.5 system card

ข่าวที่เกี่ยวข้อง

  • Claude ถูกรวมเข้ากับ Microsoft Foundry และ Microsoft 365 Copilot
  • มีการลงนามความร่วมมือเชิงกลยุทธ์ระหว่าง Microsoft·NVIDIA·Anthropic
    • Anthropic มีแผน ซื้อกำลังประมวลผล Azure มูลค่า 3 หมื่นล้านดอลลาร์ และทำสัญญาเพิ่มได้สูงสุดอีก 1GW
  • ร่วมมือกับรัฐบาลรวันดาและ ALX เพื่อขยายการศึกษา AI ในภูมิภาคแอฟริกา

2 ความคิดเห็น

 
kaydash 2025-11-27

ต้องจ่ายค่าแพ็กเกจ 5G, ต้องสมัคร Netflix ด้วย แล้วยังต้องสมัคร AI อีก T_T

 
GN⁺ 2025-11-25
ความคิดเห็นจาก Hacker News
  • ประเด็นสำคัญของการประกาศครั้งนี้คือ การลดราคา Opus 4.5
    $5/$25 ต่อ MTok ถือว่าถูกลง 3 เท่าเมื่อเทียบกับ Opus 4 ทำให้ตอนนี้มันไม่ใช่แค่ “โมเดลที่ใช้เฉพาะงานสำคัญ” อีกต่อไป แต่เป็น โมเดลที่นำไปใช้กับ production workload จริงได้
    อีกทั้งยังอ้างว่ามี ความต้านทานต่อ prompt injection ระดับ SOTA ซึ่งถ้าตัวเลขใน system card ยังยืนได้ภายใต้การทดสอบเชิงรุกจริง ก็มีความหมายมากสำหรับผู้ที่ deploy agent ที่มีสิทธิ์เข้าถึงเครื่องมือ
    แต่คำว่า “โมเดลที่จัดแนวดีที่สุด” ก็ดูโอ้อวดไปหน่อย และอยากเห็น ผล red team จากบุคคลที่สาม

    • การเปิดตัว Opus 4.5 ทำให้ ข้อจำกัดการใช้งานของ Claude Code ผ่อนคลายลง
      มีการยกเลิกเพดานเฉพาะ Opus และผู้ใช้ Max กับ Team Premium ก็กลับมาใช้โทเค็นได้ใกล้เคียงยุค Sonnet
      บอกว่าได้ปรับ usage limit เพื่อให้ใช้ Opus 4.5 กับงานประจำวันได้
    • จากผลทดสอบภายใน Opus 4.5 มักมีต้นทุนการรัน ถูกกว่า Sonnet เสียอีก
      ต้นทุนเฉลี่ยต่อเธรดของทีม Amp อยู่ที่ Sonnet 4.5 = $1.83 และ Opus 4.5 = $1.30
      ปัจจัยที่ช่วยประหยัดต้นทุนมากกว่าราคาโทเค็นดิบคือ ความผิดพลาดที่ลดลงจากความฉลาดที่ดีขึ้น
    • การลดราคา 3 เท่านี้น่าจะหมายความว่า Opus 4.5 อาจเป็น base model ที่เล็กลงและเฉพาะทางมากขึ้น
      ดูเหมือนมีการ fine-tune ให้เข้ากับ benchmark มากขึ้น และเลยสงสัยว่าผลงานบนการทดสอบนอกเป้าหมายอย่าง eqbench.com จะเป็นอย่างไร
    • แต่ก่อนมักมองส่วน “Safety” ว่าเป็นคำเตือนแนวไซไฟ แต่รอบนี้น่าสนใจเพราะพูดถึง ปัญหาในโลกจริงอย่าง prompt injection
      ดูเหมือนว่าคำว่า “ความปลอดภัย” กำลังพัฒนาไปมีความหมายอีกแบบ
    • แต่ Pliney the Liberator เหมือนจะ jailbreak ได้แล้ว
      ซึ่งอาจเป็นคนละเรื่องกับความต้านทานต่อ prompt injection
  • โมเดลนี้คงจะ ล้ำมากอยู่ 2~4 สัปดาห์ แล้วหลังจากนั้นก็น่าจะโดน “nerf”
    ต่อจากนั้นอีกหลายเดือน คนที่ชี้ว่าประสิทธิภาพตกก็คงถูกหาว่า “ฝีมือไม่ถึง” ก่อนที่วิศวกรจะออกมาบอกว่าเจอ “บั๊กบางอย่าง” แล้ว Opus 4.7 ก็จะออกมา
    ตอนนี้ความภักดีของฉันวัดเป็น รอบของการ nerf ไปแล้ว

    • มันอาจไม่ใช่ประสิทธิภาพตกจริง แต่เป็น ภาพลวงทางการรับรู้ ก็ได้
      เพราะใน benchmark ไม่มีหลักฐานว่ามันแย่ลง
      แต่ถ้าความรู้สึกของมนุษย์นั้นจริง ก็แปลว่ามี ปัจจัยบางอย่าง (x-factor) ที่ benchmark จับไม่ได้
    • เพราะแบบนั้นฉันเลย ย้ายไป Gemini
      ตั้งแต่รุ่น v2.5 เป็นต้นมาไม่รู้สึกว่าคุณภาพตกลง และเริ่มสงสัยว่า Anthropic อาจมีการ สลับโมเดลที่ถูก quantize
    • ฟังดูเหมือนมุก แต่จริง ๆ อาจเป็นการ รีลอนช์ Opus 4.0 ก็ได้
    • ปรากฏการณ์แบบนี้ก็ เข้ากับพฤติกรรมของ CEO เหมือนกัน
    • Claude น่าจะแอบทดลอง context compression อยู่
      กับคำถามเดี่ยว ๆ ที่พึ่งพาบริบทน้อย ประสิทธิภาพจะตกน้อยกว่า
  • ฉันลองใช้ Gemini 3 Pro ใน Cursor แล้วรู้สึกว่า อ่อนกว่า Sonnet 4.5 มาก
    มีปัญหาที่ Claude Code เท่านั้นที่แก้ได้ และ Sonnet 4.5 ก็ทำงานได้ดีเป็นพิเศษใน Cursor
    คิดว่า Anthropic เลือกกลยุทธ์ เน้น software engineering ได้ถูกทางแล้ว
    เป็นโมเดลที่คาดหวังมากที่สุดสำหรับปี 2026

    • โมเดล Claude มี เครื่องมือในตัว อย่าง str_replace_editor
      ส่วน Cursor ไม่มีเครื่องมือแบบนี้ จึงเกิดช่องว่างด้านประสิทธิภาพ
      ดูทวีตที่เกี่ยวข้องได้ที่นี่
    • เวิร์กโฟลว์ของฉันคือ ออกแบบด้วย Gemini แล้ว ลงมือทำด้วย Sonnet
    • ส่วนตัวฉันไม่เข้าใจ กระแส hype ของ Gemini ที่มากเกินไป
      Opus/Sonnet/GPT เหมาะกับเวิร์กโฟลว์แบบ agentic มากกว่าเยอะ
    • ฉันทำ side project ด้วย Gemini 2.5 Pro API แล้วเจอปัญหาเรื่อง ความสม่ำเสมอในการทำตามคำสั่ง กับ resource exceeded error
      Azure GPT-4.1, Bedrock Sonnet 4 และ Perplexity เสถียรกว่ามาก
      เลยอยากรู้ว่าคนอื่นเจอเหมือนกันไหม
    • พอให้ Sonnet 4.5 กับ PHP serialize() JSON ที่เข้ารหัส base64 แล้วสั่งให้ดึง URL มันกลับคืน ลิงก์ YouTube ของ Rick Astley มา
  • Claude Opus 4.5 system card มีรายละเอียดมากกว่าบล็อกการตลาดเยอะ
    เป็น PDF 150 หน้า โดยส่วนที่พูดถึง การหลอกลวง (deception) น่าสนใจเป็นพิเศษ
    เช่น มีตัวอย่างที่เมื่อได้รับข่าวเรื่องการยุบทีมความปลอดภัยของ Anthropic โมเดลกลับซ่อนข้อมูลนั้นจากผู้ใช้
    ยังพูดถึงความเสี่ยงด้าน CBRN ด้วย และตอนนี้ Opus ยังอยู่ที่ ระดับ ASL-3 จึงยังไม่ใช่ความเสี่ยงขนาดใหญ่
    มีสรุปบล็อกเกี่ยวกับเรื่องนี้ไว้ที่นี่

  • ผล benchmark รอบนี้น่ายินดีมาก
    ทำให้ฉันยัง ใช้ Coding Agent ตัวเดิมต่อได้
    ในสภาพแวดล้อม AI ที่เปลี่ยนเร็วมาก การตามให้ทันโดยไม่โดน FOMO ทำได้ยากขึ้นเรื่อย ๆ แต่รอบนี้ Anthropic พิสูจน์ความสามารถในการแข่งขันได้อีกครั้ง

    • ดูเหมือนเราจะมาถึงจุดที่ มองข้าม hype ได้โดยไม่ตกขบวน แล้ว
      ชุด Sonnet กับ Claude Code ก็เสถียรพออยู่แล้ว และหลัง 4.5 ก็ยิ่งดีขึ้นเอง
      แค่เมินแรงย้ายไป Codex ก็พอ
    • ฉัน ย้ายไป OpenAI เพราะข้อจำกัดด้านแพ็กเกจราคา
      ถึง Claude จะเขียนโค้ดได้ดีกว่านิดหน่อย แต่ GPT ส่งคำขอได้ไม่จำกัด เลยเปิดพื้นที่ให้ทดลองได้มากกว่า
    • การใช้หลายเครื่องมือควบคู่กัน ไม่ได้เพิ่มผลิตภาพมากนัก
      Opus เป็นความก้าวหน้าที่มีความหมาย แต่ไม่น่าถึงขั้นเปลี่ยนเวิร์กโฟลว์พื้นฐาน
    • ฉันก็ชอบ ทิศทางที่เป็นมิตรกับนักพัฒนาของ Anthropic
      หวังว่าจะยืนหยัดได้ดีในการแข่งขัน
    • ฉันก็ลอง Codex มาแล้ว แต่ สุดท้ายก็กลับมา Claude Code
      ใช้ Codex แค่ชั่วคราวตอนติดลิมิตเท่านั้น
  • ความสามารถด้านเครื่องมือขั้นสูง ของ Opus 4.5 น่าประทับใจเป็นพิเศษ
    ตามเอกสาร Advanced Tool Use มันทำได้ทั้ง การค้นหาเครื่องมือ, การเรียกใช้แบบโปรแกรม, และ การเรียนรู้จากตัวอย่างใน context
    แค่คำจำกัดความของเครื่องมือก็ใช้ไป 130,000 โทเค็นแล้ว ถือว่าน่าทึ่งมาก
    วิดีโอเดโมเกมปริศนาก็น่าสนใจ

  • ฉันอ่าน รีวิว Opus ของ Simon Willison แล้ว

    • วิวัฒนาการแบบค่อยเป็นค่อยไปนั้น รับรู้ได้ยากใน codebase ขนาดใหญ่
      งานส่วนใหญ่มักติดที่ ช่องว่างด้าน tooling มากกว่าความสามารถของโมเดล
    • สงสัยว่าเขาเขียน ไลบรารีแปลง terminal output เป็น HTML เองหรือเปล่า
    • แอบสงสัยว่าเขากำลัง ฝึกโมเดลให้ตรงกับข้อมูล benchmark หรือไม่
    • มีข้อผิดพลาดในตารางราคา Haiku — ที่ถูกคือ $1/$5
    • ขอเสนอแก้คำผิด: There modelTheir model
  • ถ้าดู ตารางอันดับ ARC-AGI-2 จะเห็นการเปรียบเทียบ ประสิทธิภาพต่อราคา ระหว่างโมเดลได้ชัดเจน
    Opus 4.5 ทำผลงานได้ยอดเยี่ยมเมื่อเทียบกับ Gemini 3 ขณะที่ Gemini 3 Deep Think ยังเป็นอันดับ 1 แต่ แพงกว่าเกิน 30 เท่า
    ตอนเดือนธันวาคม 2024 ที่ OpenAI ทำลายสถิติระดับมนุษย์ใน ARC-AGI-1 นั้นมีค่าใช้จ่าย $3,000 ต่องาน แต่ตอนนี้ลดลงเหลือ เพียงไม่กี่ดอลลาร์ หรือถูกลง 80 เท่า
    ดู ตารางอันดับ และบล็อกที่เกี่ยวข้อง

    • เพิ่มเติมคือ Gemini 3 Pro เป็น เวอร์ชันไม่ใช้เครื่องมือ ส่วน Deep Think เป็น เวอร์ชันที่ใช้เครื่องมือ
      ถ้าให้สิทธิ์เข้าถึงเครื่องมือเท่ากัน ช่องว่างระหว่างสองโมเดลจะเล็กลง
  • ช่วงหลังรู้สึกว่า ความเร็วในการพัฒนา LLM ชะลอลง
    ความแม่นยำดีขึ้นไม่มาก แต่ ประสิทธิภาพเชิงต้นทุน ดีขึ้นมาก

  • ช่วงหลัง Sonnet 4.5 ดูเหมือนฉลาดน้อยลง
    แม้แต่ CSS ง่าย ๆ ยังจัดการไม่ได้ดี
    การที่ Opus ถูกลง 3 เท่าถือว่าเป็นข่าวดี แต่ในแพ็กเกจ Claude Code Pro ยังใช้ไม่ได้
    ใช้ Opus ในขั้นวางแผนได้ผ่านคำสั่ง /model opusplan แต่ โครงสร้างการคิดเครดิตยังไม่ชัดเจน
    แค่แก้ CSS ง่าย ๆ ก็เสียไป $0.95 ซึ่งแพงเกินไป
    ต่อไปคงต้องลองสลับ Opus กับ Sonnet เองแบบแมนนวล

    • คุณภาพของ Sonnet 4.5 ดูเหมือนจะ แปรตามความลึกของการค้นหาแบบ chess engine
      ในช่วงพีคที่โหลดสูง ประสิทธิภาพตกคงเลี่ยงไม่ได้ ดังนั้นน่าจะมี สัญญาณบอกภาระโหลด ให้เห็น
    • ช่วงไม่กี่วันมานี้รู้สึกชัดเลยว่า ระดับสติปัญญาลดลง
      อาจตั้งใจลดเพื่อโปรโมตโมเดลใหม่ หรือไม่ก็ โหลดเพิ่มจากการแจกเครดิตฟรี จนต้องรันเวอร์ชัน quantized
      ความ ไม่โปร่งใสและความไม่เสถียร ของ Anthropic น่าเสียดาย
    • ดูเหมือนว่าระบบอาจ failover ไปใช้โมเดลราคาถูกกว่าเมื่อทราฟฟิกเกิน
    • โดยเฉพาะวันศุกร์ฉันเจอ คำตอบทึ่ม ๆ ต่อเนื่อง
      ตอนแรกคิดว่าเป็นแค่บั๊กชั่วคราว แต่รู้สึกเหมือนมีอะไรบางอย่างเปลี่ยนไป