7 คะแนน โดย GN⁺ 2025-08-06 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Claude Opus 4.1 เป็นเวอร์ชันอัปเกรดที่เสริมความสามารถด้าน การเขียนโค้ดเชิงปฏิบัติจริง งานแบบ agentic และความสามารถในการอนุมาน
  • บันทึกผลการทำงานด้านโค้ดสูงสุด 74.5% ใน SWE-bench Verified และแสดงผลลัพธ์โดดเด่นใน การดีบักอย่างละเอียดใน codebase ขนาดใหญ่ การรีแฟกเตอร์หลายไฟล์ ฯลฯ
  • ได้รับคำชื่นชมจากผู้ใช้งานจริงอย่าง Rakuten, GitHub, Windsurf ในด้านความแม่นยำการแก้โค้ด การเพิ่มประสิทธิภาพการดีบักประจำวัน และความก้าวหน้าที่ชัดเจนใน benchmark ของนักพัฒนาระดับเริ่มต้น
  • แสดงประสิทธิภาพที่ละเอียดมากขึ้นในสภาพแวดล้อมการพัฒนาจริง โดยเฉพาะ รีแฟกเตอร์หลายไฟล์ และการแก้ไขโค้ดอย่างละเอียด
  • ผู้ใช้ Opus 4 ที่มีอยู่แล้วสามารถใช้งานได้ทันทีบน API, Claude Code, Amazon Bedrock, Google Vertex AI โดยไม่ต้องจ่ายเพิ่ม

คุณลักษณะหลักของ Claude Opus 4.1

  • มีประสิทธิภาพดีขึ้นกว่า Claude Opus 4 รุ่นเดิมใน งานแบบ agentic การเขียนโค้ดจริง และงานอนุมานที่ซับซ้อน
  • ในไม่กี่สัปดาห์ข้างหน้าโมเดลนี้คาดว่าจะได้รับการปรับปรุงในสเกลที่ใหญ่ขึ้น

จุดเด่นหลัก

  • SWE-bench Verified บรรลุความสามารถด้านโค้ด 74.5%
    • แสดงการปรับปรุงอย่างชัดเจนด้าน ความสามารถในการวิจัยเชิงลึกและวิเคราะห์ข้อมูล โดยเฉพาะการติดตามรายละเอียดและการค้นหาแบบ agentic
    • ได้รับคะแนนยอดเยี่ยมใน benchmark ที่อิงโค้ดจริงสำหรับการแก้ปัญหาบั๊กในคลังโค้ดโอเพ่นซอร์สขนาดใหญ่
  • รีแฟกเตอร์หลายไฟล์ และ การดีบักอย่างละเอียดใน codebase ขนาดใหญ่ ได้รับการปรับให้เหมาะกับงานของวิศวกรในสถานการณ์จริง
    • ที่ GitHub Opus 4.1 แสดงผลลัพธ์ที่ดีขึ้นในฟีเจอร์ส่วนใหญ่เมื่อเทียบกับ Opus 4 เดิม โดยเฉพาะผลลัพธ์ที่เด่นชัดในงาน รีแฟกเตอร์โค้ดหลายไฟล์
    • Rakuten Group ให้การประเมินสูงกับ Opus 4.1 ที่สามารถแก้ไขเฉพาะจุดที่จำเป็นใน codebase ขนาดใหญ่ รักษาสไตล์เดิมได้ และลดการแก้ไขที่ไม่จำเป็นหรือการเกิดบั๊กใหม่
    • Windsurf รายงานว่า benchmark สำหรับนักพัฒนาระดับเริ่มต้นของบริษัทแสดงว่าคะแนนของ Opus 4.1 เพิ่มขึ้นกว่าคะแนน Opus 4 ถึงหนึ่งส่วนเบี่ยงเบนมาตรฐาน และมองว่าเป็นการกระโดดของประสิทธิภาพใกล้เคียงกับการอัปเกรดจาก Sonnet 3.7 สู่ Sonnet 4

เปรียบเทียบประสิทธิภาพตามรายการหลัก

  • Agentic coding (SWE-bench Verified)
    • Claude Opus 4.1: 74.5%
    • Claude(Opus 4) ก่อนหน้า: 72.5%, Claude Sonnet 4: 72.7%
    • OpenAI o3: 69.1%
    • Gemini 2.5 Pro: 67.2%
    • บันทึกความแม่นยำสูงสุดในการแก้โค้ดโอเพ่นซอร์สจริง
    โฆษณา
  • Agentic terminal coding (Terminal-Bench)
    • Claude Opus 4.1: 43.3% (สูงสุด)
    • Opus 4: 39.2%
    • Sonnet 4: 35.5%
    • OpenAI o3: 30.2%
    • Gemini 2.5 Pro: 25.3%
  • การอนุมานระดับบัณฑิตศึกษา (GPQA Diamond)
    • Claude Opus 4.1: 80.9%
    • Opus 4: 79.6%
    • Sonnet 4: 75.4%
    • OpenAI o3: 83.3% (สูงสุด)
    • Gemini 2.5 Pro: 86.4% (สูงสุด)
  • Agentic tool use (TAU-bench)
    • สถานการณ์ค้าปลีก: Claude Opus 4.1 82.4% (สูงสุด), Opus 4 81.4%, Sonnet 4 80.5%, OpenAI o3 70.4%
    • สถานการณ์สายการบิน: Claude Opus 4.1 56.0%, Opus 4 59.6%, Sonnet 4 60.0%, OpenAI o3 52.0%
    • Gemini 2.5 Pro ไม่ได้ให้คะแนนในรายการนี้
  • Multilingual Q&A (MMMLU)
    • Claude Opus 4.1: 89.5% (สูงสุด)
    • Opus 4: 88.8%
    • Sonnet 4: 86.5%
    • OpenAI o3: 88.8%
    • Gemini 2.5 Pro: ไม่ได้เผยแพร่
  • Visual reasoning (MMMU)
    • Claude Opus 4.1: 77.1%
    • Opus 4: 76.5%
    • Sonnet 4: 74.4%
    • OpenAI o3: 82.9% (สูงสุด)
    • Gemini 2.5 Pro: 82% (สูงสุด)
    โฆษณา
  • การแข่งขันคณิตศาสตร์ระดับมัธยมปลาย (AIME 2025)
    • Claude Opus 4.1: 78.0%
    • Opus 4: 75.5%
    • Sonnet 4: 70.5%
    • OpenAI o3: 88.9% (สูงสุด)
    • Gemini 2.5 Pro: 88% (สูงสุด)
  • สรุปตาราง Benchmark

    • Claude Opus 4.1 เติบโตสม่ำเสมอในทุกหมวดเมื่อเทียบกับรุ่นก่อน และได้คะแนนสูงสุดใน benchmark เชิงปฏิบัติจริงด้านอัตโนมัติการเขียนโค้ด การรีแฟกเตอร์หลายไฟล์ และการใช้เครื่องมือแบบหลายภาษา QA
    • แม้ว่าในด้านคณิตศาสตร์ การอนุมานเชิงภาพ และการอนุมานขั้นสูง (GPQA) แบบบางด้าน โมเดล OpenAI o3 และ Gemini 2.5 Pro จะนำหน้า แต่ Claude Opus 4.1 ทำได้ดีที่สุดในด้าน การเพิ่มผลผลิตการเขียนโค้ดจริงและ QA หลายภาษา
    • สถานการณ์สายการบิน (Agentic tool use) มีการลดลงเล็กน้อย ในขณะที่การอนุมานเชิงภาพและคณิตศาสตร์ถูกแซงหน้าท่วมท้วมเล็กน้อยโดยโมเดลอื่น

สภาพแวดล้อมการใช้งานและปรับใช้จริง

  • ผู้ใช้ Opus 4 รุ่นเดิมจะแนะนำให้อัปเกรดเป็น claude-opus-4-1-20250805 บน API โดยตรง
  • สามารถนำไปใช้และปรับใช้ผ่าน API, Claude Code, Amazon Bedrock, Google Vertex AI และช่องทางอื่นๆ
  • ใช้โครงสร้างราคาตาม Opus 4 เดิม และแนะนำให้ผู้ใช้เดิมอัปเกรดทันที
  • พร้อมเผยแพร่ระบบการ์ด คำอธิบายโมเดล ราคา และเอกสารทางการ ควบคู่กับ benchmark และวิธีการประเมินอย่างละเอียด

แผนในอนาคต

  • Opus 4.1 เป็นการอัปเกรดแบบค่อยเป็นค่อยไปที่สะท้อนความก้าวหน้าล่าสุดในด้านการเขียนโค้ดและการอนุมาน และคาดว่าจะมีการกระโดดที่ใหญ่ขึ้นภายในอีกไม่กี่สัปดาห์
  • จะมีการปรับปรุงและขยายฟีเจอร์ตามข้อมูลย้อนกลับจากผู้ใช้เพื่อยกระดับประสิทธิภาพอย่างต่อเนื่อง

อ้างอิง

  • ระบุแหล่งข้อมูลการเปรียบเทียบข้อมูลล่าสุด เช่น OpenAI o3 และ Gemini 2.5 Pro, ผลลัพธ์ benchmark และการแสดงการใช้ความสามารถการคิดแบบขยายของแต่ละโมเดลอย่างโปร่งใส

1 ความคิดเห็น

 
GN⁺ 2025-08-06
ความคิดเห็นบน Hacker News
  • รู้สึกเหมือนหน่วยวิจัยหลัก 3 แห่งประกาศอะไรบางอย่างพร้อมกันห่างกันไม่กี่ชั่วโมงเลย เหมือนฉากหมุนมุมแบบบ้าคลั่งของอนิเมะเลย

    • มันชัดเจนว่าเป็นเหตุผลที่มีทีม PR อยู่ การได้เป็นข่าวบนหน้าแรกของ HN หรือไซต์ข่าวสำคัญมาก และถึงแม้จะไม่ได้เป็นอันดับ 1 ก็ยังจำเป็นที่ต้องกระจายความสนใจของตลาดให้คู่แข่ง
    • ถ้าคิดถึงข่าวลือของ GPT5 ผมว่าเรายังอยู่แค่ต้นเดือนสิงหาคมเท่านั้น
    • แปลกใจจริง ๆ ที่ได้อยู่ในยุคแบบนี้
    • มันให้ความรู้สึกว่าเขารอให้คู่แข่งประกาศก่อน แล้วค่อยปล่อยไปพร้อมกันเพื่อให้ตลาดได้ตัดสินว่าสิ่งไหนดีที่สุด
    • ผมคิดว่ามันไม่ใช่เรื่องบังเอิญนะ
  • Opus 4(.1) แพงมาก ลิงก์, Sonnet ก็ราคาราว 5 ดอลลาร์ต่อชั่วโมงถ้าใช้ผ่าน OpenRouter + Codename Goose ลิงก์, สิ่งที่น่าสนใจคือ Sonnet 3.5 ก็มีราคาเดียวกัน ลิงก์, ในขณะเดียวกัน Gemini Flash ลิงก์ ดูจะสมเหตุสมผลที่สุด แต่สุดท้ายผมก็ยังวนคิดไม่ลงตัว

    • ผมไม่คิดว่า OpenAI จะไม่ดี แต่ยังทำงานตามผลงานของ Claude ไม่ได้เต็มที่
    • อย่างไรก็ตาม เวลาเจอให้กด CTRL-C ระหว่างทาง API จะส่ง error 400 กลับมา ซึ่งไม่สะดวก
    • ผมให้ความสำคัญกับความคุ้มค่ากับต้นทุน ค่า ROI ที่ดีที่สุดคือ OpenAI ChatGPT 4.1 mini ลิงก์, ไม่มีการทิ้งโทเคนอย่างไร้เหตุผล และ API ก็ทำงานเสถียรตลอด, บางครั้งยังสับสนเล็กน้อยแต่โดยรวมก็ช่วยแก้ได้
    • ผมมองว่ารุ่นใหญ่เหมาะกับงานถาม-ตอบเชิงโมเดล ส่วนรุ่นเล็กเหมาะกับคำถามเชิง context; ถ้าใช้ Opus ให้ตรงจุด มันก็ไม่ถึงกับแพง
    • ถ้าใช้ Claude Code แบบสมัครสมาชิกจะคุ้มค่ากว่ามาก ผมอยู่แผน Max และแม้ใช้ Claude Code ตลอดวันติดต่อกัน ใน 2 สัปดาห์ล่าสุดโดนจำกัดเพียง 2 ครั้งเท่านั้น
    • ทุกครั้งที่ผมเทียบราคา Claude API มักจะถูกสุดเสมอ ถ้าใช้งาน context cache ให้คุ้ม ราคาป้อนคำสั่งใน input อาจลดลงได้เกือบ 90% ซึ่งเป็นเรื่องใหญ่มาก
    • ผมยังอยากชี้ว่า GLM 4.5, Kimi K2, Qwen Coder 3, Gemini Pro 2.5 ก็เป็นทางเลือกที่พูดถึงได้
  • Opus ถูกโปรโมตว่าดีกว่า Sonnet ในงานโค้ดเกือบทุกด้าน แต่ในความรู้สึกจริง ๆ ผมกลับรู้สึกว่า Sonnet ดีกว่าเยอะ พูดแทนว่าเคยมีคนย้ายจาก Sonnet ไป Opus แบบเต็มตัวไหม หรือมีแค่บางงานที่ใช้ Opus แทน Sonnet เฉพาะทางบางอย่างหรือไม่

    • Opus อาจดีกว่าเชิงเทคนิคจริง แต่ในทางปฏิบัติผมแทบไม่รู้สึกความต่าง, งาน implement ที่ซับซ้อนให้ LLM ทำสำเร็จได้ในครั้งเดียวแทบเป็นไปไม่ได้, เพราะต้องอธิบายมากเกินและสุดท้ายผมก็ต้องค่อย ๆ ค้นหาคำตอบที่ถูกต้องในโค้ดเอง
    • แม้ Opus จะตอบได้ดูดี แต่มักต้องเข้าใจว่าทำไมผลลัพธ์ออกมาเช่นนั้น ทำไมมันถึงเข้ากับ context ของผมได้ จึงทำให้รกรุงรัง
    • งานของผมส่วนใหญ่เป็นงานแบบค่อย ๆ ดำเนินไปทีละนิด จึงรู้สึกว่า Sonnet พอเพียงแล้ว
    • เมื่อ Sonnet พิการแบบไม่คาดคิด (วันละหนึ่งถึงสองครั้ง) การเปลี่ยนไป Opus ดูเหมือนจะแก้ปัญหาเร็วมาก, แน่นอนว่าเป็นประสบการณ์แบบไม่เชิงวิทยาศาสตร์ และอาจเป็นแค่การเปลี่ยนโมเดลไหน ๆ ก็น่าจะช่วยได้
    • การที่คำว่า “Sonnet ดีกว่า” ถูกพูดถึงมาก คงเพราะขาดหลักฐานเชิงวิทยาศาสตร์ และเรื่องที่โมเดลใหญ่ดีกว่านั้นชัดเจนอยู่แล้ว คนจึงไม่ค่อยเอ่ยถึง, แต่เมื่อพูดว่า “บางครั้งรุ่นเล็กอาจดีกว่า” มันกลับได้ยินดูเหมือนคำแนะนำมากกว่า เลยถูกแชร์บ่อยกว่า
    • เมื่อวานผมดึงข้อมูลมาดูแล้วแต่คนก็พูดไม่เหมือนกัน สรุปที่คุ้มที่สุดคือแม้จะเลิกใช้ Opus ไป Sonnet ชั่วคราวบนแผน Max ก็ไม่ต้องตื่นตระหนกว่าคุณภาพจะตกฮวบ
    • Opus ดูเหมือนจะดีกว่าในงานที่ซับซ้อนมาก มีหลายขั้นตอน หรือที่ต้องติดตามบริบทการทำงานยาว ๆ ดังนั้นผมจึงเก็บ Opus ไว้ใช้เฉพาะงานยาก ๆ ที่เหลือใช้ Sonnet ซึ่งโดยรวมก็พอใจและไม่ชนข้อจำกัดโทเคนถี่เท่าเดิม
    • กรณีของผมใช้ Max plan แล้วผลลัพธ์ของ Opus ดูดีขึ้นนิดหน่อยเมื่อเทียบกับ Sonnet แต่ข้อสำคัญคือใช้ได้เฉพาะตอนที่ Opus มีให้เท่านั้น และที่ตลกคือแม้เป็น Max plan ก็ยังติด limit เร็วมาก, เมื่อวานเช้าก็ถึงขีดจำกัดในไม่กี่นาทีกับการกลับมาทำงาน
  • Opus 4.1 รู้สึกคล้าย Opus 4 มากเกินไป รู้สึกเหมือนแค่กินโทเคนเร็วขึ้น, อยากให้มีการแสดงปริมาณการใช้จริงที่ชัดเจนสักหน่อย อย่างน้อย Sonnet 4 ยังใช้งานได้อยู่ แต่ผลลัพธ์ค่อย ๆ เบลอลง, วันนี้เช้าสูญเวลากับ Claude Code ไปเยอะมาก จนคิดว่าถ้าทำเองตั้งแต่แรกคงดีกว่า

    • ผมเองก็รู้สึกว่า Sonnet คุณภาพเริ่มตก: คำอธิบายยืดยาวขึ้น มีส่วนเกินมากขึ้น พยายามจัดเป็นลิสต์ตลอด และถึงกับยอมรับในสิ่งที่คู่แข่งพูดมากเกินไปจนกลายเป็นนิสัย
    • คิดว่าเพราะโปรเจกต์ของผมโตขึ้นมาก จาก 2,000 บรรทัดไปไกลกว่า 100,000 บรรทัด ทำให้ตาม context ให้ทันยากขึ้นตามขนาด
    • Opus 4.1 รุ่นใหม่ดูเหมือนตั้งใจทำเว็บแอปทั้งหมดตั้งแต่บทสนทนาครั้งแรก, แต่น้อยกว่าหุ่นยนต์เก่า มันจับใจความบริบทได้เร็วขึ้น และถามคำถามเกี่ยวกับระบบได้ถูกต้องจนทำเอกสารอัปเดตเสร็จครบ, เดิมต้องอธิบายซ้ำเดิมทุกแชตจนหงุดหงิด ตอนนี้ไม่ใช่แล้ว แต่ด้วยการใช้โทเคนที่เร็วขึ้นมาก ทำให้แชตยาวๆ แบบสมัยก่อนทำได้ยากกว่า
    • ถ้ามันสามารถทำงานสุดท้ายเสร็จทันก่อนโทเคนหมด ผมก็พอใจแล้ว
    • ประโยคว่า “สละเวลาไปกับ Claude Code ตลอดเช้านั้น” ทำให้นึกถึง ‘Welcome to the machine’ ลิงก์
  • การสตรีม “Claude Plays Pokemon” กลับมาอีกครั้งด้วยโมเดลใหม่ ลิงก์ ซึ่งก่อนหน้านี้มันเคยติดอยู่ในที่ลับของ Team Rocket มาหลายสัปดาห์

  • ในข่าวเขาพูดว่า “คาดว่าจะมีการปรับปรุงโมเดลอย่างมีนัยสำคัญภายในไม่กี่สัปดาห์” โดย Sonnet 4 ยังเหมาะกับสินค้าของเราเด่นที่สุด แต่ผมอยากลอง Haiku 4 (หรือ 4.1) ที่ราคาถูกกว่า และแปลกที่ Anthropic ไม่ได้พูดถึง Haiku 4 เลยในรอบนี้

  • วันนี้คือวันที่แย่ที่สุดที่เคยใช้ Claude เลย ทั้งหมดพังไปหมด จนไม่รู้ว่าเกิดจากการ deploy วันนี้หรือไม่ มีคำหยาบในเอกสารและจอปัดไปมาหลายชั่วโมงก็ยังไม่ซ่อมบั๊กได้

  • สิ่งที่ผมสนใจจากข่าวมากที่สุดคือช่วงที่บอกว่า “คาดว่าภายในไม่กี่สัปดาห์ โมเดลจะดีขึ้นอย่างมาก”

    • ผมตีความว่านี่เป็นสัญญาณให้คนไม่ควรย้ายไป GPT5 ทันที
  • การอัปเดตครั้งนี้แทบไม่ใช่การอัปเกรดที่ชัดเจนสำหรับคนทำงานของพวกเขาเอง มันไม่เลว แต่ก็น่าจะไม่มีใครรู้สึกถึงความแตกต่าง

    • อาจเป็นแค่ความรู้สึก (vibe) เป็นหลัก แต่ผมคิดว่าส่วนนี้สำคัญ แทนที่ benchmark อย่างเป็นทางการ, Opus 4.1 แสดงการดีขึ้นราวหนึ่งส่วนเบี่ยงเบนมาตรฐานจาก Opus 4 ใน benchmark นักพัฒนาระดับต้น, ซึ่งเทียบได้กับการกระโดดจาก Sonnet 3.7 ไป Sonnet 4
    • ผมยังไม่เคยทดสอบเต็มรูปแบบ แต่ไม่เห็นความต่างที่ชัดในคุณภาพ output อย่างแท้จริง อย่างน้อยรู้สึกได้ว่าปฏิบัติตามเอกสาร/คำแนะนำที่ให้มากขึ้น เพียงแต่ยังยืนยันเชิงปริมาณหรือวิเคราะห์เชิงวัตถุได้ไม่ชัด, Opus 4.1 ไม่ได้เก่งเรื่องหา hidden info แบบ Needles-in-the-Haystack อย่างเดียว แต่ยังทำตามสิ่งนั้นได้ดีขึ้นแม้ไม่สั่งตรง
    • นั่นทำให้ผมนึกว่าเหตุผลที่ตั้งชื่อเป็น 4.1 ก็เพราะแบบนี้ ไม่ใช่ 4.5 อย่างแน่นอน
    • ดูเหมือนพวกเขาปล่อยช่องว่างไว้ให้ปล่อยโมเดลเพิ่มได้อีก 10 ตัว ถ้าคะแนน benchmark ขึ้นไป 100% ทุกตัวก็ไม่จำเป็นต้องมีโมเดลใหม่แล้ว พอได้ส่วนผสมตัวเลขเพื่อการตลาดบ้าง, ในขณะเดียวกัน โมเดลก็ยังยังกังวลกับคำถามใหม่ ๆ เพราะมันยังคงแก้โจทย์ชนิดเดียวกับชุดข้อมูลฝึก
    • แปลกดีที่ในภาพรายงานผล เฉพาะ Opus 4.1 เท่านั้นที่ถูกไฮไลต์ ทั้งที่มันได้คะแนนสูงสุดเพียงประมาณครึ่งหนึ่งของ benchmark เท่านั้น อีกกว่าครึ่งไม่ได้ดีหรือบางตัวยังต่ำกว่า Opus 4.0 และคะแนนของโมเดลคู่แข่งก็มักไม่แสดงเลย
  • ในเมื่อราคาของ Opus กับ Sonnet แพงไปพร้อมกัน ผมคิดว่าปริมาณการใช้ Opus คงไม่สามารถเกิน Sonnet ได้ และจาก OpenRouter rankings ลิงก์ ตัวเลขบอกว่า Sonnet 3.7 และ 4 รวมกันกำลังประมวลผลโทเคนได้มากกว่า Opus 4 ถึง 17 เท่า