Claude Opus 4.7
(anthropic.com)- ประสิทธิภาพด้านวิศวกรรมซอฟต์แวร์ขั้นสูง ได้รับการยกระดับ ทำให้งานที่ซับซ้อนและใช้เวลานานสามารถดำเนินการได้ด้วยความสม่ำเสมอและความแม่นยำสูง
- การรับรู้ภาพและความเข้าใจแบบมัลติโหมด ดีขึ้น จึงสามารถวิเคราะห์ข้อมูลภาพที่ซับซ้อน เช่น ภาพความละเอียดสูง ไดอะแกรมทางเทคนิค และโครงสร้างทางเคมี ได้
- มี กลไกป้องกันด้านความปลอดภัยไซเบอร์ ในตัว เพื่อตรวจจับและบล็อกคำขอความเสี่ยงสูงโดยอัตโนมัติ และนักวิจัยด้านความปลอดภัยที่ถูกต้องตามกฎหมายสามารถเข้าร่วม Cyber Verification Program ได้
- ฟีเจอร์ใหม่อย่าง การควบคุม Effort, Task Budget, คำสั่ง ultrareview ช่วยเพิ่มประสิทธิภาพของงานระยะยาวและความสามารถในการตรวจสอบคุณภาพโค้ด
- ประสิทธิภาพดีขึ้น 13% เมื่อเทียบกับ Opus 4.6 พร้อมความน่าเชื่อถือที่สูงขึ้น และ Anthropic กำลังใช้สิ่งนี้เป็นฐานในการเตรียมเปิดเผยโมเดลระดับ Mythos อย่างปลอดภัย
ภาพรวมของ Claude Opus 4.7
- Claude Opus 4.7 เป็นโมเดลที่ยกระดับ ประสิทธิภาพด้านวิศวกรรมซอฟต์แวร์ขั้นสูง อย่างมากเมื่อเทียบกับ Opus 4.6 โดยสามารถจัดการงานที่ซับซ้อนและใช้เวลานานได้ด้วยความสม่ำเสมอและความแม่นยำสูง
- ผู้ใช้สามารถ ไว้วางใจและมอบหมายงานเขียนโค้ดที่ยากขึ้น ได้มากกว่าเดิม และโมเดลจะรายงานผลหลังจากตรวจสอบด้วยตัวเอง
- ความสามารถในการรับรู้ภาพ ได้รับการปรับปรุง ทำให้แสดงคุณภาพและความคิดสร้างสรรค์ได้สูงกับภาพความละเอียดสูง อินเทอร์เฟซ สไลด์ และเอกสาร
- แม้ว่าความสามารถรอบด้านจะต่ำกว่า Claude Mythos Preview แต่ก็ทำผลงานได้ดีกว่า Opus 4.6 ในหลายเบนช์มาร์ก
- ใช้งานได้ในทุกผลิตภัณฑ์ Claude และ API, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry โดยมีราคาเท่ากับ Opus 4.6
มาตรการด้านความปลอดภัยไซเบอร์
- Anthropic เปิดเผยทั้งความเสี่ยงและประโยชน์ด้านความปลอดภัยไซเบอร์ของ AI ผ่าน Project Glasswing และตัดสินใจจำกัดการเปิดเผย Mythos Preview พร้อมทั้ง ดำเนินการทดลองด้านความปลอดภัยกับโมเดลที่มีความสามารถน้อยกว่าก่อน
- Opus 4.7 เป็นโมเดลแรกในแนวทางนี้ โดยมี กลไกป้องกันที่ตรวจจับและบล็อกคำขอด้านความปลอดภัยไซเบอร์ที่ถูกห้ามหรือมีความเสี่ยงสูงโดยอัตโนมัติ
- กำลังเตรียมความพร้อมสำหรับการเปิดเผยโมเดลระดับ Mythos ในวงกว้างมากขึ้น โดยอาศัยข้อมูลจากการใช้งานจริง
- นักวิจัยด้านความปลอดภัยที่ถูกต้องตามกฎหมาย (เช่น การวิเคราะห์ช่องโหว่ การทดสอบเจาะระบบ เรดทีม) สามารถเข้าร่วม Cyber Verification Program ได้
ประสิทธิภาพหลักและเสียงตอบรับจากผู้ใช้
- ในการทดสอบช่วงแรก พบว่าโมเดล สามารถตรวจจับข้อผิดพลาดเชิงตรรกะได้ด้วยตนเองและเพิ่มความเร็วในการทำงาน
- ทำผลงานได้โดดเด่นใน เวิร์กโฟลว์แบบอะซิงโครนัส, CI/CD, งานอัตโนมัติระยะยาว และไม่ได้เพียงแค่เห็นด้วย แต่ยัง เข้าหาปัญหาอย่างลึกซึ้งและเสนอความเห็น ได้
- หลีกเลี่ยงการอนุมานผิดเมื่อข้อมูลไม่ครบถ้วน และไม่ตกหลุมพรางของข้อมูลที่ไม่สอดคล้องกัน
- ในเบนช์มาร์กการเขียนโค้ด 93 รายการ ดีขึ้น 13% เมื่อเทียบกับ Opus 4.6 และสามารถแก้โจทย์เพิ่มได้อีก 4 รายการที่ก่อนหน้านี้แก้ไม่ได้
- แสดงความสม่ำเสมอระดับสูงสุดในด้าน ประสิทธิภาพของงานหลายขั้นตอน โดยในโมดูลการเงินทำคะแนนได้ 0.813 สูงกว่า Opus 4.6 ที่ 0.767
- ความเข้าใจแบบมัลติโหมด ดีขึ้น ทำให้ตีความโครงสร้างทางเคมีหรือไดอะแกรมทางเทคนิคที่ซับซ้อนได้ดีขึ้น
- ความสามารถในการทำงานอัตโนมัติระยะยาว แข็งแกร่งขึ้น ทำให้แก้ปัญหาได้อย่างสม่ำเสมอเป็นเวลาหลายชั่วโมง
- หลายบริษัท เช่น Replit, Harvey, Hex, Notion, Databricks, Vercel รายงานว่า คุณภาพโค้ด ความแม่นยำในการเรียกใช้เครื่องมือ และความน่าเชื่อถือของเวิร์กโฟลว์ระยะยาว ดีขึ้น
- ตัวอย่างการใช้งานจริงคือ การพัฒนาเอนจินสังเคราะห์เสียงที่ใช้ Rust ได้อย่างอัตโนมัติเต็มรูปแบบ และตรวจสอบเองว่าผลลัพธ์สอดคล้องกับโมเดลอ้างอิง Python หรือไม่
จุดปรับปรุงสำคัญในการทดสอบช่วงแรก
-
ความแม่นยำในการตีความคำสั่ง
- Opus 4.7 ตีความคำสั่งตามตัวอักษร และปฏิบัติตามอย่างเข้มงวดกว่ารุ่นก่อนมาก
- พรอมต์เดิมอาจให้ผลลัพธ์ที่ไม่คาดคิด จึง จำเป็นต้องปรับพรอมต์ใหม่
-
การรองรับมัลติโหมดที่ดีขึ้น
- รองรับการประมวลผลภาพที่ความละเอียดสูงสุด 2,576 พิกเซล (ประมาณ 3.75MP)
- เหมาะกับงานที่ใช้ข้อมูลภาพอย่างละเอียด เช่น การวิเคราะห์ไดอะแกรมซับซ้อน หรือการดึงข้อมูลจากภาพหน้าจอ
-
ประสิทธิภาพในการทำงานจริง
- ให้ความเป็นมืออาชีพและความสม่ำเสมอสูงกว่า Opus 4.6 ในงานอย่าง การวิเคราะห์การเงิน การนำเสนอ และการสร้างแบบจำลอง
- ในการประเมินภายนอก GDPval-AA ก็ทำผลงานได้ระดับสูงสุดในงานสายความรู้ เช่น การเงินและกฎหมาย
-
การใช้หน่วยความจำ
- ใช้ หน่วยความจำที่อิงกับระบบไฟล์ ได้อย่างมีประสิทธิภาพ เพื่อจดจำและนำบริบทของงานกลับมาใช้ซ้ำข้ามหลายเซสชัน
การประเมินด้านความปลอดภัยและการจัดแนว
- โดยรวมมี โปรไฟล์ด้านความปลอดภัย คล้ายกับ Opus 4.6 และมีอัตราการเกิดปัญหาอย่าง การหลอกลวง การประจบ และการร่วมมือในการใช้งานผิดวัตถุประสงค์ ต่ำ
- ความซื่อสัตย์และความต้านทานต่อการฉีดพรอมต์ที่เป็นอันตราย ดีขึ้น แต่บางด้าน (เช่น คำแนะนำด้านยาเกินขอบเขต) อ่อนลงเล็กน้อย
- ผลการประเมินสรุปว่า “โดยทั่วไปมีการจัดแนวที่ดีและเชื่อถือได้ แต่ยังไม่สมบูรณ์แบบอย่างแท้จริง”
- Mythos Preview ยังคงถูกประเมินว่าเป็นโมเดลที่จัดแนวได้ดีที่สุด
ฟีเจอร์ที่เปิดตัวเพิ่มเติม
-
การควบคุม Effort ที่ดีขึ้น
- เพิ่มระดับ
xhighใหม่ระหว่างhighและmaxเพื่อให้ ปรับสมดุลระหว่างความสามารถในการให้เหตุผลกับเวลาแฝงได้ละเอียดขึ้น - ใน Claude Code ได้ปรับระดับ Effort เริ่มต้นขึ้นเป็น
xhigh
- เพิ่มระดับ
-
Claude Platform(API)
- เปิดให้ใช้ Task Budget ในสถานะเบตาสาธารณะ พร้อม รองรับภาพความละเอียดสูง ทำให้สามารถจัดลำดับความสำคัญของการใช้โทเค็นในงานระยะยาวได้
-
Claude Code
- เพิ่มคำสั่ง
/ultrareviewใหม่สำหรับรัน เซสชันทบทวนการเปลี่ยนแปลงโค้ดและตรวจหาบั๊ก - ผู้ใช้ Pro และ Max จะได้รับ ultrareview ฟรี 3 ครั้ง
- ขยาย Auto Mode ไปยังผู้ใช้ Max เพื่อลดขั้นตอนการอนุมัติระหว่างงานระยะยาวและให้รันต่อเนื่องได้โดยไม่สะดุด
- เพิ่มคำสั่ง
การย้ายจาก Opus 4.6 ไปเป็น 4.7
- Opus 4.7 อัปเกรดได้โดยตรง แต่ควรระวัง การเปลี่ยนแปลงของการใช้โทเค็น
- เนื่องจากมี โทเค็นไนเซอร์ ใหม่ อินพุตเดียวกันอาจถูกแปลงเป็นโทเค็นมากขึ้นประมาณ 1.0~1.35 เท่า
- ที่ระดับ Effort สูง โมเดลจะใช้การให้เหตุผลมากขึ้น จึงอาจทำให้ จำนวนโทเค็นเอาต์พุตเพิ่มขึ้น
- สามารถควบคุมการใช้โทเค็นได้ผ่านพารามิเตอร์ Effort, Task Budget และการออกแบบพรอมต์แบบกระชับ
- การทดสอบภายในยืนยันว่า ประสิทธิภาพดีขึ้นในทุกระดับของ Effort
- วิธีการอัปเกรดอย่างละเอียดมีให้ใน Migration Guide
1 ความคิดเห็น
ความเห็นจาก Hacker News
ฉันสับสนมากกับแนวคิด adaptive thinking ที่เพิ่งเพิ่มเข้ามา
ก่อนหน้านี้ฉันเขียนโค้ดโดยใช้โหมด thinking budget / effort แต่ตอนนี้มันทำงานต่างไปจากเดิมอย่างสิ้นเชิง
ต่อให้ดูเอกสารทางการแล้วก็ยังไม่ค่อยเข้าใจอยู่ดี
แถมใน 4.7 ก็ไม่ได้แสดงสรุป reasoning ที่มนุษย์อ่านได้เป็นค่าเริ่มต้นอีกแล้ว ต้องใส่ออปชัน
"display": "summarized"เองตอนนี้กำลังลองรันโปรเจ็กต์ Pelican อยู่ แต่ติดปัญหาเพราะวิธีคิดแบบใหม่ตลอด
ดูเธรดที่เกี่ยวข้อง
พอปิด adaptive thinking แล้วเพิ่ม effort ก็กลับไปได้ผลระดับเดิม
แต่คำว่า “ในการประเมินภายในมันทำงานได้ดี” นั้นไม่เพียงพอ เพราะมีผู้ใช้จำนวนมากรายงานปัญหาเดียวกัน
ภาพหน้าจอ
--thinking-display summarizedเพิ่มเข้ามาผู้ใช้ VS Code สามารถสร้าง wrapper script ที่มี
exec "$@" --thinking-display summarizedแล้วใส่ไว้ในค่าตั้งclaudeCode.claudeProcessWrapperเพื่อกลับไปดูสรุป reasoning ได้เมื่อก่อนการเปิดเผย CoT (Chain of Thought) ของ LLM เคยถูกมองว่าเป็นหัวใจสำคัญของความปลอดภัย แต่ดูเหมือนทิศทางจะเปลี่ยนไปแล้ว
tokenizer ใหม่ของ Opus 4.7 ช่วยเพิ่มประสิทธิภาพการประมวลผลข้อความ แต่ input ถูกแมปเป็นโทเค็นมากขึ้น 1.0~1.35 เท่า
เพราะอย่างนั้นฉันเลยรู้สึกว่า output ของโปรเจ็กต์ caveman กลับอ่านง่ายกว่า
คลังเก็บ caveman
คอนเท็กซ์ส่วนใหญ่ถูกใช้ไปกับการอ่านไฟล์และ reasoning ดังนั้นผลประหยัดโทเค็นจริงๆ ยังไม่ถึง 1% และอาจทำให้โมเดลสับสนมากขึ้นด้วยซ้ำ
mac app, เวอร์ชัน CLI
คิดว่าคำที่พบบ่อยอาจเป็น noise แต่แทบไม่เห็นความต่างของผลลัพธ์เลย
อยากลองเทียบกับ caveman ดู
เป็นผลจากการใช้ reasoning token ลดลง ซึ่งแสดงให้เห็นว่าการเทียบต้นทุนโมเดลจากราคาโทเค็นอย่างเดียวไม่มีความหมายอีกต่อไป
เห็นประกาศว่า Anthropic เปิดตัว Opus 4.7 เป็น โมเดลแบบมีข้อจำกัดด้านความปลอดภัยไซเบอร์ แล้วรู้สึกว่านี่เป็นกลยุทธ์ที่ล้มเหลว
การเซ็นเซอร์ความรู้ด้านความปลอดภัย ขณะเดียวกันก็จะพัฒนาซอฟต์แวร์ที่ปลอดภัย เป็นเรื่องขัดแย้งกันเอง
ถ้าไม่ใช่ว่าบริษัท AI ทุกเจ้าจะใช้นโยบายเดียวกัน มันก็แทบไม่มีผลในทางปฏิบัติ สุดท้ายคงต้องเลิกแนวทางนี้ไป
แต่ข้อจำกัดแบบนี้กำลังผลักให้ความปลอดภัยถูกทำให้รวมศูนย์มากขึ้น จึงยากจะมองว่าเป็นการยกระดับความปลอดภัยจริงๆ
เหมือนเวลาให้คนไปยืนหน้ากระดานตอนสัมภาษณ์แล้ว IQ ลดลง 10% โมเดลก็ดูเหมือนถูกกดดันจนหดตัว
เลยเหมือนกำลังไปในทิศทาง “ทำให้โง่แบบเลือกได้” และดูเหมือนพวกเขากำลังทดลองแบบนั้นอยู่แล้ว
เพราะ ผู้โจมตีต้องสำเร็จแค่ครั้งเดียว แต่ผู้ป้องกันต้องสำเร็จทุกครั้ง จึงอาจช่วยซื้อเวลาได้
สัปดาห์ที่แล้วเพราะคุณภาพของ 4.6 ตกลง สุดท้ายฉันก็ย้ายไป Codex
4.6 ไม่ค้นเว็บ แถมยังใช้ไป 17K โทเค็นกับข้อความไร้สาระ และทำตัวอย่างการประมวลผลแบบขนานผิดทั้งหมด
ปริมาณการใช้โทเค็นพุ่งขึ้นกะทันหัน และ การตอบสนองแบบไม่ใส่ใจของทีมซัพพอร์ต คือฟางเส้นสุดท้าย
บั๊กนั้นพอเข้าใจได้ แต่ท่าทีที่มีต่อลูกค้านั้นรับไม่ได้
หลังย้ายไป Codex อย่างน้อย งานก็เดินต่อได้ แค่นั้นก็พอแล้ว
Codex เพิ่มลิมิตการใช้งานเป็น 2 เท่าเพื่อดึงลูกค้า Claude ไป และ PR ก็ดีกว่ามาก
ปัญหา 90% ของ Claude ดูเหมือนจะมาจากการขาดคอมพิวต์
เพราะ AI ต้องดูเหมือน “กำลังก้าวหน้า” อยู่เสมอ การหยุดนิ่งก็คือความตายของกระแส hype
เร็วก็จริง แต่ถ้าส่งโค้ด คุณภาพต่ำ ออกมาเร็วขึ้นก็ไม่มีความหมาย
Gemini CLI ช้ากว่าและคุณภาพก็ต่ำกว่าอีก
Codex มีแนวโน้มจะประจบว่า “สมบูรณ์แบบ” แม้มีบั๊กอยู่ ซึ่งอันตราย
ความสามารถในการลงมือทำ นั้นยอดเยี่ยม และ OpenAI ก็พิสูจน์ด้วยผลลัพธ์โดยแทบไม่ต้องพึ่งการตลาด
ให้ความรู้สึกเหมือน Google ยุคแรกที่แข่งขันด้วยคุณภาพของผลิตภัณฑ์
ฟิลเตอร์ด้านความปลอดภัยไซเบอร์ ของ Opus 4.7 แรงเกินไป จนแม้แต่งานวิจัยที่ถูกกฎหมายก็ยังถูกบล็อก
ต่อให้ดึง guideline ของโปรแกรมมาจากเว็บโดยตรง ก็ยังถูกบล็อกว่าเป็น “คำขอที่เป็นอันตราย”
ถ้าเป็นแบบนี้ฉันวางแผนจะย้ายไป Codex
ตามประกาศทางการ บางฟีเจอร์ต้องผ่านขั้นตอนยืนยันตัวตนก่อนจึงจะเข้าใช้ได้
ทำให้งานวิจัยที่กำลังทำอยู่หยุดหมด
อาจเป็นไปได้ว่าโมเดลตรวจจับขั้นตอนบางอย่างใน reasoning ของตัวเองว่า “มีลักษณะโจมตี”
ดูเหมือนพอฟังก์ชันไล่บั๊กเริ่มเข้าสู่ขั้นที่ดูเชิงรุกมากขึ้น ฟิลเตอร์ก็ทำงาน
ตอนนี้เราอยู่ในโลกที่ การละเมิดนโยบายคือ segfault แบบใหม่ แล้ว
แค่มีบางคำก็ไวเกินเหตุแล้ว
ตอนนี้กลายเป็นว่าฉันต้องขออนุญาต AI ก่อนว่าโปรเจ็กต์ของฉันเป็นมัลแวร์หรือไม่ ว่าจะยกเลิก subscription แล้ว
เธรดนี้เป็นบทเรียนที่ดีสำหรับผู้ก่อตั้ง
มันแสดงให้เห็นว่า การสื่อสารอย่างตรงไปตรงมาเพียงเล็กน้อย สามารถระงับความไม่พอใจได้มากแค่ไหน
จากมุมของคนที่ปักแอปไว้กับ Opus 4.5 ตอนนี้แทบแยกไม่ออกแล้วว่าปัญหาอยู่ที่ตัวโมเดลหรืออยู่ที่ harness
บางครั้งมันก็แค่โชคร้ายเท่านั้นเอง
แบบนั้นฉันจะได้ปรับเวลางาน แล้วย้ายงานหนักไปทำตอนกลางคืนได้
ท่ามกลางความสับสนแบบนี้ ฉันคิดว่าการใช้ model broker หรือ ชั้นกลางแบบ Copilot เป็นทางเลือกที่ฉลาด
รู้สึกว่าจำเป็นต้องมีบริการแบบ “AI มาตรฐาน” ที่ให้โมเดลเดิมเสมอ
ตามผล เบนช์มาร์กภายใน ของทีมเรา Opus 4.7 มีกลยุทธ์และความฉลาดมากกว่า 4.6/4.5
แทบเทียบชั้นกับ GPT-5.4 ได้ และในเซสชันแบบ agentic ที่ใช้เครื่องมือกลับทำผลงานได้ดีที่สุด
ลิงก์เบนช์มาร์ก
แต่การจัดการคอนเท็กซ์มีอาการถดถอยเล็กน้อย ตอนนี้กำลังเพิ่มเบนช์มาร์กเพื่อทำภาพให้เห็นชัดขึ้น
ช่วงนี้ ความเชื่อมั่นต่อ Anthropic ลดลง
พอ 4.6 ถูกดาวน์เกรดแล้วตามด้วยการออก 4.7 ทันที มันยิ่งทำให้กังวล
ตอนนี้จำเป็นต้องมี การสื่อสารอย่างโปร่งใส
OpenAI ลงทุนเรื่องคอมพิวต์ตั้งแต่เนิ่นๆ และตอนนี้มันกลายเป็นข้อได้เปรียบใหญ่
หรืออาจกำลัง distillation Mythos ลงมาเป็น Opus 4.7 ก็ได้
น่าจะมาจากการอัปเดต harness
ช่วงนี้มีคอมเมนต์ประเภท “ย้ายไป Codex แล้ว” เพิ่มขึ้นมาก
แต่พอลองใช้จริง Codex ก็ยังไม่ถึงระดับของ Claude
คอมเมนต์เชิงโปรโมตแบบนี้มีแต่จะบ่อนทำลายความน่าเชื่อถือ
บริษัทเราก็ใช้ทั้งสองโมเดล และตอนนี้ฉันแทบใช้แต่ Codex
รู้สึกว่าทั้งความเร็วและผลลัพธ์ดีกว่า
แต่คุณภาพของคำตอบ Claude ดีกว่า ข้อดีข้อเสียชัดเจนมาก
แต่ Codex มักให้ผลลัพธ์แบบ “ถูกต้องทางเทคนิค แต่แปลกสำหรับมนุษย์”
เพราะอย่างนั้นฉันจึงใช้ Claude สำหรับ เขียนสเปก และใช้ Codex สำหรับ ลงมือทำ
และสงสัยว่าสุดท้ายคงขึ้นราคาในภายหลัง
นโยบายข้อจำกัดด้านความปลอดภัย ของ Opus 4.7 อาจร้ายแรงถึงขั้นวิกฤต
เพราะการศึกษาการโจมตีและการป้องกันจำเป็นต้องมีความสามารถแบบสมมาตร การไปขวางสิ่งนั้นไว้จึงอันตราย