Claude Opus 4.7

(anthropic.com)

4 คะแนน โดย GN⁺ 14 일 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ประสิทธิภาพด้านวิศวกรรมซอฟต์แวร์ขั้นสูง ได้รับการยกระดับ ทำให้งานที่ซับซ้อนและใช้เวลานานสามารถดำเนินการได้ด้วยความสม่ำเสมอและความแม่นยำสูง
การรับรู้ภาพและความเข้าใจแบบมัลติโหมด ดีขึ้น จึงสามารถวิเคราะห์ข้อมูลภาพที่ซับซ้อน เช่น ภาพความละเอียดสูง ไดอะแกรมทางเทคนิค และโครงสร้างทางเคมี ได้
มี กลไกป้องกันด้านความปลอดภัยไซเบอร์ ในตัว เพื่อตรวจจับและบล็อกคำขอความเสี่ยงสูงโดยอัตโนมัติ และนักวิจัยด้านความปลอดภัยที่ถูกต้องตามกฎหมายสามารถเข้าร่วม Cyber Verification Program ได้
ฟีเจอร์ใหม่อย่าง การควบคุม Effort, Task Budget, คำสั่ง ultrareview ช่วยเพิ่มประสิทธิภาพของงานระยะยาวและความสามารถในการตรวจสอบคุณภาพโค้ด
ประสิทธิภาพดีขึ้น 13% เมื่อเทียบกับ Opus 4.6 พร้อมความน่าเชื่อถือที่สูงขึ้น และ Anthropic กำลังใช้สิ่งนี้เป็นฐานในการเตรียมเปิดเผยโมเดลระดับ Mythos อย่างปลอดภัย

ภาพรวมของ Claude Opus 4.7

Claude Opus 4.7 เป็นโมเดลที่ยกระดับ ประสิทธิภาพด้านวิศวกรรมซอฟต์แวร์ขั้นสูง อย่างมากเมื่อเทียบกับ Opus 4.6 โดยสามารถจัดการงานที่ซับซ้อนและใช้เวลานานได้ด้วยความสม่ำเสมอและความแม่นยำสูง
ผู้ใช้สามารถ ไว้วางใจและมอบหมายงานเขียนโค้ดที่ยากขึ้น ได้มากกว่าเดิม และโมเดลจะรายงานผลหลังจากตรวจสอบด้วยตัวเอง
ความสามารถในการรับรู้ภาพ ได้รับการปรับปรุง ทำให้แสดงคุณภาพและความคิดสร้างสรรค์ได้สูงกับภาพความละเอียดสูง อินเทอร์เฟซ สไลด์ และเอกสาร
แม้ว่าความสามารถรอบด้านจะต่ำกว่า Claude Mythos Preview แต่ก็ทำผลงานได้ดีกว่า Opus 4.6 ในหลายเบนช์มาร์ก
ใช้งานได้ในทุกผลิตภัณฑ์ Claude และ API, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry โดยมีราคาเท่ากับ Opus 4.6

มาตรการด้านความปลอดภัยไซเบอร์

Anthropic เปิดเผยทั้งความเสี่ยงและประโยชน์ด้านความปลอดภัยไซเบอร์ของ AI ผ่าน Project Glasswing และตัดสินใจจำกัดการเปิดเผย Mythos Preview พร้อมทั้ง ดำเนินการทดลองด้านความปลอดภัยกับโมเดลที่มีความสามารถน้อยกว่าก่อน
Opus 4.7 เป็นโมเดลแรกในแนวทางนี้ โดยมี กลไกป้องกันที่ตรวจจับและบล็อกคำขอด้านความปลอดภัยไซเบอร์ที่ถูกห้ามหรือมีความเสี่ยงสูงโดยอัตโนมัติ
กำลังเตรียมความพร้อมสำหรับการเปิดเผยโมเดลระดับ Mythos ในวงกว้างมากขึ้น โดยอาศัยข้อมูลจากการใช้งานจริง
นักวิจัยด้านความปลอดภัยที่ถูกต้องตามกฎหมาย (เช่น การวิเคราะห์ช่องโหว่ การทดสอบเจาะระบบ เรดทีม) สามารถเข้าร่วม Cyber Verification Program ได้

ประสิทธิภาพหลักและเสียงตอบรับจากผู้ใช้

ในการทดสอบช่วงแรก พบว่าโมเดล สามารถตรวจจับข้อผิดพลาดเชิงตรรกะได้ด้วยตนเองและเพิ่มความเร็วในการทำงาน
ทำผลงานได้โดดเด่นใน เวิร์กโฟลว์แบบอะซิงโครนัส, CI/CD, งานอัตโนมัติระยะยาว และไม่ได้เพียงแค่เห็นด้วย แต่ยัง เข้าหาปัญหาอย่างลึกซึ้งและเสนอความเห็น ได้
หลีกเลี่ยงการอนุมานผิดเมื่อข้อมูลไม่ครบถ้วน และไม่ตกหลุมพรางของข้อมูลที่ไม่สอดคล้องกัน
ในเบนช์มาร์กการเขียนโค้ด 93 รายการ ดีขึ้น 13% เมื่อเทียบกับ Opus 4.6 และสามารถแก้โจทย์เพิ่มได้อีก 4 รายการที่ก่อนหน้านี้แก้ไม่ได้
แสดงความสม่ำเสมอระดับสูงสุดในด้าน ประสิทธิภาพของงานหลายขั้นตอน โดยในโมดูลการเงินทำคะแนนได้ 0.813 สูงกว่า Opus 4.6 ที่ 0.767
ความเข้าใจแบบมัลติโหมด ดีขึ้น ทำให้ตีความโครงสร้างทางเคมีหรือไดอะแกรมทางเทคนิคที่ซับซ้อนได้ดีขึ้น
ความสามารถในการทำงานอัตโนมัติระยะยาว แข็งแกร่งขึ้น ทำให้แก้ปัญหาได้อย่างสม่ำเสมอเป็นเวลาหลายชั่วโมง
หลายบริษัท เช่น Replit, Harvey, Hex, Notion, Databricks, Vercel รายงานว่า คุณภาพโค้ด ความแม่นยำในการเรียกใช้เครื่องมือ และความน่าเชื่อถือของเวิร์กโฟลว์ระยะยาว ดีขึ้น
ตัวอย่างการใช้งานจริงคือ การพัฒนาเอนจินสังเคราะห์เสียงที่ใช้ Rust ได้อย่างอัตโนมัติเต็มรูปแบบ และตรวจสอบเองว่าผลลัพธ์สอดคล้องกับโมเดลอ้างอิง Python หรือไม่

จุดปรับปรุงสำคัญในการทดสอบช่วงแรก

ความแม่นยำในการตีความคำสั่ง
- Opus 4.7 ตีความคำสั่งตามตัวอักษร และปฏิบัติตามอย่างเข้มงวดกว่ารุ่นก่อนมาก
- พรอมต์เดิมอาจให้ผลลัพธ์ที่ไม่คาดคิด จึง จำเป็นต้องปรับพรอมต์ใหม่
การรองรับมัลติโหมดที่ดีขึ้น
- รองรับการประมวลผลภาพที่ความละเอียดสูงสุด 2,576 พิกเซล (ประมาณ 3.75MP)
- เหมาะกับงานที่ใช้ข้อมูลภาพอย่างละเอียด เช่น การวิเคราะห์ไดอะแกรมซับซ้อน หรือการดึงข้อมูลจากภาพหน้าจอ
ประสิทธิภาพในการทำงานจริง
- ให้ความเป็นมืออาชีพและความสม่ำเสมอสูงกว่า Opus 4.6 ในงานอย่าง การวิเคราะห์การเงิน การนำเสนอ และการสร้างแบบจำลอง
- ในการประเมินภายนอก GDPval-AA ก็ทำผลงานได้ระดับสูงสุดในงานสายความรู้ เช่น การเงินและกฎหมาย
การใช้หน่วยความจำ
- ใช้ หน่วยความจำที่อิงกับระบบไฟล์ ได้อย่างมีประสิทธิภาพ เพื่อจดจำและนำบริบทของงานกลับมาใช้ซ้ำข้ามหลายเซสชัน

การประเมินด้านความปลอดภัยและการจัดแนว

โดยรวมมี โปรไฟล์ด้านความปลอดภัย คล้ายกับ Opus 4.6 และมีอัตราการเกิดปัญหาอย่าง การหลอกลวง การประจบ และการร่วมมือในการใช้งานผิดวัตถุประสงค์ ต่ำ
ความซื่อสัตย์และความต้านทานต่อการฉีดพรอมต์ที่เป็นอันตราย ดีขึ้น แต่บางด้าน (เช่น คำแนะนำด้านยาเกินขอบเขต) อ่อนลงเล็กน้อย
ผลการประเมินสรุปว่า “โดยทั่วไปมีการจัดแนวที่ดีและเชื่อถือได้ แต่ยังไม่สมบูรณ์แบบอย่างแท้จริง”
Mythos Preview ยังคงถูกประเมินว่าเป็นโมเดลที่จัดแนวได้ดีที่สุด

ฟีเจอร์ที่เปิดตัวเพิ่มเติม

การควบคุม Effort ที่ดีขึ้น
- เพิ่มระดับ xhigh ใหม่ระหว่าง high และ max เพื่อให้ ปรับสมดุลระหว่างความสามารถในการให้เหตุผลกับเวลาแฝงได้ละเอียดขึ้น
- ใน Claude Code ได้ปรับระดับ Effort เริ่มต้นขึ้นเป็น xhigh
Claude Platform(API)
- เปิดให้ใช้ Task Budget ในสถานะเบตาสาธารณะ พร้อม รองรับภาพความละเอียดสูง ทำให้สามารถจัดลำดับความสำคัญของการใช้โทเค็นในงานระยะยาวได้
Claude Code
- เพิ่มคำสั่ง /ultrareview ใหม่สำหรับรัน เซสชันทบทวนการเปลี่ยนแปลงโค้ดและตรวจหาบั๊ก
- ผู้ใช้ Pro และ Max จะได้รับ ultrareview ฟรี 3 ครั้ง
- ขยาย Auto Mode ไปยังผู้ใช้ Max เพื่อลดขั้นตอนการอนุมัติระหว่างงานระยะยาวและให้รันต่อเนื่องได้โดยไม่สะดุด

การย้ายจาก Opus 4.6 ไปเป็น 4.7

Opus 4.7 อัปเกรดได้โดยตรง แต่ควรระวัง การเปลี่ยนแปลงของการใช้โทเค็น
- เนื่องจากมี โทเค็นไนเซอร์ ใหม่ อินพุตเดียวกันอาจถูกแปลงเป็นโทเค็นมากขึ้นประมาณ 1.0~1.35 เท่า
- ที่ระดับ Effort สูง โมเดลจะใช้การให้เหตุผลมากขึ้น จึงอาจทำให้ จำนวนโทเค็นเอาต์พุตเพิ่มขึ้น
สามารถควบคุมการใช้โทเค็นได้ผ่านพารามิเตอร์ Effort, Task Budget และการออกแบบพรอมต์แบบกระชับ
การทดสอบภายในยืนยันว่า ประสิทธิภาพดีขึ้นในทุกระดับของ Effort
วิธีการอัปเกรดอย่างละเอียดมีให้ใน Migration Guide

1 ความคิดเห็น

GN⁺ 14 일 전

ความเห็นจาก Hacker News

ฉันสับสนมากกับแนวคิด adaptive thinking ที่เพิ่งเพิ่มเข้ามา
ก่อนหน้านี้ฉันเขียนโค้ดโดยใช้โหมด thinking budget / effort แต่ตอนนี้มันทำงานต่างไปจากเดิมอย่างสิ้นเชิง
ต่อให้ดูเอกสารทางการแล้วก็ยังไม่ค่อยเข้าใจอยู่ดี
แถมใน 4.7 ก็ไม่ได้แสดงสรุป reasoning ที่มนุษย์อ่านได้เป็นค่าเริ่มต้นอีกแล้ว ต้องใส่ออปชัน "display": "summarized" เอง
ตอนนี้กำลังลองรันโปรเจ็กต์ Pelican อยู่ แต่ติดปัญหาเพราะวิธีคิดแบบใหม่ตลอด
- คำตอบของ Boris ต่อรายงานบั๊กของฉันคือ “ดูเหมือน adaptive thinking จะทำงานไม่ถูกต้อง” แต่หลังจากนั้นก็ไม่มีข่าวอะไรอีกเลย
  ดูเธรดที่เกี่ยวข้อง
  พอปิด adaptive thinking แล้วเพิ่ม effort ก็กลับไปได้ผลระดับเดิม
  แต่คำว่า “ในการประเมินภายในมันทำงานได้ดี” นั้นไม่เพียงพอ เพราะมีผู้ใช้จำนวนมากรายงานปัญหาเดียวกัน
- มีคนแซวว่าอยาก “ทำ pelican ให้ออกมาดี” ฟังดูเหมือน p-hacking (การบิดแต่งสถิติ) โดย p ในที่นี้คือ p ของ pelican เป็นการเล่นคำ
- Claude Opus 4.6 ให้ผลลัพธ์ที่ตลกมากกับฉันจริงๆ
  ภาพหน้าจอ
- ดูเหมือนว่าใน Claude Code จะมีออปชันบรรทัดคำสั่งที่ไม่เป็นทางการชื่อ --thinking-display summarized เพิ่มเข้ามา
  ผู้ใช้ VS Code สามารถสร้าง wrapper script ที่มี exec "$@" --thinking-display summarized แล้วใส่ไว้ในค่าตั้ง claudeCode.claudeProcessWrapper เพื่อกลับไปดูสรุป reasoning ได้
- สงสัยว่าตอนนี้ Claude จะไม่แสดง reasoning ทั้งหมด แล้ว แต่จะแสดงแค่สรุปใช่ไหม
  เมื่อก่อนการเปิดเผย CoT (Chain of Thought) ของ LLM เคยถูกมองว่าเป็นหัวใจสำคัญของความปลอดภัย แต่ดูเหมือนทิศทางจะเปลี่ยนไปแล้ว
tokenizer ใหม่ของ Opus 4.7 ช่วยเพิ่มประสิทธิภาพการประมวลผลข้อความ แต่ input ถูกแมปเป็นโทเค็นมากขึ้น 1.0~1.35 เท่า
เพราะอย่างนั้นฉันเลยรู้สึกว่า output ของโปรเจ็กต์ caveman กลับอ่านง่ายกว่า
คลังเก็บ caveman
- จริงๆ แล้ว caveman แทบจะเป็น โปรเจ็กต์ขำๆ มากกว่า
  คอนเท็กซ์ส่วนใหญ่ถูกใช้ไปกับการอ่านไฟล์และ reasoning ดังนั้นผลประหยัดโทเค็นจริงๆ ยังไม่ถึง 1% และอาจทำให้โมเดลสับสนมากขึ้นด้วยซ้ำ
- caveman ก็สนุกดี แต่ถ้าต้องการประหยัดโทเค็นจริงๆ headroom ดีกว่า
  mac app, เวอร์ชัน CLI
- ฉันเคยลองเอาคำภาษาอังกฤษที่พบบ่อย 100~1000 คำออกจากพรอมป์ต์
  คิดว่าคำที่พบบ่อยอาจเป็น noise แต่แทบไม่เห็นความต่างของผลลัพธ์เลย
  อยากลองเทียบกับ caveman ดู
- มีคนเสนอว่าแนวทางแบบ rtk-ai/rtk เป็นอย่างไร
- ใน เบนช์มาร์กน้ำมันและก๊าซ ภายในของฉัน Opus 4.7 ได้ 80% สูงกว่า Opus 4.6 (64%) และ GPT-5.4 (76%)
  เป็นผลจากการใช้ reasoning token ลดลง ซึ่งแสดงให้เห็นว่าการเทียบต้นทุนโมเดลจากราคาโทเค็นอย่างเดียวไม่มีความหมายอีกต่อไป
เห็นประกาศว่า Anthropic เปิดตัว Opus 4.7 เป็น โมเดลแบบมีข้อจำกัดด้านความปลอดภัยไซเบอร์ แล้วรู้สึกว่านี่เป็นกลยุทธ์ที่ล้มเหลว
การเซ็นเซอร์ความรู้ด้านความปลอดภัย ขณะเดียวกันก็จะพัฒนาซอฟต์แวร์ที่ปลอดภัย เป็นเรื่องขัดแย้งกันเอง
ถ้าไม่ใช่ว่าบริษัท AI ทุกเจ้าจะใช้นโยบายเดียวกัน มันก็แทบไม่มีผลในทางปฏิบัติ สุดท้ายคงต้องเลิกแนวทางนี้ไป
- ฉันไม่ใช่ผู้เชี่ยวชาญด้านความปลอดภัย แต่เวลาบิลด์โปรเจ็กต์โอเพนซอร์ส ฉันต้องการ AI ที่ช่วย ตรวจสอบช่องโหว่ ได้
  แต่ข้อจำกัดแบบนี้กำลังผลักให้ความปลอดภัยถูกทำให้รวมศูนย์มากขึ้น จึงยากจะมองว่าเป็นการยกระดับความปลอดภัยจริงๆ
- รู้สึกว่า มาตรการความปลอดภัยในขั้นตอนการฝึก ที่มากเกินไปทำให้ความฉลาดทั่วไปลดลง
  เหมือนเวลาให้คนไปยืนหน้ากระดานตอนสัมภาษณ์แล้ว IQ ลดลง 10% โมเดลก็ดูเหมือนถูกกดดันจนหดตัว
- ตอนนี้โมเดลต่างๆ อยู่ในสภาพประหลาด คือฉลาดเกินไปสำหรับการแฮ็ก แต่ยังไม่เก่งพอสำหรับงานเชิงเศรษฐกิจ
  เลยเหมือนกำลังไปในทิศทาง “ทำให้โง่แบบเลือกได้” และดูเหมือนพวกเขากำลังทดลองแบบนั้นอยู่แล้ว
- ในระยะสั้นคิดว่าเป็นมาตรการที่พอรับได้
  เพราะ ผู้โจมตีต้องสำเร็จแค่ครั้งเดียว แต่ผู้ป้องกันต้องสำเร็จทุกครั้ง จึงอาจช่วยซื้อเวลาได้
สัปดาห์ที่แล้วเพราะคุณภาพของ 4.6 ตกลง สุดท้ายฉันก็ย้ายไป Codex
4.6 ไม่ค้นเว็บ แถมยังใช้ไป 17K โทเค็นกับข้อความไร้สาระ และทำตัวอย่างการประมวลผลแบบขนานผิดทั้งหมด
- ฉันก็ยกเลิก Pro subscription ด้วยเหตุผลเดียวกัน
  ปริมาณการใช้โทเค็นพุ่งขึ้นกะทันหัน และ การตอบสนองแบบไม่ใส่ใจของทีมซัพพอร์ต คือฟางเส้นสุดท้าย
  บั๊กนั้นพอเข้าใจได้ แต่ท่าทีที่มีต่อลูกค้านั้นรับไม่ได้
  หลังย้ายไป Codex อย่างน้อย งานก็เดินต่อได้ แค่นั้นก็พอแล้ว
- หลายคนเคยบอกว่า OpenAI จะพังเพราะมีคอมพิวต์มากเกินไป แต่ตอนนี้กลับกลายเป็น ความได้เปรียบเชิงกลยุทธ์
  Codex เพิ่มลิมิตการใช้งานเป็น 2 เท่าเพื่อดึงลูกค้า Claude ไป และ PR ก็ดีกว่ามาก
  ปัญหา 90% ของ Claude ดูเหมือนจะมาจากการขาดคอมพิวต์
- นี่เป็นทฤษฎีสมคบคิดของฉัน แต่เหมือนมีการลดประสิทธิภาพลงโดยตั้งใจก่อนเปิดตัวโมเดลใหม่ เพื่อให้เวอร์ชันถัดไปดูดีขึ้น
  เพราะ AI ต้องดูเหมือน “กำลังก้าวหน้า” อยู่เสมอ การหยุดนิ่งก็คือความตายของกระแส hype
- ฉันเคยใช้ Codex แล้ว แต่สำหรับงานของฉันมัน ด้อยกว่ามาก
  เร็วก็จริง แต่ถ้าส่งโค้ด คุณภาพต่ำ ออกมาเร็วขึ้นก็ไม่มีความหมาย
  Gemini CLI ช้ากว่าและคุณภาพก็ต่ำกว่าอีก
  Codex มีแนวโน้มจะประจบว่า “สมบูรณ์แบบ” แม้มีบั๊กอยู่ ซึ่งอันตราย
- ถึงอย่างนั้น Codex ก็ได้ที่ทางในชุดเครื่องมือของฉันแล้ว
  ความสามารถในการลงมือทำ นั้นยอดเยี่ยม และ OpenAI ก็พิสูจน์ด้วยผลลัพธ์โดยแทบไม่ต้องพึ่งการตลาด
  ให้ความรู้สึกเหมือน Google ยุคแรกที่แข่งขันด้วยคุณภาพของผลิตภัณฑ์
ฟิลเตอร์ด้านความปลอดภัยไซเบอร์ ของ Opus 4.7 แรงเกินไป จนแม้แต่งานวิจัยที่ถูกกฎหมายก็ยังถูกบล็อก
ต่อให้ดึง guideline ของโปรแกรมมาจากเว็บโดยตรง ก็ยังถูกบล็อกว่าเป็น “คำขอที่เป็นอันตราย”
ถ้าเป็นแบบนี้ฉันวางแผนจะย้ายไป Codex
- ตอนนี้อาจถึงขั้นต้องมี Identity Verification แล้ว
  ตามประกาศทางการ บางฟีเจอร์ต้องผ่านขั้นตอนยืนยันตัวตนก่อนจึงจะเข้าใช้ได้
- ใน API มี error ว่า “Usage Policy violation” โผล่ขึ้นมาจริง พร้อมลิงก์สมัคร Cyber Verification Program
  ทำให้งานวิจัยที่กำลังทำอยู่หยุดหมด
- ฉันโดนบล็อกกลางเซสชัน ทั้งที่ input เหมือนเดิม
  อาจเป็นไปได้ว่าโมเดลตรวจจับขั้นตอนบางอย่างใน reasoning ของตัวเองว่า “มีลักษณะโจมตี”
  ดูเหมือนพอฟังก์ชันไล่บั๊กเริ่มเข้าสู่ขั้นที่ดูเชิงรุกมากขึ้น ฟิลเตอร์ก็ทำงาน
  ตอนนี้เราอยู่ในโลกที่ การละเมิดนโยบายคือ segfault แบบใหม่ แล้ว
- ที่แย่กว่านั้นคือ ระหว่างเขียน โค้ดของตัวเอง มันยังพิมพ์เองว่า “นี่ไม่ใช่มัลแวร์” อะไรทำนองนั้น
  แค่มีบางคำก็ไวเกินเหตุแล้ว
  ตอนนี้กลายเป็นว่าฉันต้องขออนุญาต AI ก่อนว่าโปรเจ็กต์ของฉันเป็นมัลแวร์หรือไม่ ว่าจะยกเลิก subscription แล้ว
- แม้แต่งานง่ายๆ อย่างส่ง PDF ไปยังเครื่องพิมพ์ก็ยังถูกปฏิเสธ
เธรดนี้เป็นบทเรียนที่ดีสำหรับผู้ก่อตั้ง
มันแสดงให้เห็นว่า การสื่อสารอย่างตรงไปตรงมาเพียงเล็กน้อย สามารถระงับความไม่พอใจได้มากแค่ไหน
จากมุมของคนที่ปักแอปไว้กับ Opus 4.5 ตอนนี้แทบแยกไม่ออกแล้วว่าปัญหาอยู่ที่ตัวโมเดลหรืออยู่ที่ harness
- ในเธรดแบบนี้มักมีความเชื่อคล้ายไสยศาสตร์ว่า “Anthropic เนิร์ฟโมเดลแล้ว” อยู่เสมอ
  บางครั้งมันก็แค่โชคร้ายเท่านั้นเอง
- ถ้าพวกเขาจงใจทำให้โมเดลช้าลงเพราะภาระโหลด ก็สำคัญที่จะต้องบอกให้ชัดเจน
  แบบนั้นฉันจะได้ปรับเวลางาน แล้วย้ายงานหนักไปทำตอนกลางคืนได้
- Opus 4.5 มีความสม่ำเสมอสูง แต่ 4.6 แกว่งมาก
- ฉันเป็นนักพัฒนามือใหม่ กำลังเรียนรู้ความต่างระหว่างโมเดลแต่ละตัวอยู่
  ท่ามกลางความสับสนแบบนี้ ฉันคิดว่าการใช้ model broker หรือ ชั้นกลางแบบ Copilot เป็นทางเลือกที่ฉลาด
- เพราะความไม่เสถียรแบบนี้ ผู้ใช้กำลังกลายเป็นคน ระแวง มากขึ้นเรื่อยๆ
  รู้สึกว่าจำเป็นต้องมีบริการแบบ “AI มาตรฐาน” ที่ให้โมเดลเดิมเสมอ
ตามผล เบนช์มาร์กภายใน ของทีมเรา Opus 4.7 มีกลยุทธ์และความฉลาดมากกว่า 4.6/4.5
แทบเทียบชั้นกับ GPT-5.4 ได้ และในเซสชันแบบ agentic ที่ใช้เครื่องมือกลับทำผลงานได้ดีที่สุด
ลิงก์เบนช์มาร์ก
แต่การจัดการคอนเท็กซ์มีอาการถดถอยเล็กน้อย ตอนนี้กำลังเพิ่มเบนช์มาร์กเพื่อทำภาพให้เห็นชัดขึ้น
- สงสัยว่าทำไม Opus 4.7 ถึงมีอัตราความสำเร็จต่ำกว่า Sonnet 4.6 แต่ค่า percentile เฉลี่ยกลับสูงกว่า
- มีคำถามว่า 4.6 หรือ 4.5 เคยเกิด performance regression หลังปล่อยช่วงแรกหรือไม่
ช่วงนี้ ความเชื่อมั่นต่อ Anthropic ลดลง
พอ 4.6 ถูกดาวน์เกรดแล้วตามด้วยการออก 4.7 ทันที มันยิ่งทำให้กังวล
ตอนนี้จำเป็นต้องมี การสื่อสารอย่างโปร่งใส
- แก่นของปัญหาคือ คอมพิวต์ไม่พอ
  OpenAI ลงทุนเรื่องคอมพิวต์ตั้งแต่เนิ่นๆ และตอนนี้มันกลายเป็นข้อได้เปรียบใหญ่
- อาจเป็นไปได้ว่าประสิทธิภาพของ Opus ลดลงเพราะกำลังเทรน Mythos อยู่
  หรืออาจกำลัง distillation Mythos ลงมาเป็น Opus 4.7 ก็ได้
- สงสัยว่าทำไม Claude บน Bedrock ถึงช้าลงด้วย
  น่าจะมาจากการอัปเดต harness
- การรวม การยืนยันตัวตน Persona ID คือฟางเส้นสุดท้าย ฉันเลยย้ายออก
- สงสัยว่าพวกเขาจะฝืนอยู่แบบนี้ต่อไปได้จริงหรือ
ช่วงนี้มีคอมเมนต์ประเภท “ย้ายไป Codex แล้ว” เพิ่มขึ้นมาก
แต่พอลองใช้จริง Codex ก็ยังไม่ถึงระดับของ Claude
คอมเมนต์เชิงโปรโมตแบบนี้มีแต่จะบ่อนทำลายความน่าเชื่อถือ
- แต่ในความเป็นจริง นักพัฒนาจำนวนมากก็ชอบ Codex มากกว่า
  บริษัทเราก็ใช้ทั้งสองโมเดล และตอนนี้ฉันแทบใช้แต่ Codex
  รู้สึกว่าทั้งความเร็วและผลลัพธ์ดีกว่า
- ฉันก็ลอง pilot สั้นๆ เหมือนกัน แล้ว Codex แก้ปัญหาได้เร็วกว่า Claude มากกว่า 4 เท่า
  แต่คุณภาพของคำตอบ Claude ดีกว่า ข้อดีข้อเสียชัดเจนมาก
- ถ้าให้ทำงานรีแฟกเตอร์เดียวกัน Codex ใช้ 5 นาที ส่วน Claude ใช้ 20 นาที
  แต่ Codex มักให้ผลลัพธ์แบบ “ถูกต้องทางเทคนิค แต่แปลกสำหรับมนุษย์”
  เพราะอย่างนั้นฉันจึงใช้ Claude สำหรับ เขียนสเปก และใช้ Codex สำหรับ ลงมือทำ
- มีคนประชดว่า “Java ดีที่สุด” เพื่อชี้ว่าการถกเถียงแบบนี้ท้ายที่สุดก็ไม่ต่างจาก สงครามภาษาโปรแกรมมิง
- มีคำวิจารณ์ว่า OpenAI กำลังเพิ่มส่วนแบ่งตลาดด้วย กลยุทธ์อุดหนุนเกินจริง
  และสงสัยว่าสุดท้ายคงขึ้นราคาในภายหลัง
นโยบายข้อจำกัดด้านความปลอดภัย ของ Opus 4.7 อาจร้ายแรงถึงขั้นวิกฤต
เพราะการศึกษาการโจมตีและการป้องกันจำเป็นต้องมีความสามารถแบบสมมาตร การไปขวางสิ่งนั้นไว้จึงอันตราย
- นี่น่าจะเป็นมาตรการเพื่อ วางตำแหน่งผลิตภัณฑ์ Mythos
- ตอนนี้ถ้าจะทำวิจัยด้านความปลอดภัยที่ถูกกฎหมาย ก็ต้องหลอกโมเดลเสียก่อน
- ถ้านโยบายแบบนี้ยังดำเนินต่อไป ก็มีแผนจะออกจากแพลตฟอร์ม
- มีความเห็นว่าคำว่า “วิกฤต” อาจแรงเกินไป แต่ก็มีคนถามว่าความ ไม่สมมาตร นั้นมาจากไหน
- สุดท้ายอาจกลายเป็นยุคที่มีเพียงซอฟต์แวร์ที่ Anthropic หรือรัฐบาลอนุมัติเท่านั้นที่ถูกยอมรับว่าปลอดภัย

Claude Opus 4.7

ภาพรวมของ Claude Opus 4.7

มาตรการด้านความปลอดภัยไซเบอร์

ประสิทธิภาพหลักและเสียงตอบรับจากผู้ใช้

จุดปรับปรุงสำคัญในการทดสอบช่วงแรก

ความแม่นยำในการตีความคำสั่ง

การรองรับมัลติโหมดที่ดีขึ้น

ประสิทธิภาพในการทำงานจริง

การใช้หน่วยความจำ

การประเมินด้านความปลอดภัยและการจัดแนว

ฟีเจอร์ที่เปิดตัวเพิ่มเติม

การควบคุม Effort ที่ดีขึ้น

Claude Platform(API)

Claude Code

การย้ายจาก Opus 4.6 ไปเป็น 4.7

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News