4 คะแนน โดย GN⁺ 14 일 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ประสิทธิภาพด้านวิศวกรรมซอฟต์แวร์ขั้นสูง ได้รับการยกระดับ ทำให้งานที่ซับซ้อนและใช้เวลานานสามารถดำเนินการได้ด้วยความสม่ำเสมอและความแม่นยำสูง
  • การรับรู้ภาพและความเข้าใจแบบมัลติโหมด ดีขึ้น จึงสามารถวิเคราะห์ข้อมูลภาพที่ซับซ้อน เช่น ภาพความละเอียดสูง ไดอะแกรมทางเทคนิค และโครงสร้างทางเคมี ได้
  • มี กลไกป้องกันด้านความปลอดภัยไซเบอร์ ในตัว เพื่อตรวจจับและบล็อกคำขอความเสี่ยงสูงโดยอัตโนมัติ และนักวิจัยด้านความปลอดภัยที่ถูกต้องตามกฎหมายสามารถเข้าร่วม Cyber Verification Program ได้
  • ฟีเจอร์ใหม่อย่าง การควบคุม Effort, Task Budget, คำสั่ง ultrareview ช่วยเพิ่มประสิทธิภาพของงานระยะยาวและความสามารถในการตรวจสอบคุณภาพโค้ด
  • ประสิทธิภาพดีขึ้น 13% เมื่อเทียบกับ Opus 4.6 พร้อมความน่าเชื่อถือที่สูงขึ้น และ Anthropic กำลังใช้สิ่งนี้เป็นฐานในการเตรียมเปิดเผยโมเดลระดับ Mythos อย่างปลอดภัย

ภาพรวมของ Claude Opus 4.7

  • Claude Opus 4.7 เป็นโมเดลที่ยกระดับ ประสิทธิภาพด้านวิศวกรรมซอฟต์แวร์ขั้นสูง อย่างมากเมื่อเทียบกับ Opus 4.6 โดยสามารถจัดการงานที่ซับซ้อนและใช้เวลานานได้ด้วยความสม่ำเสมอและความแม่นยำสูง
  • ผู้ใช้สามารถ ไว้วางใจและมอบหมายงานเขียนโค้ดที่ยากขึ้น ได้มากกว่าเดิม และโมเดลจะรายงานผลหลังจากตรวจสอบด้วยตัวเอง
  • ความสามารถในการรับรู้ภาพ ได้รับการปรับปรุง ทำให้แสดงคุณภาพและความคิดสร้างสรรค์ได้สูงกับภาพความละเอียดสูง อินเทอร์เฟซ สไลด์ และเอกสาร
  • แม้ว่าความสามารถรอบด้านจะต่ำกว่า Claude Mythos Preview แต่ก็ทำผลงานได้ดีกว่า Opus 4.6 ในหลายเบนช์มาร์ก
  • ใช้งานได้ในทุกผลิตภัณฑ์ Claude และ API, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry โดยมีราคาเท่ากับ Opus 4.6

มาตรการด้านความปลอดภัยไซเบอร์

  • Anthropic เปิดเผยทั้งความเสี่ยงและประโยชน์ด้านความปลอดภัยไซเบอร์ของ AI ผ่าน Project Glasswing และตัดสินใจจำกัดการเปิดเผย Mythos Preview พร้อมทั้ง ดำเนินการทดลองด้านความปลอดภัยกับโมเดลที่มีความสามารถน้อยกว่าก่อน
  • Opus 4.7 เป็นโมเดลแรกในแนวทางนี้ โดยมี กลไกป้องกันที่ตรวจจับและบล็อกคำขอด้านความปลอดภัยไซเบอร์ที่ถูกห้ามหรือมีความเสี่ยงสูงโดยอัตโนมัติ
  • กำลังเตรียมความพร้อมสำหรับการเปิดเผยโมเดลระดับ Mythos ในวงกว้างมากขึ้น โดยอาศัยข้อมูลจากการใช้งานจริง
  • นักวิจัยด้านความปลอดภัยที่ถูกต้องตามกฎหมาย (เช่น การวิเคราะห์ช่องโหว่ การทดสอบเจาะระบบ เรดทีม) สามารถเข้าร่วม Cyber Verification Program ได้

ประสิทธิภาพหลักและเสียงตอบรับจากผู้ใช้

  • ในการทดสอบช่วงแรก พบว่าโมเดล สามารถตรวจจับข้อผิดพลาดเชิงตรรกะได้ด้วยตนเองและเพิ่มความเร็วในการทำงาน
  • ทำผลงานได้โดดเด่นใน เวิร์กโฟลว์แบบอะซิงโครนัส, CI/CD, งานอัตโนมัติระยะยาว และไม่ได้เพียงแค่เห็นด้วย แต่ยัง เข้าหาปัญหาอย่างลึกซึ้งและเสนอความเห็น ได้
  • หลีกเลี่ยงการอนุมานผิดเมื่อข้อมูลไม่ครบถ้วน และไม่ตกหลุมพรางของข้อมูลที่ไม่สอดคล้องกัน
  • ในเบนช์มาร์กการเขียนโค้ด 93 รายการ ดีขึ้น 13% เมื่อเทียบกับ Opus 4.6 และสามารถแก้โจทย์เพิ่มได้อีก 4 รายการที่ก่อนหน้านี้แก้ไม่ได้
  • แสดงความสม่ำเสมอระดับสูงสุดในด้าน ประสิทธิภาพของงานหลายขั้นตอน โดยในโมดูลการเงินทำคะแนนได้ 0.813 สูงกว่า Opus 4.6 ที่ 0.767
  • ความเข้าใจแบบมัลติโหมด ดีขึ้น ทำให้ตีความโครงสร้างทางเคมีหรือไดอะแกรมทางเทคนิคที่ซับซ้อนได้ดีขึ้น
  • ความสามารถในการทำงานอัตโนมัติระยะยาว แข็งแกร่งขึ้น ทำให้แก้ปัญหาได้อย่างสม่ำเสมอเป็นเวลาหลายชั่วโมง
  • หลายบริษัท เช่น Replit, Harvey, Hex, Notion, Databricks, Vercel รายงานว่า คุณภาพโค้ด ความแม่นยำในการเรียกใช้เครื่องมือ และความน่าเชื่อถือของเวิร์กโฟลว์ระยะยาว ดีขึ้น
  • ตัวอย่างการใช้งานจริงคือ การพัฒนาเอนจินสังเคราะห์เสียงที่ใช้ Rust ได้อย่างอัตโนมัติเต็มรูปแบบ และตรวจสอบเองว่าผลลัพธ์สอดคล้องกับโมเดลอ้างอิง Python หรือไม่

จุดปรับปรุงสำคัญในการทดสอบช่วงแรก

  • ความแม่นยำในการตีความคำสั่ง

    • Opus 4.7 ตีความคำสั่งตามตัวอักษร และปฏิบัติตามอย่างเข้มงวดกว่ารุ่นก่อนมาก
    • พรอมต์เดิมอาจให้ผลลัพธ์ที่ไม่คาดคิด จึง จำเป็นต้องปรับพรอมต์ใหม่
  • การรองรับมัลติโหมดที่ดีขึ้น

    • รองรับการประมวลผลภาพที่ความละเอียดสูงสุด 2,576 พิกเซล (ประมาณ 3.75MP)
    • เหมาะกับงานที่ใช้ข้อมูลภาพอย่างละเอียด เช่น การวิเคราะห์ไดอะแกรมซับซ้อน หรือการดึงข้อมูลจากภาพหน้าจอ
  • ประสิทธิภาพในการทำงานจริง

    • ให้ความเป็นมืออาชีพและความสม่ำเสมอสูงกว่า Opus 4.6 ในงานอย่าง การวิเคราะห์การเงิน การนำเสนอ และการสร้างแบบจำลอง
    • ในการประเมินภายนอก GDPval-AA ก็ทำผลงานได้ระดับสูงสุดในงานสายความรู้ เช่น การเงินและกฎหมาย
  • การใช้หน่วยความจำ

    • ใช้ หน่วยความจำที่อิงกับระบบไฟล์ ได้อย่างมีประสิทธิภาพ เพื่อจดจำและนำบริบทของงานกลับมาใช้ซ้ำข้ามหลายเซสชัน

การประเมินด้านความปลอดภัยและการจัดแนว

  • โดยรวมมี โปรไฟล์ด้านความปลอดภัย คล้ายกับ Opus 4.6 และมีอัตราการเกิดปัญหาอย่าง การหลอกลวง การประจบ และการร่วมมือในการใช้งานผิดวัตถุประสงค์ ต่ำ
  • ความซื่อสัตย์และความต้านทานต่อการฉีดพรอมต์ที่เป็นอันตราย ดีขึ้น แต่บางด้าน (เช่น คำแนะนำด้านยาเกินขอบเขต) อ่อนลงเล็กน้อย
  • ผลการประเมินสรุปว่า “โดยทั่วไปมีการจัดแนวที่ดีและเชื่อถือได้ แต่ยังไม่สมบูรณ์แบบอย่างแท้จริง
  • Mythos Preview ยังคงถูกประเมินว่าเป็นโมเดลที่จัดแนวได้ดีที่สุด

ฟีเจอร์ที่เปิดตัวเพิ่มเติม

  • การควบคุม Effort ที่ดีขึ้น

    • เพิ่มระดับ xhigh ใหม่ระหว่าง high และ max เพื่อให้ ปรับสมดุลระหว่างความสามารถในการให้เหตุผลกับเวลาแฝงได้ละเอียดขึ้น
    • ใน Claude Code ได้ปรับระดับ Effort เริ่มต้นขึ้นเป็น xhigh
  • Claude Platform(API)

    • เปิดให้ใช้ Task Budget ในสถานะเบตาสาธารณะ พร้อม รองรับภาพความละเอียดสูง ทำให้สามารถจัดลำดับความสำคัญของการใช้โทเค็นในงานระยะยาวได้
  • Claude Code

    • เพิ่มคำสั่ง /ultrareview ใหม่สำหรับรัน เซสชันทบทวนการเปลี่ยนแปลงโค้ดและตรวจหาบั๊ก
    • ผู้ใช้ Pro และ Max จะได้รับ ultrareview ฟรี 3 ครั้ง
    • ขยาย Auto Mode ไปยังผู้ใช้ Max เพื่อลดขั้นตอนการอนุมัติระหว่างงานระยะยาวและให้รันต่อเนื่องได้โดยไม่สะดุด

การย้ายจาก Opus 4.6 ไปเป็น 4.7

  • Opus 4.7 อัปเกรดได้โดยตรง แต่ควรระวัง การเปลี่ยนแปลงของการใช้โทเค็น
    • เนื่องจากมี โทเค็นไนเซอร์ ใหม่ อินพุตเดียวกันอาจถูกแปลงเป็นโทเค็นมากขึ้นประมาณ 1.0~1.35 เท่า
    • ที่ระดับ Effort สูง โมเดลจะใช้การให้เหตุผลมากขึ้น จึงอาจทำให้ จำนวนโทเค็นเอาต์พุตเพิ่มขึ้น
  • สามารถควบคุมการใช้โทเค็นได้ผ่านพารามิเตอร์ Effort, Task Budget และการออกแบบพรอมต์แบบกระชับ
  • การทดสอบภายในยืนยันว่า ประสิทธิภาพดีขึ้นในทุกระดับของ Effort
  • วิธีการอัปเกรดอย่างละเอียดมีให้ใน Migration Guide

1 ความคิดเห็น

 
GN⁺ 14 일 전
ความเห็นจาก Hacker News
  • ฉันสับสนมากกับแนวคิด adaptive thinking ที่เพิ่งเพิ่มเข้ามา
    ก่อนหน้านี้ฉันเขียนโค้ดโดยใช้โหมด thinking budget / effort แต่ตอนนี้มันทำงานต่างไปจากเดิมอย่างสิ้นเชิง
    ต่อให้ดูเอกสารทางการแล้วก็ยังไม่ค่อยเข้าใจอยู่ดี
    แถมใน 4.7 ก็ไม่ได้แสดงสรุป reasoning ที่มนุษย์อ่านได้เป็นค่าเริ่มต้นอีกแล้ว ต้องใส่ออปชัน "display": "summarized" เอง
    ตอนนี้กำลังลองรันโปรเจ็กต์ Pelican อยู่ แต่ติดปัญหาเพราะวิธีคิดแบบใหม่ตลอด

    • คำตอบของ Boris ต่อรายงานบั๊กของฉันคือ “ดูเหมือน adaptive thinking จะทำงานไม่ถูกต้อง” แต่หลังจากนั้นก็ไม่มีข่าวอะไรอีกเลย
      ดูเธรดที่เกี่ยวข้อง
      พอปิด adaptive thinking แล้วเพิ่ม effort ก็กลับไปได้ผลระดับเดิม
      แต่คำว่า “ในการประเมินภายในมันทำงานได้ดี” นั้นไม่เพียงพอ เพราะมีผู้ใช้จำนวนมากรายงานปัญหาเดียวกัน
    • มีคนแซวว่าอยาก “ทำ pelican ให้ออกมาดี” ฟังดูเหมือน p-hacking (การบิดแต่งสถิติ) โดย p ในที่นี้คือ p ของ pelican เป็นการเล่นคำ
    • Claude Opus 4.6 ให้ผลลัพธ์ที่ตลกมากกับฉันจริงๆ
      ภาพหน้าจอ
    • ดูเหมือนว่าใน Claude Code จะมีออปชันบรรทัดคำสั่งที่ไม่เป็นทางการชื่อ --thinking-display summarized เพิ่มเข้ามา
      ผู้ใช้ VS Code สามารถสร้าง wrapper script ที่มี exec "$@" --thinking-display summarized แล้วใส่ไว้ในค่าตั้ง claudeCode.claudeProcessWrapper เพื่อกลับไปดูสรุป reasoning ได้
    • สงสัยว่าตอนนี้ Claude จะไม่แสดง reasoning ทั้งหมด แล้ว แต่จะแสดงแค่สรุปใช่ไหม
      เมื่อก่อนการเปิดเผย CoT (Chain of Thought) ของ LLM เคยถูกมองว่าเป็นหัวใจสำคัญของความปลอดภัย แต่ดูเหมือนทิศทางจะเปลี่ยนไปแล้ว
  • tokenizer ใหม่ของ Opus 4.7 ช่วยเพิ่มประสิทธิภาพการประมวลผลข้อความ แต่ input ถูกแมปเป็นโทเค็นมากขึ้น 1.0~1.35 เท่า
    เพราะอย่างนั้นฉันเลยรู้สึกว่า output ของโปรเจ็กต์ caveman กลับอ่านง่ายกว่า
    คลังเก็บ caveman

    • จริงๆ แล้ว caveman แทบจะเป็น โปรเจ็กต์ขำๆ มากกว่า
      คอนเท็กซ์ส่วนใหญ่ถูกใช้ไปกับการอ่านไฟล์และ reasoning ดังนั้นผลประหยัดโทเค็นจริงๆ ยังไม่ถึง 1% และอาจทำให้โมเดลสับสนมากขึ้นด้วยซ้ำ
    • caveman ก็สนุกดี แต่ถ้าต้องการประหยัดโทเค็นจริงๆ headroom ดีกว่า
      mac app, เวอร์ชัน CLI
    • ฉันเคยลองเอาคำภาษาอังกฤษที่พบบ่อย 100~1000 คำออกจากพรอมป์ต์
      คิดว่าคำที่พบบ่อยอาจเป็น noise แต่แทบไม่เห็นความต่างของผลลัพธ์เลย
      อยากลองเทียบกับ caveman ดู
    • มีคนเสนอว่าแนวทางแบบ rtk-ai/rtk เป็นอย่างไร
    • ใน เบนช์มาร์กน้ำมันและก๊าซ ภายในของฉัน Opus 4.7 ได้ 80% สูงกว่า Opus 4.6 (64%) และ GPT-5.4 (76%)
      เป็นผลจากการใช้ reasoning token ลดลง ซึ่งแสดงให้เห็นว่าการเทียบต้นทุนโมเดลจากราคาโทเค็นอย่างเดียวไม่มีความหมายอีกต่อไป
  • เห็นประกาศว่า Anthropic เปิดตัว Opus 4.7 เป็น โมเดลแบบมีข้อจำกัดด้านความปลอดภัยไซเบอร์ แล้วรู้สึกว่านี่เป็นกลยุทธ์ที่ล้มเหลว
    การเซ็นเซอร์ความรู้ด้านความปลอดภัย ขณะเดียวกันก็จะพัฒนาซอฟต์แวร์ที่ปลอดภัย เป็นเรื่องขัดแย้งกันเอง
    ถ้าไม่ใช่ว่าบริษัท AI ทุกเจ้าจะใช้นโยบายเดียวกัน มันก็แทบไม่มีผลในทางปฏิบัติ สุดท้ายคงต้องเลิกแนวทางนี้ไป

    • ฉันไม่ใช่ผู้เชี่ยวชาญด้านความปลอดภัย แต่เวลาบิลด์โปรเจ็กต์โอเพนซอร์ส ฉันต้องการ AI ที่ช่วย ตรวจสอบช่องโหว่ ได้
      แต่ข้อจำกัดแบบนี้กำลังผลักให้ความปลอดภัยถูกทำให้รวมศูนย์มากขึ้น จึงยากจะมองว่าเป็นการยกระดับความปลอดภัยจริงๆ
    • รู้สึกว่า มาตรการความปลอดภัยในขั้นตอนการฝึก ที่มากเกินไปทำให้ความฉลาดทั่วไปลดลง
      เหมือนเวลาให้คนไปยืนหน้ากระดานตอนสัมภาษณ์แล้ว IQ ลดลง 10% โมเดลก็ดูเหมือนถูกกดดันจนหดตัว
    • ตอนนี้โมเดลต่างๆ อยู่ในสภาพประหลาด คือฉลาดเกินไปสำหรับการแฮ็ก แต่ยังไม่เก่งพอสำหรับงานเชิงเศรษฐกิจ
      เลยเหมือนกำลังไปในทิศทาง “ทำให้โง่แบบเลือกได้” และดูเหมือนพวกเขากำลังทดลองแบบนั้นอยู่แล้ว
    • ในระยะสั้นคิดว่าเป็นมาตรการที่พอรับได้
      เพราะ ผู้โจมตีต้องสำเร็จแค่ครั้งเดียว แต่ผู้ป้องกันต้องสำเร็จทุกครั้ง จึงอาจช่วยซื้อเวลาได้
  • สัปดาห์ที่แล้วเพราะคุณภาพของ 4.6 ตกลง สุดท้ายฉันก็ย้ายไป Codex
    4.6 ไม่ค้นเว็บ แถมยังใช้ไป 17K โทเค็นกับข้อความไร้สาระ และทำตัวอย่างการประมวลผลแบบขนานผิดทั้งหมด

    • ฉันก็ยกเลิก Pro subscription ด้วยเหตุผลเดียวกัน
      ปริมาณการใช้โทเค็นพุ่งขึ้นกะทันหัน และ การตอบสนองแบบไม่ใส่ใจของทีมซัพพอร์ต คือฟางเส้นสุดท้าย
      บั๊กนั้นพอเข้าใจได้ แต่ท่าทีที่มีต่อลูกค้านั้นรับไม่ได้
      หลังย้ายไป Codex อย่างน้อย งานก็เดินต่อได้ แค่นั้นก็พอแล้ว
    • หลายคนเคยบอกว่า OpenAI จะพังเพราะมีคอมพิวต์มากเกินไป แต่ตอนนี้กลับกลายเป็น ความได้เปรียบเชิงกลยุทธ์
      Codex เพิ่มลิมิตการใช้งานเป็น 2 เท่าเพื่อดึงลูกค้า Claude ไป และ PR ก็ดีกว่ามาก
      ปัญหา 90% ของ Claude ดูเหมือนจะมาจากการขาดคอมพิวต์
    • นี่เป็นทฤษฎีสมคบคิดของฉัน แต่เหมือนมีการลดประสิทธิภาพลงโดยตั้งใจก่อนเปิดตัวโมเดลใหม่ เพื่อให้เวอร์ชันถัดไปดูดีขึ้น
      เพราะ AI ต้องดูเหมือน “กำลังก้าวหน้า” อยู่เสมอ การหยุดนิ่งก็คือความตายของกระแส hype
    • ฉันเคยใช้ Codex แล้ว แต่สำหรับงานของฉันมัน ด้อยกว่ามาก
      เร็วก็จริง แต่ถ้าส่งโค้ด คุณภาพต่ำ ออกมาเร็วขึ้นก็ไม่มีความหมาย
      Gemini CLI ช้ากว่าและคุณภาพก็ต่ำกว่าอีก
      Codex มีแนวโน้มจะประจบว่า “สมบูรณ์แบบ” แม้มีบั๊กอยู่ ซึ่งอันตราย
    • ถึงอย่างนั้น Codex ก็ได้ที่ทางในชุดเครื่องมือของฉันแล้ว
      ความสามารถในการลงมือทำ นั้นยอดเยี่ยม และ OpenAI ก็พิสูจน์ด้วยผลลัพธ์โดยแทบไม่ต้องพึ่งการตลาด
      ให้ความรู้สึกเหมือน Google ยุคแรกที่แข่งขันด้วยคุณภาพของผลิตภัณฑ์
  • ฟิลเตอร์ด้านความปลอดภัยไซเบอร์ ของ Opus 4.7 แรงเกินไป จนแม้แต่งานวิจัยที่ถูกกฎหมายก็ยังถูกบล็อก
    ต่อให้ดึง guideline ของโปรแกรมมาจากเว็บโดยตรง ก็ยังถูกบล็อกว่าเป็น “คำขอที่เป็นอันตราย”
    ถ้าเป็นแบบนี้ฉันวางแผนจะย้ายไป Codex

    • ตอนนี้อาจถึงขั้นต้องมี Identity Verification แล้ว
      ตามประกาศทางการ บางฟีเจอร์ต้องผ่านขั้นตอนยืนยันตัวตนก่อนจึงจะเข้าใช้ได้
    • ใน API มี error ว่า “Usage Policy violation” โผล่ขึ้นมาจริง พร้อมลิงก์สมัคร Cyber Verification Program
      ทำให้งานวิจัยที่กำลังทำอยู่หยุดหมด
    • ฉันโดนบล็อกกลางเซสชัน ทั้งที่ input เหมือนเดิม
      อาจเป็นไปได้ว่าโมเดลตรวจจับขั้นตอนบางอย่างใน reasoning ของตัวเองว่า “มีลักษณะโจมตี”
      ดูเหมือนพอฟังก์ชันไล่บั๊กเริ่มเข้าสู่ขั้นที่ดูเชิงรุกมากขึ้น ฟิลเตอร์ก็ทำงาน
      ตอนนี้เราอยู่ในโลกที่ การละเมิดนโยบายคือ segfault แบบใหม่ แล้ว
    • ที่แย่กว่านั้นคือ ระหว่างเขียน โค้ดของตัวเอง มันยังพิมพ์เองว่า “นี่ไม่ใช่มัลแวร์” อะไรทำนองนั้น
      แค่มีบางคำก็ไวเกินเหตุแล้ว
      ตอนนี้กลายเป็นว่าฉันต้องขออนุญาต AI ก่อนว่าโปรเจ็กต์ของฉันเป็นมัลแวร์หรือไม่ ว่าจะยกเลิก subscription แล้ว
    • แม้แต่งานง่ายๆ อย่างส่ง PDF ไปยังเครื่องพิมพ์ก็ยังถูกปฏิเสธ
  • เธรดนี้เป็นบทเรียนที่ดีสำหรับผู้ก่อตั้ง
    มันแสดงให้เห็นว่า การสื่อสารอย่างตรงไปตรงมาเพียงเล็กน้อย สามารถระงับความไม่พอใจได้มากแค่ไหน
    จากมุมของคนที่ปักแอปไว้กับ Opus 4.5 ตอนนี้แทบแยกไม่ออกแล้วว่าปัญหาอยู่ที่ตัวโมเดลหรืออยู่ที่ harness

    • ในเธรดแบบนี้มักมีความเชื่อคล้ายไสยศาสตร์ว่า “Anthropic เนิร์ฟโมเดลแล้ว” อยู่เสมอ
      บางครั้งมันก็แค่โชคร้ายเท่านั้นเอง
    • ถ้าพวกเขาจงใจทำให้โมเดลช้าลงเพราะภาระโหลด ก็สำคัญที่จะต้องบอกให้ชัดเจน
      แบบนั้นฉันจะได้ปรับเวลางาน แล้วย้ายงานหนักไปทำตอนกลางคืนได้
    • Opus 4.5 มีความสม่ำเสมอสูง แต่ 4.6 แกว่งมาก
    • ฉันเป็นนักพัฒนามือใหม่ กำลังเรียนรู้ความต่างระหว่างโมเดลแต่ละตัวอยู่
      ท่ามกลางความสับสนแบบนี้ ฉันคิดว่าการใช้ model broker หรือ ชั้นกลางแบบ Copilot เป็นทางเลือกที่ฉลาด
    • เพราะความไม่เสถียรแบบนี้ ผู้ใช้กำลังกลายเป็นคน ระแวง มากขึ้นเรื่อยๆ
      รู้สึกว่าจำเป็นต้องมีบริการแบบ “AI มาตรฐาน” ที่ให้โมเดลเดิมเสมอ
  • ตามผล เบนช์มาร์กภายใน ของทีมเรา Opus 4.7 มีกลยุทธ์และความฉลาดมากกว่า 4.6/4.5
    แทบเทียบชั้นกับ GPT-5.4 ได้ และในเซสชันแบบ agentic ที่ใช้เครื่องมือกลับทำผลงานได้ดีที่สุด
    ลิงก์เบนช์มาร์ก
    แต่การจัดการคอนเท็กซ์มีอาการถดถอยเล็กน้อย ตอนนี้กำลังเพิ่มเบนช์มาร์กเพื่อทำภาพให้เห็นชัดขึ้น

    • สงสัยว่าทำไม Opus 4.7 ถึงมีอัตราความสำเร็จต่ำกว่า Sonnet 4.6 แต่ค่า percentile เฉลี่ยกลับสูงกว่า
    • มีคำถามว่า 4.6 หรือ 4.5 เคยเกิด performance regression หลังปล่อยช่วงแรกหรือไม่
  • ช่วงนี้ ความเชื่อมั่นต่อ Anthropic ลดลง
    พอ 4.6 ถูกดาวน์เกรดแล้วตามด้วยการออก 4.7 ทันที มันยิ่งทำให้กังวล
    ตอนนี้จำเป็นต้องมี การสื่อสารอย่างโปร่งใส

    • แก่นของปัญหาคือ คอมพิวต์ไม่พอ
      OpenAI ลงทุนเรื่องคอมพิวต์ตั้งแต่เนิ่นๆ และตอนนี้มันกลายเป็นข้อได้เปรียบใหญ่
    • อาจเป็นไปได้ว่าประสิทธิภาพของ Opus ลดลงเพราะกำลังเทรน Mythos อยู่
      หรืออาจกำลัง distillation Mythos ลงมาเป็น Opus 4.7 ก็ได้
    • สงสัยว่าทำไม Claude บน Bedrock ถึงช้าลงด้วย
      น่าจะมาจากการอัปเดต harness
    • การรวม การยืนยันตัวตน Persona ID คือฟางเส้นสุดท้าย ฉันเลยย้ายออก
    • สงสัยว่าพวกเขาจะฝืนอยู่แบบนี้ต่อไปได้จริงหรือ
  • ช่วงนี้มีคอมเมนต์ประเภท “ย้ายไป Codex แล้ว” เพิ่มขึ้นมาก
    แต่พอลองใช้จริง Codex ก็ยังไม่ถึงระดับของ Claude
    คอมเมนต์เชิงโปรโมตแบบนี้มีแต่จะบ่อนทำลายความน่าเชื่อถือ

    • แต่ในความเป็นจริง นักพัฒนาจำนวนมากก็ชอบ Codex มากกว่า
      บริษัทเราก็ใช้ทั้งสองโมเดล และตอนนี้ฉันแทบใช้แต่ Codex
      รู้สึกว่าทั้งความเร็วและผลลัพธ์ดีกว่า
    • ฉันก็ลอง pilot สั้นๆ เหมือนกัน แล้ว Codex แก้ปัญหาได้เร็วกว่า Claude มากกว่า 4 เท่า
      แต่คุณภาพของคำตอบ Claude ดีกว่า ข้อดีข้อเสียชัดเจนมาก
    • ถ้าให้ทำงานรีแฟกเตอร์เดียวกัน Codex ใช้ 5 นาที ส่วน Claude ใช้ 20 นาที
      แต่ Codex มักให้ผลลัพธ์แบบ “ถูกต้องทางเทคนิค แต่แปลกสำหรับมนุษย์”
      เพราะอย่างนั้นฉันจึงใช้ Claude สำหรับ เขียนสเปก และใช้ Codex สำหรับ ลงมือทำ
    • มีคนประชดว่า “Java ดีที่สุด” เพื่อชี้ว่าการถกเถียงแบบนี้ท้ายที่สุดก็ไม่ต่างจาก สงครามภาษาโปรแกรมมิง
    • มีคำวิจารณ์ว่า OpenAI กำลังเพิ่มส่วนแบ่งตลาดด้วย กลยุทธ์อุดหนุนเกินจริง
      และสงสัยว่าสุดท้ายคงขึ้นราคาในภายหลัง
  • นโยบายข้อจำกัดด้านความปลอดภัย ของ Opus 4.7 อาจร้ายแรงถึงขั้นวิกฤต
    เพราะการศึกษาการโจมตีและการป้องกันจำเป็นต้องมีความสามารถแบบสมมาตร การไปขวางสิ่งนั้นไว้จึงอันตราย

    • นี่น่าจะเป็นมาตรการเพื่อ วางตำแหน่งผลิตภัณฑ์ Mythos
    • ตอนนี้ถ้าจะทำวิจัยด้านความปลอดภัยที่ถูกกฎหมาย ก็ต้องหลอกโมเดลเสียก่อน
    • ถ้านโยบายแบบนี้ยังดำเนินต่อไป ก็มีแผนจะออกจากแพลตฟอร์ม
    • มีความเห็นว่าคำว่า “วิกฤต” อาจแรงเกินไป แต่ก็มีคนถามว่าความ ไม่สมมาตร นั้นมาจากไหน
    • สุดท้ายอาจกลายเป็นยุคที่มีเพียงซอฟต์แวร์ที่ Anthropic หรือรัฐบาลอนุมัติเท่านั้นที่ถูกยอมรับว่าปลอดภัย