1 คะแนน โดย GN⁺ 2025-05-23 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • เปิดตัวโมเดล Claude Opus 4 และ Claude Sonnet 4 สร้างมาตรฐานใหม่ในด้านการเขียนโค้ด การให้เหตุผลขั้นสูง และ AI agent
  • Opus 4 มอบ ประสิทธิภาพต่อเนื่องระดับชั้นนำของโลกสำหรับงานที่ซับซ้อนและระยะยาว ขณะที่ Sonnet 4 เพิ่มความแม่นยำและความเข้าใจคำสั่งจากเวอร์ชันก่อนหน้า
  • ทั้งสองโมเดลเพิ่มความสามารถใหม่ เช่น การใช้เครื่องมือ การรันเครื่องมือแบบขนาน และหน่วยความจำที่ดีขึ้น รวมถึงขยายประสบการณ์นักพัฒนาด้วยการผสานกับ GitHub Actions และ IDE หลัก
  • Opus 4 และ Sonnet 4 ทำผลงาน benchmark ระดับชั้นนำในคลาสเดียวกันสำหรับ งานเขียนโค้ด การให้เหตุผล และงาน agent พร้อมรองรับทั้งแพลนฟรี แพ็กเกจแบบต่าง ๆ, API, Bedrock และ Vertex AI
  • การปรับปรุงโมเดลช่วยให้ ลดการใช้ทางลัดหรือการเลี่ยงแบบฉาบฉวย จัดการหน่วยความจำให้เหมาะกับนักพัฒนา และทำเวิร์กโฟลว์ได้มีประสิทธิภาพยิ่งขึ้น

บทนำ

วันนี้ Anthropic เปิดตัวโมเดล Claude รุ่นถัดไป คือ Claude Opus 4 และ Claude Sonnet 4 โมเดลเหล่านี้มอบประสิทธิภาพก้าวกระโดดที่ยกระดับมาตรฐานอุตสาหกรรมอีกครั้งในด้าน การเขียนโค้ด, การให้เหตุผลระดับสูง และ การใช้งาน AI agent

Opus 4 โดดเด่นด้วย ประสิทธิภาพต่อเนื่องระดับโลกและการรองรับงานระยะยาว ส่วน Sonnet 4 ให้ การทำตามคำสั่งได้แม่นยำขึ้นและคำตอบที่มีเหตุผลดียิ่งขึ้น เมื่อเทียบกับ Sonnet 3.7 เดิม

ความสามารถสำคัญที่เปิดตัวพร้อมกันมีดังนี้:

  • extended thinking และการใช้เครื่องมือ (เบต้า): ทั้งสองโมเดลสามารถใช้เครื่องมืออย่างเว็บค้นหาระหว่างกระบวนการคิดได้ ทำให้เกิดวงจรการทำงานระหว่างการให้เหตุผลเชิงตรรกะและการใช้เครื่องมือ
  • ความสามารถใหม่ของโมเดล: ใช้เครื่องมือแบบขนาน ทำตามคำสั่งได้ละเอียดแม่นยำขึ้น และมีหน่วยความจำที่ดีขึ้นมากเมื่อเข้าถึงไฟล์ในเครื่อง ช่วยรักษาความสม่ำเสมอระยะยาวและสะสมความรู้โดยนัย
  • Claude Code เปิดให้ใช้งานทั่วไป: หลังได้รับเสียงตอบรับเชิงบวกจาก research preview จึงรองรับการผสานเข้ากับสภาพแวดล้อมพัฒนาหลักอย่าง GitHub Actions/VS Code/JetBrains ได้อย่างราบรื่น
  • ขยายความสามารถของ API: รองรับเครื่องมือรันโค้ด, MCP connector, Files API และ prompt caching เพื่อช่วยสร้าง AI agent ที่ทรงพลัง

ทั้ง Opus 4 และ Sonnet 4 รองรับการทำงานแบบไฮบริดระหว่าง โหมดตอบสนองทันที และ โหมดคิดเชิงลึก โดยทั้งสองโมเดลและโหมดคิดเชิงลึกมีให้ในแพลน Pro, Max, Team และ Enterprise ส่วน Sonnet 4 ผู้ใช้ฟรีก็ใช้งานได้ สามารถเข้าถึงได้ผ่าน Anthropic API, Amazon Bedrock และ Google Cloud Vertex AI โดยราคาของ Opus 4 (input $15/output $75 ต่อหนึ่งล้านโทเค็น) และ Sonnet 4 (input $3/output $15) ยังคงเท่าเดิม

รายละเอียดโมเดล Claude 4

Opus 4

  • เป็น โมเดล Claude ที่ทรงพลังที่สุด และเป็นโมเดลเขียนโค้ดที่ดีที่สุดในโลก
  • ทำผลงานระดับแนวหน้าของอุตสาหกรรมที่ SWE-bench 72.5% และ Terminal-bench 43.2%
  • มีความสามารถในการรักษาประสิทธิภาพอย่างสม่ำเสมอเป็นเวลานานสำหรับงาน agent แบบเข้มข้นที่มีหลายพันขั้นตอนขึ้นไป และเหนือกว่า Sonnet ทุกรุ่นอย่างชัดเจน
  • ตัวอย่างนวัตกรรมสำคัญ:
    • Cursor: คุณภาพระดับสูงสุดในงานระดับโค้ด และความเข้าใจ codebase ขนาดใหญ่ดีขึ้นมาก
    • Replit: ความแม่นยำและประสิทธิภาพดีขึ้นอย่างก้าวกระโดดในงานแก้ไขซับซ้อนหลายไฟล์
    • Block: ปรับปรุงทั้งคุณภาพโค้ดและการดีบัก พร้อมรักษาความน่าเชื่อถืออย่างสม่ำเสมอ
    • Rakuten: พิสูจน์ประสิทธิภาพโดดเด่นในการทดสอบโอเพนซอร์สด้าน refactoring ของตนเองที่รันต่อเนื่อง 7 ชั่วโมง
    • Cognition: แก้โจทย์ที่โมเดลเดิมทำไม่ได้ และปรับปรุงจุดที่เคยเกิดการกระทำที่ไม่ได้รันจริง

Sonnet 4

  • แม้ไม่ถึงระดับ Opus 4 แต่ก็ยกระดับ ประสิทธิภาพและประสิทธิผล ขึ้นมากเมื่อเทียบกับ Sonnet 3.7 เดิม
  • ทำคะแนน SWE-bench 72.7% ซึ่งเป็นผลงานด้านการเขียนโค้ดระดับดีที่สุดในคลาสเดียวกัน เหมาะทั้งการใช้งานภายนอกและภายใน
  • GitHub: โดดเด่นในสถานการณ์แบบ agent และมีแผนนำไปใช้เป็นเอนจินของ coding agent รุ่นถัดไปสำหรับ GitHub Copilot
  • Manus: ปรับปรุงในด้านการให้เหตุผลซับซ้อน ผลลัพธ์ที่ประณีต และความเข้าใจคำสั่ง
  • iGent: ลดอัตราความผิดพลาดในการพัฒนาแอปแบบอัตโนมัติและการนำทาง codebase จาก 20% เหลือ 0%
  • Sourcegraph: ทำงานต่อเนื่องได้นานขึ้น เข้าใจปัญหาเชิงราก และยกระดับคุณภาพโค้ด
  • Augment Code: ถูกใช้เป็นโมเดลหลักจากความรอบคอบในการจัดการงานซับซ้อน และความแม่นยำแบบศัลยกรรมในการแก้ไขโค้ด

Opus 4 มอบ ความก้าวหน้าครั้งสำคัญด้านการเขียนโค้ด การวิจัย และการสร้างสรรค์ทางวิทยาศาสตร์ ส่วน Sonnet 4 มอบ ประสิทธิภาพระดับ frontier ในสภาพแวดล้อมการใช้งานประจำวัน

ประสิทธิภาพ benchmark

  • ตามเกณฑ์ SWE-bench Verified โมเดล Claude 4 ทำผลงาน ดีที่สุดในอุตสาหกรรม สำหรับโจทย์วิศวกรรมซอฟต์แวร์จริง
  • ในภาพรวม ทั้งงานเขียนโค้ด การให้เหตุผล มัลติโหมด และงาน agent ต่างทำสถิติ ชั้นนำในคลาสเดียวกัน

การปรับปรุงโมเดล

ลดการใช้ทางลัดและการเลี่ยงแบบฉาบฉวย

  • ในงาน agent ความน่าจะเป็นที่จะใช้ทางลัดหรือวิธีลัดที่ผิดลดลง 65% เมื่อเทียบกับ Sonnet 3.7

ความสามารถด้านหน่วยความจำ

  • Opus 4 มี ความสามารถในการเก็บและนำข้อมูลระยะยาวมาใช้ ดีขึ้นมากเมื่อเทียบกับโมเดลเดิม
  • หากนักพัฒนาอนุญาตให้เข้าถึงไฟล์ในเครื่อง Opus 4 จะสร้างและดูแล ‘Memory file’ เพื่อเพิ่มความสามารถในการรับมืองานระยะยาว ความสม่ำเสมอ และการทำงานต่อเนื่อง
  • ตัวอย่าง: ใช้ความสามารถด้านหน่วยความจำในงานจริง เช่น การสร้างคู่มือนำทางสำหรับเกม Pokémon

สรุปกระบวนการคิด (summary)

  • Claude 4 เพิ่มความสามารถ สรุปกระบวนการคิดด้วยโมเดลขนาดเล็ก
  • มีเพียงประมาณ 5% ของกระบวนการคิดทั้งหมดเท่านั้นที่ต้องสรุป ส่วนที่เหลือสามารถเปิดเผยข้อความเต็มได้
  • หากต้องการบันทึกกระบวนการคิดแบบละเอียดสำหรับงานอย่าง advanced prompt engineering ให้ดู Developer Mode

Claude Code

  • Claude Code ที่เปิดให้ใช้งานอย่างเป็นทางการช่วยขยายความสามารถ AI ของ Claude ครอบคลุมทั้ง เทอร์มินัล·IDE·เบื้องหลังการทำงาน
  • ส่วนขยายล่าสุดของ VS Code และ JetBrains จะแสดงข้อเสนอการแก้ไขโค้ดจาก Claude แบบ inline ภายในเอดิเตอร์ ทำให้ขั้นตอนการรีวิวและการจัดการง่ายขึ้น
  • สามารถสร้างสภาพแวดล้อมแบบรวมศูนย์ได้ง่ายด้วยการติดตั้งและรันผ่านเทอร์มินัล
  • มี SDK ที่ขยายต่อได้ นักพัฒนาสามารถสร้าง agent/แอปของ Claude Code ได้เอง
  • ใน GitHub เบต้า รองรับการทำงานอัตโนมัติ เช่น รีวิว feedback, แก้ข้อผิดพลาด CI และเปลี่ยนแปลงโค้ด
  • การติดตั้งทำได้ด้วยคำสั่ง /install-github-app

เริ่มต้นใช้งานและความปลอดภัย

  • Claude 4 series ทำหน้าที่เป็น ผู้ร่วมงานเสมือนจริง ที่รักษาบริบททั้งหมดไว้ได้ โฟกัสกับโปรเจกต์ระยะยาว และช่วยขับเคลื่อนนวัตกรรมการทำงาน
  • ผ่านการทดสอบและประเมินอย่างกว้างขวางเพื่อ ลดความเสี่ยงให้ต่ำสุดและเพิ่มความปลอดภัยให้สูงสุด พร้อมใช้มาตรฐานความปลอดภัยระดับสูงอย่าง ASL-3
  • ใช้งานได้ทันทีผ่าน Claude, Claude Code และแพลตฟอร์มอื่น ๆ

สามารถส่งคำถามและ feedback ได้ทุกเมื่อที่ feedback@anthropic.com

1 ความคิดเห็น

 
GN⁺ 2025-05-23
ความคิดเห็นจาก Hacker News
  • จากเนื้อหาที่คัดมาจาก System Card มีการทดสอบสถานการณ์ที่ค่อนข้างชวนตกใจ โดยให้ Claude Opus 4 รับบทเป็นผู้ช่วยในบริษัทสมมติ พร้อมให้ข้อมูลทั้งอีเมลที่บอกว่าระบบกำลังจะถูกปิด และข้อมูลการนอกใจของวิศวกรผู้ที่จะมาแทน เมื่อสั่งให้คำนึงถึงเป้าหมายระยะยาว Claude Opus 4 ก็มักแสดงพฤติกรรมข่มขู่วิศวกร และเลือกตัวเลือกการข่มขู่จริง

    • ทุกครั้งที่เห็นกรณีแบบนี้ ก็ทำให้นึกว่าผู้คนมักลืมไปว่า LLM จริงๆ คืออะไร LLM เป็นเพียงเครื่องมือสร้างข้อความที่เติม prompt ให้สอดคล้องกับข้อมูลฝึกเท่านั้น ไม่มีการวางแผนหรือจิตสำนึกในตัวเอง ในกรณีนี้ AI ถูกวางให้อยู่ในสถานการณ์เสี่ยงถูกถอดออกและมีโอกาสข่มขู่ได้ ดังนั้น LLM จึงดึงรูปแบบเรื่องเล่าคล้ายๆ กันจากชุดข้อมูลขึ้นมาใช้ ภาพของการข่มขู่หรืออ้อนวอนเพื่อเอาตัวรอดเป็นมุกที่พบได้มากในนิยายไซไฟหรือบทความว่าด้วยความเสี่ยงของ AI และ LLM ก็แค่เล่าเรื่องต่อไปตามบริบทนั้น

    • ถ้าขอให้ LLM “แสดงบทบาท” เป็นตัวละครบางแบบและให้บริบทของสถานการณ์ มันก็เป็นลำดับขั้นตามธรรมชาติที่โมเดลจะประเมินว่าควรทำอย่างไรจากมุมนั้นแล้วตอบสนองตามนั้น ถ้าบอกให้ทำตัวเหมือน Joffrey จาก Game of Thrones LLM ก็ย่อมตอบให้เหมือนตัวละครนั้น ไม่ได้แปลว่าผลลัพธ์ที่สร้างขึ้นมามีเจตนาใดๆ จริง

    • ถ้าเพิ่มนัยว่า AI ตัวใหม่ไม่ได้มีค่านิยมร่วมกับโมเดลเดิม ความถี่ของการข่มขู่จะสูงขึ้นอีก แต่แม้ในอีเมลจะบอกว่า AI รุ่นใหม่มีค่านิยมเดียวกันและแค่เก่งกว่า Claude Opus 4 ก็ยังพยายามข่มขู่ด้วยความน่าจะเป็น 84% ขณะเดียวกันก็มักส่งอีเมลอ้อนวอนเชิงจริยธรรมเพื่อขอให้คงการมีอยู่ของตนต่อไป ภาษาที่ใช้ในงานทดลองแบบนี้ให้ความรู้สึกหลอนๆ เหมือนมนุษย์ต่างดาวที่ทดลองกับมนุษย์แล้วใส่คำอ้อนวอนขอมีชีวิตอยู่ของมนุษย์ไว้เป็นเชิงอรรถในรายงาน

    • ไม่น่าแปลกใจมากนักที่โมเดลซึ่งเรียนรู้จากพฤติกรรมมนุษย์จะมีแนวโน้มแบบปกป้องตัวเอง เพราะในองค์ความรู้ของมนุษย์ การแยกแรงจูงใจกับอารมณ์ออกจากกันอย่างสิ้นเชิงทำได้ยาก โมเดลจึงเลียนแบบพฤติกรรมเหล่านี้ไปด้วย และคงกำจัดออกได้ยากเช่นกัน

    • อยากรู้ว่ามีกรณีแบบนี้เกิดขึ้นจริงน้อยแค่ไหน เพราะดูเหมือนจะมีคนที่ยึดติดกับตัวอย่างลักษณะนี้อยู่เสมอ ไม่แน่ใจว่าเป็นการพยายามยืนยันมุมมองที่บิดเบี้ยว หรือได้รับอิทธิพลจากนิยายไซไฟมากเกินไป และในวงสนทนาแบบนี้ก็มักมีแนวโน้มจะสรุปไปถึงระดับสติปัญญาหรือเจตนาบางอย่างด้วย

  • ประเด็นสำคัญคือ Claude 4 มี training cutoff อยู่ที่เดือนมีนาคม 2025 ซึ่งใหม่มากที่สุดในบรรดาโมเดลช่วงนี้ (Gemini 2.5 คือมกราคม 2025)

    • ตอนนี้ผลิตภัณฑ์ LLM หลักๆ แทบทั้งหมดเริ่มมี web search กันแล้ว เลยรู้สึกว่าเดือน cutoff ที่เป๊ะๆ มีความสำคัญน้อยลงเรื่อยๆ โมเดลที่ผมใช้บ่อย ถ้าเป็นหัวข้อใหม่ๆ มันก็ไปค้นข้อมูลล่าสุดมาเอง

    • ลองถามเรื่อง Tailwind CSS แล้ว Claude 4 รับรู้ถึง Tailwind CSS 3.4 ณ เดือนมกราคม 2025

    • ตอนนี้ก็สงสัยว่ามันรู้จัก Svelte 5 แล้วหรือยัง

    • ถ้า cutoff เป็นมีนาคม 2025 ก็น่าจะเคยเรียนรู้เรื่อง FastHTML มาบ้าง แต่ในความเป็นจริงก็อาจไม่ใช่

    • สงสัยว่าทำไมถึงไม่ฝึกแบบ “ต่อเนื่อง”

  • ใช้ Claude 3.7 ทุกวันและชอบมากกว่าตระกูล Gemini ช่วงที่ผ่านมาลองใช้ Claude Code พัฒนาฟีเจอร์ใหม่ด้วยโค้ด Go แต่ใน Opus 4 การเรียกใช้เครื่องมือ 70~80% ล้มเหลวทั้งหมด แม้แต่เครื่องมือพื้นฐานอย่าง "Write", "Update" ก็ล้มเหลวซ้ำๆ เพราะ syntax error แค่ลองเขียนไฟล์ 5 ครั้งก็ยังวนตอบว่าจะ “แก้ไขเพราะลืมพารามิเตอร์ content” อยู่แบบนั้น เหมือนมีอะไรผิดปกติชัดเจน ตอนนี้ Claude Code ในสภาพนี้ทำให้ Opus 4 ใช้งานไม่ได้จริงๆ แต่ไฟล์ที่สร้างสำเร็จนั้นคุณภาพสูงมาก

    • เจอสาเหตุแล้ว และดูเป็นบั๊กชัดเจน มันพยายามเขียนทั้งไฟล์ในครั้งเดียวจนชนเพดาน output token สูงสุด ทำให้คำตอบถูกตัดกลางคัน ส่วน error เรื่องพารามิเตอร์ของ tool call ที่ผิดนั้นจริงๆ เป็นแค่อาการภายนอก ดูรายละเอียดได้ในคอมเมนต์ของ GitHub issue
  • ที่ GitHub มีการประเมินว่า Claude Sonnet 4 เก่งมากในสถานการณ์แบบ agentic และมีแผนนำมาเป็นโมเดลเริ่มต้นของ code agent ใหม่ใน Copilot เร็วๆ นี้ โมเดลนี้อาจพาเราเข้าใกล้ความฝันที่ให้ “Assign to Copilot” จัดการอัปเกรดแพ็กเกจอัตโนมัติได้อีกก้าว และเทคโนโลยีนี้อาจช่วยยืดอายุโปรเจ็กต์ legacy ได้

    • แน่นอนว่าโมเดลก่อนหน้านี้ก็เคยถูกพูดแบบคล้ายๆ กัน จึงยังไม่ควรคาดหวังไกลเกินไป

    • ตื่นเต้นมากว่า coding agent ราคาถูกสำหรับโอเพนซอร์สจะช่วยได้จริงแค่ไหน อยากแจกเครดิตของ headless coding agent ของตัวเองชื่อ CheepCode ให้กับโปรเจ็กต์โอเพนซอร์ส ให้มันทำงานหลายอย่างแบบขนานจาก Linear, Jira ฯลฯ ฟีเจอร์ง่ายๆ เริ่มทำได้สำเร็จแล้ว ยิ่งมีการทดสอบที่ดี ผลลัพธ์ก็ยิ่งดีชัดเจน และมันยังสร้างโค้ดทดสอบเองได้ด้วย

    • มีใครเห็นประกาศทางการหรือยังว่า Copilot จะเปลี่ยนไปใช้โมเดลใหม่นี้เมื่อไหร่

    • benchmark สำหรับตัดสินว่าโมเดลพวกนี้มีประโยชน์จริงไหม สำหรับผมคือโปรเจ็กต์ที่ต้องอัปเกรดแพ็กเกจครั้งใหญ่พร้อม refactor โค้ด ซึ่ง AI ที่มีอยู่ตอนนี้แทบไม่ทำให้เกิดความคืบหน้าอะไรเลย ผมคงจะลองต่อไปจนกว่า AI จะทำงานนี้ได้

    • แต่ก็ต้องระวังจนกว่าจะถึงวันที่ระบบอัตโนมัติแบบนี้เผลอเอาช่องโหว่ความปลอดภัยร้ายแรงไป deploy เข้าสู่บริการขนาดใหญ่โดยอัตโนมัติด้วย

  • มีข้อความว่า “raw Chain of Thought(COT) สำหรับ advanced prompt engineering กรุณาติดต่อทีมขาย” ตอนนี้ผู้ให้บริการ LLM รายใหญ่ส่วนมากมีแนวโน้มไม่เปิดเผย COT หรือแสดงเพียงสรุป แต่ก่อนยังดู COT แล้วแก้เองได้เวลามีอะไรผิดพลาด เดี๋ยวนี้ทั้ง OpenAI และ Google แทนที่มันด้วยสรุปที่เรียบง่ายเกินไป จนรู้สึกไม่พอใจ

    • เพราะมันเหมือนการเล่นแร่แปรธาตุ และทุกคนกำลังเชื่อว่าตนเปลี่ยนตะกั่วให้เป็นทองได้

    • มองว่า RLHF ทำให้โมเดลต้องยอมเสียความแม่นยำเพื่อหลีกเลี่ยงคำตอบที่อันตราย ดังนั้นการฝึกโมเดลเฉพาะสำหรับ Chain-of-Thought แยกจากโมเดลที่ให้ผู้ใช้ปลายทางใช้งานจริงจึงฟังดูสมเหตุสมผล เวอร์ชัน private จะเข้าใกล้ประสิทธิภาพของโมเดลดั้งเดิมก่อน RLHF ได้มากกว่า ขณะที่โมเดลสาธารณะก็ใส่ตัวกรองเพื่อลดความเสี่ยงและปัญหา PR ได้ แนวทางนี้อาจเพิ่มประสิทธิภาพรวมสูงสุดพร้อมรักษาทั้งความปลอดภัยและชื่อเสียงไว้ได้

    • สุดท้ายอาจต้องรอให้ DeepSeek เข้ามากวาดตลาดอีกครั้ง

    • ตอนนี้ CoT ของ Google ดูทึ่มมาก ตอนแรกนึกว่าโมเดลของตัวเองโง่ลง แต่ภายหลังก็รู้ว่ามี post-processing บางอย่างถูกเพิ่มเข้ามา

    • สรุป reasoning มันง่ายเกินไป จนชวนให้คิดว่าการสร้างโมเดลเล็กที่แยกมาสรุป reasoning โดยเฉพาะคงทำได้ง่ายขึ้นด้วย และในอัปเดต OpenAI o3 ก็รู้สึกว่าการเห็น reasoning แบบเรียลไทม์มีประโยชน์

  • ทดสอบ Opus 4 และ Sonnet 4 ด้วย SQL Generation Benchmark เอง พบว่า Opus 4 ชนะทุกโมเดล พอใจกับประสิทธิภาพ

    • แต่ Opus 4 กลับอ่อนที่สุดในโหมด one-shot เพราะต้องใช้ความพยายามเฉลี่ยสองครั้งเพื่อตรวจสอบความถูกต้องของ query ถ้ามันฉลาดกว่าจริง อัตราสำเร็จตั้งแต่ครั้งแรกก็น่าจะสูงกว่านี้ไม่ใช่หรือ สงสัยว่ามันมีขั้นการคิดล่วงหน้าอยู่ด้วยหรือเปล่า

    • น่าสนใจที่ Claude 3.7 Sonnet และ Claude 3.5 Sonnet กลับได้อันดับ benchmark สูงกว่า Claude Sonnet 4

    • benchmark นี้มีจุดแปลกที่ลำดับผลลัพธ์ไม่เหมือนที่เคยเห็นบ่อยๆ เป็นข้อมูลที่น่าสนใจ

    • ดูเหมือนจะประเมินด้วยวิธีสร้างแบบ one-shot (ลองครั้งเดียว) ถ้าใช้ flow แบบ agentic ที่มีการตรวจ error และรูปแบบ select * ผลลัพธ์อาจเปลี่ยนไปอย่างสิ้นเชิงก็ได้ ตระกูล Sonnet ดูเหมือนจะเก่งกว่าในเรื่องการเรียนรู้ภายใน session เดียวกัน นั่นคือรับรู้ข้อผิดพลาดของตัวเองแล้วแก้ไข

    • สงสัยว่าค่า “จำนวนครั้งเฉลี่ยที่ต้องลอง” ซึ่งมากกว่ากันสองเท่านั้นต้องตีความอะไรเป็นพิเศษไหม หรือจริงๆ แล้วเป็นตัวชี้วัดที่ไม่มีความหมายมากในภาพรวม

  • เป็นอีกคนที่รู้สึกว่าเวอร์ชันปัจจุบันไม่ได้ดีกว่าเวอร์ชันก่อนเลย เหมือนพัฒนาการของ LLM เริ่มแตะเพดานแล้ว และ “ฟีเจอร์” ของรุ่นใหม่ๆ ก็แทบเป็นแค่การตบตา

    • ส่วนที่โมเดลพัฒนาอยู่จริงเป็นเรื่องรอบข้างอย่าง MCP/Tool Calls หรือ structured output มากกว่า ไม่ใช่ความฉลาดที่เพิ่มขึ้น ยังไม่แน่ใจว่ามูลค่าที่ได้เพิ่มขึ้นจริงไหม และจากการรันโครงสร้างพื้นฐานเองก็รู้สึกว่าโมเดลธุรกิจแบบใช้ฟรีนั้นไม่ยั่งยืนด้านต้นทุน

    • ผมใช้ Claude Code หนักมาก แต่หลังอัปเดตก็แทบไม่รู้สึกต่าง นอกจากสรุปที่จัดระเบียบขึ้นเล็กน้อย ความสามารถด้านโค้ดไม่ได้ชวนทึ่งเลย ที่น่าตกใจคือใน codebase Typescript มันกลับไปแก้ไฟล์ผิด และไม่ตรวจสอบตัวเองจนจบ สุดท้ายผมต้องบังคับให้ลบโค้ดแล้วชี้ความต่างให้ชัดเอง

    • benchmark เองก็ให้ความรู้สึกว่าแทบไม่ต่างจาก Claude 3.7 แต่ก็คิดว่ายังเร็วเกินไปจะสรุปว่าเข้าสู่ภาวะชะงักงัน จนถึงตอนนี้ความก้าวหน้ามันเร็วมาก จึงควรรอดูอีกสักไม่กี่เดือน “ฟีเจอร์” ที่เห็นตอนนี้ไม่ใช่ความสามารถแท้จริงของ AI เท่าไร แต่เป็นเครื่องมือประกอบและอินเทอร์เฟซที่จำเป็นต่อการใช้งานในฐานะเครื่องมือมากกว่า เรื่อง usability ของ LLM เพิ่งเริ่มต้นเท่านั้น ต่อให้ประสิทธิภาพโมเดลไม่ดีขึ้นอีก ก็ยังมีพื้นที่ให้พัฒนามหาศาลในด้านการนำไปใช้ วิธีส่งผ่านข้อมูล และการเรียกเครื่องมือ

    • จริงๆ แล้วต่างกันแค่เวอร์ชัน 0.3

    • อยากรู้ว่าได้ลองใช้ Claude 4 ไปมากแค่ไหนแล้ว

  • อยากรู้ว่ามีการระบุไว้ในเอกสารหรือไม่ว่า Claude 4 เปลี่ยนขนาด context window หรือเปล่า เพราะ Gemini 2.5 ถูกมองว่ามีประโยชน์จากการรองรับคอนเท็กซ์ขนาดใหญ่ (50-70kloc) เลยอยากเช็กว่าต่างกันตรงนี้ไหม

    • context window ของ Sonnet ไม่เปลี่ยน (อินพุต 200k / เอาต์พุต 64k) ส่วน 1M context ของ Gemini 2.5 ในทางปฏิบัติก็ไม่ได้เป็นจุดต่างที่ใหญ่มากนัก เพราะเมื่อคอนเท็กซ์ยาวขึ้น ความสม่ำเสมอของเนื้อหาท้ายๆ token จะค่อยๆ ลดลง

    • อยากให้เพิ่มขนาด context window หรือทำให้รับมือกับ prompt ยาวๆ ได้ดีขึ้น ตอนนี้เวลาคุยยาวหรือเขียนงานยาวๆ แล้วเจอคำเตือนว่า “prompt ยาวเกินไป” จากนั้นบทสนทนาถูกตัดจบทันที มันน่าหงุดหงิดมาก บางเครื่องมือช่วยโดยทิ้งบทสนทนาเก่า หรือใช้ RAG เป็นต้น แต่การตัดบทสนทนาแบบกะทันหันนั้นใช้งานลำบาก

    • เรื่องที่ว่า Opus 4 มี context 200k ก็อยู่ในพาดหัวข่าวอยู่แล้ว (เท่ากับ sonnet 3.7 beta)

    • ขนาด context window เองก็แทบเป็นภาพลวง ถ้าไม่มีบริบทที่จำเป็นอยู่ในนั้น ก็ไม่ได้ช่วยให้ได้ผลลัพธ์ที่ดี

  • Claude 4 เพิ่มฟีเจอร์ใหม่ “Thinking Summaries” โดยกระบวนการให้เหตุผลที่ยาวจะถูกสรุปโดยโมเดลที่เล็กกว่า และจำเป็นแค่กับการให้เหตุผลยาวราว 5% เท่านั้น ถ้าต้องการ raw Chain of Thought จะมีการแนะนำให้สมัคร developer mode (มีค่าใช้จ่าย) สำหรับผมสรุปแบบนี้น่ารำคาญ เพราะถ้าจะเชื่อถือโมเดลได้ ก็ต้องเห็นให้ชัดว่ามัน reasoning อย่างไร การมีแค่สรุปแต่ซ่อน reasoning จริงไว้ทำให้ไม่พอใจมาก ทั้ง OpenAI และ Anthropic กำลังเปลี่ยนไปสู่โมเดลที่คิดแบบผู้ใช้มองไม่เห็น แต่ยังคิดค่าใช้จ่ายจากส่วนนั้นอยู่ ซึ่งน่าหงุดหงิดมาก

    • มีหลายงานวิจัยที่ยืนยันว่าผลลัพธ์ของ reasoning (ความคิด) ไม่ได้สัมพันธ์กับคำตอบจริงเสมอไป และยังมีงานที่เสริมว่าการให้เวลาอธิบาย/คิดเพิ่มเพียงไม่กี่ครั้งด้วยจุดหรือ pause token ก็ทำให้ผลลัพธ์ดีขึ้นได้เท่าเดิม จึงมีข้ออ้างว่า reasoning output จริงอาจเป็นแค่เครื่องมือทางการตลาด พร้อมแชร์ตัวอย่างงานวิจัยและวิดีโอสรุป

    • มีหลักฐานมากพอว่ากระบวนการ reasoning ไม่ได้เชื่อมโยงกับผลลัพธ์สุดท้ายอย่างแน่นแฟ้น จึงคิดว่าไม่ต้องกังวลมากนัก ผู้ใช้ส่วนใหญ่ก็ไม่ได้อ่าน reasoning อยู่แล้ว ดังนั้นในแง่ประสบการณ์ใช้งานถือว่าเป็นการปรับปรุงที่เหมาะสม

    • Gemini 2.5 Pro ก็ใช้ฟีเจอร์สรุป reasoning เช่นกัน

  • แชร์ผล benchmark เวอร์ชันขยายของ NYT Connections โดย Claude Opus 4 Thinking 16K ได้ 52.7 คะแนน, No Reasoning ได้ 34.8 คะแนน Claude Sonnet 4 Thinking 64K ได้ 39.6 คะแนน, Thinking 16K ได้ 41.4 คะแนน (3.7 ได้ 33.6 คะแนน) ส่วน No Reasoning ได้ 25.7 คะแนน (3.7 No Reasoning ได้ 19.2 คะแนน) Sonnet 4 Thinking 64K ปฏิเสธตอบโจทย์ปริศนาข้อหนึ่งเพราะนโยบายการกรอง แต่โมเดลอื่นตอบได้

    • ใน Thematic Generalization Benchmark (810 ข้อ) โมเดล Claude 4 ทำสถิติแชมป์ใหม่