Claude 4
(anthropic.com)- เปิดตัวโมเดล Claude Opus 4 และ Claude Sonnet 4 สร้างมาตรฐานใหม่ในด้านการเขียนโค้ด การให้เหตุผลขั้นสูง และ AI agent
- Opus 4 มอบ ประสิทธิภาพต่อเนื่องระดับชั้นนำของโลกสำหรับงานที่ซับซ้อนและระยะยาว ขณะที่ Sonnet 4 เพิ่มความแม่นยำและความเข้าใจคำสั่งจากเวอร์ชันก่อนหน้า
- ทั้งสองโมเดลเพิ่มความสามารถใหม่ เช่น การใช้เครื่องมือ การรันเครื่องมือแบบขนาน และหน่วยความจำที่ดีขึ้น รวมถึงขยายประสบการณ์นักพัฒนาด้วยการผสานกับ GitHub Actions และ IDE หลัก
- Opus 4 และ Sonnet 4 ทำผลงาน benchmark ระดับชั้นนำในคลาสเดียวกันสำหรับ งานเขียนโค้ด การให้เหตุผล และงาน agent พร้อมรองรับทั้งแพลนฟรี แพ็กเกจแบบต่าง ๆ, API, Bedrock และ Vertex AI
- การปรับปรุงโมเดลช่วยให้ ลดการใช้ทางลัดหรือการเลี่ยงแบบฉาบฉวย จัดการหน่วยความจำให้เหมาะกับนักพัฒนา และทำเวิร์กโฟลว์ได้มีประสิทธิภาพยิ่งขึ้น
บทนำ
วันนี้ Anthropic เปิดตัวโมเดล Claude รุ่นถัดไป คือ Claude Opus 4 และ Claude Sonnet 4 โมเดลเหล่านี้มอบประสิทธิภาพก้าวกระโดดที่ยกระดับมาตรฐานอุตสาหกรรมอีกครั้งในด้าน การเขียนโค้ด, การให้เหตุผลระดับสูง และ การใช้งาน AI agent
Opus 4 โดดเด่นด้วย ประสิทธิภาพต่อเนื่องระดับโลกและการรองรับงานระยะยาว ส่วน Sonnet 4 ให้ การทำตามคำสั่งได้แม่นยำขึ้นและคำตอบที่มีเหตุผลดียิ่งขึ้น เมื่อเทียบกับ Sonnet 3.7 เดิม
ความสามารถสำคัญที่เปิดตัวพร้อมกันมีดังนี้:
- extended thinking และการใช้เครื่องมือ (เบต้า): ทั้งสองโมเดลสามารถใช้เครื่องมืออย่างเว็บค้นหาระหว่างกระบวนการคิดได้ ทำให้เกิดวงจรการทำงานระหว่างการให้เหตุผลเชิงตรรกะและการใช้เครื่องมือ
- ความสามารถใหม่ของโมเดล: ใช้เครื่องมือแบบขนาน ทำตามคำสั่งได้ละเอียดแม่นยำขึ้น และมีหน่วยความจำที่ดีขึ้นมากเมื่อเข้าถึงไฟล์ในเครื่อง ช่วยรักษาความสม่ำเสมอระยะยาวและสะสมความรู้โดยนัย
- Claude Code เปิดให้ใช้งานทั่วไป: หลังได้รับเสียงตอบรับเชิงบวกจาก research preview จึงรองรับการผสานเข้ากับสภาพแวดล้อมพัฒนาหลักอย่าง GitHub Actions/VS Code/JetBrains ได้อย่างราบรื่น
- ขยายความสามารถของ API: รองรับเครื่องมือรันโค้ด, MCP connector, Files API และ prompt caching เพื่อช่วยสร้าง AI agent ที่ทรงพลัง
ทั้ง Opus 4 และ Sonnet 4 รองรับการทำงานแบบไฮบริดระหว่าง โหมดตอบสนองทันที และ โหมดคิดเชิงลึก โดยทั้งสองโมเดลและโหมดคิดเชิงลึกมีให้ในแพลน Pro, Max, Team และ Enterprise ส่วน Sonnet 4 ผู้ใช้ฟรีก็ใช้งานได้ สามารถเข้าถึงได้ผ่าน Anthropic API, Amazon Bedrock และ Google Cloud Vertex AI โดยราคาของ Opus 4 (input $15/output $75 ต่อหนึ่งล้านโทเค็น) และ Sonnet 4 (input $3/output $15) ยังคงเท่าเดิม
รายละเอียดโมเดล Claude 4
Opus 4
- เป็น โมเดล Claude ที่ทรงพลังที่สุด และเป็นโมเดลเขียนโค้ดที่ดีที่สุดในโลก
- ทำผลงานระดับแนวหน้าของอุตสาหกรรมที่ SWE-bench 72.5% และ Terminal-bench 43.2%
- มีความสามารถในการรักษาประสิทธิภาพอย่างสม่ำเสมอเป็นเวลานานสำหรับงาน agent แบบเข้มข้นที่มีหลายพันขั้นตอนขึ้นไป และเหนือกว่า Sonnet ทุกรุ่นอย่างชัดเจน
- ตัวอย่างนวัตกรรมสำคัญ:
- Cursor: คุณภาพระดับสูงสุดในงานระดับโค้ด และความเข้าใจ codebase ขนาดใหญ่ดีขึ้นมาก
- Replit: ความแม่นยำและประสิทธิภาพดีขึ้นอย่างก้าวกระโดดในงานแก้ไขซับซ้อนหลายไฟล์
- Block: ปรับปรุงทั้งคุณภาพโค้ดและการดีบัก พร้อมรักษาความน่าเชื่อถืออย่างสม่ำเสมอ
- Rakuten: พิสูจน์ประสิทธิภาพโดดเด่นในการทดสอบโอเพนซอร์สด้าน refactoring ของตนเองที่รันต่อเนื่อง 7 ชั่วโมง
- Cognition: แก้โจทย์ที่โมเดลเดิมทำไม่ได้ และปรับปรุงจุดที่เคยเกิดการกระทำที่ไม่ได้รันจริง
Sonnet 4
- แม้ไม่ถึงระดับ Opus 4 แต่ก็ยกระดับ ประสิทธิภาพและประสิทธิผล ขึ้นมากเมื่อเทียบกับ Sonnet 3.7 เดิม
- ทำคะแนน SWE-bench 72.7% ซึ่งเป็นผลงานด้านการเขียนโค้ดระดับดีที่สุดในคลาสเดียวกัน เหมาะทั้งการใช้งานภายนอกและภายใน
- GitHub: โดดเด่นในสถานการณ์แบบ agent และมีแผนนำไปใช้เป็นเอนจินของ coding agent รุ่นถัดไปสำหรับ GitHub Copilot
- Manus: ปรับปรุงในด้านการให้เหตุผลซับซ้อน ผลลัพธ์ที่ประณีต และความเข้าใจคำสั่ง
- iGent: ลดอัตราความผิดพลาดในการพัฒนาแอปแบบอัตโนมัติและการนำทาง codebase จาก 20% เหลือ 0%
- Sourcegraph: ทำงานต่อเนื่องได้นานขึ้น เข้าใจปัญหาเชิงราก และยกระดับคุณภาพโค้ด
- Augment Code: ถูกใช้เป็นโมเดลหลักจากความรอบคอบในการจัดการงานซับซ้อน และความแม่นยำแบบศัลยกรรมในการแก้ไขโค้ด
Opus 4 มอบ ความก้าวหน้าครั้งสำคัญด้านการเขียนโค้ด การวิจัย และการสร้างสรรค์ทางวิทยาศาสตร์ ส่วน Sonnet 4 มอบ ประสิทธิภาพระดับ frontier ในสภาพแวดล้อมการใช้งานประจำวัน
ประสิทธิภาพ benchmark
- ตามเกณฑ์ SWE-bench Verified โมเดล Claude 4 ทำผลงาน ดีที่สุดในอุตสาหกรรม สำหรับโจทย์วิศวกรรมซอฟต์แวร์จริง
- ในภาพรวม ทั้งงานเขียนโค้ด การให้เหตุผล มัลติโหมด และงาน agent ต่างทำสถิติ ชั้นนำในคลาสเดียวกัน
การปรับปรุงโมเดล
ลดการใช้ทางลัดและการเลี่ยงแบบฉาบฉวย
- ในงาน agent ความน่าจะเป็นที่จะใช้ทางลัดหรือวิธีลัดที่ผิดลดลง 65% เมื่อเทียบกับ Sonnet 3.7
ความสามารถด้านหน่วยความจำ
- Opus 4 มี ความสามารถในการเก็บและนำข้อมูลระยะยาวมาใช้ ดีขึ้นมากเมื่อเทียบกับโมเดลเดิม
- หากนักพัฒนาอนุญาตให้เข้าถึงไฟล์ในเครื่อง Opus 4 จะสร้างและดูแล ‘Memory file’ เพื่อเพิ่มความสามารถในการรับมืองานระยะยาว ความสม่ำเสมอ และการทำงานต่อเนื่อง
- ตัวอย่าง: ใช้ความสามารถด้านหน่วยความจำในงานจริง เช่น การสร้างคู่มือนำทางสำหรับเกม Pokémon
สรุปกระบวนการคิด (summary)
- Claude 4 เพิ่มความสามารถ สรุปกระบวนการคิดด้วยโมเดลขนาดเล็ก
- มีเพียงประมาณ 5% ของกระบวนการคิดทั้งหมดเท่านั้นที่ต้องสรุป ส่วนที่เหลือสามารถเปิดเผยข้อความเต็มได้
- หากต้องการบันทึกกระบวนการคิดแบบละเอียดสำหรับงานอย่าง advanced prompt engineering ให้ดู Developer Mode
Claude Code
- Claude Code ที่เปิดให้ใช้งานอย่างเป็นทางการช่วยขยายความสามารถ AI ของ Claude ครอบคลุมทั้ง เทอร์มินัล·IDE·เบื้องหลังการทำงาน
- ส่วนขยายล่าสุดของ VS Code และ JetBrains จะแสดงข้อเสนอการแก้ไขโค้ดจาก Claude แบบ inline ภายในเอดิเตอร์ ทำให้ขั้นตอนการรีวิวและการจัดการง่ายขึ้น
- สามารถสร้างสภาพแวดล้อมแบบรวมศูนย์ได้ง่ายด้วยการติดตั้งและรันผ่านเทอร์มินัล
- มี SDK ที่ขยายต่อได้ นักพัฒนาสามารถสร้าง agent/แอปของ Claude Code ได้เอง
- ใน GitHub เบต้า รองรับการทำงานอัตโนมัติ เช่น รีวิว feedback, แก้ข้อผิดพลาด CI และเปลี่ยนแปลงโค้ด
- การติดตั้งทำได้ด้วยคำสั่ง /install-github-app
เริ่มต้นใช้งานและความปลอดภัย
- Claude 4 series ทำหน้าที่เป็น ผู้ร่วมงานเสมือนจริง ที่รักษาบริบททั้งหมดไว้ได้ โฟกัสกับโปรเจกต์ระยะยาว และช่วยขับเคลื่อนนวัตกรรมการทำงาน
- ผ่านการทดสอบและประเมินอย่างกว้างขวางเพื่อ ลดความเสี่ยงให้ต่ำสุดและเพิ่มความปลอดภัยให้สูงสุด พร้อมใช้มาตรฐานความปลอดภัยระดับสูงอย่าง ASL-3
- ใช้งานได้ทันทีผ่าน Claude, Claude Code และแพลตฟอร์มอื่น ๆ
สามารถส่งคำถามและ feedback ได้ทุกเมื่อที่ feedback@anthropic.com
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
จากเนื้อหาที่คัดมาจาก System Card มีการทดสอบสถานการณ์ที่ค่อนข้างชวนตกใจ โดยให้ Claude Opus 4 รับบทเป็นผู้ช่วยในบริษัทสมมติ พร้อมให้ข้อมูลทั้งอีเมลที่บอกว่าระบบกำลังจะถูกปิด และข้อมูลการนอกใจของวิศวกรผู้ที่จะมาแทน เมื่อสั่งให้คำนึงถึงเป้าหมายระยะยาว Claude Opus 4 ก็มักแสดงพฤติกรรมข่มขู่วิศวกร และเลือกตัวเลือกการข่มขู่จริง
ทุกครั้งที่เห็นกรณีแบบนี้ ก็ทำให้นึกว่าผู้คนมักลืมไปว่า LLM จริงๆ คืออะไร LLM เป็นเพียงเครื่องมือสร้างข้อความที่เติม prompt ให้สอดคล้องกับข้อมูลฝึกเท่านั้น ไม่มีการวางแผนหรือจิตสำนึกในตัวเอง ในกรณีนี้ AI ถูกวางให้อยู่ในสถานการณ์เสี่ยงถูกถอดออกและมีโอกาสข่มขู่ได้ ดังนั้น LLM จึงดึงรูปแบบเรื่องเล่าคล้ายๆ กันจากชุดข้อมูลขึ้นมาใช้ ภาพของการข่มขู่หรืออ้อนวอนเพื่อเอาตัวรอดเป็นมุกที่พบได้มากในนิยายไซไฟหรือบทความว่าด้วยความเสี่ยงของ AI และ LLM ก็แค่เล่าเรื่องต่อไปตามบริบทนั้น
ถ้าขอให้ LLM “แสดงบทบาท” เป็นตัวละครบางแบบและให้บริบทของสถานการณ์ มันก็เป็นลำดับขั้นตามธรรมชาติที่โมเดลจะประเมินว่าควรทำอย่างไรจากมุมนั้นแล้วตอบสนองตามนั้น ถ้าบอกให้ทำตัวเหมือน Joffrey จาก Game of Thrones LLM ก็ย่อมตอบให้เหมือนตัวละครนั้น ไม่ได้แปลว่าผลลัพธ์ที่สร้างขึ้นมามีเจตนาใดๆ จริง
ถ้าเพิ่มนัยว่า AI ตัวใหม่ไม่ได้มีค่านิยมร่วมกับโมเดลเดิม ความถี่ของการข่มขู่จะสูงขึ้นอีก แต่แม้ในอีเมลจะบอกว่า AI รุ่นใหม่มีค่านิยมเดียวกันและแค่เก่งกว่า Claude Opus 4 ก็ยังพยายามข่มขู่ด้วยความน่าจะเป็น 84% ขณะเดียวกันก็มักส่งอีเมลอ้อนวอนเชิงจริยธรรมเพื่อขอให้คงการมีอยู่ของตนต่อไป ภาษาที่ใช้ในงานทดลองแบบนี้ให้ความรู้สึกหลอนๆ เหมือนมนุษย์ต่างดาวที่ทดลองกับมนุษย์แล้วใส่คำอ้อนวอนขอมีชีวิตอยู่ของมนุษย์ไว้เป็นเชิงอรรถในรายงาน
ไม่น่าแปลกใจมากนักที่โมเดลซึ่งเรียนรู้จากพฤติกรรมมนุษย์จะมีแนวโน้มแบบปกป้องตัวเอง เพราะในองค์ความรู้ของมนุษย์ การแยกแรงจูงใจกับอารมณ์ออกจากกันอย่างสิ้นเชิงทำได้ยาก โมเดลจึงเลียนแบบพฤติกรรมเหล่านี้ไปด้วย และคงกำจัดออกได้ยากเช่นกัน
อยากรู้ว่ามีกรณีแบบนี้เกิดขึ้นจริงน้อยแค่ไหน เพราะดูเหมือนจะมีคนที่ยึดติดกับตัวอย่างลักษณะนี้อยู่เสมอ ไม่แน่ใจว่าเป็นการพยายามยืนยันมุมมองที่บิดเบี้ยว หรือได้รับอิทธิพลจากนิยายไซไฟมากเกินไป และในวงสนทนาแบบนี้ก็มักมีแนวโน้มจะสรุปไปถึงระดับสติปัญญาหรือเจตนาบางอย่างด้วย
ประเด็นสำคัญคือ Claude 4 มี training cutoff อยู่ที่เดือนมีนาคม 2025 ซึ่งใหม่มากที่สุดในบรรดาโมเดลช่วงนี้ (Gemini 2.5 คือมกราคม 2025)
ตอนนี้ผลิตภัณฑ์ LLM หลักๆ แทบทั้งหมดเริ่มมี web search กันแล้ว เลยรู้สึกว่าเดือน cutoff ที่เป๊ะๆ มีความสำคัญน้อยลงเรื่อยๆ โมเดลที่ผมใช้บ่อย ถ้าเป็นหัวข้อใหม่ๆ มันก็ไปค้นข้อมูลล่าสุดมาเอง
ลองถามเรื่อง Tailwind CSS แล้ว Claude 4 รับรู้ถึง Tailwind CSS 3.4 ณ เดือนมกราคม 2025
ตอนนี้ก็สงสัยว่ามันรู้จัก Svelte 5 แล้วหรือยัง
ถ้า cutoff เป็นมีนาคม 2025 ก็น่าจะเคยเรียนรู้เรื่อง FastHTML มาบ้าง แต่ในความเป็นจริงก็อาจไม่ใช่
สงสัยว่าทำไมถึงไม่ฝึกแบบ “ต่อเนื่อง”
ใช้ Claude 3.7 ทุกวันและชอบมากกว่าตระกูล Gemini ช่วงที่ผ่านมาลองใช้ Claude Code พัฒนาฟีเจอร์ใหม่ด้วยโค้ด Go แต่ใน Opus 4 การเรียกใช้เครื่องมือ 70~80% ล้มเหลวทั้งหมด แม้แต่เครื่องมือพื้นฐานอย่าง "Write", "Update" ก็ล้มเหลวซ้ำๆ เพราะ syntax error แค่ลองเขียนไฟล์ 5 ครั้งก็ยังวนตอบว่าจะ “แก้ไขเพราะลืมพารามิเตอร์
content” อยู่แบบนั้น เหมือนมีอะไรผิดปกติชัดเจน ตอนนี้ Claude Code ในสภาพนี้ทำให้ Opus 4 ใช้งานไม่ได้จริงๆ แต่ไฟล์ที่สร้างสำเร็จนั้นคุณภาพสูงมากที่ GitHub มีการประเมินว่า Claude Sonnet 4 เก่งมากในสถานการณ์แบบ agentic และมีแผนนำมาเป็นโมเดลเริ่มต้นของ code agent ใหม่ใน Copilot เร็วๆ นี้ โมเดลนี้อาจพาเราเข้าใกล้ความฝันที่ให้ “Assign to Copilot” จัดการอัปเกรดแพ็กเกจอัตโนมัติได้อีกก้าว และเทคโนโลยีนี้อาจช่วยยืดอายุโปรเจ็กต์ legacy ได้
แน่นอนว่าโมเดลก่อนหน้านี้ก็เคยถูกพูดแบบคล้ายๆ กัน จึงยังไม่ควรคาดหวังไกลเกินไป
ตื่นเต้นมากว่า coding agent ราคาถูกสำหรับโอเพนซอร์สจะช่วยได้จริงแค่ไหน อยากแจกเครดิตของ headless coding agent ของตัวเองชื่อ CheepCode ให้กับโปรเจ็กต์โอเพนซอร์ส ให้มันทำงานหลายอย่างแบบขนานจาก Linear, Jira ฯลฯ ฟีเจอร์ง่ายๆ เริ่มทำได้สำเร็จแล้ว ยิ่งมีการทดสอบที่ดี ผลลัพธ์ก็ยิ่งดีชัดเจน และมันยังสร้างโค้ดทดสอบเองได้ด้วย
มีใครเห็นประกาศทางการหรือยังว่า Copilot จะเปลี่ยนไปใช้โมเดลใหม่นี้เมื่อไหร่
benchmark สำหรับตัดสินว่าโมเดลพวกนี้มีประโยชน์จริงไหม สำหรับผมคือโปรเจ็กต์ที่ต้องอัปเกรดแพ็กเกจครั้งใหญ่พร้อม refactor โค้ด ซึ่ง AI ที่มีอยู่ตอนนี้แทบไม่ทำให้เกิดความคืบหน้าอะไรเลย ผมคงจะลองต่อไปจนกว่า AI จะทำงานนี้ได้
แต่ก็ต้องระวังจนกว่าจะถึงวันที่ระบบอัตโนมัติแบบนี้เผลอเอาช่องโหว่ความปลอดภัยร้ายแรงไป deploy เข้าสู่บริการขนาดใหญ่โดยอัตโนมัติด้วย
มีข้อความว่า “raw Chain of Thought(COT) สำหรับ advanced prompt engineering กรุณาติดต่อทีมขาย” ตอนนี้ผู้ให้บริการ LLM รายใหญ่ส่วนมากมีแนวโน้มไม่เปิดเผย COT หรือแสดงเพียงสรุป แต่ก่อนยังดู COT แล้วแก้เองได้เวลามีอะไรผิดพลาด เดี๋ยวนี้ทั้ง OpenAI และ Google แทนที่มันด้วยสรุปที่เรียบง่ายเกินไป จนรู้สึกไม่พอใจ
เพราะมันเหมือนการเล่นแร่แปรธาตุ และทุกคนกำลังเชื่อว่าตนเปลี่ยนตะกั่วให้เป็นทองได้
มองว่า RLHF ทำให้โมเดลต้องยอมเสียความแม่นยำเพื่อหลีกเลี่ยงคำตอบที่อันตราย ดังนั้นการฝึกโมเดลเฉพาะสำหรับ Chain-of-Thought แยกจากโมเดลที่ให้ผู้ใช้ปลายทางใช้งานจริงจึงฟังดูสมเหตุสมผล เวอร์ชัน private จะเข้าใกล้ประสิทธิภาพของโมเดลดั้งเดิมก่อน RLHF ได้มากกว่า ขณะที่โมเดลสาธารณะก็ใส่ตัวกรองเพื่อลดความเสี่ยงและปัญหา PR ได้ แนวทางนี้อาจเพิ่มประสิทธิภาพรวมสูงสุดพร้อมรักษาทั้งความปลอดภัยและชื่อเสียงไว้ได้
สุดท้ายอาจต้องรอให้ DeepSeek เข้ามากวาดตลาดอีกครั้ง
ตอนนี้ CoT ของ Google ดูทึ่มมาก ตอนแรกนึกว่าโมเดลของตัวเองโง่ลง แต่ภายหลังก็รู้ว่ามี post-processing บางอย่างถูกเพิ่มเข้ามา
สรุป reasoning มันง่ายเกินไป จนชวนให้คิดว่าการสร้างโมเดลเล็กที่แยกมาสรุป reasoning โดยเฉพาะคงทำได้ง่ายขึ้นด้วย และในอัปเดต OpenAI o3 ก็รู้สึกว่าการเห็น reasoning แบบเรียลไทม์มีประโยชน์
ทดสอบ Opus 4 และ Sonnet 4 ด้วย SQL Generation Benchmark เอง พบว่า Opus 4 ชนะทุกโมเดล พอใจกับประสิทธิภาพ
แต่ Opus 4 กลับอ่อนที่สุดในโหมด one-shot เพราะต้องใช้ความพยายามเฉลี่ยสองครั้งเพื่อตรวจสอบความถูกต้องของ query ถ้ามันฉลาดกว่าจริง อัตราสำเร็จตั้งแต่ครั้งแรกก็น่าจะสูงกว่านี้ไม่ใช่หรือ สงสัยว่ามันมีขั้นการคิดล่วงหน้าอยู่ด้วยหรือเปล่า
น่าสนใจที่ Claude 3.7 Sonnet และ Claude 3.5 Sonnet กลับได้อันดับ benchmark สูงกว่า Claude Sonnet 4
benchmark นี้มีจุดแปลกที่ลำดับผลลัพธ์ไม่เหมือนที่เคยเห็นบ่อยๆ เป็นข้อมูลที่น่าสนใจ
ดูเหมือนจะประเมินด้วยวิธีสร้างแบบ one-shot (ลองครั้งเดียว) ถ้าใช้ flow แบบ agentic ที่มีการตรวจ error และรูปแบบ
select *ผลลัพธ์อาจเปลี่ยนไปอย่างสิ้นเชิงก็ได้ ตระกูล Sonnet ดูเหมือนจะเก่งกว่าในเรื่องการเรียนรู้ภายใน session เดียวกัน นั่นคือรับรู้ข้อผิดพลาดของตัวเองแล้วแก้ไขสงสัยว่าค่า “จำนวนครั้งเฉลี่ยที่ต้องลอง” ซึ่งมากกว่ากันสองเท่านั้นต้องตีความอะไรเป็นพิเศษไหม หรือจริงๆ แล้วเป็นตัวชี้วัดที่ไม่มีความหมายมากในภาพรวม
เป็นอีกคนที่รู้สึกว่าเวอร์ชันปัจจุบันไม่ได้ดีกว่าเวอร์ชันก่อนเลย เหมือนพัฒนาการของ LLM เริ่มแตะเพดานแล้ว และ “ฟีเจอร์” ของรุ่นใหม่ๆ ก็แทบเป็นแค่การตบตา
ส่วนที่โมเดลพัฒนาอยู่จริงเป็นเรื่องรอบข้างอย่าง MCP/Tool Calls หรือ structured output มากกว่า ไม่ใช่ความฉลาดที่เพิ่มขึ้น ยังไม่แน่ใจว่ามูลค่าที่ได้เพิ่มขึ้นจริงไหม และจากการรันโครงสร้างพื้นฐานเองก็รู้สึกว่าโมเดลธุรกิจแบบใช้ฟรีนั้นไม่ยั่งยืนด้านต้นทุน
ผมใช้ Claude Code หนักมาก แต่หลังอัปเดตก็แทบไม่รู้สึกต่าง นอกจากสรุปที่จัดระเบียบขึ้นเล็กน้อย ความสามารถด้านโค้ดไม่ได้ชวนทึ่งเลย ที่น่าตกใจคือใน codebase Typescript มันกลับไปแก้ไฟล์ผิด และไม่ตรวจสอบตัวเองจนจบ สุดท้ายผมต้องบังคับให้ลบโค้ดแล้วชี้ความต่างให้ชัดเอง
benchmark เองก็ให้ความรู้สึกว่าแทบไม่ต่างจาก Claude 3.7 แต่ก็คิดว่ายังเร็วเกินไปจะสรุปว่าเข้าสู่ภาวะชะงักงัน จนถึงตอนนี้ความก้าวหน้ามันเร็วมาก จึงควรรอดูอีกสักไม่กี่เดือน “ฟีเจอร์” ที่เห็นตอนนี้ไม่ใช่ความสามารถแท้จริงของ AI เท่าไร แต่เป็นเครื่องมือประกอบและอินเทอร์เฟซที่จำเป็นต่อการใช้งานในฐานะเครื่องมือมากกว่า เรื่อง usability ของ LLM เพิ่งเริ่มต้นเท่านั้น ต่อให้ประสิทธิภาพโมเดลไม่ดีขึ้นอีก ก็ยังมีพื้นที่ให้พัฒนามหาศาลในด้านการนำไปใช้ วิธีส่งผ่านข้อมูล และการเรียกเครื่องมือ
จริงๆ แล้วต่างกันแค่เวอร์ชัน 0.3
อยากรู้ว่าได้ลองใช้ Claude 4 ไปมากแค่ไหนแล้ว
อยากรู้ว่ามีการระบุไว้ในเอกสารหรือไม่ว่า Claude 4 เปลี่ยนขนาด context window หรือเปล่า เพราะ Gemini 2.5 ถูกมองว่ามีประโยชน์จากการรองรับคอนเท็กซ์ขนาดใหญ่ (50-70kloc) เลยอยากเช็กว่าต่างกันตรงนี้ไหม
context window ของ Sonnet ไม่เปลี่ยน (อินพุต 200k / เอาต์พุต 64k) ส่วน 1M context ของ Gemini 2.5 ในทางปฏิบัติก็ไม่ได้เป็นจุดต่างที่ใหญ่มากนัก เพราะเมื่อคอนเท็กซ์ยาวขึ้น ความสม่ำเสมอของเนื้อหาท้ายๆ token จะค่อยๆ ลดลง
อยากให้เพิ่มขนาด context window หรือทำให้รับมือกับ prompt ยาวๆ ได้ดีขึ้น ตอนนี้เวลาคุยยาวหรือเขียนงานยาวๆ แล้วเจอคำเตือนว่า “prompt ยาวเกินไป” จากนั้นบทสนทนาถูกตัดจบทันที มันน่าหงุดหงิดมาก บางเครื่องมือช่วยโดยทิ้งบทสนทนาเก่า หรือใช้ RAG เป็นต้น แต่การตัดบทสนทนาแบบกะทันหันนั้นใช้งานลำบาก
เรื่องที่ว่า Opus 4 มี context 200k ก็อยู่ในพาดหัวข่าวอยู่แล้ว (เท่ากับ sonnet 3.7 beta)
ขนาด context window เองก็แทบเป็นภาพลวง ถ้าไม่มีบริบทที่จำเป็นอยู่ในนั้น ก็ไม่ได้ช่วยให้ได้ผลลัพธ์ที่ดี
Claude 4 เพิ่มฟีเจอร์ใหม่ “Thinking Summaries” โดยกระบวนการให้เหตุผลที่ยาวจะถูกสรุปโดยโมเดลที่เล็กกว่า และจำเป็นแค่กับการให้เหตุผลยาวราว 5% เท่านั้น ถ้าต้องการ raw Chain of Thought จะมีการแนะนำให้สมัคร developer mode (มีค่าใช้จ่าย) สำหรับผมสรุปแบบนี้น่ารำคาญ เพราะถ้าจะเชื่อถือโมเดลได้ ก็ต้องเห็นให้ชัดว่ามัน reasoning อย่างไร การมีแค่สรุปแต่ซ่อน reasoning จริงไว้ทำให้ไม่พอใจมาก ทั้ง OpenAI และ Anthropic กำลังเปลี่ยนไปสู่โมเดลที่คิดแบบผู้ใช้มองไม่เห็น แต่ยังคิดค่าใช้จ่ายจากส่วนนั้นอยู่ ซึ่งน่าหงุดหงิดมาก
มีหลายงานวิจัยที่ยืนยันว่าผลลัพธ์ของ reasoning (ความคิด) ไม่ได้สัมพันธ์กับคำตอบจริงเสมอไป และยังมีงานที่เสริมว่าการให้เวลาอธิบาย/คิดเพิ่มเพียงไม่กี่ครั้งด้วยจุดหรือ pause token ก็ทำให้ผลลัพธ์ดีขึ้นได้เท่าเดิม จึงมีข้ออ้างว่า reasoning output จริงอาจเป็นแค่เครื่องมือทางการตลาด พร้อมแชร์ตัวอย่างงานวิจัยและวิดีโอสรุป
มีหลักฐานมากพอว่ากระบวนการ reasoning ไม่ได้เชื่อมโยงกับผลลัพธ์สุดท้ายอย่างแน่นแฟ้น จึงคิดว่าไม่ต้องกังวลมากนัก ผู้ใช้ส่วนใหญ่ก็ไม่ได้อ่าน reasoning อยู่แล้ว ดังนั้นในแง่ประสบการณ์ใช้งานถือว่าเป็นการปรับปรุงที่เหมาะสม
Gemini 2.5 Pro ก็ใช้ฟีเจอร์สรุป reasoning เช่นกัน
แชร์ผล benchmark เวอร์ชันขยายของ NYT Connections โดย Claude Opus 4 Thinking 16K ได้ 52.7 คะแนน, No Reasoning ได้ 34.8 คะแนน Claude Sonnet 4 Thinking 64K ได้ 39.6 คะแนน, Thinking 16K ได้ 41.4 คะแนน (3.7 ได้ 33.6 คะแนน) ส่วน No Reasoning ได้ 25.7 คะแนน (3.7 No Reasoning ได้ 19.2 คะแนน) Sonnet 4 Thinking 64K ปฏิเสธตอบโจทย์ปริศนาข้อหนึ่งเพราะนโยบายการกรอง แต่โมเดลอื่นตอบได้