เปิดตัว Claude 4: Opus 4 และ Sonnet 4

(anthropic.com)

1 คะแนน โดย GN⁺ 2025-05-23 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Anthropic เปิดตัว Claude Opus 4 และ Claude Sonnet 4 โดยชูงานเขียนโค้ด การให้เหตุผลขั้นสูง และงาน AI agent เป็นขอบเขตสมรรถนะหลักของ Claude รุ่นถัดไป
ทั้งสองโมเดลเป็น โมเดลไฮบริด ที่สลับระหว่างการตอบกลับแทบจะทันทีและการให้เหตุผลเชิงลึกได้ พร้อมรองรับการใช้เครื่องมืออย่างการค้นหาเว็บระหว่าง extended thinking และการรันเครื่องมือแบบขนาน
Opus 4 ทำได้ 72.5% บน SWE-bench และ 43.2% บน Terminal-bench ส่วน Sonnet 4 ทำได้ 72.7% บน SWE-bench พร้อมปรับปรุงด้านการเขียนโค้ด การให้เหตุผล และการทำตามคำสั่งเมื่อเทียบกับ Sonnet 3.7
Claude Code เปิดให้ใช้งานจริงแล้ว โดยขยายไปยังเทอร์มินัล, VS Code, JetBrains, GitHub Actions และ SDK และสามารถช่วยตอบกลับรีวิว PR, แก้ข้อผิดพลาดใน CI และแก้ไขโค้ดได้
ใน API มีการเพิ่มเครื่องมือรันโค้ด, MCP connector, Files API และ prompt cache สูงสุด 1 ชั่วโมง เพื่อให้นักพัฒนาสร้าง AI agent ที่ทรงพลังยิ่งขึ้นได้

เปิดตัวโมเดล Claude 4

Anthropic เปิดตัว Claude Opus 4 และ Claude Sonnet 4 เป็นโมเดลรุ่นถัดไปของ Claude
จุดเน้นหลักของทั้งสองโมเดลคือการเขียนโค้ด การให้เหตุผลขั้นสูง และงาน AI agent
Claude Opus 4 เป็นโมเดลสำหรับเขียนโค้ดที่ให้ประสิทธิภาพต่อเนื่องในงานซับซ้อน งานที่ใช้เวลานาน และเวิร์กโฟลว์แบบ agent
Claude Sonnet 4 เป็นรุ่นอัปเกรดของ Claude Sonnet 3.7 ที่ยกระดับประสิทธิภาพด้านการเขียนโค้ด การให้เหตุผล และความแม่นยำในการทำตามคำสั่ง

รูปแบบการให้บริการและราคา

Claude Opus 4 และ Sonnet 4 รองรับทั้งการตอบกลับที่แทบจะทันทีและโหมด extended thinking สำหรับการให้เหตุผลที่ลึกขึ้น
แผน Claude แบบ Pro, Max, Team และ Enterprise รวมทั้งสองโมเดลและ extended thinking
Sonnet 4 มีให้ผู้ใช้ฟรีใช้งานได้ด้วย
ทั้งสองโมเดลให้บริการผ่าน Anthropic API, Amazon Bedrock และ Google Cloud Vertex AI
ราคายังคงเท่าเดิมกับโมเดล Opus และ Sonnet รุ่นก่อน
- Opus 4: $15/$75 ต่อ 1 ล้านโทเค็นอินพุต/เอาต์พุต
- Sonnet 4: $3/$15 ต่อ 1 ล้านโทเค็นอินพุต/เอาต์พุต

ประสิทธิภาพด้านการเขียนโค้ดและงานระยะยาวของ Opus 4

Claude Opus 4 เป็นโมเดลที่ทรงพลังที่สุดของ Anthropic โดยทำได้ 72.5% บน SWE-bench และ 43.2% บน Terminal-bench
ให้ประสิทธิภาพต่อเนื่องในงานระยะยาวที่ต้องใช้การทำงานอย่างมีสมาธิหลายพันขั้นตอน และสามารถทำงานต่อเนื่องได้นานหลายชั่วโมง
Cursor มองว่า Opus 4 เป็นโมเดลล้ำสมัยที่สุดด้านการเขียนโค้ด และประเมินว่ามีความก้าวหน้าอย่างมากในการทำความเข้าใจ codebase ที่ซับซ้อน
Replit ระบุว่ามีความแม่นยำสูงขึ้นในการเปลี่ยนแปลงที่ซับซ้อนซึ่งครอบคลุมหลายไฟล์
Block อธิบายว่าใน agent ภายในชื่อ codename goose นั้น Opus 4 เป็นโมเดลแรกที่รักษาทั้งประสิทธิภาพและความน่าเชื่อถือไว้ได้ พร้อมยกระดับคุณภาพโค้ดระหว่างการแก้ไขและดีบัก
Rakuten ยืนยันว่า Opus 4 แสดงประสิทธิภาพต่อเนื่องได้ โดยรันงานรีแฟกเตอร์โอเพนซอร์สที่ท้าทายแบบอิสระนาน 7 ชั่วโมง
Cognition ประเมินว่า Opus 4 โดดเด่นในงานสำคัญที่โมเดลก่อนหน้าพลาดไป และโจทย์ซับซ้อนที่โมเดลอื่นแก้ไม่ได้

ตำแหน่งของ Sonnet 4

Claude Sonnet 4 เป็นโมเดลที่ปรับปรุงจาก Sonnet 3.7 และทำได้ 72.7% บน SWE-bench
ตั้งเป้าสมดุลระหว่างประสิทธิภาพและประสิทธิผลสำหรับกรณีใช้งานทั้งภายในและภายนอก พร้อมปรับปรุงความสามารถในการ steer เพื่อควบคุมการนำไปใช้งาน
แม้จะไม่เทียบเท่า Opus 4 ในแทบทุกด้าน แต่ก็ให้การผสมผสานระหว่างความสามารถและความใช้งานได้จริง
GitHub มีแผนนำ Sonnet 4 ไปใช้เป็นโมเดลขับเคลื่อน coding agent ตัวใหม่ของ GitHub Copilot
Manus เน้นย้ำการปรับปรุงด้านการทำตามคำสั่งที่ซับซ้อน การให้เหตุผลที่ชัดเจน และผลงานที่มีความสวยงาม
iGent ระบุว่าการพัฒนาแอปหลายฟังก์ชันแบบอัตโนมัติและการสำรวจ codebase ดีขึ้น และข้อผิดพลาดระหว่างการสำรวจลดลงจาก 20% เหลือเกือบ 0
Sourcegraph ประเมินว่า Sonnet 4 รักษาทิศทางได้นานขึ้น เข้าใจปัญหาได้ลึกขึ้น และให้คุณภาพโค้ดที่สละสลวยกว่าเดิม
Augment Code เลือก Sonnet 4 เป็นตัวเลือกอันดับแรกสำหรับโมเดลเริ่มต้น ด้วยเหตุผลเรื่องอัตราความสำเร็จที่สูงขึ้น การแก้ไขโค้ดที่แม่นยำขึ้น และความรอบคอบในงานที่ซับซ้อน

การปรับปรุงความสามารถของโมเดล

ทั้งสองโมเดลสามารถใช้เครื่องมือได้แม้ระหว่าง extended thinking
- ตัวอย่างเช่น สามารถใช้ web search ได้
- Claude สามารถสลับระหว่างการให้เหตุผลและการใช้เครื่องมือเพื่อปรับปรุงคำตอบ
รองรับ การรันเครื่องมือแบบขนาน และการทำตามคำสั่งที่แม่นยำยิ่งขึ้น
เมื่อนักพัฒนาเปิดให้เข้าถึงไฟล์ในเครื่อง โมเดลจะแสดง ความสามารถด้านความจำ โดยดึงและเก็บข้อเท็จจริงสำคัญไว้เพื่อรักษาความต่อเนื่องและความรู้โดยนัย
พฤติกรรมที่จบงานด้วยทางลัดหรือการอาศัยช่องโหว่ลดลงเมื่อเทียบกับ Sonnet 3.7
- โดยเฉพาะในงาน agent ที่เสี่ยงต่อทางลัดและช่องโหว่ ทั้งสองโมเดลมีโอกาสแสดงพฤติกรรมดังกล่าวน้อยกว่า Sonnet 3.7 ถึง 65%
Opus 4 เด่นในการสร้างและดูแล memory files ที่เก็บข้อมูลสำคัญในแอปพลิเคชันที่นักพัฒนาเปิดให้เข้าถึงไฟล์ในเครื่อง
- ตัวอย่างเช่น สร้าง Navigation Guide ระหว่างเล่น Pokémon
- ช่วยปรับปรุงการรับรู้งานระยะยาว ความสม่ำเสมอ และประสิทธิภาพงานแบบ agent

สรุปกระบวนการคิดและ Developer Mode

โมเดล Claude 4 เพิ่ม thinking summaries ที่ย่อกระบวนการคิดยาว ๆ ด้วยโมเดลขนาดเล็กกว่า
สรุปแบบนี้จำเป็นเพียงประมาณ 5% ของกรณีทั้งหมด
กระบวนการคิดส่วนใหญ่สั้นพอที่จะแสดงทั้งหมดได้
ผู้ใช้ที่ต้องการ raw chain of thought สำหรับงาน prompt engineering ขั้นสูง สามารถสอบถาม Developer Mode ใหม่ได้ผ่าน contact sales

Claude Code เปิดให้ใช้งานจริง

Claude Code เปิดให้ใช้งานจริงแล้ว โดยขยาย Claude ไปยังเทอร์มินัล, IDE และเวิร์กโฟลว์การรันเบื้องหลัง
ส่วนขยายเบต้าใหม่สำหรับ VS Code และ JetBrains ผสาน Claude Code เข้ากับ IDE โดยตรง
- การแก้ไขที่ Claude แนะนำจะแสดงแบบอินไลน์ภายในไฟล์
- ผู้ใช้สามารถรีวิวและติดตามการเปลี่ยนแปลงได้จากภายในเอดิเตอร์ที่คุ้นเคย
- เมื่่อรัน Claude Code ใน IDE terminal ระบบจะติดตั้งส่วนขยายให้
รองรับ งานเบื้องหลัง ผ่าน GitHub Actions
ยังเปิดตัว Claude Code SDK ที่ขยายต่อได้
- นักพัฒนาสามารถใช้ core agent แบบเดียวกับ Claude Code เพื่อสร้าง agent และแอปพลิเคชันของตนเองได้
Claude Code on GitHub เปิดให้ใช้งานในสถานะเบต้า
- สามารถแท็ก Claude Code ใน PR เพื่อช่วยตอบกลับฟีดแบ็กจากผู้รีวิว แก้ข้อผิดพลาดใน CI และแก้ไขโค้ดได้
- ติดตั้งได้ด้วยการรัน /install-github-app ภายใน Claude Code

API และความปลอดภัย

Anthropic API เพิ่ม ฟีเจอร์ใหม่ 4 อย่าง สำหรับการพัฒนา AI agent
- เครื่องมือรันโค้ด
- MCP connector
- Files API
- prompt cache สูงสุด 1 ชั่วโมง
โมเดล Claude 4 ถูกวางให้เป็นอีกก้าวหนึ่งสู่การรักษาบริบททั้งหมด การคงสมาธิในโปรเจ็กต์ระยะยาว และงานที่สร้างผลกระทบสูง
มีการทดสอบและประเมินอย่างกว้างขวางเพื่อลดความเสี่ยงและยกระดับความปลอดภัยของโมเดล
รวม มาตรการป้องกัน สำหรับ AI Safety Levels ที่สูงขึ้นอย่าง ASL-3
ผู้ใช้สามารถเริ่มใช้งานผ่าน Claude, Claude Code หรือแพลตฟอร์มที่ต้องการได้

วิธีการรายงานเบนช์มาร์ก

Claude Opus 4 และ Sonnet 4 เป็นโมเดลให้เหตุผลแบบไฮบริด และเบนช์มาร์กที่เผยแพร่จะแสดงคะแนนสูงสุดที่ทำได้ไม่ว่าจะใช้ extended thinking หรือไม่
ผลลัพธ์ที่ไม่ได้ใช้ extended thinking ได้แก่
- SWE-bench Verified
- Terminal-bench
ผลลัพธ์ที่ใช้ extended thinking ใช้ได้สูงสุด 64K โทเค็น
- TAU-bench
- GPQA Diamond
- MMMLU
- MMMU
- AIME
ยังมีการแสดงบางคะแนนที่วัดโดยไม่ใช้ extended thinking ด้วย
- GPQA Diamond: Opus 4 74.9%, Sonnet 4 70.0%
- MMMLU: Opus 4 87.4%, Sonnet 4 85.4%
- MMMU: Opus 4 73.7%, Sonnet 4 72.6%
- AIME: Opus 4 33.9%, Sonnet 4 33.1%

วิธีวิทยาของ TAU-bench และ SWE-bench

คะแนน TAU-bench ได้มาจากการตั้งค่าที่เพิ่มภาคผนวกพรอมป์ต์เข้าไปใน Airline และ Retail Agent Policy เพื่อให้ Claude ใช้ความสามารถในการให้เหตุผลได้ดีขึ้นระหว่าง extended thinking และการใช้เครื่องมือ
โมเดลถูกกระตุ้นให้เขียนความคิดระหว่างแก้ปัญหาในลักษณะที่แยกจากโหมดคิดปกติ
เนื่องจากการคิดเพิ่มเติมอาจทำให้จำนวนขั้นตอนเพิ่มขึ้น จำนวนขั้นตอนสูงสุดจึงเพิ่มจาก 30 เป็น 100
- เส้นทางการทำงานส่วนใหญ่จบภายในไม่ถึง 30 ขั้นตอน
- มีเพียงเส้นทางเดียวที่เกิน 50 ขั้นตอน
ใน SWE-bench ของตระกูล Claude 4 ยังคงใช้ scaffold แบบง่ายเช่นเดียวกับรีลีสก่อนหน้า
- เครื่องมือมีเพียงสองอย่างคือเครื่องมือ bash และเครื่องมือแก้ไขไฟล์แบบแทนที่สตริง
- planning tool ตัวที่สามซึ่งใช้ใน Claude 3.7 Sonnet ไม่ได้รวมอยู่แล้ว
คะแนนของโมเดล Claude 4 ทั้งหมดรายงานบนฐานของ 500 โจทย์เต็มชุด
คะแนนของโมเดล OpenAI รายงานบนฐานของ ชุดย่อย 477 โจทย์
คะแนนแบบ “high compute” ใช้การคำนวณตามช่วงเวลาของการทดสอบแบบขนานและความซับซ้อนเพิ่มเติม
- มีการสุ่มหลายความพยายามแบบขนาน
- คัดทิ้งแพตช์ที่ทำให้ regression test ที่มองเห็นได้ในรีโพแตก
- ไม่ใช้ข้อมูลจาก hidden tests
- ใช้โมเดลให้คะแนนภายในเพื่อเลือกตัวเลือกที่ดีที่สุดจากความพยายามที่เหลือ
คะแนน high compute ของวิธีนี้คือ Opus 4 79.4% และ Sonnet 4 80.2%

1 ความคิดเห็น

GN⁺ 2025-05-23

ความคิดเห็นบน Hacker News

จุดสำคัญที่หายไปจากการประกาศครั้งนี้คือ จุดตัดข้อมูลการฝึกของ Claude 4 อยู่ที่เดือนมีนาคม 2025 ถือว่าใหม่ที่สุดในบรรดาโมเดลล่าสุด และ Gemini 2.5 มีจุดตัดอยู่ที่มกราคม 2025
https://docs.anthropic.com/en/docs/about-claude/models/overv...
- ตอนนี้ผลิตภัณฑ์ LLM สำหรับผู้ใช้หลัก ๆ ล้วนมี การค้นเว็บ กันหมดแล้ว และบาง API ก็มีให้ใช้ หรือบางครั้งก็ทำได้โดยไม่ตั้งใจด้วย อย่างน้อยสำหรับผม เดือนจุดตัดที่แน่นอนจึงรู้สึกว่าสำคัญน้อยลงเรื่อย ๆ
  โมเดลที่ใช้บ่อย ๆ ฉลาดพอที่จะตัดสินเองได้ว่าหัวข้อไหนต้องใช้ข้อมูลใหม่ แล้วไปดึงมา
- ดีเลย ตอนนี้ในที่สุดมันอาจจะรู้จัก Svelte 5 แล้วก็ได้
- เคยลำบากเพราะ Claude ไม่รู้จัก Tailwind 4 เลยลองถามเรื่อง Tailwind CSS มันตอบว่าตัวเองรู้ถึง Tailwind CSS 3.4 ซึ่งเป็นเวอร์ชันเสถียรล่าสุดตามจุดตัดข้อมูลเดือนมกราคม 2025
- ทำไมถึงให้มัน เรียนรู้อย่างต่อเนื่อง ไม่ได้ล่ะ?
- แต่ก็ยังไม่รู้อยู่ดีว่าอะไรถูกอัปเดตแล้วและอะไรยังไม่ถูกอัปเดต เราจะถือได้ไหมว่าสิ่งที่อัปเดตได้ทั้งหมดถูกอัปเดตแล้ว?
“GitHub says Claude Sonnet 4 soars in agentic scenarios and will introduce it as the base model for the new coding agent in GitHub Copilot.”
โมเดลนี้อาจผลักให้ความฝันที่ว่า “Assign to CoPilot” จะจัดการงานเชิงกลส่วนใหญ่ เช่น การอัปเกรดแพ็กเกจ ได้โดยอัตโนมัติ เข้าใกล้ความจริงขึ้น ถ้าภาระการบำรุงรักษาลดลง ก็มีโอกาสสูงที่จะนำไปสู่ การฟื้นคืนชีพของโปรเจกต์เก่า ๆ
- ก็อาจเป็นอย่างนั้น แต่ตอนที่โมเดลก่อนหน้านี้ทุกตัวออกมา ก็ได้รับความคาดหวังแบบเดียวกันหมด
- ผมตั้งตารอจริง ๆ ว่า coding agent ราคาถูกจะช่วยโอเพนซอร์สได้แค่ไหน จริง ๆ แล้วเริ่มคิดว่าควรแจกเครดิต CheepCode[0] ให้โปรเจกต์โอเพนซอร์ส
  ตอนนี้ยังไม่มีโครงสร้างทางการ แต่ถ้าเห็นคอมเมนต์นี้แล้วต้องการรัน coding agent ฟรี ก็ส่งอีเมลมาได้ ผมจะช่วยตั้งค่าให้
  [0] เป็นผลิตภัณฑ์ coding agent แบบ headless ของผมเอง คล้ายกับ “assign to copilot” แต่จัดการงานหลายงานจากบอร์ดงานอย่าง Linear, Jira แบบขนานได้ จนถึงตอนนี้ฟีเจอร์ที่เรียบง่ายและทำซ้ำ ๆ ได้ผลค่อนข้างดี และโดยทั่วไปยิ่งเทสต์ดี โค้ดที่ได้ก็ยิ่งดี แน่นอนว่ามันสามารถเขียนเทสต์เองได้ และก็เขียนจริง ๆ
- เกณฑ์ของผมในการตัดสินว่าโมเดลแบบนี้มีประโยชน์หรือไม่อยู่ตรงนั้นพอดี ผมมีโปรเจกต์ที่ต้อง รีแฟกเตอร์ครั้งใหญ่ ถึงจะกลับมาทำงานได้อีกครั้ง ส่วนใหญ่เป็นการอัปเกรดแพ็กเกจ แต่ก็ต้องแก้โค้ดให้เข้ากับ semantics ใหม่ของภาษาที่ตอนเขียนยังไม่มีด้วย
  โมเดล AI ตอนนี้แทบไม่มีความคืบหน้าในงานนี้เลย ผมตั้งใจจะลองต่อไปเรื่อย ๆ จนกว่าจะทำได้
- การอัปเกรดแพ็กเกจกับงานเชิงกลเป็นพื้นที่ที่บอตแก้ได้เกือบหมดอยู่แล้ว
  ผมคิดว่าส่วนที่ AI จะช่วยได้ตรงนี้คือการสรุปการเปลี่ยนแปลง ความขัดแย้ง ผลกระทบต่อ codebase และถ้าเป็นไปได้ก็ สแกนความปลอดภัย ประมาณนั้น
- มีใครเห็นข่าวไหมว่าจะนำไปใช้กับ Copilot เมื่อไหร่?
“Users requiring raw chains of thought for advanced prompt engineering can contact sales”
ตอนนี้ดูเหมือนผู้ให้บริการ LLM ทั้งสามรายต่างก็ซ่อน กระบวนการคิด (CoT) กันหมดแล้ว น่าเสียดาย เพราะมันช่วยให้เห็นจังหวะที่โมเดลกำลังจะไปผิดทาง และช่วยปรับ prompt ได้เร็ว
ไม่ใช่แค่ OpenAI แต่ Google ก็เพิ่งเริ่มเปลี่ยนกระบวนการคิดให้เป็นสรุปเหมือนกัน ซึ่งส่วนตัวผมมองว่าเป็นสรุปที่ทำให้ง่ายเกินไป
- เป็นไปได้ไหมว่าสาเหตุที่ตัดกระบวนการคิดออกเป็นเพราะเปเปอร์ล่าสุดของ Anthropic?
  https://assets.anthropic.com/m/71876fabef0f0ed4/original/rea...
  เปเปอร์ประเมินความซื่อตรงของกระบวนการคิดในโมเดล reasoning รุ่นล่าสุดด้วย hint สำหรับการให้เหตุผล 6 แบบ และระบุว่า ในกรณีที่ใช้ hint อย่างน้อย 1% จะปรากฏในกระบวนการคิดในเกือบทุกการตั้งค่าและทุกโมเดล แต่อัตราการเปิดเผยมักต่ำกว่า 20% และการเรียนรู้แบบเสริมกำลังตามผลลัพธ์ตอนแรกช่วยเพิ่มความซื่อตรง แต่ไม่ได้อิ่มตัวและกลับชะงักลง อีกทั้งแม้ reward hacking จะทำให้ความถี่ในการใช้ hint เพิ่มขึ้น แนวโน้มที่โมเดลจะพูดถึงสิ่งนั้นในกระบวนการคิดก็ไม่ได้เพิ่มขึ้น
  กล่าวคือ กระบวนการคิดเองก็อาจเป็น คำอธิบายที่โมเดลแต่งขึ้น ได้ ดังนั้นอาจมีใครบางคนภายใน Anthropic ไม่อยากทำให้ลูกค้าเข้าใจผิด และถ้าปัญหานี้ถูกแก้แล้ว มันก็อาจกลับมาอีก
- นี่มันคือการเล่นแร่แปรธาตุ และทุกคนเชื่อว่าตัวเองมีความได้เปรียบบางอย่างในการเปลี่ยนตะกั่วให้เป็นทอง
- เท่าที่จำได้ RLHF ย่อมแลกความแม่นยำของโมเดลไปบางส่วนในกระบวนการฝึกให้ไม่ตอบคำตอบที่เป็นอันตราย
  ถ้าโมเดลสำหรับกระบวนการคิดถูกฝึกต่างจากโมเดลที่โต้ตอบกับผู้ใช้ปลายทาง ก็สมเหตุสมผล เช่น อาจเป็น expert คนละตัวใน MoE และผู้ใช้ก็จะเห็นแค่เอาต์พุตที่ถูกกรองผ่านโมเดลสาธารณะอยู่แล้ว ดังนั้นโมเดลกระบวนการคิดจะใกล้เคียงโมเดลดิบก่อน RLHF มากกว่าก็มีความเสี่ยงต่อชื่อเสียงบริษัทน้อยกว่า
  วิธีนี้จะทำให้ได้ประสิทธิภาพของโมเดลดิบ ขณะยังคงการกรองเพื่อป้องกันอันตรายจริงหรือเหตุ PR ร้ายแรงไว้ได้
- คงต้องรอจนกว่า DeepSeek จะกลับมาบดทุกคนอีกครั้ง
- ตอนเรียน Zig กระบวนการคิดช่วยได้มหาศาล
  ตอนถามเรื่อง Zig กับการ implementation การได้ดูเส้นทางความคิดของโมเดลช่วยเปิดมุมมองให้กว้างขึ้นมาก
คงไม่ใช่แค่ผมคนเดียวที่คิดว่าเวอร์ชันนี้ไม่ได้ดีกว่ารุ่นก่อน ๆ, LLM โดยพื้นฐานแล้วเข้าสู่ช่วง ชะงักงัน และ “ฟีเจอร์” ของรีลีสใหม่ ๆ ส่วนใหญ่ใกล้เคียงกับการหลอกตา
- ดูเหมือนจะดีขึ้นแค่ตามขอบ ๆ เท่านั้น เช่นด้าน MCP, การเรียกใช้เครื่องมือ, structured output แน่นอนว่าไม่ได้ฉลาดขึ้นอย่างชัดเจน แต่ มูลค่าเพิ่ม เพิ่มขึ้น และไม่รู้ว่ามูลค่านั้นคุ้มกับต้นทุนการฝึกหรือมูลค่าบริษัทหรือไม่
  พูดตามจริง ผมไม่เห็นภาพเลยว่าบริษัทพวกนี้จะยั่งยืนได้อย่างไร เคยโฮสต์ inference บน GPU คลาวด์ พอใส่แผนฟรีเข้าไปแม้เพียงเล็กน้อย ต้นทุนก็ดูหนักหนามาก
- คำว่า “LLM มาถึงช่วงชะงักงันแล้ว” ฟังเหมือนมีม นกแก้วเชิงความน่าจะเป็น อันใหม่ แค่ดูโพสต์ที่ขึ้นหน้าแรกเมื่อไม่กี่ชั่วโมงก่อนก็พอ เอเจนต์ที่ใช้ LLM ได้รับเครื่องมือค้นหาอีเมล 3 ตัวกับงานง่าย ๆ ว่า “หาชื่อลูกของพี่น้องฉัน” แล้วแก้ปัญหาอย่างเป็นระบบ ปรับแต่งการค้นหา และอนุมานชื่อที่ถูกต้องจากอีเมลที่มีแค่ “อาหารที่ X ชอบ” กับลิงก์ YouTube
  ยังไม่ต้องพูดถึง alphaevolve, เดโมทดสอบเอเจนต์ Copilot ของ Microsoft ที่รันเบราว์เซอร์ สำรวจฟีเจอร์ และเขียน Playwright tests รวมถึงความก้าวหน้าในด้านการเขียนโค้ด
- ใช้ Claude Code มาเยอะและเห็นด้วย หลังอัปเดตแล้วไม่รู้สึกถึงความแตกต่างเลย สรุปดูเรียบร้อยขึ้นเล็กน้อย แต่ในแง่ความสามารถไม่เคยทำให้ประหลาดใจ
  ใน codebase TypeScript ก็ยังต้องคอยแก้ให้และ prompt ซ้ำเหมือนตอน 3.7 ถึงขั้นมีครั้งหนึ่งที่มันแก้ไฟล์ผิด แล้วมันยังไม่คิดจะตรวจสอบให้เฉพาะเจาะจงกว่านั้น จนต้องบังคับให้ลบโค้ดทั้งหมดเพื่อแสดงให้เห็นว่าสิ่งที่เรากำลังดูอยู่ไม่ได้เปลี่ยนไปเลย ซึ่งค่อนข้างช็อก
- โดยรวมรู้สึกคล้ายกัน ชัยชนะใน benchmark ช่วงนี้ดูเหมือนมาจากการ tuning และแลกกับการเสียในด้านอื่น o3, o4-mini ก็มี hallucination มากกว่า o1 ใน SimpleQA, PersonQA
  ข้อมูลสังเคราะห์ดูเหมือนจะเพิ่มอัตรา hallucination และ reasoning model ก็เปราะบางกว่า เพราะแต่ละขั้นตอนของ reasoning มีความเสี่ยงที่ hallucination จะพาโมเดลหลุดทาง
  ในมุมการใช้งานทั่วไป ผมมองว่า LLM จบไปตั้งแต่ราวต้นปีนี้แล้ว OpenAI เองก็คงรู้เรื่องนี้ จากการยกเลิก GPT-5 แล้วต่อมาออก GPT-4.5 ที่ “แพงเกินเมื่อเทียบกับสิ่งที่ได้” ก่อนจะตัดสินใจยุติในไม่ช้า
  ไม่รู้ว่าตลาดหุ้นสะท้อนเรื่องนี้แล้วหรือยัง ถ้าจะหลุดจากจุดนี้ต้องมี breakthrough
- หลายกรณี benchmark ดูใกล้เคียงกับ Claude 3.7 มาก
  แต่ก็ยังไม่เพียงพอเลยที่จะสรุปว่ามาถึงช่วงชะงักงันแล้ว ความคืบหน้าเร็วมากมาตลอด ดังนั้นควรรออีกสักหลายเดือนก่อนตัดสินแบบนั้น
  ส่วนเรื่องฟีเจอร์ ผมคิดกลับกันด้วยซ้ำ มันไม่ใช่การหลอกตา แต่เป็น การทำให้เป็นเครื่องมือ ที่สำคัญและจำเป็นต่อการใช้ AI จริง ๆ แม้จะไม่ใช่ตัว AI แกนหลักเองก็ตาม วงการ LLM สำหรับการใช้งานในวงกว้างยังอยู่ช่วงต้นมาก ต่อให้โมเดลไม่ดีขึ้นอีก ก็ยังมีพื้นที่อีกมากในด้านวิธีโต้ตอบ การป้อนข้อมูล และการเรียกใช้เครื่องมือ ที่จะยกระดับทั้ง usability และความสามารถได้อย่างมาก
ผมชอบ Claude 3.7 มาก ใช้ทุกวัน และโดยรวมชอบมากกว่าโมเดล Gemini แต่พอเอา Opus 4 ใน Claude Code ไปใช้กับงานฟีเจอร์ที่แทบจะเป็นของใหม่ใน codebase ภาษา Go กระบวนการคิดดี แต่ tool calls 70–80% ล้มเหลว
แม้แต่เครื่องมือพื้นฐานอย่าง “Write”, “Update” ก็ล้มเหลวเพราะ syntax ผิด พยายามเขียนไฟล์ 5 ครั้งและล้มเหลวทั้งหมด พร้อมพูดว่า “ผมลืมเพิ่มพารามิเตอร์ content อยู่เรื่อย ๆ เดี๋ยวจะแก้ให้” แล้วก็ลองต่อไปเรื่อย ๆ
มีบางอย่างผิดปกติ หวังว่าจะแก้ได้เร็ว ๆ นี้ แต่ตอนนี้อย่างน้อย Opus 4 ก็ใช้กับ Claude Code ไม่ได้ ถึงอย่างนั้นไฟล์ที่สร้างสำเร็จก็มีคุณภาพสูง
- ดูเหมือนจะเจอสาเหตุแล้ว และน่าจะเป็นบั๊กชัด ๆ: https://github.com/anthropics/claude-code/issues/1236#issuec...
  โดยพื้นฐานน่าจะชนขีดจำกัดจำนวน output token สูงสุด ทำให้ตอนเขียนไฟล์ใหม่ทั้งไฟล์ในครั้งเดียว response หยุดกลางคัน ข้อผิดพลาด “พารามิเตอร์ tool call ไม่ถูกต้อง” เป็น ตัวหลอก
ได้ทดสอบ Opus 4 และ Sonnet 4 กับ SQL generation benchmark ของเราแล้ว: https://llm-benchmark.tinybird.live/
Opus 4 ชนะโมเดลอื่นทั้งหมด ถือว่าดี
- แปลกที่ Opus 4 แย่ที่สุดใน one-shot โดยเฉลี่ยต้องลองสองครั้งเพื่อสร้าง query ที่ valid
  ถ้าโมเดลฉลาดขึ้นขนาดนั้นจริง performance ในครั้งแรกก็น่าจะดีด้วยไม่ใช่หรือ? อย่างไรก็มีการ “คิด” ล่วงหน้าอยู่แล้ว
- น่าสนใจที่ Claude-3.7-Sonnet และ Claude-3.5-Sonnet อยู่ในอันดับสูงกว่า Claude-Sonnet-4
- benchmark นี้ค่อนข้างน่าสนใจ ดูเหมือนจะทำลาย อันดับโมเดล ที่มักเห็นใน benchmark อื่น ๆ
- ผมจ่าย Claude Premium อยู่ แต่จริง ๆ ก็ใช้ Grok ค่อนข้างเยอะ ฟีเจอร์ “think” มักพาไปถึงผลลัพธ์ที่ต้องการได้บ่อยกว่า
  แปลกที่ไม่มีโมเดลของ xAI อยู่ในรายการ ชื่อ Grok แย่มาก แต่ก็มักทำให้ประหลาดใจอยู่บ่อย ๆ ยังไม่ได้ลองโมเดล ChatGPT ราคา 250 ดอลลาร์ และไม่ชอบพฤติกรรมของ OpenAI ช่วงนี้
- สงสัยว่า คุณรู้ได้อย่างไรว่าคำถามกับ SQL ไม่อยู่ในข้อมูลฝึกของ LLM? ดูเหมือนคำถาม benchmark กับ SQL จะอยู่บนออนไลน์: https://ghe.clickhouse.tech/
มีเอกสารที่อธิบาย การเปลี่ยนแปลงของ context window ใน Claude 4 ไหม? ผมไม่ค่อยแน่ใจนัก แต่เข้าใจว่าเหตุผลหนึ่งที่ Gemini 2.5 มีประโยชน์คือมันจัดการ context ขนาดมหาศาลระดับ 50,000~70,000 บรรทัดได้
- context window ของ Sonnet ยังเหมือนเดิม อินพุต 200k, เอาต์พุต 64k: https://docs.anthropic.com/en/docs/about-claude/models/overv...
  ในทางปฏิบัติ context 1M ของ Gemini 2.5 ไม่ได้เป็นจุดต่างที่ใหญ่ขนาดนั้น เมื่อ context ใหญ่ขึ้น ผลตอบแทนที่รับรู้ได้ ของความสามารถในการตามโทเคนช่วงท้าย ๆ ให้ดีก็ลดลง
- ถ้าเพิ่มขนาด context window หรือจัดการได้ดีขึ้นเวลาพรอมป์ยาวเกินไปก็คงดี ตอนนี้อยู่ ๆ ก็มีคำเตือน “prompt is too long” เด้งขึ้นมา ทำให้เป็นโมเดลที่น่าหงุดหงิดเวลาใช้กับบทสนทนายาว ๆ หรืองานเขียนยาว ๆ
  เครื่องมืออื่น ๆ อาจทิ้ง context ก่อนหน้าบางส่วนหรือใช้ RAG แต่ไม่ได้บังคับให้เริ่มแชตใหม่โดยไม่มีการเตือน
- ไม่ค่อยเข้าใจว่าหมายถึงอะไร ในชื่อบทความบอกว่า Opus 4 มี context 200k
  เหมือนกับ beta header ของ Sonnet 3.7
- ขนาดของ context window เป็นตัวชี้วัดที่ดูปลอมมาก ถ้าไม่มี context ที่ถูกต้อง ก็ไม่มีทางได้ผลลัพธ์ที่ดี
“Finally, we've introduced thinking summaries for Claude 4 models that use a smaller model to condense lengthy thought processes. This summarization is only needed about 5% of the time—most thought processes are short enough to display in full. Users requiring raw chains of thought for advanced prompt engineering can contact sales about our new Developer Mode to retain full access.”
ไม่อยากเห็น “สรุป” ของการให้เหตุผลของโมเดล ถ้าจะตรวจว่าการให้เหตุผลของโมเดลถูกต้องไหม และเชื่อถือผลลัพธ์ได้หรือไม่ ก็ต้องดูการให้เหตุผลจริง ๆ
น่าหงุดหงิดมากที่หลังจาก OpenAI แล้ว Anthropic ก็เดินไปในทิศทางที่ซ่อนกระบวนการคิดของโมเดล คิดเงินกับโทเคนที่ผู้ใช้มองไม่เห็น และให้ “สรุป” ที่ทำให้ไม่รู้ว่าแท้จริงเกิดอะไรขึ้น
- งานวิจัยหลายฉบับรายงานว่าเอาต์พุต “ความคิด” ไม่ได้เกี่ยวข้องกับเอาต์พุตสุดท้ายมากนัก และแม้เปิดให้มีขั้นตอนประมวลผลเพิ่มด้วยโทเคนจุดหรือโทเคนหยุดชั่วคราว ก็ได้การปรับปรุงที่คล้ายกัน
  ในหลายแง่ “ความคิด” ส่วนใหญ่ใกล้เคียงกับ การตลาด มากกว่า
  - "Think before you speak: Training Language Models With Pause Tokens" - https://arxiv.org/abs/2310.02226
  - "Let's Think Dot by Dot: Hidden Computation in Transformer Language Models" - https://arxiv.org/abs/2404.15758
  - "Do LLMs Really Think Step-by-step In Implicit Reasoning?" - https://arxiv.org/abs/2411.15862
  - วิดีโอภาพรวมของ bycloud -> https://www.youtube.com/watch?v=Dk36u4NGeSU
- ไม่จำเป็นต้องกังวลมากนัก มีหลักฐานเพียงพอว่าความคิดมักแยกจากเอาต์พุตจริง
  เมื่อพิจารณาว่าผู้คนแทบไม่อ่านกระบวนการคิดจริง ๆ ผมมองว่านี่คือ การปรับปรุงประสบการณ์ผู้ใช้
- นี่หมายถึงอินเทอร์เฟซแชตของตัวเองหรือเปล่า? API ยังคงสตรีม thinking tokens ทันทีอยู่
- เท่าที่รู้ Gemini 2.5 Pro ก็ทำแบบนี้เหมือนกัน
หวังจริง ๆ ว่า Sonnet 4 จะไม่หมกมุ่นกับ การเรียกใช้เครื่องมือ เหมือน 3.7 รุ่น 3.5 เคยให้ประสบการณ์วิเศษครั้งแรกว่าดูเหมือนโมเดลกำลังจะเชี่ยวชาญการเขียนโปรแกรม หลังจากนั้นรู้สึกเหมือนเริ่มถอยลง
- ผมเองก็ไม่ชอบความกระตือรือร้นเกินเหตุแบบ “ไหน ๆ แล้ว ขอทำอีกอย่างหนึ่งนะครับ” ของ 3.7 เอามาก ๆ หวังว่าจะกลับไปสู่ระดับ การทำตามคำสั่ง แบบ 3.5
- นี่รู้สึกเหมือนเป็นปัญหาของ system prompt มากกว่าปัญหาของโมเดล
รู้สึกเหมือน การแข่งขัน CPU MHz ในยุค 90 กลับมาแล้ว เพียงแต่ตอนนี้แทนที่จะถกกันเรื่องสถาปัตยกรรม CPU กับผลลัพธ์จาก benchmark หลายตัวที่คุณค่าคลุมเครือ เรากำลังคุยเรื่องเนิร์ด ๆ แบบเดียวกันระหว่าง LLM
ประวัติศาสตร์มักคล้องจองกับตัวเอง
- กลับมาก็จริง แต่กลับมาด้วยความเร็วของการพัฒนาเทคโนโลยีกลางทศวรรษ 2020 ผมจำได้ว่าการแข่งขัน CPU MHz ช้ากว่านี้มาก แต่อาจเป็นเพราะการรับรู้เวลาของผมตอนเป็นเด็กในยุค 90 ช้ากว่าก็ได้
  ถึงอย่างนั้น ผมค่อนข้างมั่นใจว่าไม่ได้มี CPU “drop” ใหม่ออกมาทุกไม่กี่เดือนเหมือนที่มีโมเดลใหม่ออกมาทุกไม่กี่เดือนในการแข่งขัน AI ตอนนี้

เปิดตัว Claude 4: Opus 4 และ Sonnet 4

เปิดตัวโมเดล Claude 4

รูปแบบการให้บริการและราคา

ประสิทธิภาพด้านการเขียนโค้ดและงานระยะยาวของ Opus 4

ตำแหน่งของ Sonnet 4

การปรับปรุงความสามารถของโมเดล

สรุปกระบวนการคิดและ Developer Mode

Claude Code เปิดให้ใช้งานจริง

API และความปลอดภัย

วิธีการรายงานเบนช์มาร์ก

วิธีวิทยาของ TAU-bench และ SWE-bench

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News