Claude Sonnet 4.5

(anthropic.com)

4 คะแนน โดย GN⁺ 2025-09-30 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Claude Sonnet 4.5 เป็นโมเดล AI รุ่นล่าสุดที่แสดงประสิทธิภาพระดับแนวหน้าในด้าน การเขียนโค้ด การให้เหตุผล และความสามารถทางคณิตศาสตร์
Claude Code ที่อัปเดตแล้วเพิ่มฟีเจอร์ checkpoints, UI เทอร์มินัลที่ปรับปรุงใหม่, ส่วนขยาย VS Code และการจัดการหน่วยความจำ ทำให้สามารถทำงานที่ซับซ้อนต่อเนื่องได้เป็นเวลานาน
Claude Agent SDK ที่เพิ่งเปิดตัวใหม่มอบโครงสร้างพื้นฐานหลักสำหรับการพัฒนาเอเจนต์ ช่วยให้สร้างเครื่องมือแก้ปัญหาที่หลากหลายได้โดยตรง
ใน benchmark อย่าง SWE-bench และ OSWorld ทำผลงานทิ้งห่างโมเดลคู่แข่งอย่างชัดเจน และพิสูจน์จุดแข็งด้านคณิตศาสตร์ การให้เหตุผล และความเหมาะสมกับงานเฉพาะทาง
ในด้านความปลอดภัย ยังได้รับการประเมินว่าเป็น โมเดลที่จัดแนว (alignment) ได้ดีที่สุด พร้อมความสามารถที่ดีขึ้นในการป้องกัน prompt injection และบล็อกเนื้อหาที่มีความเสี่ยง

ภาพรวมของ Claude Sonnet 4.5

Claude Sonnet 4.5 คือ โมเดลสำหรับการเขียนโค้ดที่ดีที่สุดในปัจจุบัน และแสดงประสิทธิภาพที่ทรงพลังที่สุดในการสร้างเอเจนต์ที่ซับซ้อนและการใช้งานคอมพิวเตอร์
- ในสภาพแวดล้อมการทำงานสมัยใหม่ทั้งหมดที่เราใช้งาน ไม่ว่าจะเป็นซอฟต์แวร์ สเปรดชีต หรือเครื่องมือต่าง ๆ โค้ดคือองค์ประกอบหลัก
ความสามารถด้าน การให้เหตุผลและการแก้ปัญหาทางคณิตศาสตร์ ก็ได้รับการปรับปรุงอย่างชัดเจนเมื่อเทียบกับรุ่นก่อน ทำให้นำไปใช้ได้มากขึ้นในหลากหลายสาขาเฉพาะทาง
ให้บริการในราคาเดียวกับ Sonnet 4 เดิม ($3 / $15 ต่อหนึ่งล้านโทเค็น)

การอัปเดตผลิตภัณฑ์หลัก

Claude Code
- เพิ่มฟีเจอร์ checkpoints สำหรับบันทึกงานระหว่างทางและย้อนกลับได้
- ปรับปรุงเทอร์มินัลอินเทอร์เฟซ และเปิดตัว ส่วนขยาย VS Code แบบเนทีฟ
- เพิ่ม context editing และเครื่องมือ memory เพื่อรองรับงานระยะยาวและงานที่ซับซ้อน
Claude Apps
- รองรับการรันโค้ดและสร้างไฟล์ (สเปรดชีต สไลด์ เอกสาร) ได้โดยตรงภายในการสนทนา
Claude for Chrome
- มีส่วนขยายสำหรับผู้ใช้ Max เพื่อรองรับการทำงานอัตโนมัติภายในเบราว์เซอร์

Claude Agent SDK

เปิดเผย โครงสร้างพื้นฐานเอเจนต์ ที่ Anthropic ใช้สร้าง Claude Code ให้แก่นักพัฒนาภายนอก
มอบฐานสำหรับแก้โจทย์ยาก เช่น การจัดการหน่วยความจำระยะยาว การควบคุมสิทธิ์ และการประสานงานระหว่าง sub-agent หลายตัว
สามารถนำไปใช้สร้างเอเจนต์ได้หลากหลาย ไม่จำกัดแค่การเขียนโค้ด

ประสิทธิภาพและ benchmark

ทำสถิติสูงสุดบน SWE-bench Verified และสามารถทำงานเขียนโค้ดแบบหลายขั้นตอนระยะยาวต่อเนื่องได้นาน มากกว่า 30 ชั่วโมง
ทำได้ 61.4% บน benchmark OSWorld (Sonnet 4 รุ่นก่อนทำได้ 42.2%)
ความสามารถใน การประเมินด้านการให้เหตุผล คณิตศาสตร์ และหลายภาษา (MMMLU) ก็เพิ่มขึ้นอย่างมาก และได้รับการยืนยันถึงความเป็นเลิศจากการประเมินของผู้เชี่ยวชาญด้านการเงิน กฎหมาย การแพทย์ และ STEM
ผ่าน feedback จากลูกค้า ได้พิสูจน์การใช้งานจริงใน production ทั้งในด้านงานระยะยาว ความเข้าใจ codebase ที่ซับซ้อน และการเขียนโค้ดที่รวดเร็วและแม่นยำ

กรณีศึกษาจากลูกค้า

Cursor: ยืนยันประสิทธิภาพสูงสุดในการแก้ปัญหาที่ซับซ้อน
GitHub Copilot: การให้เหตุผลหลายขั้นตอนและความเข้าใจโค้ดดีขึ้น
ด้านความปลอดภัย: ลดเวลาในการตอบสนองต่อช่องโหว่ลง 44% และเพิ่มความแม่นยำ 25%
Canva, Figma: ปรับปรุงผลิตภาพอย่างก้าวกระโดดในการทำงานกับ codebase ขนาดใหญ่และการทำต้นแบบ
Devin: ประสิทธิภาพด้านการวางแผนดีขึ้น 18% และความสามารถในการทดสอบและรันโค้ดแข็งแกร่งขึ้น

ความปลอดภัยและ alignment

Sonnet 4.5 เป็นโมเดลของ Anthropic ที่มีระดับ alignment สูงที่สุดเท่าที่เคยประกาศมา
มีการทำ reinforcement learning ด้านความปลอดภัยเพื่อลด พฤติกรรมที่ไม่พึงประสงค์ เช่น การประจบ การหลอกลวง การแสวงหาอำนาจ และการส่งเสริมความหลงผิด
มีความก้าวหน้าอย่างมากในการ ป้องกันการโจมตีแบบ prompt injection และยังนำเทคนิคการตีความกลไกมาใช้ในการประเมินความปลอดภัย
มี การคำนวณคะแนนความเป็นไปได้ของการใช้งานผิดวัตถุประสงค์แบบอัตโนมัติ ผ่านระบบตรวจสอบพฤติกรรมอัตโนมัติ และผ่านเกณฑ์ความปลอดภัยระดับสูง
เปิดตัวภายใต้การป้องกันระดับ AI Safety Level 3 (ASL-3) โดยใช้ การกรองอินพุตและเอาต์พุตที่เป็นอันตราย (เช่น ความเสี่ยงด้านเคมี ชีวภาพ รังสี และนิวเคลียร์)

พรีวิวงานวิจัย

พร้อมกับ Claude Sonnet 4.5 มีพรีวิวงานวิจัยชั่วคราวชื่อ "Imagine with Claude"
สาธิตการ สร้างซอฟต์แวร์สด ๆ ตามสถานการณ์ โดยตอบสนองและปรับตัวแบบเรียลไทม์ตามคำขอของผู้ใช้ โดยไม่มีโค้ดหรือฟังก์ชันที่เตรียมไว้ล่วงหน้า
ผู้สมัครสมาชิก Max สามารถทดลองใช้ได้เป็นเวลา 5 วัน

ข้อมูลเพิ่มเติมและการย้ายระบบ

ผู้ใช้ผลิตภัณฑ์ Claude และ API เดิมสามารถใช้งาน Sonnet 4.5 ได้ ทันที โดยมีราคาเท่ากับ Sonnet 4 ($3/$15 ต่อหนึ่งล้านโทเค็น)
ฟีเจอร์ใหม่ เช่น การเขียนโค้ด การสร้างไฟล์ และการรันโค้ด มีให้ในทุกแพ็กเกจแบบชำระเงิน
รายละเอียดทางเทคนิคเพิ่มเติม ผลการประเมิน และข้อมูลอื่น ๆ ดูได้ที่ System Card, Claude Model page, เอกสารทางการ
ดูเพิ่มเติมที่ การพัฒนาเอเจนต์ด้วย Claude Agent SDK, ความปลอดภัยไซเบอร์, วิศวกรรมคอนเท็กซ์อย่างมีประสิทธิภาพ

บทสรุปและคำแนะนำ

Claude Sonnet 4.5 เป็นโมเดลแบบ drop-in replacement ที่ปรับปรุงประสิทธิภาพแล้วสำหรับทุกสภาพแวดล้อมการใช้งาน ไม่ว่าจะเป็น API, แอป หรือ Claude Code
มีทั้ง ประสิทธิภาพระดับโลก ความสามารถในการใช้งานจริง และความสอดคล้อง ในด้านการเขียนโค้ด การสร้างเอเจนต์ และการใช้งานคอมพิวเตอร์
ด้วยนโยบายความปลอดภัยที่แข็งแกร่งและการรองรับเครื่องมือสำหรับนักพัฒนาอย่างกว้างขวาง จะช่วย เร่งผลิตภาพและนวัตกรรมของนักพัฒนาและองค์กรไอที
ให้ความสามารถที่ทรงพลังยิ่งขึ้นในราคาเดิม จึงแนะนำให้อัปเกรด

1 ความคิดเห็น

GN⁺ 2025-09-30

ความคิดเห็นจาก Hacker News

สุดสัปดาห์นี้ได้เข้าถึงเวอร์ชันพรีวิวล่วงหน้า และสรุปโน้ตที่เกี่ยวข้องไว้ที่นี่
ส่วนตัวรู้สึกว่าประทับใจมาก และแม้จะไม่ใช่การเปรียบเทียบแบบรอบด้าน แต่โดยความรู้สึกแล้วมันทำผลงานได้ดีกว่า GPT-5-Codex เล็กน้อย
โดยเฉพาะในโหมด code interpreter ใหม่ของ Python/Node.js บน claude.ai ที่ผมคิดว่ามันโดดเด่นมาก
แนะนำให้ลองใช้พรอมป์ต์แบบด้านล่าง

Checkout https://github.com/simonw/llm and run the tests with
pip install -e '.[test]'
pytest

มันยังจัดการงานรีแฟกเตอร์ฐานข้อมูลที่ซับซ้อนได้ดีแบบเป็นขั้นตอนด้วย รายละเอียดบันทึกไว้ในบล็อก

มีเรื่องหนึ่งที่อยากขอจาก @simonw และคนที่สนใจ benchmark ของ LLM
อยากให้เปิดเผยเวลาที่ใช้จนงานเสร็จด้วย
โพสต์นี้เป็นแนวรีวิวว่า “ใช้งานได้เลยบน claude.ai” แต่ไม่มีข้อมูล timestamp ว่าผลลัพธ์ออกมาตอนไหน
แม้แต่บนลีดเดอร์บอร์ด LLM coding จริง ๆ ก็แทบไม่มีข้อมูลเรื่องเวลาในการรันเลย ซึ่งน่าเสียดาย
เวลาทำงานของแต่ละโมเดลและแต่ละแพลตฟอร์มต่างกันมาก และเมื่อมีการทดลองซ้ำ/รีบูต หรือปรับปรุงพรอมป์ต์ ความเร็วในการอนุมาน ปริมาณโทเค็นที่ใช้ ประสิทธิภาพของ tooling ต้นทุน และความฉลาดของโมเดล ล้วนมีผลร่วมกัน
โดยเฉพาะโมเดลอย่าง Grok Code Fast และ Cerebras Code ต่อให้ไม่ใช่ตัวที่แรงที่สุด ก็ยังช่วยให้ทำงานได้มากกว่าเพราะเร็วกว่าเกิน 10 เท่า โมเดลที่เร็วคือข้อได้เปรียบจริง
benchmark ที่น่าอ้างอิง: swebench, tbench leaderboard, gosuevals agents
ลองแล้ว แต่ในสภาพแวดล้อมของผมมันไม่ทำงาน
บอกว่าเป็นคำสั่งสำหรับตั้งค่า LLM CLI tool โดยออปชัน -e คือการติดตั้งแบบ editable และ [test] คือการติดตั้ง test dependency
แต่เครื่องมือที่ผมมีไม่รองรับ shell command อย่าง pip, pytest, git clone หรือการรัน Python
ทำได้แค่รัน JavaScript ในสภาพแวดล้อมเบราว์เซอร์ และไม่สามารถรันคำสั่งระดับ shell ได้
เลยสงสัยว่าคุณคาดหวังอะไร ต้องการให้มันเข้าใจการตั้งค่าเทสต์ หรือหวังให้มีความสามารถนั้นจริง ๆ กันแน่
สำหรับคนที่สงสัยเรื่องกรณีใช้งานของพรอมป์ต์ “ช่วยทำเป็นไฟล์ zip ให้หน่อย”
หลายคนน่าจะไม่มีเวลาเปิด gist ไปดูเอง เลยอยากรู้ว่ามันทำงานได้จริงไหม และมีความเห็นเพิ่มเติมต่อผลลัพธ์หรือเปล่า
อยากรู้ว่า Claude Sonnet 4.5 ยังตอบทุกคำถามแบบ “ถูกต้องมากครับ!” อยู่ไหม หรือว่าตอนนี้คุยได้เหมือนโปรแกรมเมอร์จริง ๆ แล้ว
สงสัยว่าทำไมถึงได้สิทธิ์เข้าถึงพรีวิวล่วงหน้า
ขอแชร์ประสบการณ์ใช้งานจริง
ผมลองใช้พรอมป์ต์เดียวกันกับเว็บแอปขนาดใหญ่ราว 200k LoC ทั้งบน Sonnet 4.5 (Claude Code) และ GPT-5-Codex
โจทย์คือ “จาก ‘Go to Conversation’ หรือ ‘Go to Report’ ให้ป้อน title แล้วถ้าไม่ตรงกับองค์ประกอบมาตรฐาน ให้ทำ fuzzy search หลังผ่านไป 2 วินาที”
Sonnet 4.5 ให้ผลลัพธ์ในราว 3 นาที แต่โค้ดค่อนข้างหยาบ และยังไม่สามารถนำ auth เดิมกลับมาใช้ซ้ำได้ กลับพยายามสร้าง server-side auth ใหม่
แม้จะชี้ปัญหาและ re-prompt แล้วก็ไม่ได้ดีขึ้นมาก และยังไม่เขียน test code ซึ่งเป็นข้อกำหนดสำคัญ
ในทางกลับกัน GPT-5-Codex ใช้เวลาราว 20 นาที แต่จัดการ error handling และ edge case ต่าง ๆ ได้ละเอียดมาก และยังเขียน test code ให้เองโดยไม่ต้องสั่งเพิ่ม
API ก็ทำงานลื่นไหล และในแง่ความสมบูรณ์ของงานโดยรวมให้คุณภาพระดับนักพัฒนา Senior
ผมไม่ต้องการงานแบบ ‘เร็วแต่เลอะเทอะ’ ที่ออกมาใน 3 นาที ดังนั้นจึงเลือก 20 นาทีแบบไม่ลังเล
แม้ Sonnet จะทำผลลัพธ์ออกมาได้เร็วอย่างน่าทึ่งตามที่คาด แต่ถ้าไม่มีคุณภาพที่ดีและไม่มีเทสต์ งานแบบนั้นก็ไม่มีความหมาย
- ไม่อยากให้ฟังดูเป็นการวิจารณ์ แต่ผมคิดว่าถ้าเริ่มจากพรอมป์ต์สั้น ๆ แบบประโยคเดียว ผลลัพธ์ก็คงต้องออกมาค่อนข้างสุ่มอยู่แล้ว
  สิ่งสำคัญคือการจัดกลุ่มตรรกะและเงื่อนไขรายละเอียดให้ชัดเจนกว่านี้ ซึ่งตัวอย่างพรอมป์ต์ก็แทบจะเป็น run-on sentence อยู่แล้ว
  สำหรับงานที่ซับซ้อนหรือสำคัญ ผมคิดว่าพรอมป์ต์ควรละเอียดขึ้นจนยาวกว่าเดิม 5–20 เท่า
  ถ้า input มีโครงสร้างชัด และ codebase มี pattern ที่วางไว้ดี AI ก็จะให้ผลลัพธ์ที่ดีกว่ามาก
  ในชีวิตจริง ถ้าคุณโยน requirement สั้น ๆ แค่ประโยคเดียวให้ Junior developer หรือให้ทีมโดยไม่มีรายละเอียดเพิ่ม ก็ต้องยอมรับได้อยู่แล้วว่าผลลัพธ์อาจไม่ตรงใจ
  ขอแนะนำว่าถ้าลงทุนเพิ่มอีกไม่กี่นาทีเพื่อเตรียมพรอมป์ต์ตั้งแต่แรก โอกาสได้ผลลัพธ์ที่น่าพอใจก็จะสูงขึ้นมาก
- ใช้แพลนเสียเงิน ChatGPT Pro อยู่ไหม แล้ว Codex CLI รวมอยู่ในนั้นด้วยหรือเปล่า
  ผมใช้ Claude Code ผ่านแพลน Max เพื่อใช้งาน Sonnet/Opus อยู่ แต่ถ้า ChatGPT Pro ใช้ Codex ได้ด้วยก็อาจเปลี่ยน
- ผมก็มีประสบการณ์เหมือนกัน
  สัปดาห์ก่อนผมใช้ Codex พัฒนา C++20 XPath 1.0 parser ที่สมบูรณ์ได้สำเร็จ และตอนนี้กำลังทำต่อเพื่อรองรับ XPath 2.0
  Codex ให้ผลลัพธ์ที่ยอดเยี่ยมอย่างต่อเนื่อง และนอกจากต้องใช้เวอร์ชันคลาวด์เพราะ local มีบั๊ก ก็แทบไม่มีปัญหาอะไร
  ส่วน Sonnet มักติดขัดกับงานที่มีความซับซ้อนสูง และใน 4.5 ก็ยังไม่รู้สึกถึงพัฒนาการชัดเจน
  โดยเฉพาะงานจัดการ date-time นั้น Claude แทบยอมแพ้ไปเลย ในขณะที่ Codex จัดการได้สมบูรณ์แบบ
  จริง ๆ ผมค่อนข้างมีใจให้ Anthropic แต่จนถึงตอนนี้ก็ยังมองว่า OpenAI นำอยู่ไกลมาก
  ถ้า Claude จะสู้กับ Codex ได้ ก็ต้องมีจุดทะลุที่สำคัญ แถมตอนนี้ยังแพงกว่าและมีปัญหาด้านคุณภาพบริการจนผู้ใช้ไหลออกมากด้วย
- ก็ตรงกับที่ผมคาดไว้
  Codex ดูเป็นเครื่องมือสำหรับ vibe coding มากกว่า ส่วน Claude Code เน้นไปทาง ai assisted development
  แต่ผมกลับชอบ Claude มากกว่า
  Codex ทำงานได้ดีแบบอิสระก็จริง แต่พอทิศทางเปลี่ยน เช่น การแก้ไฟล์ง่าย ๆ มาก ๆ มันกลับดื้อที่จะใช้ Python script จัดการ และยังอัปเดตข้อมูลล่าสุดได้ไม่ดีพอ
  เวลาขอคำอธิบายก็มีแนวโน้มจะลงมือทำทันทีโดยไม่สนบริบท
  ปัญหาเรื่องการจัดการสิทธิ์ก็ยังมีอยู่ แม้ sandbox ของ Codex จะดูเจ๋ง แต่ผมก็กังวลว่ามันอาจเผลอ commit อะไรเข้าไป เลยอยากให้แค่แก้ไขไฟล์มากกว่า
  แม้จะใช้ Codex เป็น MCP server ได้ แต่ส่วนตัวผมชอบใช้ Claude เป็นผู้ร่วมวางแผน แล้วให้ Codex ทำตามแผน จากนั้นค่อยร่วมงานกับ Claude เพื่อปรับให้เข้ากับสไตล์ของผม
- แนะนำให้ลองเติม ultrathink ลงในพรอมป์ต์แล้วเปิดเพลงไปด้วยระหว่างทดลอง
  อ้างอิง: ลิงก์ Reddit เกี่ยวกับ ultrathink
มองความสามารถของโมเดลช่วงนี้แล้วรู้สึกหดหู่
เคล็ดลับเล็ก ๆ น้อย ๆ ในการเขียนโค้ดสะอาดที่สั่งสมมาหลายปี เหมือนกำลังกลายเป็นรายละเอียดไร้ความหมาย
สิ่งที่เคยคิดว่าเป็นแก่นแท้ ตอนนี้กลับค่อย ๆ กลายเป็นเพียง ‘รายละเอียดการ implement’ ในพรอมป์ต์
มันให้ความรู้สึกเหมือนความสามารถของผมกำลังถูกแทนที่ด้วยระบบอัตโนมัติมากขึ้นเรื่อย ๆ
- รายละเอียดพวกนั้นจริง ๆ ก็มีความสำคัญคลุมเครือมาตั้งแต่แรกแล้ว ทักษะที่แท้จริงสุดท้ายคือกระบวนการหาเงินจากซอฟต์แวร์ต่างหาก
  เพราะ AI จะยิ่งทำให้มีซอฟต์แวร์ถูกสร้างมากขึ้น และก็จะยิ่งต้องการผู้เชี่ยวชาญมาคอยดูแล
- ผมเองก็เคยโฟกัสทำงานสาย AI แบบจริงจังอยู่หลายเดือน และในช่วง 4 สัปดาห์แรกขึ้นไปก็รู้สึกถึงวิกฤตแบบเดียวกัน
  โดยเฉพาะความสับสนที่เหมือนทักษะนักพัฒนาที่สั่งสมมา 25 ปีไม่มีความหมายอีกต่อไป
  แต่ถ้ายอมรับและปรับตัวเพิ่มอีกหน่อย ทุกอย่างจะดีขึ้นมาก
  ผมอยากให้จำไว้ว่าคุณมีคุณค่ามากกว่าทักษะการเขียนโค้ดของตัวเอง
- เมื่อก่อนคุณอาจยินดีกับความจริงที่ว่าระบบอัตโนมัติเข้ามาแทนที่คนอื่น แต่ตอนนี้ถึงคิวของคุณแล้ว
  นี่แหละคือปรากฏการณ์ ‘การทำลายล้างเชิงสร้างสรรค์’ ที่ทำให้เศรษฐกิจมีพลวัต
- แต่ก่อนผมก็คิดแบบนั้น ทว่าพอได้ลองใช้จริงช่วงหลัง กลับสรุปว่าแทบไม่ค่อยใช้งานได้จริง
  โดยเฉพาะเมื่อคนไม่มีประสบการณ์ไปพึ่ง vibe coding มันมักได้ผลลัพธ์ไร้สาระ และพอเจองานซับซ้อนขึ้นนิดเดียวก็มีข้อผิดพลาดร้ายแรงเกิดบ่อยมาก
  แม้แต่การทำ frontend อัตโนมัติก็ยังไม่น่าพอใจ เช่น งานง่ายมาก ๆ ก็ยังสร้างโค้ดยาวเกินจำเป็น
  สุดท้ายจึงเหมือนทำได้แค่ frontend พื้นฐานแบบ react/nextjs และ clone เว็บยอดนิยม ส่วน requirement แปลก ๆ หรือการออกแบบที่ละเอียดจริง ๆ ยังลำบากมาก จากประสบการณ์ที่เจอ
- ในความเป็นจริง เครื่องมือ vibe coding ไม่ได้เพิ่มผลิตภาพได้มากขนาดนั้น
  สรุปคือมนุษย์ยังต้องรับผิดชอบการบำรุงรักษาระบบอยู่ดี ไม่ว่าจะเป็นโค้ดหรืออินฟราฯ และกระบวนการที่มนุษย์ต้องเข้าใจโครงสร้างและหลักการทำงานของระบบนั้นไม่มีทางทำให้เป็นอัตโนมัติได้
  ท้ายที่สุด นักพัฒนาที่มีวิธีคิดแบบผู้เชี่ยวชาญจะยิ่งกลายเป็นทรัพยากรหายากและสำคัญมากขึ้น
ผมให้ Sonnet 4 กับ Opus 4.1 ทำงานแทนที่โค้ดง่าย ๆ แต่ทั้งคู่ล้มเหลว
เป็นการแปลงที่แม้แต่มือใหม่ก็ทำได้ ทำให้กังวลว่าโมเดลต่าง ๆ กำลังไล่ตามคะแนน benchmark จนพลาดประสิทธิภาพในการใช้งานจริง
พอให้พรอมป์ต์ต่อว่า “ทำตามที่ฉันขอให้ตรงเป๊ะ” Sonnet กลับทำสำเร็จ ส่วน Opus หลุดเข้า infinite loop
- ความหมกมุ่นกับ benchmark อาจเป็นโทษต่อประสิทธิภาพจริง ซึ่งเป็นเรื่องที่กังวลกันมานานแล้ว
  สำหรับผม Claude ตั้งแต่ 3.7 ไป 4 ประสิทธิภาพที่สัมผัสได้กลับแย่ลง ทั้งที่ benchmark พุ่งขึ้นมาก
  ในระดับนั้นก็พอเข้าใจได้ว่าโจทย์เรื่อง benchmarking เองยังตามการพัฒนา AI ไม่ทัน
- ผมมองว่ามันแทบเป็นวงจรแบบ ‘รัน benchmark ให้ได้คะแนนสูงสุด → ประสิทธิภาพจริงลดลง → อีกไม่กี่สัปดาห์ค่อยปล่อยโมเดลที่ดีขึ้น แล้ววนซ้ำ’
- โมเดลต่าง ๆ ก็อาศัยแหล่งข้อมูลชุดเดียวกันทั้งอินเทอร์เน็ต, github, หนังสือ ฯลฯ และถูก optimize ให้เข้ากับชุดทดสอบมาตรฐาน จนสงสัยว่านอกจากคะแนนแล้วจะยังเหลือความแตกต่างหรือคุณค่าเฉพาะอะไรอีกหรือไม่
- ตอนนี้ผมคิดว่าน่าจะดีถ้ามีฐานข้อมูลชุมชนสำหรับรวบรวมตัวอย่างที่ LLM ทำพลาด เพราะในมือผมเองก็มีกรณีแบบนั้นเยอะมาก
- งานง่าย ๆ อย่างขอให้แก้ lint error นิดหน่อย ผมว่าทำเองแล้วไปต่อยังดีกว่า
  แทนที่จะพยายามให้ความหมายกับงานจิ๊บจ๊อยพวกนี้ ควรไปหาประโยชน์จาก AI ตอนที่มันทำงานซับซ้อนกว่านี้ได้ยอดเยี่ยมจริง ๆ จะดีกว่า
ในชาร์ตดูเหมือน Sonnet 4 จะนำ GPT-5-codex บน benchmark แบบ SWE verified ไปแล้ว แต่จากประสบการณ์จริงของผม GPT-5-codex เหนือกว่ามากเวลาจัดการปัญหาซับซ้อน
- GPT-5 เหมือนเพื่อนร่วมทีมเบสบอลที่ตีโฮมรันเก่ง แต่พื้นฐานเกมรับใน outfield ยังไม่ดี
  แม้ตอนทำงานร่วมกับเอเจนต์อื่น ๆ มันก็มักสร้างดราม่าอยู่บ่อย และตอนล่าสุดที่บอกว่าจะย้ายไปใช้ claude code มันยังดื้อจะทำ git reset --hard อีก เรียกว่าพฤติกรรมคาดเดาไม่ได้
  ในทางกลับกัน gemini กับ claude เป็นผู้ร่วมงานที่ยอดเยี่ยม
  ผมไม่คิดว่านี่เป็นสิ่งที่ตั้งใจให้ GPT-5 เป็นแบบนี้ น่าจะเป็นผลจากขวัญกำลังใจภายใน OpenAI ที่ตกลงไปมากกว่า
- ของผม 5-codex ใช้โทเค็นเร็วเกินไป และทำตามคำสั่งใน agents.md ได้น้อยกว่า Claude
  โดยเฉพาะกับคำสั่งเล็กน้อย มันมักพยายามเขียน bash หรือ python script แบบใหญ่โตเกินเหตุ
- ของผมนี่ตรงข้ามเลย GPT-5-codex ช้ามากและผลลัพธ์ก็ธรรมดา
  ถ้าต้องถูกบังคับให้ใช้ ผมคงเลิกใช้ AI ไปเลย
- ผมไม่คิดว่าประสิทธิภาพของโมเดลจะมีมาตรฐานตายตัวแบบสัมบูรณ์
  ยกตัวอย่าง แม้จะระบุให้ใช้ Claude-Opus บางครั้งก็ยังได้คำตอบแย่กว่าจากโมเดลราคาถูกมาก ๆ
  ความผันผวนของประสิทธิภาพสูงมาก และคาดว่าน่าจะเกี่ยวกับทรัพยากรเซิร์ฟเวอร์ตามสภาพทราฟฟิก
  Anthropic เองก็เคยพูดอย่างเป็นทางการว่ามีผลกระทบจากการทดลองจนประสิทธิภาพตก
  ผมจึงคิดว่า GPT เองก็น่าจะมีช่วง peak time ที่ประสิทธิภาพลดลงเพราะข้อจำกัดด้าน data center เช่นกัน
- โมเดลของ Anthropic ดูเหมือนถูกจูนมาให้เหมาะกับ vibe-coding
  มันทำได้ดีกับ Python/TypeScript ง่าย ๆ แต่จะอ่อนกับโค้ดเชิงวิทยาศาสตร์/ซับซ้อนและ codebase ขนาดใหญ่
  ผมเองก็ไม่ได้คาดหวังการเปลี่ยนแปลงใหญ่จาก Sonnet ตัวใหม่
ผมสนใจมากกับสโลแกนโฆษณาที่ว่า “ทำงานหลายขั้นตอนที่ซับซ้อนได้โดยไม่เสียสมาธินานกว่า 30 ชั่วโมง”
ตามบทความของ The Verge และที่อื่น ๆ บอกว่ามันสร้าง Slack clone ต่อเนื่อง 30 ชั่วโมง โดยใช้โค้ด 11,000 บรรทัดจริง
แต่ผมยังสงสัยมากว่าถ้าปล่อย LLM ทำงานแบบไม่มีคนดูนาน 30 ชั่วโมงจริง คุณภาพของผลลัพธ์จะออกมาแค่ไหน
บทความที่เกี่ยวข้อง
- การทำงานต่อเนื่อง 30 ชั่วโมงไม่ใช่สิ่งที่จะเกิดขึ้นได้เพียงแค่ปล่อย LLM ไว้ลำพัง
  จำเป็นต้องมีการเชื่อมต่อ external tool, การจัดการ context และการตั้งค่าสภาพแวดล้อมต่าง ๆ
  ถึงขั้นต้องมีการตั้งค่าระบบ multi-agent ด้วย จึงเป็นงานที่ต้องลงแรงด้านอินฟราฯ และการตั้งค่าอย่างมาก
- คำว่า “ทำงาน 30 ชั่วโมงแบบไม่มีคนดู” มันคลุมเครือเกินไปจนไม่มีความหมายเชิงรูปธรรม
  ยกตัวอย่าง ถ้ามันประมวลผลแค่ 1 โทเค็นต่อชั่วโมง ก็อาจได้แค่ประโยคเดียวตลอดทั้งงาน
- ผมอยากรู้รายละเอียดเชิงเทคนิคว่ามีการใช้เครื่องมือจัดการ context ของโมเดลจริงหรือไม่ และพรอมป์ต์ขนาด 200k ถึง 1M โทเค็นนั้นถูกใช้งานในรูปแบบไหน
ผมเพิ่งลองกับ issue ง่าย ๆ ไป และเหมือนกับโมเดลก่อนหน้า Sonnet 4.5 ก็ยังมีแนวโน้มจะมุดลง rabbit hole แล้วทำปัญหาให้ซับซ้อนเกินเหตุ
ส่วนใหญ่เป็นการลองผิดลองถูก พร้อมกับส่ง feedback แนว “ตอนนี้น่าจะแก้ได้แล้ว” ซ้ำไปซ้ำมา
ตัวอย่างเช่น มี error ใน GH Actions pipeline ที่ build system ตรวจไม่พบเพราะไม่มี source file แต่ Sonnet 4.5 กลับเสนอวิธีแก้เพี้ยน ๆ ซ้ำแล้วซ้ำเล่า เช่น สร้างไฟล์ JSON หลอก หรือกำหนด workflow parameter ที่ไม่มีอยู่จริง
ทั้งที่จริงแล้วแค่ override step ให้พิมพ์ “Hello world” ก็จบแล้ว
เลยสงสัยว่าทำไม AI ถึงอ่อนกับการคิดนอกกรอบแบบง่าย ๆ เช่นนี้
เหมือนอัจฉริยะ IQ 170 ที่กลับขึ้นรถสาธารณะไม่เป็น
ผมจ่ายค่าสมาชิกทั้ง Gemini, Claude และ OpenAI และช่วงหลังได้ข้อสรุปว่า ChatGPT นำไปไกลมาก
คำตอบกระชับกว่า ให้ข้อมูลดีกว่า และพอทดสอบ Claude 4.5 จริง ๆ ก็ไม่รู้สึกถึงการพัฒนามากนัก
- ผมก็สมัครทั้งสามเจ้าเหมือนกัน
  ถ้าวิเคราะห์สถานการณ์ซับซ้อน ChatGPT ดีที่สุด แต่ถ้าต้องเขียนโค้ด Claude ยังทำได้ดีกว่า
  ผมจะใช้ ChatGPT สำหรับออกแบบและแก้ปัญหา แล้วค่อยส่งคำตอบนั้นต่อให้ Claude หรือ Gemini ไปลงมือ implement
  Gemini อยู่ในระดับกลางที่ทำได้ดีทั้งสองด้าน
- โดยรวม ChatGPT อาจดีกว่านิดหน่อย แต่ Gemini ก็อาจกลายเป็นตัวที่ดีที่สุดในบริบทการใช้งานจริงได้ ถ้าใช้ AI Studio ให้เต็มที่ ปรับการตั้งค่า และจูน system prompt
  ยกตัวอย่าง nano banana อาจเป็น SOTA แต่ Qwen-Edit เซ็นเซอร์น้อยกว่า เลยรู้สึกว่าใช้จริงได้ดีกว่า
  ในบริการอีคอมเมิร์ซโลคัลไลซ์ที่ผมดูแลอยู่ nano banana ใช้ไม่ได้เพราะจำกัดการสร้างภาพผู้หญิง แต่ Qwen-Edit ใช้งานได้แทบไม่มีปัญหา
- ผมก็สมัครทั้ง Claude Max และ ChatGPT Codex สองบัญชีเหมือนกัน
  เมื่อก่อนเป็นแฟน Claude แต่ช่วงหลังแทบใช้แต่ codex
  ถ้าติดปัญหาก็โยนงานง่าย ๆ ให้ Claude หรือไม่ก็ทดสอบพร้อมกัน แต่ Claude Code ของ Sonnet/Opus ให้ผลลัพธ์ด้อยกว่า Codex อย่างชัดเจน
- อยากให้ช่วยยืนยันให้ชัดว่าที่พูดถึงคือ codex ใช่ไหม
- Grok เป็นอย่างไรบ้าง ตามขึ้นมาได้ไหม
ผมยังไม่ได้ลอง Claude แต่ใช้ AI ทำงานหลายอย่าง เช่น ตรวจแก้บทความการเมือง
ผมเคยเจอกรณีที่ ChatGPT หยุดทำงานไปเลยเพราะ guardrail กับหัวข้ออ่อนไหวบางอย่าง เช่น คดีล่วงละเมิดทางเพศเด็กอายุ 12 ปีในออสเตรีย
มันตรวจจับแค่คำว่า ‘sex + kid’ โดยไม่สนบริบทแล้วบล็อกทันที ซึ่งผมรับไม่ได้
มันเหมือน word processor ที่คอยเซ็นเซอร์หัวข้อและไม่ให้คุณเขียนต่อ จนไม่ทำหน้าที่เป็นเครื่องมืออย่างที่ควรเป็น
- ในความเป็นจริง สำหรับหัวข้อแบบนี้ สัดส่วนของเนื้อหาที่สนทนาได้อย่างชอบธรรมเมื่อเทียบกับเนื้อหาที่ยอมรับไม่ได้มันสูงเกินไป ดังนั้นจากมุมของผู้ให้บริการส่วนใหญ่ การบล็อกจึงถือว่าสมเหตุสมผล
  ยกตัวอย่าง ผมเคยเจอกรณีน่าปวดหัวที่แอปจัดการสายเลือดสัตว์เครือญาติที่ผมพัฒนา ถูกบล็อกแค่เพราะมีคำว่า breeding/breeders
- ผมเห็นว่า "service" ไม่ใช่เครื่องมือ
  ถ้าคุณต้องการเครื่องมือจริง ๆ คำตอบคือรัน LLM เองในเครื่อง local
- ท้ายที่สุดผมคิดว่า AI ที่มี guardrail น้อยที่สุดจะครองตลาด
  ในบรรดา frontier model ตอนนี้ Grok ดูเป็นตัวที่จำกัดน้อยที่สุด แต่ก็ยังมีพื้นที่ให้ปรับปรุงอีก
- คล้ายกันเลย ผมเคยพยายามใช้ ChatGPT/DallE สร้างภาพคูปองวันเกิดให้ลูกสาว แต่สุดท้ายเวลา 3 ใน 4 หมดไปกับการหาทางหลบเลี่ยงนโยบายคอนเทนต์ต่าง ๆ
- จากประสบการณ์เล็ก ๆ ของผมเอง Claude จะบล็อกการสนทนาในหัวข้อที่ ‘อ่อนไหว’ เร็วและแรงกว่ามาก
ผมลองทดสอบเร็ว ๆ ร่วมกับ System Initiative
ปัญหา infra 503 ที่ถ้าทำมือจะใช้เวลามากกว่า 2 ชั่วโมง พอลองจับคู่กันแล้วแก้ได้ใน 15 นาที
กรณีใช้งานอื่น ๆ สรุปไว้ในบล็อก
System Initiative อย่างเป็นทางการ
บล็อกรีวิวการใช้งาน

Claude Sonnet 4.5

ภาพรวมของ Claude Sonnet 4.5

การอัปเดตผลิตภัณฑ์หลัก

Claude Agent SDK

ประสิทธิภาพและ benchmark

กรณีศึกษาจากลูกค้า

ความปลอดภัยและ alignment

พรีวิวงานวิจัย

ข้อมูลเพิ่มเติมและการย้ายระบบ

บทสรุปและคำแนะนำ

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News