- Claude Sonnet 4.5 เป็นโมเดล AI รุ่นล่าสุดที่แสดงประสิทธิภาพระดับแนวหน้าในด้าน การเขียนโค้ด การให้เหตุผล และความสามารถทางคณิตศาสตร์
- Claude Code ที่อัปเดตแล้วเพิ่มฟีเจอร์ checkpoints, UI เทอร์มินัลที่ปรับปรุงใหม่, ส่วนขยาย VS Code และการจัดการหน่วยความจำ ทำให้สามารถทำงานที่ซับซ้อนต่อเนื่องได้เป็นเวลานาน
- Claude Agent SDK ที่เพิ่งเปิดตัวใหม่มอบโครงสร้างพื้นฐานหลักสำหรับการพัฒนาเอเจนต์ ช่วยให้สร้างเครื่องมือแก้ปัญหาที่หลากหลายได้โดยตรง
- ใน benchmark อย่าง SWE-bench และ OSWorld ทำผลงานทิ้งห่างโมเดลคู่แข่งอย่างชัดเจน และพิสูจน์จุดแข็งด้านคณิตศาสตร์ การให้เหตุผล และความเหมาะสมกับงานเฉพาะทาง
- ในด้านความปลอดภัย ยังได้รับการประเมินว่าเป็น โมเดลที่จัดแนว (alignment) ได้ดีที่สุด พร้อมความสามารถที่ดีขึ้นในการป้องกัน prompt injection และบล็อกเนื้อหาที่มีความเสี่ยง
ภาพรวมของ Claude Sonnet 4.5
- Claude Sonnet 4.5 คือ โมเดลสำหรับการเขียนโค้ดที่ดีที่สุดในปัจจุบัน และแสดงประสิทธิภาพที่ทรงพลังที่สุดในการสร้างเอเจนต์ที่ซับซ้อนและการใช้งานคอมพิวเตอร์
- ในสภาพแวดล้อมการทำงานสมัยใหม่ทั้งหมดที่เราใช้งาน ไม่ว่าจะเป็นซอฟต์แวร์ สเปรดชีต หรือเครื่องมือต่าง ๆ โค้ดคือองค์ประกอบหลัก
- ความสามารถด้าน การให้เหตุผลและการแก้ปัญหาทางคณิตศาสตร์ ก็ได้รับการปรับปรุงอย่างชัดเจนเมื่อเทียบกับรุ่นก่อน ทำให้นำไปใช้ได้มากขึ้นในหลากหลายสาขาเฉพาะทาง
- ให้บริการในราคาเดียวกับ Sonnet 4 เดิม ($3 / $15 ต่อหนึ่งล้านโทเค็น)
การอัปเดตผลิตภัณฑ์หลัก
- Claude Code
- เพิ่มฟีเจอร์ checkpoints สำหรับบันทึกงานระหว่างทางและย้อนกลับได้
- ปรับปรุงเทอร์มินัลอินเทอร์เฟซ และเปิดตัว ส่วนขยาย VS Code แบบเนทีฟ
- เพิ่ม context editing และเครื่องมือ memory เพื่อรองรับงานระยะยาวและงานที่ซับซ้อน
- Claude Apps
- รองรับการรันโค้ดและสร้างไฟล์ (สเปรดชีต สไลด์ เอกสาร) ได้โดยตรงภายในการสนทนา
- Claude for Chrome
- มีส่วนขยายสำหรับผู้ใช้ Max เพื่อรองรับการทำงานอัตโนมัติภายในเบราว์เซอร์
Claude Agent SDK
- เปิดเผย โครงสร้างพื้นฐานเอเจนต์ ที่ Anthropic ใช้สร้าง Claude Code ให้แก่นักพัฒนาภายนอก
- มอบฐานสำหรับแก้โจทย์ยาก เช่น การจัดการหน่วยความจำระยะยาว การควบคุมสิทธิ์ และการประสานงานระหว่าง sub-agent หลายตัว
- สามารถนำไปใช้สร้างเอเจนต์ได้หลากหลาย ไม่จำกัดแค่การเขียนโค้ด
ประสิทธิภาพและ benchmark
- ทำสถิติสูงสุดบน SWE-bench Verified และสามารถทำงานเขียนโค้ดแบบหลายขั้นตอนระยะยาวต่อเนื่องได้นาน มากกว่า 30 ชั่วโมง
- ทำได้ 61.4% บน benchmark OSWorld (Sonnet 4 รุ่นก่อนทำได้ 42.2%)
- ความสามารถใน การประเมินด้านการให้เหตุผล คณิตศาสตร์ และหลายภาษา (MMMLU) ก็เพิ่มขึ้นอย่างมาก และได้รับการยืนยันถึงความเป็นเลิศจากการประเมินของผู้เชี่ยวชาญด้านการเงิน กฎหมาย การแพทย์ และ STEM
- ผ่าน feedback จากลูกค้า ได้พิสูจน์การใช้งานจริงใน production ทั้งในด้านงานระยะยาว ความเข้าใจ codebase ที่ซับซ้อน และการเขียนโค้ดที่รวดเร็วและแม่นยำ
กรณีศึกษาจากลูกค้า
- Cursor: ยืนยันประสิทธิภาพสูงสุดในการแก้ปัญหาที่ซับซ้อน
- GitHub Copilot: การให้เหตุผลหลายขั้นตอนและความเข้าใจโค้ดดีขึ้น
- ด้านความปลอดภัย: ลดเวลาในการตอบสนองต่อช่องโหว่ลง 44% และเพิ่มความแม่นยำ 25%
- Canva, Figma: ปรับปรุงผลิตภาพอย่างก้าวกระโดดในการทำงานกับ codebase ขนาดใหญ่และการทำต้นแบบ
- Devin: ประสิทธิภาพด้านการวางแผนดีขึ้น 18% และความสามารถในการทดสอบและรันโค้ดแข็งแกร่งขึ้น
ความปลอดภัยและ alignment
- Sonnet 4.5 เป็นโมเดลของ Anthropic ที่มีระดับ alignment สูงที่สุดเท่าที่เคยประกาศมา
- มีการทำ reinforcement learning ด้านความปลอดภัยเพื่อลด พฤติกรรมที่ไม่พึงประสงค์ เช่น การประจบ การหลอกลวง การแสวงหาอำนาจ และการส่งเสริมความหลงผิด
- มีความก้าวหน้าอย่างมากในการ ป้องกันการโจมตีแบบ prompt injection และยังนำเทคนิคการตีความกลไกมาใช้ในการประเมินความปลอดภัย
- มี การคำนวณคะแนนความเป็นไปได้ของการใช้งานผิดวัตถุประสงค์แบบอัตโนมัติ ผ่านระบบตรวจสอบพฤติกรรมอัตโนมัติ และผ่านเกณฑ์ความปลอดภัยระดับสูง
- เปิดตัวภายใต้การป้องกันระดับ AI Safety Level 3 (ASL-3) โดยใช้ การกรองอินพุตและเอาต์พุตที่เป็นอันตราย (เช่น ความเสี่ยงด้านเคมี ชีวภาพ รังสี และนิวเคลียร์)
พรีวิวงานวิจัย
- พร้อมกับ Claude Sonnet 4.5 มีพรีวิวงานวิจัยชั่วคราวชื่อ "Imagine with Claude"
- สาธิตการ สร้างซอฟต์แวร์สด ๆ ตามสถานการณ์ โดยตอบสนองและปรับตัวแบบเรียลไทม์ตามคำขอของผู้ใช้ โดยไม่มีโค้ดหรือฟังก์ชันที่เตรียมไว้ล่วงหน้า
- ผู้สมัครสมาชิก Max สามารถทดลองใช้ได้เป็นเวลา 5 วัน
ข้อมูลเพิ่มเติมและการย้ายระบบ
บทสรุปและคำแนะนำ
- Claude Sonnet 4.5 เป็นโมเดลแบบ drop-in replacement ที่ปรับปรุงประสิทธิภาพแล้วสำหรับทุกสภาพแวดล้อมการใช้งาน ไม่ว่าจะเป็น API, แอป หรือ Claude Code
- มีทั้ง ประสิทธิภาพระดับโลก ความสามารถในการใช้งานจริง และความสอดคล้อง ในด้านการเขียนโค้ด การสร้างเอเจนต์ และการใช้งานคอมพิวเตอร์
- ด้วยนโยบายความปลอดภัยที่แข็งแกร่งและการรองรับเครื่องมือสำหรับนักพัฒนาอย่างกว้างขวาง จะช่วย เร่งผลิตภาพและนวัตกรรมของนักพัฒนาและองค์กรไอที
- ให้ความสามารถที่ทรงพลังยิ่งขึ้นในราคาเดิม จึงแนะนำให้อัปเกรด
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ส่วนตัวรู้สึกว่าประทับใจมาก และแม้จะไม่ใช่การเปรียบเทียบแบบรอบด้าน แต่โดยความรู้สึกแล้วมันทำผลงานได้ดีกว่า GPT-5-Codex เล็กน้อย
โดยเฉพาะในโหมด code interpreter ใหม่ของ Python/Node.js บน claude.ai ที่ผมคิดว่ามันโดดเด่นมาก
แนะนำให้ลองใช้พรอมป์ต์แบบด้านล่าง
มันยังจัดการงานรีแฟกเตอร์ฐานข้อมูลที่ซับซ้อนได้ดีแบบเป็นขั้นตอนด้วย รายละเอียดบันทึกไว้ในบล็อก
มีเรื่องหนึ่งที่อยากขอจาก @simonw และคนที่สนใจ benchmark ของ LLM
อยากให้เปิดเผยเวลาที่ใช้จนงานเสร็จด้วย
โพสต์นี้เป็นแนวรีวิวว่า “ใช้งานได้เลยบน claude.ai” แต่ไม่มีข้อมูล timestamp ว่าผลลัพธ์ออกมาตอนไหน
แม้แต่บนลีดเดอร์บอร์ด LLM coding จริง ๆ ก็แทบไม่มีข้อมูลเรื่องเวลาในการรันเลย ซึ่งน่าเสียดาย
เวลาทำงานของแต่ละโมเดลและแต่ละแพลตฟอร์มต่างกันมาก และเมื่อมีการทดลองซ้ำ/รีบูต หรือปรับปรุงพรอมป์ต์ ความเร็วในการอนุมาน ปริมาณโทเค็นที่ใช้ ประสิทธิภาพของ tooling ต้นทุน และความฉลาดของโมเดล ล้วนมีผลร่วมกัน
โดยเฉพาะโมเดลอย่าง Grok Code Fast และ Cerebras Code ต่อให้ไม่ใช่ตัวที่แรงที่สุด ก็ยังช่วยให้ทำงานได้มากกว่าเพราะเร็วกว่าเกิน 10 เท่า โมเดลที่เร็วคือข้อได้เปรียบจริง
benchmark ที่น่าอ้างอิง: swebench, tbench leaderboard, gosuevals agents
ลองแล้ว แต่ในสภาพแวดล้อมของผมมันไม่ทำงาน
บอกว่าเป็นคำสั่งสำหรับตั้งค่า LLM CLI tool โดยออปชัน -e คือการติดตั้งแบบ editable และ [test] คือการติดตั้ง test dependency
แต่เครื่องมือที่ผมมีไม่รองรับ shell command อย่าง pip, pytest, git clone หรือการรัน Python
ทำได้แค่รัน JavaScript ในสภาพแวดล้อมเบราว์เซอร์ และไม่สามารถรันคำสั่งระดับ shell ได้
เลยสงสัยว่าคุณคาดหวังอะไร ต้องการให้มันเข้าใจการตั้งค่าเทสต์ หรือหวังให้มีความสามารถนั้นจริง ๆ กันแน่
สำหรับคนที่สงสัยเรื่องกรณีใช้งานของพรอมป์ต์ “ช่วยทำเป็นไฟล์ zip ให้หน่อย”
หลายคนน่าจะไม่มีเวลาเปิด gist ไปดูเอง เลยอยากรู้ว่ามันทำงานได้จริงไหม และมีความเห็นเพิ่มเติมต่อผลลัพธ์หรือเปล่า
อยากรู้ว่า Claude Sonnet 4.5 ยังตอบทุกคำถามแบบ “ถูกต้องมากครับ!” อยู่ไหม หรือว่าตอนนี้คุยได้เหมือนโปรแกรมเมอร์จริง ๆ แล้ว
สงสัยว่าทำไมถึงได้สิทธิ์เข้าถึงพรีวิวล่วงหน้า
ขอแชร์ประสบการณ์ใช้งานจริง
ผมลองใช้พรอมป์ต์เดียวกันกับเว็บแอปขนาดใหญ่ราว 200k LoC ทั้งบน Sonnet 4.5 (Claude Code) และ GPT-5-Codex
โจทย์คือ “จาก ‘Go to Conversation’ หรือ ‘Go to Report’ ให้ป้อน title แล้วถ้าไม่ตรงกับองค์ประกอบมาตรฐาน ให้ทำ fuzzy search หลังผ่านไป 2 วินาที”
Sonnet 4.5 ให้ผลลัพธ์ในราว 3 นาที แต่โค้ดค่อนข้างหยาบ และยังไม่สามารถนำ auth เดิมกลับมาใช้ซ้ำได้ กลับพยายามสร้าง server-side auth ใหม่
แม้จะชี้ปัญหาและ re-prompt แล้วก็ไม่ได้ดีขึ้นมาก และยังไม่เขียน test code ซึ่งเป็นข้อกำหนดสำคัญ
ในทางกลับกัน GPT-5-Codex ใช้เวลาราว 20 นาที แต่จัดการ error handling และ edge case ต่าง ๆ ได้ละเอียดมาก และยังเขียน test code ให้เองโดยไม่ต้องสั่งเพิ่ม
API ก็ทำงานลื่นไหล และในแง่ความสมบูรณ์ของงานโดยรวมให้คุณภาพระดับนักพัฒนา Senior
ผมไม่ต้องการงานแบบ ‘เร็วแต่เลอะเทอะ’ ที่ออกมาใน 3 นาที ดังนั้นจึงเลือก 20 นาทีแบบไม่ลังเล
แม้ Sonnet จะทำผลลัพธ์ออกมาได้เร็วอย่างน่าทึ่งตามที่คาด แต่ถ้าไม่มีคุณภาพที่ดีและไม่มีเทสต์ งานแบบนั้นก็ไม่มีความหมาย
ไม่อยากให้ฟังดูเป็นการวิจารณ์ แต่ผมคิดว่าถ้าเริ่มจากพรอมป์ต์สั้น ๆ แบบประโยคเดียว ผลลัพธ์ก็คงต้องออกมาค่อนข้างสุ่มอยู่แล้ว
สิ่งสำคัญคือการจัดกลุ่มตรรกะและเงื่อนไขรายละเอียดให้ชัดเจนกว่านี้ ซึ่งตัวอย่างพรอมป์ต์ก็แทบจะเป็น run-on sentence อยู่แล้ว
สำหรับงานที่ซับซ้อนหรือสำคัญ ผมคิดว่าพรอมป์ต์ควรละเอียดขึ้นจนยาวกว่าเดิม 5–20 เท่า
ถ้า input มีโครงสร้างชัด และ codebase มี pattern ที่วางไว้ดี AI ก็จะให้ผลลัพธ์ที่ดีกว่ามาก
ในชีวิตจริง ถ้าคุณโยน requirement สั้น ๆ แค่ประโยคเดียวให้ Junior developer หรือให้ทีมโดยไม่มีรายละเอียดเพิ่ม ก็ต้องยอมรับได้อยู่แล้วว่าผลลัพธ์อาจไม่ตรงใจ
ขอแนะนำว่าถ้าลงทุนเพิ่มอีกไม่กี่นาทีเพื่อเตรียมพรอมป์ต์ตั้งแต่แรก โอกาสได้ผลลัพธ์ที่น่าพอใจก็จะสูงขึ้นมาก
ใช้แพลนเสียเงิน ChatGPT Pro อยู่ไหม แล้ว Codex CLI รวมอยู่ในนั้นด้วยหรือเปล่า
ผมใช้ Claude Code ผ่านแพลน Max เพื่อใช้งาน Sonnet/Opus อยู่ แต่ถ้า ChatGPT Pro ใช้ Codex ได้ด้วยก็อาจเปลี่ยน
ผมก็มีประสบการณ์เหมือนกัน
สัปดาห์ก่อนผมใช้ Codex พัฒนา C++20 XPath 1.0 parser ที่สมบูรณ์ได้สำเร็จ และตอนนี้กำลังทำต่อเพื่อรองรับ XPath 2.0
Codex ให้ผลลัพธ์ที่ยอดเยี่ยมอย่างต่อเนื่อง และนอกจากต้องใช้เวอร์ชันคลาวด์เพราะ local มีบั๊ก ก็แทบไม่มีปัญหาอะไร
ส่วน Sonnet มักติดขัดกับงานที่มีความซับซ้อนสูง และใน 4.5 ก็ยังไม่รู้สึกถึงพัฒนาการชัดเจน
โดยเฉพาะงานจัดการ date-time นั้น Claude แทบยอมแพ้ไปเลย ในขณะที่ Codex จัดการได้สมบูรณ์แบบ
จริง ๆ ผมค่อนข้างมีใจให้ Anthropic แต่จนถึงตอนนี้ก็ยังมองว่า OpenAI นำอยู่ไกลมาก
ถ้า Claude จะสู้กับ Codex ได้ ก็ต้องมีจุดทะลุที่สำคัญ แถมตอนนี้ยังแพงกว่าและมีปัญหาด้านคุณภาพบริการจนผู้ใช้ไหลออกมากด้วย
ก็ตรงกับที่ผมคาดไว้
Codex ดูเป็นเครื่องมือสำหรับ vibe coding มากกว่า ส่วน Claude Code เน้นไปทาง ai assisted development
แต่ผมกลับชอบ Claude มากกว่า
Codex ทำงานได้ดีแบบอิสระก็จริง แต่พอทิศทางเปลี่ยน เช่น การแก้ไฟล์ง่าย ๆ มาก ๆ มันกลับดื้อที่จะใช้ Python script จัดการ และยังอัปเดตข้อมูลล่าสุดได้ไม่ดีพอ
เวลาขอคำอธิบายก็มีแนวโน้มจะลงมือทำทันทีโดยไม่สนบริบท
ปัญหาเรื่องการจัดการสิทธิ์ก็ยังมีอยู่ แม้ sandbox ของ Codex จะดูเจ๋ง แต่ผมก็กังวลว่ามันอาจเผลอ commit อะไรเข้าไป เลยอยากให้แค่แก้ไขไฟล์มากกว่า
แม้จะใช้ Codex เป็น MCP server ได้ แต่ส่วนตัวผมชอบใช้ Claude เป็นผู้ร่วมวางแผน แล้วให้ Codex ทำตามแผน จากนั้นค่อยร่วมงานกับ Claude เพื่อปรับให้เข้ากับสไตล์ของผม
แนะนำให้ลองเติม ultrathink ลงในพรอมป์ต์แล้วเปิดเพลงไปด้วยระหว่างทดลอง
อ้างอิง: ลิงก์ Reddit เกี่ยวกับ ultrathink
มองความสามารถของโมเดลช่วงนี้แล้วรู้สึกหดหู่
เคล็ดลับเล็ก ๆ น้อย ๆ ในการเขียนโค้ดสะอาดที่สั่งสมมาหลายปี เหมือนกำลังกลายเป็นรายละเอียดไร้ความหมาย
สิ่งที่เคยคิดว่าเป็นแก่นแท้ ตอนนี้กลับค่อย ๆ กลายเป็นเพียง ‘รายละเอียดการ implement’ ในพรอมป์ต์
มันให้ความรู้สึกเหมือนความสามารถของผมกำลังถูกแทนที่ด้วยระบบอัตโนมัติมากขึ้นเรื่อย ๆ
รายละเอียดพวกนั้นจริง ๆ ก็มีความสำคัญคลุมเครือมาตั้งแต่แรกแล้ว ทักษะที่แท้จริงสุดท้ายคือกระบวนการหาเงินจากซอฟต์แวร์ต่างหาก
เพราะ AI จะยิ่งทำให้มีซอฟต์แวร์ถูกสร้างมากขึ้น และก็จะยิ่งต้องการผู้เชี่ยวชาญมาคอยดูแล
ผมเองก็เคยโฟกัสทำงานสาย AI แบบจริงจังอยู่หลายเดือน และในช่วง 4 สัปดาห์แรกขึ้นไปก็รู้สึกถึงวิกฤตแบบเดียวกัน
โดยเฉพาะความสับสนที่เหมือนทักษะนักพัฒนาที่สั่งสมมา 25 ปีไม่มีความหมายอีกต่อไป
แต่ถ้ายอมรับและปรับตัวเพิ่มอีกหน่อย ทุกอย่างจะดีขึ้นมาก
ผมอยากให้จำไว้ว่าคุณมีคุณค่ามากกว่าทักษะการเขียนโค้ดของตัวเอง
เมื่อก่อนคุณอาจยินดีกับความจริงที่ว่าระบบอัตโนมัติเข้ามาแทนที่คนอื่น แต่ตอนนี้ถึงคิวของคุณแล้ว
นี่แหละคือปรากฏการณ์ ‘การทำลายล้างเชิงสร้างสรรค์’ ที่ทำให้เศรษฐกิจมีพลวัต
แต่ก่อนผมก็คิดแบบนั้น ทว่าพอได้ลองใช้จริงช่วงหลัง กลับสรุปว่าแทบไม่ค่อยใช้งานได้จริง
โดยเฉพาะเมื่อคนไม่มีประสบการณ์ไปพึ่ง vibe coding มันมักได้ผลลัพธ์ไร้สาระ และพอเจองานซับซ้อนขึ้นนิดเดียวก็มีข้อผิดพลาดร้ายแรงเกิดบ่อยมาก
แม้แต่การทำ frontend อัตโนมัติก็ยังไม่น่าพอใจ เช่น งานง่ายมาก ๆ ก็ยังสร้างโค้ดยาวเกินจำเป็น
สุดท้ายจึงเหมือนทำได้แค่ frontend พื้นฐานแบบ react/nextjs และ clone เว็บยอดนิยม ส่วน requirement แปลก ๆ หรือการออกแบบที่ละเอียดจริง ๆ ยังลำบากมาก จากประสบการณ์ที่เจอ
ในความเป็นจริง เครื่องมือ vibe coding ไม่ได้เพิ่มผลิตภาพได้มากขนาดนั้น
สรุปคือมนุษย์ยังต้องรับผิดชอบการบำรุงรักษาระบบอยู่ดี ไม่ว่าจะเป็นโค้ดหรืออินฟราฯ และกระบวนการที่มนุษย์ต้องเข้าใจโครงสร้างและหลักการทำงานของระบบนั้นไม่มีทางทำให้เป็นอัตโนมัติได้
ท้ายที่สุด นักพัฒนาที่มีวิธีคิดแบบผู้เชี่ยวชาญจะยิ่งกลายเป็นทรัพยากรหายากและสำคัญมากขึ้น
ผมให้ Sonnet 4 กับ Opus 4.1 ทำงานแทนที่โค้ดง่าย ๆ แต่ทั้งคู่ล้มเหลว
เป็นการแปลงที่แม้แต่มือใหม่ก็ทำได้ ทำให้กังวลว่าโมเดลต่าง ๆ กำลังไล่ตามคะแนน benchmark จนพลาดประสิทธิภาพในการใช้งานจริง
พอให้พรอมป์ต์ต่อว่า “ทำตามที่ฉันขอให้ตรงเป๊ะ” Sonnet กลับทำสำเร็จ ส่วน Opus หลุดเข้า infinite loop
ความหมกมุ่นกับ benchmark อาจเป็นโทษต่อประสิทธิภาพจริง ซึ่งเป็นเรื่องที่กังวลกันมานานแล้ว
สำหรับผม Claude ตั้งแต่ 3.7 ไป 4 ประสิทธิภาพที่สัมผัสได้กลับแย่ลง ทั้งที่ benchmark พุ่งขึ้นมาก
ในระดับนั้นก็พอเข้าใจได้ว่าโจทย์เรื่อง benchmarking เองยังตามการพัฒนา AI ไม่ทัน
ผมมองว่ามันแทบเป็นวงจรแบบ ‘รัน benchmark ให้ได้คะแนนสูงสุด → ประสิทธิภาพจริงลดลง → อีกไม่กี่สัปดาห์ค่อยปล่อยโมเดลที่ดีขึ้น แล้ววนซ้ำ’
โมเดลต่าง ๆ ก็อาศัยแหล่งข้อมูลชุดเดียวกันทั้งอินเทอร์เน็ต, github, หนังสือ ฯลฯ และถูก optimize ให้เข้ากับชุดทดสอบมาตรฐาน จนสงสัยว่านอกจากคะแนนแล้วจะยังเหลือความแตกต่างหรือคุณค่าเฉพาะอะไรอีกหรือไม่
ตอนนี้ผมคิดว่าน่าจะดีถ้ามีฐานข้อมูลชุมชนสำหรับรวบรวมตัวอย่างที่ LLM ทำพลาด เพราะในมือผมเองก็มีกรณีแบบนั้นเยอะมาก
งานง่าย ๆ อย่างขอให้แก้ lint error นิดหน่อย ผมว่าทำเองแล้วไปต่อยังดีกว่า
แทนที่จะพยายามให้ความหมายกับงานจิ๊บจ๊อยพวกนี้ ควรไปหาประโยชน์จาก AI ตอนที่มันทำงานซับซ้อนกว่านี้ได้ยอดเยี่ยมจริง ๆ จะดีกว่า
ในชาร์ตดูเหมือน Sonnet 4 จะนำ GPT-5-codex บน benchmark แบบ SWE verified ไปแล้ว แต่จากประสบการณ์จริงของผม GPT-5-codex เหนือกว่ามากเวลาจัดการปัญหาซับซ้อน
GPT-5 เหมือนเพื่อนร่วมทีมเบสบอลที่ตีโฮมรันเก่ง แต่พื้นฐานเกมรับใน outfield ยังไม่ดี
แม้ตอนทำงานร่วมกับเอเจนต์อื่น ๆ มันก็มักสร้างดราม่าอยู่บ่อย และตอนล่าสุดที่บอกว่าจะย้ายไปใช้ claude code มันยังดื้อจะทำ
git reset --hardอีก เรียกว่าพฤติกรรมคาดเดาไม่ได้ในทางกลับกัน gemini กับ claude เป็นผู้ร่วมงานที่ยอดเยี่ยม
ผมไม่คิดว่านี่เป็นสิ่งที่ตั้งใจให้ GPT-5 เป็นแบบนี้ น่าจะเป็นผลจากขวัญกำลังใจภายใน OpenAI ที่ตกลงไปมากกว่า
ของผม 5-codex ใช้โทเค็นเร็วเกินไป และทำตามคำสั่งใน agents.md ได้น้อยกว่า Claude
โดยเฉพาะกับคำสั่งเล็กน้อย มันมักพยายามเขียน bash หรือ python script แบบใหญ่โตเกินเหตุ
ของผมนี่ตรงข้ามเลย GPT-5-codex ช้ามากและผลลัพธ์ก็ธรรมดา
ถ้าต้องถูกบังคับให้ใช้ ผมคงเลิกใช้ AI ไปเลย
ผมไม่คิดว่าประสิทธิภาพของโมเดลจะมีมาตรฐานตายตัวแบบสัมบูรณ์
ยกตัวอย่าง แม้จะระบุให้ใช้ Claude-Opus บางครั้งก็ยังได้คำตอบแย่กว่าจากโมเดลราคาถูกมาก ๆ
ความผันผวนของประสิทธิภาพสูงมาก และคาดว่าน่าจะเกี่ยวกับทรัพยากรเซิร์ฟเวอร์ตามสภาพทราฟฟิก
Anthropic เองก็เคยพูดอย่างเป็นทางการว่ามีผลกระทบจากการทดลองจนประสิทธิภาพตก
ผมจึงคิดว่า GPT เองก็น่าจะมีช่วง peak time ที่ประสิทธิภาพลดลงเพราะข้อจำกัดด้าน data center เช่นกัน
โมเดลของ Anthropic ดูเหมือนถูกจูนมาให้เหมาะกับ vibe-coding
มันทำได้ดีกับ Python/TypeScript ง่าย ๆ แต่จะอ่อนกับโค้ดเชิงวิทยาศาสตร์/ซับซ้อนและ codebase ขนาดใหญ่
ผมเองก็ไม่ได้คาดหวังการเปลี่ยนแปลงใหญ่จาก Sonnet ตัวใหม่
ผมสนใจมากกับสโลแกนโฆษณาที่ว่า “ทำงานหลายขั้นตอนที่ซับซ้อนได้โดยไม่เสียสมาธินานกว่า 30 ชั่วโมง”
ตามบทความของ The Verge และที่อื่น ๆ บอกว่ามันสร้าง Slack clone ต่อเนื่อง 30 ชั่วโมง โดยใช้โค้ด 11,000 บรรทัดจริง
แต่ผมยังสงสัยมากว่าถ้าปล่อย LLM ทำงานแบบไม่มีคนดูนาน 30 ชั่วโมงจริง คุณภาพของผลลัพธ์จะออกมาแค่ไหน
บทความที่เกี่ยวข้อง
การทำงานต่อเนื่อง 30 ชั่วโมงไม่ใช่สิ่งที่จะเกิดขึ้นได้เพียงแค่ปล่อย LLM ไว้ลำพัง
จำเป็นต้องมีการเชื่อมต่อ external tool, การจัดการ context และการตั้งค่าสภาพแวดล้อมต่าง ๆ
ถึงขั้นต้องมีการตั้งค่าระบบ multi-agent ด้วย จึงเป็นงานที่ต้องลงแรงด้านอินฟราฯ และการตั้งค่าอย่างมาก
คำว่า “ทำงาน 30 ชั่วโมงแบบไม่มีคนดู” มันคลุมเครือเกินไปจนไม่มีความหมายเชิงรูปธรรม
ยกตัวอย่าง ถ้ามันประมวลผลแค่ 1 โทเค็นต่อชั่วโมง ก็อาจได้แค่ประโยคเดียวตลอดทั้งงาน
ผมอยากรู้รายละเอียดเชิงเทคนิคว่ามีการใช้เครื่องมือจัดการ context ของโมเดลจริงหรือไม่ และพรอมป์ต์ขนาด 200k ถึง 1M โทเค็นนั้นถูกใช้งานในรูปแบบไหน
ผมเพิ่งลองกับ issue ง่าย ๆ ไป และเหมือนกับโมเดลก่อนหน้า Sonnet 4.5 ก็ยังมีแนวโน้มจะมุดลง rabbit hole แล้วทำปัญหาให้ซับซ้อนเกินเหตุ
ส่วนใหญ่เป็นการลองผิดลองถูก พร้อมกับส่ง feedback แนว “ตอนนี้น่าจะแก้ได้แล้ว” ซ้ำไปซ้ำมา
ตัวอย่างเช่น มี error ใน GH Actions pipeline ที่ build system ตรวจไม่พบเพราะไม่มี source file แต่ Sonnet 4.5 กลับเสนอวิธีแก้เพี้ยน ๆ ซ้ำแล้วซ้ำเล่า เช่น สร้างไฟล์ JSON หลอก หรือกำหนด workflow parameter ที่ไม่มีอยู่จริง
ทั้งที่จริงแล้วแค่ override step ให้พิมพ์ “Hello world” ก็จบแล้ว
เลยสงสัยว่าทำไม AI ถึงอ่อนกับการคิดนอกกรอบแบบง่าย ๆ เช่นนี้
เหมือนอัจฉริยะ IQ 170 ที่กลับขึ้นรถสาธารณะไม่เป็น
ผมจ่ายค่าสมาชิกทั้ง Gemini, Claude และ OpenAI และช่วงหลังได้ข้อสรุปว่า ChatGPT นำไปไกลมาก
คำตอบกระชับกว่า ให้ข้อมูลดีกว่า และพอทดสอบ Claude 4.5 จริง ๆ ก็ไม่รู้สึกถึงการพัฒนามากนัก
ผมก็สมัครทั้งสามเจ้าเหมือนกัน
ถ้าวิเคราะห์สถานการณ์ซับซ้อน ChatGPT ดีที่สุด แต่ถ้าต้องเขียนโค้ด Claude ยังทำได้ดีกว่า
ผมจะใช้ ChatGPT สำหรับออกแบบและแก้ปัญหา แล้วค่อยส่งคำตอบนั้นต่อให้ Claude หรือ Gemini ไปลงมือ implement
Gemini อยู่ในระดับกลางที่ทำได้ดีทั้งสองด้าน
โดยรวม ChatGPT อาจดีกว่านิดหน่อย แต่ Gemini ก็อาจกลายเป็นตัวที่ดีที่สุดในบริบทการใช้งานจริงได้ ถ้าใช้ AI Studio ให้เต็มที่ ปรับการตั้งค่า และจูน system prompt
ยกตัวอย่าง nano banana อาจเป็น SOTA แต่ Qwen-Edit เซ็นเซอร์น้อยกว่า เลยรู้สึกว่าใช้จริงได้ดีกว่า
ในบริการอีคอมเมิร์ซโลคัลไลซ์ที่ผมดูแลอยู่ nano banana ใช้ไม่ได้เพราะจำกัดการสร้างภาพผู้หญิง แต่ Qwen-Edit ใช้งานได้แทบไม่มีปัญหา
ผมก็สมัครทั้ง Claude Max และ ChatGPT Codex สองบัญชีเหมือนกัน
เมื่อก่อนเป็นแฟน Claude แต่ช่วงหลังแทบใช้แต่ codex
ถ้าติดปัญหาก็โยนงานง่าย ๆ ให้ Claude หรือไม่ก็ทดสอบพร้อมกัน แต่ Claude Code ของ Sonnet/Opus ให้ผลลัพธ์ด้อยกว่า Codex อย่างชัดเจน
อยากให้ช่วยยืนยันให้ชัดว่าที่พูดถึงคือ codex ใช่ไหม
Grok เป็นอย่างไรบ้าง ตามขึ้นมาได้ไหม
ผมยังไม่ได้ลอง Claude แต่ใช้ AI ทำงานหลายอย่าง เช่น ตรวจแก้บทความการเมือง
ผมเคยเจอกรณีที่ ChatGPT หยุดทำงานไปเลยเพราะ guardrail กับหัวข้ออ่อนไหวบางอย่าง เช่น คดีล่วงละเมิดทางเพศเด็กอายุ 12 ปีในออสเตรีย
มันตรวจจับแค่คำว่า ‘sex + kid’ โดยไม่สนบริบทแล้วบล็อกทันที ซึ่งผมรับไม่ได้
มันเหมือน word processor ที่คอยเซ็นเซอร์หัวข้อและไม่ให้คุณเขียนต่อ จนไม่ทำหน้าที่เป็นเครื่องมืออย่างที่ควรเป็น
ในความเป็นจริง สำหรับหัวข้อแบบนี้ สัดส่วนของเนื้อหาที่สนทนาได้อย่างชอบธรรมเมื่อเทียบกับเนื้อหาที่ยอมรับไม่ได้มันสูงเกินไป ดังนั้นจากมุมของผู้ให้บริการส่วนใหญ่ การบล็อกจึงถือว่าสมเหตุสมผล
ยกตัวอย่าง ผมเคยเจอกรณีน่าปวดหัวที่แอปจัดการสายเลือดสัตว์เครือญาติที่ผมพัฒนา ถูกบล็อกแค่เพราะมีคำว่า breeding/breeders
ผมเห็นว่า "service" ไม่ใช่เครื่องมือ
ถ้าคุณต้องการเครื่องมือจริง ๆ คำตอบคือรัน LLM เองในเครื่อง local
ท้ายที่สุดผมคิดว่า AI ที่มี guardrail น้อยที่สุดจะครองตลาด
ในบรรดา frontier model ตอนนี้ Grok ดูเป็นตัวที่จำกัดน้อยที่สุด แต่ก็ยังมีพื้นที่ให้ปรับปรุงอีก
คล้ายกันเลย ผมเคยพยายามใช้ ChatGPT/DallE สร้างภาพคูปองวันเกิดให้ลูกสาว แต่สุดท้ายเวลา 3 ใน 4 หมดไปกับการหาทางหลบเลี่ยงนโยบายคอนเทนต์ต่าง ๆ
จากประสบการณ์เล็ก ๆ ของผมเอง Claude จะบล็อกการสนทนาในหัวข้อที่ ‘อ่อนไหว’ เร็วและแรงกว่ามาก
ผมลองทดสอบเร็ว ๆ ร่วมกับ System Initiative
ปัญหา infra 503 ที่ถ้าทำมือจะใช้เวลามากกว่า 2 ชั่วโมง พอลองจับคู่กันแล้วแก้ได้ใน 15 นาที
กรณีใช้งานอื่น ๆ สรุปไว้ในบล็อก
System Initiative อย่างเป็นทางการ
บล็อกรีวิวการใช้งาน