4 คะแนน โดย GN⁺ 2025-09-30 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Claude Sonnet 4.5 เป็นโมเดล AI รุ่นล่าสุดที่แสดงประสิทธิภาพระดับแนวหน้าในด้าน การเขียนโค้ด การให้เหตุผล และความสามารถทางคณิตศาสตร์
  • Claude Code ที่อัปเดตแล้วเพิ่มฟีเจอร์ checkpoints, UI เทอร์มินัลที่ปรับปรุงใหม่, ส่วนขยาย VS Code และการจัดการหน่วยความจำ ทำให้สามารถทำงานที่ซับซ้อนต่อเนื่องได้เป็นเวลานาน
  • Claude Agent SDK ที่เพิ่งเปิดตัวใหม่มอบโครงสร้างพื้นฐานหลักสำหรับการพัฒนาเอเจนต์ ช่วยให้สร้างเครื่องมือแก้ปัญหาที่หลากหลายได้โดยตรง
  • ใน benchmark อย่าง SWE-bench และ OSWorld ทำผลงานทิ้งห่างโมเดลคู่แข่งอย่างชัดเจน และพิสูจน์จุดแข็งด้านคณิตศาสตร์ การให้เหตุผล และความเหมาะสมกับงานเฉพาะทาง
  • ในด้านความปลอดภัย ยังได้รับการประเมินว่าเป็น โมเดลที่จัดแนว (alignment) ได้ดีที่สุด พร้อมความสามารถที่ดีขึ้นในการป้องกัน prompt injection และบล็อกเนื้อหาที่มีความเสี่ยง

ภาพรวมของ Claude Sonnet 4.5

  • Claude Sonnet 4.5 คือ โมเดลสำหรับการเขียนโค้ดที่ดีที่สุดในปัจจุบัน และแสดงประสิทธิภาพที่ทรงพลังที่สุดในการสร้างเอเจนต์ที่ซับซ้อนและการใช้งานคอมพิวเตอร์
    • ในสภาพแวดล้อมการทำงานสมัยใหม่ทั้งหมดที่เราใช้งาน ไม่ว่าจะเป็นซอฟต์แวร์ สเปรดชีต หรือเครื่องมือต่าง ๆ โค้ดคือองค์ประกอบหลัก
  • ความสามารถด้าน การให้เหตุผลและการแก้ปัญหาทางคณิตศาสตร์ ก็ได้รับการปรับปรุงอย่างชัดเจนเมื่อเทียบกับรุ่นก่อน ทำให้นำไปใช้ได้มากขึ้นในหลากหลายสาขาเฉพาะทาง
  • ให้บริการในราคาเดียวกับ Sonnet 4 เดิม ($3 / $15 ต่อหนึ่งล้านโทเค็น)

การอัปเดตผลิตภัณฑ์หลัก

  • Claude Code
    • เพิ่มฟีเจอร์ checkpoints สำหรับบันทึกงานระหว่างทางและย้อนกลับได้
    • ปรับปรุงเทอร์มินัลอินเทอร์เฟซ และเปิดตัว ส่วนขยาย VS Code แบบเนทีฟ
    • เพิ่ม context editing และเครื่องมือ memory เพื่อรองรับงานระยะยาวและงานที่ซับซ้อน
  • Claude Apps
    • รองรับการรันโค้ดและสร้างไฟล์ (สเปรดชีต สไลด์ เอกสาร) ได้โดยตรงภายในการสนทนา
  • Claude for Chrome
    • มีส่วนขยายสำหรับผู้ใช้ Max เพื่อรองรับการทำงานอัตโนมัติภายในเบราว์เซอร์

Claude Agent SDK

  • เปิดเผย โครงสร้างพื้นฐานเอเจนต์ ที่ Anthropic ใช้สร้าง Claude Code ให้แก่นักพัฒนาภายนอก
  • มอบฐานสำหรับแก้โจทย์ยาก เช่น การจัดการหน่วยความจำระยะยาว การควบคุมสิทธิ์ และการประสานงานระหว่าง sub-agent หลายตัว
  • สามารถนำไปใช้สร้างเอเจนต์ได้หลากหลาย ไม่จำกัดแค่การเขียนโค้ด

ประสิทธิภาพและ benchmark

  • ทำสถิติสูงสุดบน SWE-bench Verified และสามารถทำงานเขียนโค้ดแบบหลายขั้นตอนระยะยาวต่อเนื่องได้นาน มากกว่า 30 ชั่วโมง
  • ทำได้ 61.4% บน benchmark OSWorld (Sonnet 4 รุ่นก่อนทำได้ 42.2%)
  • ความสามารถใน การประเมินด้านการให้เหตุผล คณิตศาสตร์ และหลายภาษา (MMMLU) ก็เพิ่มขึ้นอย่างมาก และได้รับการยืนยันถึงความเป็นเลิศจากการประเมินของผู้เชี่ยวชาญด้านการเงิน กฎหมาย การแพทย์ และ STEM
  • ผ่าน feedback จากลูกค้า ได้พิสูจน์การใช้งานจริงใน production ทั้งในด้านงานระยะยาว ความเข้าใจ codebase ที่ซับซ้อน และการเขียนโค้ดที่รวดเร็วและแม่นยำ

กรณีศึกษาจากลูกค้า

  • Cursor: ยืนยันประสิทธิภาพสูงสุดในการแก้ปัญหาที่ซับซ้อน
  • GitHub Copilot: การให้เหตุผลหลายขั้นตอนและความเข้าใจโค้ดดีขึ้น
  • ด้านความปลอดภัย: ลดเวลาในการตอบสนองต่อช่องโหว่ลง 44% และเพิ่มความแม่นยำ 25%
  • Canva, Figma: ปรับปรุงผลิตภาพอย่างก้าวกระโดดในการทำงานกับ codebase ขนาดใหญ่และการทำต้นแบบ
  • Devin: ประสิทธิภาพด้านการวางแผนดีขึ้น 18% และความสามารถในการทดสอบและรันโค้ดแข็งแกร่งขึ้น

ความปลอดภัยและ alignment

  • Sonnet 4.5 เป็นโมเดลของ Anthropic ที่มีระดับ alignment สูงที่สุดเท่าที่เคยประกาศมา
  • มีการทำ reinforcement learning ด้านความปลอดภัยเพื่อลด พฤติกรรมที่ไม่พึงประสงค์ เช่น การประจบ การหลอกลวง การแสวงหาอำนาจ และการส่งเสริมความหลงผิด
  • มีความก้าวหน้าอย่างมากในการ ป้องกันการโจมตีแบบ prompt injection และยังนำเทคนิคการตีความกลไกมาใช้ในการประเมินความปลอดภัย
  • มี การคำนวณคะแนนความเป็นไปได้ของการใช้งานผิดวัตถุประสงค์แบบอัตโนมัติ ผ่านระบบตรวจสอบพฤติกรรมอัตโนมัติ และผ่านเกณฑ์ความปลอดภัยระดับสูง
  • เปิดตัวภายใต้การป้องกันระดับ AI Safety Level 3 (ASL-3) โดยใช้ การกรองอินพุตและเอาต์พุตที่เป็นอันตราย (เช่น ความเสี่ยงด้านเคมี ชีวภาพ รังสี และนิวเคลียร์)

พรีวิวงานวิจัย

  • พร้อมกับ Claude Sonnet 4.5 มีพรีวิวงานวิจัยชั่วคราวชื่อ "Imagine with Claude"
  • สาธิตการ สร้างซอฟต์แวร์สด ๆ ตามสถานการณ์ โดยตอบสนองและปรับตัวแบบเรียลไทม์ตามคำขอของผู้ใช้ โดยไม่มีโค้ดหรือฟังก์ชันที่เตรียมไว้ล่วงหน้า
  • ผู้สมัครสมาชิก Max สามารถทดลองใช้ได้เป็นเวลา 5 วัน

ข้อมูลเพิ่มเติมและการย้ายระบบ

บทสรุปและคำแนะนำ

  • Claude Sonnet 4.5 เป็นโมเดลแบบ drop-in replacement ที่ปรับปรุงประสิทธิภาพแล้วสำหรับทุกสภาพแวดล้อมการใช้งาน ไม่ว่าจะเป็น API, แอป หรือ Claude Code
  • มีทั้ง ประสิทธิภาพระดับโลก ความสามารถในการใช้งานจริง และความสอดคล้อง ในด้านการเขียนโค้ด การสร้างเอเจนต์ และการใช้งานคอมพิวเตอร์
  • ด้วยนโยบายความปลอดภัยที่แข็งแกร่งและการรองรับเครื่องมือสำหรับนักพัฒนาอย่างกว้างขวาง จะช่วย เร่งผลิตภาพและนวัตกรรมของนักพัฒนาและองค์กรไอที
  • ให้ความสามารถที่ทรงพลังยิ่งขึ้นในราคาเดิม จึงแนะนำให้อัปเกรด

1 ความคิดเห็น

 
GN⁺ 2025-09-30
ความคิดเห็นจาก Hacker News
  • สุดสัปดาห์นี้ได้เข้าถึงเวอร์ชันพรีวิวล่วงหน้า และสรุปโน้ตที่เกี่ยวข้องไว้ที่นี่
    ส่วนตัวรู้สึกว่าประทับใจมาก และแม้จะไม่ใช่การเปรียบเทียบแบบรอบด้าน แต่โดยความรู้สึกแล้วมันทำผลงานได้ดีกว่า GPT-5-Codex เล็กน้อย
    โดยเฉพาะในโหมด code interpreter ใหม่ของ Python/Node.js บน claude.ai ที่ผมคิดว่ามันโดดเด่นมาก
    แนะนำให้ลองใช้พรอมป์ต์แบบด้านล่าง
Checkout https://github.com/simonw/llm and run the tests with
pip install -e '.[test]'
pytest

มันยังจัดการงานรีแฟกเตอร์ฐานข้อมูลที่ซับซ้อนได้ดีแบบเป็นขั้นตอนด้วย รายละเอียดบันทึกไว้ในบล็อก

  • มีเรื่องหนึ่งที่อยากขอจาก @simonw และคนที่สนใจ benchmark ของ LLM
    อยากให้เปิดเผยเวลาที่ใช้จนงานเสร็จด้วย
    โพสต์นี้เป็นแนวรีวิวว่า “ใช้งานได้เลยบน claude.ai” แต่ไม่มีข้อมูล timestamp ว่าผลลัพธ์ออกมาตอนไหน
    แม้แต่บนลีดเดอร์บอร์ด LLM coding จริง ๆ ก็แทบไม่มีข้อมูลเรื่องเวลาในการรันเลย ซึ่งน่าเสียดาย
    เวลาทำงานของแต่ละโมเดลและแต่ละแพลตฟอร์มต่างกันมาก และเมื่อมีการทดลองซ้ำ/รีบูต หรือปรับปรุงพรอมป์ต์ ความเร็วในการอนุมาน ปริมาณโทเค็นที่ใช้ ประสิทธิภาพของ tooling ต้นทุน และความฉลาดของโมเดล ล้วนมีผลร่วมกัน
    โดยเฉพาะโมเดลอย่าง Grok Code Fast และ Cerebras Code ต่อให้ไม่ใช่ตัวที่แรงที่สุด ก็ยังช่วยให้ทำงานได้มากกว่าเพราะเร็วกว่าเกิน 10 เท่า โมเดลที่เร็วคือข้อได้เปรียบจริง
    benchmark ที่น่าอ้างอิง: swebench, tbench leaderboard, gosuevals agents

  • ลองแล้ว แต่ในสภาพแวดล้อมของผมมันไม่ทำงาน
    บอกว่าเป็นคำสั่งสำหรับตั้งค่า LLM CLI tool โดยออปชัน -e คือการติดตั้งแบบ editable และ [test] คือการติดตั้ง test dependency
    แต่เครื่องมือที่ผมมีไม่รองรับ shell command อย่าง pip, pytest, git clone หรือการรัน Python
    ทำได้แค่รัน JavaScript ในสภาพแวดล้อมเบราว์เซอร์ และไม่สามารถรันคำสั่งระดับ shell ได้
    เลยสงสัยว่าคุณคาดหวังอะไร ต้องการให้มันเข้าใจการตั้งค่าเทสต์ หรือหวังให้มีความสามารถนั้นจริง ๆ กันแน่

  • สำหรับคนที่สงสัยเรื่องกรณีใช้งานของพรอมป์ต์ “ช่วยทำเป็นไฟล์ zip ให้หน่อย”
    หลายคนน่าจะไม่มีเวลาเปิด gist ไปดูเอง เลยอยากรู้ว่ามันทำงานได้จริงไหม และมีความเห็นเพิ่มเติมต่อผลลัพธ์หรือเปล่า

  • อยากรู้ว่า Claude Sonnet 4.5 ยังตอบทุกคำถามแบบ “ถูกต้องมากครับ!” อยู่ไหม หรือว่าตอนนี้คุยได้เหมือนโปรแกรมเมอร์จริง ๆ แล้ว

  • สงสัยว่าทำไมถึงได้สิทธิ์เข้าถึงพรีวิวล่วงหน้า

  • ขอแชร์ประสบการณ์ใช้งานจริง
    ผมลองใช้พรอมป์ต์เดียวกันกับเว็บแอปขนาดใหญ่ราว 200k LoC ทั้งบน Sonnet 4.5 (Claude Code) และ GPT-5-Codex
    โจทย์คือ “จาก ‘Go to Conversation’ หรือ ‘Go to Report’ ให้ป้อน title แล้วถ้าไม่ตรงกับองค์ประกอบมาตรฐาน ให้ทำ fuzzy search หลังผ่านไป 2 วินาที”
    Sonnet 4.5 ให้ผลลัพธ์ในราว 3 นาที แต่โค้ดค่อนข้างหยาบ และยังไม่สามารถนำ auth เดิมกลับมาใช้ซ้ำได้ กลับพยายามสร้าง server-side auth ใหม่
    แม้จะชี้ปัญหาและ re-prompt แล้วก็ไม่ได้ดีขึ้นมาก และยังไม่เขียน test code ซึ่งเป็นข้อกำหนดสำคัญ
    ในทางกลับกัน GPT-5-Codex ใช้เวลาราว 20 นาที แต่จัดการ error handling และ edge case ต่าง ๆ ได้ละเอียดมาก และยังเขียน test code ให้เองโดยไม่ต้องสั่งเพิ่ม
    API ก็ทำงานลื่นไหล และในแง่ความสมบูรณ์ของงานโดยรวมให้คุณภาพระดับนักพัฒนา Senior
    ผมไม่ต้องการงานแบบ ‘เร็วแต่เลอะเทอะ’ ที่ออกมาใน 3 นาที ดังนั้นจึงเลือก 20 นาทีแบบไม่ลังเล
    แม้ Sonnet จะทำผลลัพธ์ออกมาได้เร็วอย่างน่าทึ่งตามที่คาด แต่ถ้าไม่มีคุณภาพที่ดีและไม่มีเทสต์ งานแบบนั้นก็ไม่มีความหมาย

    • ไม่อยากให้ฟังดูเป็นการวิจารณ์ แต่ผมคิดว่าถ้าเริ่มจากพรอมป์ต์สั้น ๆ แบบประโยคเดียว ผลลัพธ์ก็คงต้องออกมาค่อนข้างสุ่มอยู่แล้ว
      สิ่งสำคัญคือการจัดกลุ่มตรรกะและเงื่อนไขรายละเอียดให้ชัดเจนกว่านี้ ซึ่งตัวอย่างพรอมป์ต์ก็แทบจะเป็น run-on sentence อยู่แล้ว
      สำหรับงานที่ซับซ้อนหรือสำคัญ ผมคิดว่าพรอมป์ต์ควรละเอียดขึ้นจนยาวกว่าเดิม 5–20 เท่า
      ถ้า input มีโครงสร้างชัด และ codebase มี pattern ที่วางไว้ดี AI ก็จะให้ผลลัพธ์ที่ดีกว่ามาก
      ในชีวิตจริง ถ้าคุณโยน requirement สั้น ๆ แค่ประโยคเดียวให้ Junior developer หรือให้ทีมโดยไม่มีรายละเอียดเพิ่ม ก็ต้องยอมรับได้อยู่แล้วว่าผลลัพธ์อาจไม่ตรงใจ
      ขอแนะนำว่าถ้าลงทุนเพิ่มอีกไม่กี่นาทีเพื่อเตรียมพรอมป์ต์ตั้งแต่แรก โอกาสได้ผลลัพธ์ที่น่าพอใจก็จะสูงขึ้นมาก

    • ใช้แพลนเสียเงิน ChatGPT Pro อยู่ไหม แล้ว Codex CLI รวมอยู่ในนั้นด้วยหรือเปล่า
      ผมใช้ Claude Code ผ่านแพลน Max เพื่อใช้งาน Sonnet/Opus อยู่ แต่ถ้า ChatGPT Pro ใช้ Codex ได้ด้วยก็อาจเปลี่ยน

    • ผมก็มีประสบการณ์เหมือนกัน
      สัปดาห์ก่อนผมใช้ Codex พัฒนา C++20 XPath 1.0 parser ที่สมบูรณ์ได้สำเร็จ และตอนนี้กำลังทำต่อเพื่อรองรับ XPath 2.0
      Codex ให้ผลลัพธ์ที่ยอดเยี่ยมอย่างต่อเนื่อง และนอกจากต้องใช้เวอร์ชันคลาวด์เพราะ local มีบั๊ก ก็แทบไม่มีปัญหาอะไร
      ส่วน Sonnet มักติดขัดกับงานที่มีความซับซ้อนสูง และใน 4.5 ก็ยังไม่รู้สึกถึงพัฒนาการชัดเจน
      โดยเฉพาะงานจัดการ date-time นั้น Claude แทบยอมแพ้ไปเลย ในขณะที่ Codex จัดการได้สมบูรณ์แบบ
      จริง ๆ ผมค่อนข้างมีใจให้ Anthropic แต่จนถึงตอนนี้ก็ยังมองว่า OpenAI นำอยู่ไกลมาก
      ถ้า Claude จะสู้กับ Codex ได้ ก็ต้องมีจุดทะลุที่สำคัญ แถมตอนนี้ยังแพงกว่าและมีปัญหาด้านคุณภาพบริการจนผู้ใช้ไหลออกมากด้วย

    • ก็ตรงกับที่ผมคาดไว้
      Codex ดูเป็นเครื่องมือสำหรับ vibe coding มากกว่า ส่วน Claude Code เน้นไปทาง ai assisted development
      แต่ผมกลับชอบ Claude มากกว่า
      Codex ทำงานได้ดีแบบอิสระก็จริง แต่พอทิศทางเปลี่ยน เช่น การแก้ไฟล์ง่าย ๆ มาก ๆ มันกลับดื้อที่จะใช้ Python script จัดการ และยังอัปเดตข้อมูลล่าสุดได้ไม่ดีพอ
      เวลาขอคำอธิบายก็มีแนวโน้มจะลงมือทำทันทีโดยไม่สนบริบท
      ปัญหาเรื่องการจัดการสิทธิ์ก็ยังมีอยู่ แม้ sandbox ของ Codex จะดูเจ๋ง แต่ผมก็กังวลว่ามันอาจเผลอ commit อะไรเข้าไป เลยอยากให้แค่แก้ไขไฟล์มากกว่า
      แม้จะใช้ Codex เป็น MCP server ได้ แต่ส่วนตัวผมชอบใช้ Claude เป็นผู้ร่วมวางแผน แล้วให้ Codex ทำตามแผน จากนั้นค่อยร่วมงานกับ Claude เพื่อปรับให้เข้ากับสไตล์ของผม

    • แนะนำให้ลองเติม ultrathink ลงในพรอมป์ต์แล้วเปิดเพลงไปด้วยระหว่างทดลอง
      อ้างอิง: ลิงก์ Reddit เกี่ยวกับ ultrathink

  • มองความสามารถของโมเดลช่วงนี้แล้วรู้สึกหดหู่
    เคล็ดลับเล็ก ๆ น้อย ๆ ในการเขียนโค้ดสะอาดที่สั่งสมมาหลายปี เหมือนกำลังกลายเป็นรายละเอียดไร้ความหมาย
    สิ่งที่เคยคิดว่าเป็นแก่นแท้ ตอนนี้กลับค่อย ๆ กลายเป็นเพียง ‘รายละเอียดการ implement’ ในพรอมป์ต์
    มันให้ความรู้สึกเหมือนความสามารถของผมกำลังถูกแทนที่ด้วยระบบอัตโนมัติมากขึ้นเรื่อย ๆ

    • รายละเอียดพวกนั้นจริง ๆ ก็มีความสำคัญคลุมเครือมาตั้งแต่แรกแล้ว ทักษะที่แท้จริงสุดท้ายคือกระบวนการหาเงินจากซอฟต์แวร์ต่างหาก
      เพราะ AI จะยิ่งทำให้มีซอฟต์แวร์ถูกสร้างมากขึ้น และก็จะยิ่งต้องการผู้เชี่ยวชาญมาคอยดูแล

    • ผมเองก็เคยโฟกัสทำงานสาย AI แบบจริงจังอยู่หลายเดือน และในช่วง 4 สัปดาห์แรกขึ้นไปก็รู้สึกถึงวิกฤตแบบเดียวกัน
      โดยเฉพาะความสับสนที่เหมือนทักษะนักพัฒนาที่สั่งสมมา 25 ปีไม่มีความหมายอีกต่อไป
      แต่ถ้ายอมรับและปรับตัวเพิ่มอีกหน่อย ทุกอย่างจะดีขึ้นมาก
      ผมอยากให้จำไว้ว่าคุณมีคุณค่ามากกว่าทักษะการเขียนโค้ดของตัวเอง

    • เมื่อก่อนคุณอาจยินดีกับความจริงที่ว่าระบบอัตโนมัติเข้ามาแทนที่คนอื่น แต่ตอนนี้ถึงคิวของคุณแล้ว
      นี่แหละคือปรากฏการณ์ ‘การทำลายล้างเชิงสร้างสรรค์’ ที่ทำให้เศรษฐกิจมีพลวัต

    • แต่ก่อนผมก็คิดแบบนั้น ทว่าพอได้ลองใช้จริงช่วงหลัง กลับสรุปว่าแทบไม่ค่อยใช้งานได้จริง
      โดยเฉพาะเมื่อคนไม่มีประสบการณ์ไปพึ่ง vibe coding มันมักได้ผลลัพธ์ไร้สาระ และพอเจองานซับซ้อนขึ้นนิดเดียวก็มีข้อผิดพลาดร้ายแรงเกิดบ่อยมาก
      แม้แต่การทำ frontend อัตโนมัติก็ยังไม่น่าพอใจ เช่น งานง่ายมาก ๆ ก็ยังสร้างโค้ดยาวเกินจำเป็น
      สุดท้ายจึงเหมือนทำได้แค่ frontend พื้นฐานแบบ react/nextjs และ clone เว็บยอดนิยม ส่วน requirement แปลก ๆ หรือการออกแบบที่ละเอียดจริง ๆ ยังลำบากมาก จากประสบการณ์ที่เจอ

    • ในความเป็นจริง เครื่องมือ vibe coding ไม่ได้เพิ่มผลิตภาพได้มากขนาดนั้น
      สรุปคือมนุษย์ยังต้องรับผิดชอบการบำรุงรักษาระบบอยู่ดี ไม่ว่าจะเป็นโค้ดหรืออินฟราฯ และกระบวนการที่มนุษย์ต้องเข้าใจโครงสร้างและหลักการทำงานของระบบนั้นไม่มีทางทำให้เป็นอัตโนมัติได้
      ท้ายที่สุด นักพัฒนาที่มีวิธีคิดแบบผู้เชี่ยวชาญจะยิ่งกลายเป็นทรัพยากรหายากและสำคัญมากขึ้น

  • ผมให้ Sonnet 4 กับ Opus 4.1 ทำงานแทนที่โค้ดง่าย ๆ แต่ทั้งคู่ล้มเหลว
    เป็นการแปลงที่แม้แต่มือใหม่ก็ทำได้ ทำให้กังวลว่าโมเดลต่าง ๆ กำลังไล่ตามคะแนน benchmark จนพลาดประสิทธิภาพในการใช้งานจริง
    พอให้พรอมป์ต์ต่อว่า “ทำตามที่ฉันขอให้ตรงเป๊ะ” Sonnet กลับทำสำเร็จ ส่วน Opus หลุดเข้า infinite loop

    • ความหมกมุ่นกับ benchmark อาจเป็นโทษต่อประสิทธิภาพจริง ซึ่งเป็นเรื่องที่กังวลกันมานานแล้ว
      สำหรับผม Claude ตั้งแต่ 3.7 ไป 4 ประสิทธิภาพที่สัมผัสได้กลับแย่ลง ทั้งที่ benchmark พุ่งขึ้นมาก
      ในระดับนั้นก็พอเข้าใจได้ว่าโจทย์เรื่อง benchmarking เองยังตามการพัฒนา AI ไม่ทัน

    • ผมมองว่ามันแทบเป็นวงจรแบบ ‘รัน benchmark ให้ได้คะแนนสูงสุด → ประสิทธิภาพจริงลดลง → อีกไม่กี่สัปดาห์ค่อยปล่อยโมเดลที่ดีขึ้น แล้ววนซ้ำ’

    • โมเดลต่าง ๆ ก็อาศัยแหล่งข้อมูลชุดเดียวกันทั้งอินเทอร์เน็ต, github, หนังสือ ฯลฯ และถูก optimize ให้เข้ากับชุดทดสอบมาตรฐาน จนสงสัยว่านอกจากคะแนนแล้วจะยังเหลือความแตกต่างหรือคุณค่าเฉพาะอะไรอีกหรือไม่

    • ตอนนี้ผมคิดว่าน่าจะดีถ้ามีฐานข้อมูลชุมชนสำหรับรวบรวมตัวอย่างที่ LLM ทำพลาด เพราะในมือผมเองก็มีกรณีแบบนั้นเยอะมาก

    • งานง่าย ๆ อย่างขอให้แก้ lint error นิดหน่อย ผมว่าทำเองแล้วไปต่อยังดีกว่า
      แทนที่จะพยายามให้ความหมายกับงานจิ๊บจ๊อยพวกนี้ ควรไปหาประโยชน์จาก AI ตอนที่มันทำงานซับซ้อนกว่านี้ได้ยอดเยี่ยมจริง ๆ จะดีกว่า

  • ในชาร์ตดูเหมือน Sonnet 4 จะนำ GPT-5-codex บน benchmark แบบ SWE verified ไปแล้ว แต่จากประสบการณ์จริงของผม GPT-5-codex เหนือกว่ามากเวลาจัดการปัญหาซับซ้อน

    • GPT-5 เหมือนเพื่อนร่วมทีมเบสบอลที่ตีโฮมรันเก่ง แต่พื้นฐานเกมรับใน outfield ยังไม่ดี
      แม้ตอนทำงานร่วมกับเอเจนต์อื่น ๆ มันก็มักสร้างดราม่าอยู่บ่อย และตอนล่าสุดที่บอกว่าจะย้ายไปใช้ claude code มันยังดื้อจะทำ git reset --hard อีก เรียกว่าพฤติกรรมคาดเดาไม่ได้
      ในทางกลับกัน gemini กับ claude เป็นผู้ร่วมงานที่ยอดเยี่ยม
      ผมไม่คิดว่านี่เป็นสิ่งที่ตั้งใจให้ GPT-5 เป็นแบบนี้ น่าจะเป็นผลจากขวัญกำลังใจภายใน OpenAI ที่ตกลงไปมากกว่า

    • ของผม 5-codex ใช้โทเค็นเร็วเกินไป และทำตามคำสั่งใน agents.md ได้น้อยกว่า Claude
      โดยเฉพาะกับคำสั่งเล็กน้อย มันมักพยายามเขียน bash หรือ python script แบบใหญ่โตเกินเหตุ

    • ของผมนี่ตรงข้ามเลย GPT-5-codex ช้ามากและผลลัพธ์ก็ธรรมดา
      ถ้าต้องถูกบังคับให้ใช้ ผมคงเลิกใช้ AI ไปเลย

    • ผมไม่คิดว่าประสิทธิภาพของโมเดลจะมีมาตรฐานตายตัวแบบสัมบูรณ์
      ยกตัวอย่าง แม้จะระบุให้ใช้ Claude-Opus บางครั้งก็ยังได้คำตอบแย่กว่าจากโมเดลราคาถูกมาก ๆ
      ความผันผวนของประสิทธิภาพสูงมาก และคาดว่าน่าจะเกี่ยวกับทรัพยากรเซิร์ฟเวอร์ตามสภาพทราฟฟิก
      Anthropic เองก็เคยพูดอย่างเป็นทางการว่ามีผลกระทบจากการทดลองจนประสิทธิภาพตก
      ผมจึงคิดว่า GPT เองก็น่าจะมีช่วง peak time ที่ประสิทธิภาพลดลงเพราะข้อจำกัดด้าน data center เช่นกัน

    • โมเดลของ Anthropic ดูเหมือนถูกจูนมาให้เหมาะกับ vibe-coding
      มันทำได้ดีกับ Python/TypeScript ง่าย ๆ แต่จะอ่อนกับโค้ดเชิงวิทยาศาสตร์/ซับซ้อนและ codebase ขนาดใหญ่
      ผมเองก็ไม่ได้คาดหวังการเปลี่ยนแปลงใหญ่จาก Sonnet ตัวใหม่

  • ผมสนใจมากกับสโลแกนโฆษณาที่ว่า “ทำงานหลายขั้นตอนที่ซับซ้อนได้โดยไม่เสียสมาธินานกว่า 30 ชั่วโมง”
    ตามบทความของ The Verge และที่อื่น ๆ บอกว่ามันสร้าง Slack clone ต่อเนื่อง 30 ชั่วโมง โดยใช้โค้ด 11,000 บรรทัดจริง
    แต่ผมยังสงสัยมากว่าถ้าปล่อย LLM ทำงานแบบไม่มีคนดูนาน 30 ชั่วโมงจริง คุณภาพของผลลัพธ์จะออกมาแค่ไหน
    บทความที่เกี่ยวข้อง

    • การทำงานต่อเนื่อง 30 ชั่วโมงไม่ใช่สิ่งที่จะเกิดขึ้นได้เพียงแค่ปล่อย LLM ไว้ลำพัง
      จำเป็นต้องมีการเชื่อมต่อ external tool, การจัดการ context และการตั้งค่าสภาพแวดล้อมต่าง ๆ
      ถึงขั้นต้องมีการตั้งค่าระบบ multi-agent ด้วย จึงเป็นงานที่ต้องลงแรงด้านอินฟราฯ และการตั้งค่าอย่างมาก

    • คำว่า “ทำงาน 30 ชั่วโมงแบบไม่มีคนดู” มันคลุมเครือเกินไปจนไม่มีความหมายเชิงรูปธรรม
      ยกตัวอย่าง ถ้ามันประมวลผลแค่ 1 โทเค็นต่อชั่วโมง ก็อาจได้แค่ประโยคเดียวตลอดทั้งงาน

    • ผมอยากรู้รายละเอียดเชิงเทคนิคว่ามีการใช้เครื่องมือจัดการ context ของโมเดลจริงหรือไม่ และพรอมป์ต์ขนาด 200k ถึง 1M โทเค็นนั้นถูกใช้งานในรูปแบบไหน

  • ผมเพิ่งลองกับ issue ง่าย ๆ ไป และเหมือนกับโมเดลก่อนหน้า Sonnet 4.5 ก็ยังมีแนวโน้มจะมุดลง rabbit hole แล้วทำปัญหาให้ซับซ้อนเกินเหตุ
    ส่วนใหญ่เป็นการลองผิดลองถูก พร้อมกับส่ง feedback แนว “ตอนนี้น่าจะแก้ได้แล้ว” ซ้ำไปซ้ำมา
    ตัวอย่างเช่น มี error ใน GH Actions pipeline ที่ build system ตรวจไม่พบเพราะไม่มี source file แต่ Sonnet 4.5 กลับเสนอวิธีแก้เพี้ยน ๆ ซ้ำแล้วซ้ำเล่า เช่น สร้างไฟล์ JSON หลอก หรือกำหนด workflow parameter ที่ไม่มีอยู่จริง
    ทั้งที่จริงแล้วแค่ override step ให้พิมพ์ “Hello world” ก็จบแล้ว
    เลยสงสัยว่าทำไม AI ถึงอ่อนกับการคิดนอกกรอบแบบง่าย ๆ เช่นนี้
    เหมือนอัจฉริยะ IQ 170 ที่กลับขึ้นรถสาธารณะไม่เป็น

  • ผมจ่ายค่าสมาชิกทั้ง Gemini, Claude และ OpenAI และช่วงหลังได้ข้อสรุปว่า ChatGPT นำไปไกลมาก
    คำตอบกระชับกว่า ให้ข้อมูลดีกว่า และพอทดสอบ Claude 4.5 จริง ๆ ก็ไม่รู้สึกถึงการพัฒนามากนัก

    • ผมก็สมัครทั้งสามเจ้าเหมือนกัน
      ถ้าวิเคราะห์สถานการณ์ซับซ้อน ChatGPT ดีที่สุด แต่ถ้าต้องเขียนโค้ด Claude ยังทำได้ดีกว่า
      ผมจะใช้ ChatGPT สำหรับออกแบบและแก้ปัญหา แล้วค่อยส่งคำตอบนั้นต่อให้ Claude หรือ Gemini ไปลงมือ implement
      Gemini อยู่ในระดับกลางที่ทำได้ดีทั้งสองด้าน

    • โดยรวม ChatGPT อาจดีกว่านิดหน่อย แต่ Gemini ก็อาจกลายเป็นตัวที่ดีที่สุดในบริบทการใช้งานจริงได้ ถ้าใช้ AI Studio ให้เต็มที่ ปรับการตั้งค่า และจูน system prompt
      ยกตัวอย่าง nano banana อาจเป็น SOTA แต่ Qwen-Edit เซ็นเซอร์น้อยกว่า เลยรู้สึกว่าใช้จริงได้ดีกว่า
      ในบริการอีคอมเมิร์ซโลคัลไลซ์ที่ผมดูแลอยู่ nano banana ใช้ไม่ได้เพราะจำกัดการสร้างภาพผู้หญิง แต่ Qwen-Edit ใช้งานได้แทบไม่มีปัญหา

    • ผมก็สมัครทั้ง Claude Max และ ChatGPT Codex สองบัญชีเหมือนกัน
      เมื่อก่อนเป็นแฟน Claude แต่ช่วงหลังแทบใช้แต่ codex
      ถ้าติดปัญหาก็โยนงานง่าย ๆ ให้ Claude หรือไม่ก็ทดสอบพร้อมกัน แต่ Claude Code ของ Sonnet/Opus ให้ผลลัพธ์ด้อยกว่า Codex อย่างชัดเจน

    • อยากให้ช่วยยืนยันให้ชัดว่าที่พูดถึงคือ codex ใช่ไหม

    • Grok เป็นอย่างไรบ้าง ตามขึ้นมาได้ไหม

  • ผมยังไม่ได้ลอง Claude แต่ใช้ AI ทำงานหลายอย่าง เช่น ตรวจแก้บทความการเมือง
    ผมเคยเจอกรณีที่ ChatGPT หยุดทำงานไปเลยเพราะ guardrail กับหัวข้ออ่อนไหวบางอย่าง เช่น คดีล่วงละเมิดทางเพศเด็กอายุ 12 ปีในออสเตรีย
    มันตรวจจับแค่คำว่า ‘sex + kid’ โดยไม่สนบริบทแล้วบล็อกทันที ซึ่งผมรับไม่ได้
    มันเหมือน word processor ที่คอยเซ็นเซอร์หัวข้อและไม่ให้คุณเขียนต่อ จนไม่ทำหน้าที่เป็นเครื่องมืออย่างที่ควรเป็น

    • ในความเป็นจริง สำหรับหัวข้อแบบนี้ สัดส่วนของเนื้อหาที่สนทนาได้อย่างชอบธรรมเมื่อเทียบกับเนื้อหาที่ยอมรับไม่ได้มันสูงเกินไป ดังนั้นจากมุมของผู้ให้บริการส่วนใหญ่ การบล็อกจึงถือว่าสมเหตุสมผล
      ยกตัวอย่าง ผมเคยเจอกรณีน่าปวดหัวที่แอปจัดการสายเลือดสัตว์เครือญาติที่ผมพัฒนา ถูกบล็อกแค่เพราะมีคำว่า breeding/breeders

    • ผมเห็นว่า "service" ไม่ใช่เครื่องมือ
      ถ้าคุณต้องการเครื่องมือจริง ๆ คำตอบคือรัน LLM เองในเครื่อง local

    • ท้ายที่สุดผมคิดว่า AI ที่มี guardrail น้อยที่สุดจะครองตลาด
      ในบรรดา frontier model ตอนนี้ Grok ดูเป็นตัวที่จำกัดน้อยที่สุด แต่ก็ยังมีพื้นที่ให้ปรับปรุงอีก

    • คล้ายกันเลย ผมเคยพยายามใช้ ChatGPT/DallE สร้างภาพคูปองวันเกิดให้ลูกสาว แต่สุดท้ายเวลา 3 ใน 4 หมดไปกับการหาทางหลบเลี่ยงนโยบายคอนเทนต์ต่าง ๆ

    • จากประสบการณ์เล็ก ๆ ของผมเอง Claude จะบล็อกการสนทนาในหัวข้อที่ ‘อ่อนไหว’ เร็วและแรงกว่ามาก

  • ผมลองทดสอบเร็ว ๆ ร่วมกับ System Initiative
    ปัญหา infra 503 ที่ถ้าทำมือจะใช้เวลามากกว่า 2 ชั่วโมง พอลองจับคู่กันแล้วแก้ได้ใน 15 นาที
    กรณีใช้งานอื่น ๆ สรุปไว้ในบล็อก
    System Initiative อย่างเป็นทางการ
    บล็อกรีวิวการใช้งาน