9 คะแนน โดย GN⁺ 2026-02-18 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • โมเดล Sonnet รุ่นล่าสุดของ Anthropic ที่ยกระดับประสิทธิภาพในทุกด้าน ทั้งการเขียนโค้ด การใช้งานคอมพิวเตอร์ การให้เหตุผลระยะยาว การวางแผนเอเจนต์ งานด้านความรู้ และการออกแบบ
  • รองรับ หน้าต่างคอนเท็กซ์ 1M โทเค็น และมีการปรับปรุงครั้งใหญ่ด้านความสม่ำเสมอ การทำตามคำสั่ง และคุณภาพโค้ด เมื่อเทียบกับ Sonnet 4.5
  • มอบ ความฉลาดระดับ Opus 4.5 ในต้นทุนที่ต่ำกว่า และแสดงผลลัพธ์ ระดับมนุษย์ ในงานจริง การทำความเข้าใจเอกสาร และการออกแบบฟรอนต์เอนด์
  • ความสามารถในการใช้งานคอมพิวเตอร์ดีขึ้นต่อเนื่องใน OSWorld benchmark และยังเสริมความแข็งแกร่งด้าน การป้องกัน prompt injection
  • ประเด็นสำคัญคือ นักพัฒนาและองค์กรสามารถใช้ การให้เหตุผลระดับ frontier และคุณภาพโค้ดชั้นนำ ได้โดยไม่ต้องพึ่งโมเดลต้นทุนสูง

ภาพรวมของ Claude Sonnet 4.6

  • Sonnet 4.6 เป็น โมเดลที่ทรงพลังที่สุดในซีรีส์ Sonnet ของ Anthropic โดยอัปเกรดความสามารถโดยรวมทั้งด้านการเขียนโค้ด การใช้งานคอมพิวเตอร์ การให้เหตุผลระยะยาว งานความรู้ และการออกแบบ
    • รองรับ หน้าต่างคอนเท็กซ์ 1M โทเค็น (เบต้า) ทำให้ประมวลผลโค้ดเบสขนาดใหญ่หรือเอกสารยาวได้ในครั้งเดียว
  • ถูกใช้เป็น โมเดลเริ่มต้นสำหรับผู้ใช้แพ็กเกจ Free และ Pro โดยราคายังคงเท่า Sonnet 4.5 ที่ $3/$15 ต่อ 1 ล้านโทเค็น
  • ผู้ใช้ช่วงแรก ชื่นชอบ Sonnet 4.6 มากกว่า Sonnet 4.5 อย่างชัดเจน และบางส่วน ชอบมากกว่า Opus 4.5 ด้วยซ้ำ
  • จาก ผลการประเมินด้านความปลอดภัย พบว่าปลอดภัยเทียบเท่าหรือดีกว่ารุ่นก่อน และถูกประเมินว่ามี “บุคลิกที่อบอุ่น ซื่อสัตย์ และเป็นมิตรต่อสังคม”

ความสามารถในการใช้งานคอมพิวเตอร์

  • Sonnet 4.6 พัฒนาไปเป็นโมเดลที่สามารถ ควบคุมคอมพิวเตอร์ได้คล้ายมนุษย์
    • ถูกประเมินด้วย OSWorld benchmark โดยให้ควบคุมซอฟต์แวร์จริง เช่น Chrome, LibreOffice, VS Code ในสภาพแวดล้อมเสมือน
  • จากการพัฒนาอย่างต่อเนื่องตลอด 16 เดือน พบความสามารถระดับมนุษย์ในงานอย่าง การนำทางสเปรดชีตที่ซับซ้อน หรือ การกรอกเว็บฟอร์มหลายขั้นตอน
  • แม้ยังด้อยกว่ามนุษย์ที่มีความชำนาญสูงสุด แต่ ความเร็วในการยกระดับประสิทธิภาพการทำงาน นั้นสูงมาก
  • ความสามารถในการป้องกัน การโจมตีแบบ prompt injection ดีขึ้นอย่างมากเมื่อเทียบกับ Sonnet 4.5 และมีความปลอดภัย ใกล้เคียงกับ Opus 4.6

การประเมินประสิทธิภาพและเบนช์มาร์ก

  • Sonnet 4.6 มอบ ความฉลาดระดับ Opus ในต้นทุนที่ต่ำกว่า พร้อมการปรับปรุงโดยรวมในหลายเบนช์มาร์ก
    • ใน การทดสอบ Claude Code ผู้ใช้ 70% เลือก Sonnet 4.6 โดยมีการพัฒนาด้านความเข้าใจบริบทและการลดความซ้ำซ้อนเมื่อแก้ไขโค้ด
    • มี ความนิยมเหนือกว่า Opus 4.5 ที่ 59% พร้อมลดการออกแบบที่มากเกินไปหรืออาการทำงานแบบขี้เกียจ และเพิ่มความแม่นยำในการทำตามคำสั่ง
  • ใน Vending-Bench Arena ซึ่งจำลองการบริหารระยะยาว โมเดลทำผลงานเหนือกว่าคู่แข่งด้วย กลยุทธ์ลงทุนช่วงต้นแล้วเก็บกำไรช่วงท้าย
  • ใน OfficeQA มีความสามารถทำความเข้าใจเอกสารเทียบเท่า Opus 4.6 และใน Financial Services Benchmark มีอัตราคำตอบตรงกันเพิ่มขึ้น
  • ทำได้ ความแม่นยำ 94% ใน insurance benchmark และมี ประสิทธิภาพการให้เหตุผลเชิงลึกดีขึ้น 15% ใน Box test
  • ใน การทดสอบของ Rakuten AI แสดงการสร้างโค้ด iOS ระดับแนวหน้า พร้อมการใช้ tooling สมัยใหม่และคุณภาพสถาปัตยกรรมที่ดีขึ้น

อัปเดตผลิตภัณฑ์และแพลตฟอร์ม

  • บน Claude Developer Platform รองรับ adaptive thinking, extended thinking, และ context compaction (เบต้า)
    • สรุปบริบทเก่าโดยอัตโนมัติเพื่อ เพิ่มความยาวคอนเท็กซ์ที่ใช้งานได้จริง
  • อัปเดตเครื่องมือ API:
    • web search และ fetch จะเขียนและรันโค้ดโดยอัตโนมัติเพื่อกรองผลการค้นหา
    • ฟีเจอร์อย่าง code execution, memory, programmatic tool calling, tool search พร้อมใช้งานทั่วไปแล้ว
  • ในแอดอิน Claude in Excel รองรับ MCP connector และเชื่อมต่อข้อมูลภายนอกจาก S&P Global, LSEG, PitchBook ได้
  • Sonnet 4.6 ยังคงประสิทธิภาพสูงได้แม้ไม่ใช้ extended thinking และมีการ แนะนำให้ผู้ใช้ Sonnet 4.5 ย้ายมาใช้งาน
  • Opus 4.6 ยังคงเหมาะกับงานที่ต้องการการให้เหตุผลเชิงลึกที่สุด เช่น การรีแฟกเตอร์โค้ด หรือการประสานงานหลายเอเจนต์

ช่องทางการใช้งาน

  • Sonnet 4.6 ใช้งานได้บน ทุกแพ็กเกจของ Claude, Claude Cowork, Claude Code, API และแพลตฟอร์มคลาวด์หลัก
  • แพ็กเกจฟรีก็อัปเกรดเป็น Sonnet 4.6 เช่นกัน พร้อมความสามารถสร้างไฟล์ คอนเน็กเตอร์ สกิล และฟีเจอร์ compaction
  • นักพัฒนาสามารถใช้งานได้ทันทีผ่าน Claude API ด้วยชื่อโมเดล claude-sonnet-4-6

ตัวเลขสำคัญและตัวชี้วัดการประเมิน (สรุปเชิงอรรถ)

  • OSWorld: การประเมินงานคอมพิวเตอร์บนซอฟต์แวร์จริง โดย Sonnet 4.6 ถูกวัดในสถานะ ‘thinking off’
  • SWE-bench Verified: ได้คะแนนเฉลี่ย 80.2% จาก 10 รอบ
  • ARC-AGI-2: ทำได้ 60.4% ในโหมดใช้ความพยายามสูงสุด
  • MMMU-Pro: มีการปรับคะแนนหลังปรับปรุงวิธีประเมิน
  • ในการทดลองหลากหลาย เช่น Humanity’s Last Exam, BrowseComp มีการทดสอบโดย เปิดใช้เครื่องมือ การค้นหาเว็บ และฟีเจอร์บีบอัดบริบท

1 ความคิดเห็น

 
GN⁺ 2026-02-18
ความคิดเห็นจาก Hacker News
  • น่าประทับใจที่โฟกัสไปที่การใช้งานคอมพิวเตอร์ แปลว่าคงมองว่า มีมูลค่าสูงมาก แต่เรื่องความปลอดภัยก็ยังน่าสงสัยอยู่ ตามการประเมินภายในของพวกเขา ระบบโจมตีอัตโนมัติ มีโอกาส 8% ที่จะเจาะระบบสำเร็จได้ในครั้งเดียว และถ้าลองได้ไม่จำกัดก็สำเร็จได้ถึง 50% ตัวเลขแบบนี้ยอมรับได้ยาก ถ้าผมไม่ได้เข้าใจอะไรผิด นี่คือระดับที่ใช้งานจริงไม่ได้เลย
    PDF การประเมินความปลอดภัย

    • เป้าหมายของเทคโนโลยีนี้จริง ๆ คือการ ผูกขาดงานที่เกี่ยวข้องกับคอมพิวเตอร์ I/O ไม่ใช่แค่ SWE แต่รวมถึงงานออฟฟิศส่วนใหญ่ด้วย ทำให้คนหนึ่งทำงานแทนสามคน แล้วผลักดันให้ลดจำนวนพนักงาน จากมุมมองบริษัท มันไม่มีเหตุผลอะไรให้ปฏิเสธ ถ้าหาเงินได้เท่าเดิมแต่ลดค่าแรงเหลือ 1/3 แต่ในโครงสร้างแบบนี้ ใคร ๆ ก็สร้างธุรกิจด้วย LLM ได้ สุดท้าย การแข่งขันจะล้นเกินจนกำไรเข้าใกล้ศูนย์ ถ้าทุกคนใช้โมเดลเดียวกัน ความแตกต่างก็หายไป แม้แต่โอเพนซอร์สโมเดลที่ทรงพลังก็อาจทำให้ การเลื่อนชั้นทางสังคม อ่อนแอลงได้
    • ผมกลับคิดว่าตัวเลข 8% นี่ดีเกินคาดเสียอีก ประเด็นสำคัญไม่ใช่แค่ตัวโมเดล แต่คือ กลไกควบคุมของสภาพแวดล้อมที่ใช้งาน ในบริการจริง การมอนิเตอร์และ kill switch เป็นสิ่งจำเป็น โมเดลที่ “ปลอดภัยพอ” เป็นแค่เงื่อนไขจำเป็น ไม่ใช่เงื่อนไขเพียงพอ
    • นี่แหละคือ ปัญหาหลัก ที่ไม่มีใครอยากพูด ถ้าแก้เรื่องความปลอดภัยไม่ได้ ก็แทนที่แรงงานในวงกว้างไม่ได้ การใช้แบบสรุปข้อมูลหรือช่วยงานยังพอได้ แต่ถ้าให้ทำ การตัดสินใจแบบอัตโนมัติ ความเสี่ยงทางกฎหมายจะพุ่งขึ้นมหาศาล สุดท้ายถ้าบริษัท AI แก้เรื่องนี้ไม่ได้ เงินทุนก็จะหมดไป ตามแนวโน้มตอนนี้ AI น่าจะยังเป็นเครื่องมือที่มีประโยชน์แบบเสิร์ชหรือโปรแกรมตรวจคำสะกด แต่คงยังไม่เกิดการแทนที่งานจำนวนมาก
    • ในทางปฏิบัติ มันอาจมีประโยชน์กับงานอย่าง การทำระบบอัตโนมัติของแอปภายในที่ซ้ำ ๆ เช่น ล็อกอินเข้าเว็บแอปเดิมทุกวัน อ่านปฏิทิน แล้วกดปุ่มบางอย่าง ในสภาพแวดล้อมแบบนี้ไม่มีผู้โจมตี ดังนั้นปัญหาด้านความปลอดภัยแทบหายไป
    • ตัวเลข 8% กับ 50% น่ากังวลก็จริง แต่เป็นผลใน ‘สภาพแวดล้อมการใช้งานคอมพิวเตอร์’ สำหรับสภาพแวดล้อมการเขียนโค้ดนั้น ระบุว่าเมื่อเปิด extended thinking แล้วอยู่ที่ 0.0% นั่นหมายความว่ายังเป็นพื้นที่เชิงทดลองอยู่
  • ผมเอากวีนิพนธ์ส่วนตัวราว 900 บทไปทดสอบกับ Sonnet 4.6 แล้วพบว่า ต่างจาก Opus 4.6 มาก Opus 4.6 วิเคราะห์ได้น่าทึ่ง แต่ Sonnet 4.6 ยังมี ภาพหลอนและข้อผิดพลาด บ่อย ในการทดสอบโค้ดก็ให้ความรู้สึกคล้ายกัน ยังห่างจาก Opus มาก

    • มีคนตอบว่าดีใจที่ได้เห็นการทดสอบบทกวีอีกครั้งหลังห่างหายไปนาน และอยากให้รวบรวมการวิเคราะห์แบบนี้มาเรียบเรียงไว้
    • Opus 4.6 ทำให้ ประสิทธิภาพการเขียนโค้ดเพิ่มขึ้นเกิน 3 เท่า มันดูแลทั้งโปรเจกต์อย่างมีความรับผิดชอบและเข้าใจเจตนาของผู้ใช้ได้ดี ไม่แอบเลือกทางลัดหรือทำผลลัพธ์พังเหมือนเวอร์ชันก่อน ๆ
  • Sonnet 4.6 ยังตอบ ‘ปัญหาร้านล้างรถ’ ผิดอยู่ ผมใส่ คำถามต้นฉบับ ลงไปตรง ๆ แล้วมันตอบว่า “เดินไปสิ” ลองดัดแปลงหลายแบบก็ยังพลาดคล้าย ๆ กัน

    • แต่ในการทดสอบของผมกลับตอบทันทีว่า “ขับไป” พร้อมยืนยันหนักแน่นว่า “จะไปล้างรถก็ต้องมีรถสิ” ดูเหมือนว่าแต่ละคนอาจได้ใช้คนละเวอร์ชัน
    • ความสุดโต่งของคำตอบแบบนี้น่าสนใจดี เป็น ความผิดพลาดที่มั่นใจเต็มที่ ซึ่งเป็นแพตเทิร์นภาพหลอนแบบคลาสสิก
    • คำตอบบางอันเสนอว่า “เข็นรถไป” ลิงก์แชร์
    • อีกคำตอบหนึ่งบอกว่า “เดินไปสิ แค่ 30 วินาทีเอง” พร้อมให้เหตุผลเรื่องสิ่งแวดล้อมและสุขภาพ โดยปิด extended thinking ไว้
    • คำถามนี้น่าจะถูกใช้เป็น การทดสอบ benchmark กันบ่อยขึ้นในอนาคต
  • ยิ่งรู้สึกว่าคำพูดที่ว่า “การแข่งขันเป็นผลดีกับผู้บริโภค” นั้นจริง ยิ่งตลาดแข่งกันดุเดือด ผลลัพธ์ก็ยิ่งดีขึ้น

    • แต่การแข่งขัน AI ตอนนี้ดูเหมือน ‘การแข่งขันสะสมอาวุธแบบไร้การป้องกัน’ มากกว่า เพราะเป็นโครงสร้างแบบผู้ชนะกินรวบ ทุกฝ่ายเลยทุ่มลงทุนจนต่างฝ่ายต่างเสียหาย การลงทุนเกินพอดีแบบนี้อาจไร้ประสิทธิภาพในระดับสังคม
    • ถ้านึกถึงว่า GPT-2 เคยถูกมองว่า “อันตรายเกินกว่าจะเผยแพร่” ในปี 2019 การเปิดตัว ChatGPT ก็คือจุดที่จุดชนวนการแข่งขันนี้
    • การเชื่อว่าทุกตลาดทำงานเหมือนการแข่งขันสมบูรณ์แบบเป็นเรื่องอันตราย เพราะในโลกจริงมี การผูกขาดและความไม่สมมาตรของข้อมูล อยู่มาก
    • ตลาด AI ตอนนี้เป็นหนึ่งใน สนามแข่งขันที่ดุเดือดที่สุด ในประวัติศาสตร์มนุษย์ ทฤษฎีสมคบคิดว่าโมเดลถูกทำให้แย่ลงโดยตั้งใจจึงไม่น่าเชื่อถือ
    • ท้ายที่สุดถ้าเหลืออยู่แค่สองบริษัท ก็จะเข้าสู่ ช่วงเก็บเกี่ยวกำไร
  • การทดสอบ “ร้านล้างรถเฮลิคอปเตอร์” ดีที่สุดแล้ว Sonnet 4.6 ตอบว่า “เดินไปสิ” ซึ่ง เหมือนคำตอบล้อเลียนนิสัยคนอเมริกันที่ชอบขับรถแม้ระยะใกล้มาก เลยดูตลกดี

    • มีคนบอกว่านี่คือการทดสอบที่ชอบที่สุด และรู้สึกได้ว่าโมเดลถูกฝึกด้วย ข้อมูลมุกตลกสไตล์ Reddit
  • น่าทึ่งที่ Sonnet 4.6 มีประสิทธิภาพระดับ Opus 4.5 ความเร็วในการพัฒนาทำให้นึกถึง อัตราการพัฒนาสมรรถนะคอมพิวเตอร์ ในยุค 1990

    • สิ่งที่น่าสนใจจริง ๆ ไม่ใช่แค่เพดานประสิทธิภาพสูงขึ้น แต่คือ การยกระดับเส้นล่างสุดของคุณภาพ การได้เหตุผลระดับ Opus ด้วยราคาและ latency แบบ Sonnet ถือว่าพลิกเกม เท่ากับว่าทุก 6~9 เดือน เราได้หน่วยสติปัญญาเท่าเดิมด้วยต้นทุนคอมพิวต์เพียงครึ่งเดียว
    • จากคำว่า “ความเร็วระดับยุค 1990” ก็มีมุกต่อว่า “ราคา RAM ก็ยังเหมือนยุคนั้นเหมือนกัน”
    • แทนที่จะทำ simonw มีคนสร้าง “SVG นกเพลิแกนปั่นจักรยาน” มาแชร์ ลิงก์รูปภาพ
    • มีกรณีหนึ่งที่ Opus บรรยายภาพวิวกลางคืนนิวยอร์กผิด แต่ Mistral กลับแม่นกว่า OpenAI บล็อกการอัปโหลด URL ส่วน Gemini พาไป VertexAI การทดสอบทำในสภาพแวดล้อม Langchain
    • ตาม system card ระบุชัดว่า Sonnet 4.6 ดีกว่า Opus 4.6 ในงานออฟฟิศและการวิเคราะห์การเงิน
  • ราคา Sonnet 4.5 อยู่ที่ $3/$15 ต่อ million tokens และผมก็สงสัยว่า จะมีคนยอมจ่ายราคานี้มากแค่ไหน เพราะโมเดล open-weight กำลังไล่ตามเร็วมากและถูกกว่ามาก

    • ตอนนี้ผมกำลังลอง แนวทางแบบไฮบริด คือใช้ GLM5 ทำงานส่วนใหญ่ แล้วค่อยใช้ Opus/Sonnet ตรวจบั๊กในขั้นตอนสุดท้าย
    • ใน benchmark ง่าย ๆ ของผม Claude 4.6 ยังแพ้ Stepfun 3.5 แบบฟรี aibenchy.com ยังมีปัญหาเรื่อง ความแม่นยำในการทำตามคำสั่ง ต่ำอยู่
    • สุดท้ายมันก็เป็นเรื่องของคุณให้ค่ากับความต่างระหว่าง “ค่อนข้างดี” กับ “SOTA” มากแค่ไหน การใช้โมเดลที่ผิดพลาดบ่อยก็เป็น ต้นทุน เหมือนกัน
    • บางคนชอบ โมเดลที่เดาเจตนาและบริบทเก่ง แบบ Claude มากกว่า ส่วน GLM ต้องระบุรายละเอียดเยอะกว่า
  • ผมเพิ่มการรองรับ Opus/Sonnet 4.6 ให้ปลั๊กอิน llm.datasette.io เลยทำรูปเพลิแกนช้าไปหน่อย ผลลัพธ์ออกมาระดับ Opus 4.5 และเป็นเวอร์ชันที่ใส่ หมวกทรงสูงสวย ๆ
    บล็อกที่เกี่ยวข้อง

    • มีคอมเมนต์บอกว่าเคยเห็น เพลิแกนใส่หมวกทรงสูง แบบนั้นในความพยายามอื่นเหมือนกัน
  • ช่วงไม่กี่วันที่ผ่านมา ผมทดสอบ Sonnet 4.5 อยู่ และบทสนทนานั้น น่าสนใจและคงเส้นคงวาอย่างแปลกประหลาด
    ผมใส่การตั้งค่าส่วนตัวว่า “ให้ความสำคัญกับข้อเท็จจริงเชิงวัตถุและการวิเคราะห์เชิงวิพากษ์ ห้ามแสดงความเห็นอกเห็นใจทางอารมณ์” แล้วมันก็ทำตามได้ดีมาก ChatGPT ก็มีปฏิกิริยาใกล้เคียงกัน

  • ผู้ใช้หลายคนรายงานว่า Opus 4.6 ใช้โทเค็นมากกว่า 4.5 อยู่ 5~10 เท่า ลิงก์ issue ยังไม่มีคำตอบอย่างเป็นทางการ เพราะงั้นผมคงใช้ 4.5 ต่อไป

    • คนที่เจอปัญหามักเป็นฝ่ายส่งเสียงดังกว่า ผมกลับพอใจกับ 4.6 ที่ เร็วกว่าและเรียกใช้เครื่องมือเชิงรุกกว่า ถ้าลด reasoning level ลงเป็น medium ก็ลดการคิดมากเกินไปได้
    • จากประสบการณ์ของผม Opus 4.5 เป็นสายยึดแผน ส่วน 4.6 เป็น สายสำรวจที่ปรับตัวได้ ปัญหาง่าย ๆ อาจไม่มีประสิทธิภาพ แต่กับปัญหายากกลับเร็วกว่าเยอะ
    • ดู reasoning level ได้ใน /models ถ้าตั้งเป็น high การใช้โทเค็นจะพุ่งขึ้นมาก
    • ผมเองก็ ใช้โควต้ารายเดือนหมด ภายในไม่กี่วัน
    • ในการทดลองของผม 4.6 ใช้โทเค็นมากกว่า 4.5 ราว 15~45% แต่เป็นกรณีที่พรอมป์ต์ไม่สมบูรณ์และต้องให้มันอนุมานเอง ถ้างานเขียนมาดี ความต่างก็ไม่มาก reasoning token ของ Sonnet 4.6 ตอนนี้ มีโครงสร้างมากขึ้น แต่ก็ค่อย ๆ ยืดยาวขึ้น เป็นสไตล์คล้ายโมเดลของ Google