เปิดตัว Claude Sonnet 4.6

(anthropic.com)

9 คะแนน โดย GN⁺ 2026-02-18 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

โมเดล Sonnet รุ่นล่าสุดของ Anthropic ที่ยกระดับประสิทธิภาพในทุกด้าน ทั้งการเขียนโค้ด การใช้งานคอมพิวเตอร์ การให้เหตุผลระยะยาว การวางแผนเอเจนต์ งานด้านความรู้ และการออกแบบ
รองรับ หน้าต่างคอนเท็กซ์ 1M โทเค็น และมีการปรับปรุงครั้งใหญ่ด้านความสม่ำเสมอ การทำตามคำสั่ง และคุณภาพโค้ด เมื่อเทียบกับ Sonnet 4.5
มอบ ความฉลาดระดับ Opus 4.5 ในต้นทุนที่ต่ำกว่า และแสดงผลลัพธ์ ระดับมนุษย์ ในงานจริง การทำความเข้าใจเอกสาร และการออกแบบฟรอนต์เอนด์
ความสามารถในการใช้งานคอมพิวเตอร์ดีขึ้นต่อเนื่องใน OSWorld benchmark และยังเสริมความแข็งแกร่งด้าน การป้องกัน prompt injection
ประเด็นสำคัญคือ นักพัฒนาและองค์กรสามารถใช้ การให้เหตุผลระดับ frontier และคุณภาพโค้ดชั้นนำ ได้โดยไม่ต้องพึ่งโมเดลต้นทุนสูง

ภาพรวมของ Claude Sonnet 4.6

Sonnet 4.6 เป็น โมเดลที่ทรงพลังที่สุดในซีรีส์ Sonnet ของ Anthropic โดยอัปเกรดความสามารถโดยรวมทั้งด้านการเขียนโค้ด การใช้งานคอมพิวเตอร์ การให้เหตุผลระยะยาว งานความรู้ และการออกแบบ
- รองรับ หน้าต่างคอนเท็กซ์ 1M โทเค็น (เบต้า) ทำให้ประมวลผลโค้ดเบสขนาดใหญ่หรือเอกสารยาวได้ในครั้งเดียว
ถูกใช้เป็น โมเดลเริ่มต้นสำหรับผู้ใช้แพ็กเกจ Free และ Pro โดยราคายังคงเท่า Sonnet 4.5 ที่ $3/$15 ต่อ 1 ล้านโทเค็น
ผู้ใช้ช่วงแรก ชื่นชอบ Sonnet 4.6 มากกว่า Sonnet 4.5 อย่างชัดเจน และบางส่วน ชอบมากกว่า Opus 4.5 ด้วยซ้ำ
จาก ผลการประเมินด้านความปลอดภัย พบว่าปลอดภัยเทียบเท่าหรือดีกว่ารุ่นก่อน และถูกประเมินว่ามี “บุคลิกที่อบอุ่น ซื่อสัตย์ และเป็นมิตรต่อสังคม”

ความสามารถในการใช้งานคอมพิวเตอร์

Sonnet 4.6 พัฒนาไปเป็นโมเดลที่สามารถ ควบคุมคอมพิวเตอร์ได้คล้ายมนุษย์
- ถูกประเมินด้วย OSWorld benchmark โดยให้ควบคุมซอฟต์แวร์จริง เช่น Chrome, LibreOffice, VS Code ในสภาพแวดล้อมเสมือน
จากการพัฒนาอย่างต่อเนื่องตลอด 16 เดือน พบความสามารถระดับมนุษย์ในงานอย่าง การนำทางสเปรดชีตที่ซับซ้อน หรือ การกรอกเว็บฟอร์มหลายขั้นตอน
แม้ยังด้อยกว่ามนุษย์ที่มีความชำนาญสูงสุด แต่ ความเร็วในการยกระดับประสิทธิภาพการทำงาน นั้นสูงมาก
ความสามารถในการป้องกัน การโจมตีแบบ prompt injection ดีขึ้นอย่างมากเมื่อเทียบกับ Sonnet 4.5 และมีความปลอดภัย ใกล้เคียงกับ Opus 4.6

การประเมินประสิทธิภาพและเบนช์มาร์ก

Sonnet 4.6 มอบ ความฉลาดระดับ Opus ในต้นทุนที่ต่ำกว่า พร้อมการปรับปรุงโดยรวมในหลายเบนช์มาร์ก
- ใน การทดสอบ Claude Code ผู้ใช้ 70% เลือก Sonnet 4.6 โดยมีการพัฒนาด้านความเข้าใจบริบทและการลดความซ้ำซ้อนเมื่อแก้ไขโค้ด
- มี ความนิยมเหนือกว่า Opus 4.5 ที่ 59% พร้อมลดการออกแบบที่มากเกินไปหรืออาการทำงานแบบขี้เกียจ และเพิ่มความแม่นยำในการทำตามคำสั่ง
ใน Vending-Bench Arena ซึ่งจำลองการบริหารระยะยาว โมเดลทำผลงานเหนือกว่าคู่แข่งด้วย กลยุทธ์ลงทุนช่วงต้นแล้วเก็บกำไรช่วงท้าย
ใน OfficeQA มีความสามารถทำความเข้าใจเอกสารเทียบเท่า Opus 4.6 และใน Financial Services Benchmark มีอัตราคำตอบตรงกันเพิ่มขึ้น
ทำได้ ความแม่นยำ 94% ใน insurance benchmark และมี ประสิทธิภาพการให้เหตุผลเชิงลึกดีขึ้น 15% ใน Box test
ใน การทดสอบของ Rakuten AI แสดงการสร้างโค้ด iOS ระดับแนวหน้า พร้อมการใช้ tooling สมัยใหม่และคุณภาพสถาปัตยกรรมที่ดีขึ้น

อัปเดตผลิตภัณฑ์และแพลตฟอร์ม

บน Claude Developer Platform รองรับ adaptive thinking, extended thinking, และ context compaction (เบต้า)
- สรุปบริบทเก่าโดยอัตโนมัติเพื่อ เพิ่มความยาวคอนเท็กซ์ที่ใช้งานได้จริง
อัปเดตเครื่องมือ API:
- web search และ fetch จะเขียนและรันโค้ดโดยอัตโนมัติเพื่อกรองผลการค้นหา
- ฟีเจอร์อย่าง code execution, memory, programmatic tool calling, tool search พร้อมใช้งานทั่วไปแล้ว
ในแอดอิน Claude in Excel รองรับ MCP connector และเชื่อมต่อข้อมูลภายนอกจาก S&P Global, LSEG, PitchBook ได้
Sonnet 4.6 ยังคงประสิทธิภาพสูงได้แม้ไม่ใช้ extended thinking และมีการ แนะนำให้ผู้ใช้ Sonnet 4.5 ย้ายมาใช้งาน
Opus 4.6 ยังคงเหมาะกับงานที่ต้องการการให้เหตุผลเชิงลึกที่สุด เช่น การรีแฟกเตอร์โค้ด หรือการประสานงานหลายเอเจนต์

ช่องทางการใช้งาน

Sonnet 4.6 ใช้งานได้บน ทุกแพ็กเกจของ Claude, Claude Cowork, Claude Code, API และแพลตฟอร์มคลาวด์หลัก
แพ็กเกจฟรีก็อัปเกรดเป็น Sonnet 4.6 เช่นกัน พร้อมความสามารถสร้างไฟล์ คอนเน็กเตอร์ สกิล และฟีเจอร์ compaction
นักพัฒนาสามารถใช้งานได้ทันทีผ่าน Claude API ด้วยชื่อโมเดล claude-sonnet-4-6

ตัวเลขสำคัญและตัวชี้วัดการประเมิน (สรุปเชิงอรรถ)

OSWorld: การประเมินงานคอมพิวเตอร์บนซอฟต์แวร์จริง โดย Sonnet 4.6 ถูกวัดในสถานะ ‘thinking off’
SWE-bench Verified: ได้คะแนนเฉลี่ย 80.2% จาก 10 รอบ
ARC-AGI-2: ทำได้ 60.4% ในโหมดใช้ความพยายามสูงสุด
MMMU-Pro: มีการปรับคะแนนหลังปรับปรุงวิธีประเมิน
ในการทดลองหลากหลาย เช่น Humanity’s Last Exam, BrowseComp มีการทดสอบโดย เปิดใช้เครื่องมือ การค้นหาเว็บ และฟีเจอร์บีบอัดบริบท

1 ความคิดเห็น

GN⁺ 2026-02-18

ความคิดเห็นจาก Hacker News

น่าประทับใจที่โฟกัสไปที่การใช้งานคอมพิวเตอร์ แปลว่าคงมองว่า มีมูลค่าสูงมาก แต่เรื่องความปลอดภัยก็ยังน่าสงสัยอยู่ ตามการประเมินภายในของพวกเขา ระบบโจมตีอัตโนมัติ มีโอกาส 8% ที่จะเจาะระบบสำเร็จได้ในครั้งเดียว และถ้าลองได้ไม่จำกัดก็สำเร็จได้ถึง 50% ตัวเลขแบบนี้ยอมรับได้ยาก ถ้าผมไม่ได้เข้าใจอะไรผิด นี่คือระดับที่ใช้งานจริงไม่ได้เลย
PDF การประเมินความปลอดภัย
- เป้าหมายของเทคโนโลยีนี้จริง ๆ คือการ ผูกขาดงานที่เกี่ยวข้องกับคอมพิวเตอร์ I/O ไม่ใช่แค่ SWE แต่รวมถึงงานออฟฟิศส่วนใหญ่ด้วย ทำให้คนหนึ่งทำงานแทนสามคน แล้วผลักดันให้ลดจำนวนพนักงาน จากมุมมองบริษัท มันไม่มีเหตุผลอะไรให้ปฏิเสธ ถ้าหาเงินได้เท่าเดิมแต่ลดค่าแรงเหลือ 1/3 แต่ในโครงสร้างแบบนี้ ใคร ๆ ก็สร้างธุรกิจด้วย LLM ได้ สุดท้าย การแข่งขันจะล้นเกินจนกำไรเข้าใกล้ศูนย์ ถ้าทุกคนใช้โมเดลเดียวกัน ความแตกต่างก็หายไป แม้แต่โอเพนซอร์สโมเดลที่ทรงพลังก็อาจทำให้ การเลื่อนชั้นทางสังคม อ่อนแอลงได้
- ผมกลับคิดว่าตัวเลข 8% นี่ดีเกินคาดเสียอีก ประเด็นสำคัญไม่ใช่แค่ตัวโมเดล แต่คือ กลไกควบคุมของสภาพแวดล้อมที่ใช้งาน ในบริการจริง การมอนิเตอร์และ kill switch เป็นสิ่งจำเป็น โมเดลที่ “ปลอดภัยพอ” เป็นแค่เงื่อนไขจำเป็น ไม่ใช่เงื่อนไขเพียงพอ
- นี่แหละคือ ปัญหาหลัก ที่ไม่มีใครอยากพูด ถ้าแก้เรื่องความปลอดภัยไม่ได้ ก็แทนที่แรงงานในวงกว้างไม่ได้ การใช้แบบสรุปข้อมูลหรือช่วยงานยังพอได้ แต่ถ้าให้ทำ การตัดสินใจแบบอัตโนมัติ ความเสี่ยงทางกฎหมายจะพุ่งขึ้นมหาศาล สุดท้ายถ้าบริษัท AI แก้เรื่องนี้ไม่ได้ เงินทุนก็จะหมดไป ตามแนวโน้มตอนนี้ AI น่าจะยังเป็นเครื่องมือที่มีประโยชน์แบบเสิร์ชหรือโปรแกรมตรวจคำสะกด แต่คงยังไม่เกิดการแทนที่งานจำนวนมาก
- ในทางปฏิบัติ มันอาจมีประโยชน์กับงานอย่าง การทำระบบอัตโนมัติของแอปภายในที่ซ้ำ ๆ เช่น ล็อกอินเข้าเว็บแอปเดิมทุกวัน อ่านปฏิทิน แล้วกดปุ่มบางอย่าง ในสภาพแวดล้อมแบบนี้ไม่มีผู้โจมตี ดังนั้นปัญหาด้านความปลอดภัยแทบหายไป
- ตัวเลข 8% กับ 50% น่ากังวลก็จริง แต่เป็นผลใน ‘สภาพแวดล้อมการใช้งานคอมพิวเตอร์’ สำหรับสภาพแวดล้อมการเขียนโค้ดนั้น ระบุว่าเมื่อเปิด extended thinking แล้วอยู่ที่ 0.0% นั่นหมายความว่ายังเป็นพื้นที่เชิงทดลองอยู่
ผมเอากวีนิพนธ์ส่วนตัวราว 900 บทไปทดสอบกับ Sonnet 4.6 แล้วพบว่า ต่างจาก Opus 4.6 มาก Opus 4.6 วิเคราะห์ได้น่าทึ่ง แต่ Sonnet 4.6 ยังมี ภาพหลอนและข้อผิดพลาด บ่อย ในการทดสอบโค้ดก็ให้ความรู้สึกคล้ายกัน ยังห่างจาก Opus มาก
- มีคนตอบว่าดีใจที่ได้เห็นการทดสอบบทกวีอีกครั้งหลังห่างหายไปนาน และอยากให้รวบรวมการวิเคราะห์แบบนี้มาเรียบเรียงไว้
- Opus 4.6 ทำให้ ประสิทธิภาพการเขียนโค้ดเพิ่มขึ้นเกิน 3 เท่า มันดูแลทั้งโปรเจกต์อย่างมีความรับผิดชอบและเข้าใจเจตนาของผู้ใช้ได้ดี ไม่แอบเลือกทางลัดหรือทำผลลัพธ์พังเหมือนเวอร์ชันก่อน ๆ
Sonnet 4.6 ยังตอบ ‘ปัญหาร้านล้างรถ’ ผิดอยู่ ผมใส่ คำถามต้นฉบับ ลงไปตรง ๆ แล้วมันตอบว่า “เดินไปสิ” ลองดัดแปลงหลายแบบก็ยังพลาดคล้าย ๆ กัน
- แต่ในการทดสอบของผมกลับตอบทันทีว่า “ขับไป” พร้อมยืนยันหนักแน่นว่า “จะไปล้างรถก็ต้องมีรถสิ” ดูเหมือนว่าแต่ละคนอาจได้ใช้คนละเวอร์ชัน
- ความสุดโต่งของคำตอบแบบนี้น่าสนใจดี เป็น ความผิดพลาดที่มั่นใจเต็มที่ ซึ่งเป็นแพตเทิร์นภาพหลอนแบบคลาสสิก
- คำตอบบางอันเสนอว่า “เข็นรถไป” ลิงก์แชร์
- อีกคำตอบหนึ่งบอกว่า “เดินไปสิ แค่ 30 วินาทีเอง” พร้อมให้เหตุผลเรื่องสิ่งแวดล้อมและสุขภาพ โดยปิด extended thinking ไว้
- คำถามนี้น่าจะถูกใช้เป็น การทดสอบ benchmark กันบ่อยขึ้นในอนาคต
ยิ่งรู้สึกว่าคำพูดที่ว่า “การแข่งขันเป็นผลดีกับผู้บริโภค” นั้นจริง ยิ่งตลาดแข่งกันดุเดือด ผลลัพธ์ก็ยิ่งดีขึ้น
- แต่การแข่งขัน AI ตอนนี้ดูเหมือน ‘การแข่งขันสะสมอาวุธแบบไร้การป้องกัน’ มากกว่า เพราะเป็นโครงสร้างแบบผู้ชนะกินรวบ ทุกฝ่ายเลยทุ่มลงทุนจนต่างฝ่ายต่างเสียหาย การลงทุนเกินพอดีแบบนี้อาจไร้ประสิทธิภาพในระดับสังคม
- ถ้านึกถึงว่า GPT-2 เคยถูกมองว่า “อันตรายเกินกว่าจะเผยแพร่” ในปี 2019 การเปิดตัว ChatGPT ก็คือจุดที่จุดชนวนการแข่งขันนี้
- การเชื่อว่าทุกตลาดทำงานเหมือนการแข่งขันสมบูรณ์แบบเป็นเรื่องอันตราย เพราะในโลกจริงมี การผูกขาดและความไม่สมมาตรของข้อมูล อยู่มาก
- ตลาด AI ตอนนี้เป็นหนึ่งใน สนามแข่งขันที่ดุเดือดที่สุด ในประวัติศาสตร์มนุษย์ ทฤษฎีสมคบคิดว่าโมเดลถูกทำให้แย่ลงโดยตั้งใจจึงไม่น่าเชื่อถือ
- ท้ายที่สุดถ้าเหลืออยู่แค่สองบริษัท ก็จะเข้าสู่ ช่วงเก็บเกี่ยวกำไร
การทดสอบ “ร้านล้างรถเฮลิคอปเตอร์” ดีที่สุดแล้ว Sonnet 4.6 ตอบว่า “เดินไปสิ” ซึ่ง เหมือนคำตอบล้อเลียนนิสัยคนอเมริกันที่ชอบขับรถแม้ระยะใกล้มาก เลยดูตลกดี
- มีคนบอกว่านี่คือการทดสอบที่ชอบที่สุด และรู้สึกได้ว่าโมเดลถูกฝึกด้วย ข้อมูลมุกตลกสไตล์ Reddit
น่าทึ่งที่ Sonnet 4.6 มีประสิทธิภาพระดับ Opus 4.5 ความเร็วในการพัฒนาทำให้นึกถึง อัตราการพัฒนาสมรรถนะคอมพิวเตอร์ ในยุค 1990
- สิ่งที่น่าสนใจจริง ๆ ไม่ใช่แค่เพดานประสิทธิภาพสูงขึ้น แต่คือ การยกระดับเส้นล่างสุดของคุณภาพ การได้เหตุผลระดับ Opus ด้วยราคาและ latency แบบ Sonnet ถือว่าพลิกเกม เท่ากับว่าทุก 6~9 เดือน เราได้หน่วยสติปัญญาเท่าเดิมด้วยต้นทุนคอมพิวต์เพียงครึ่งเดียว
- จากคำว่า “ความเร็วระดับยุค 1990” ก็มีมุกต่อว่า “ราคา RAM ก็ยังเหมือนยุคนั้นเหมือนกัน”
- แทนที่จะทำ simonw มีคนสร้าง “SVG นกเพลิแกนปั่นจักรยาน” มาแชร์ ลิงก์รูปภาพ
- มีกรณีหนึ่งที่ Opus บรรยายภาพวิวกลางคืนนิวยอร์กผิด แต่ Mistral กลับแม่นกว่า OpenAI บล็อกการอัปโหลด URL ส่วน Gemini พาไป VertexAI การทดสอบทำในสภาพแวดล้อม Langchain
- ตาม system card ระบุชัดว่า Sonnet 4.6 ดีกว่า Opus 4.6 ในงานออฟฟิศและการวิเคราะห์การเงิน
ราคา Sonnet 4.5 อยู่ที่ $3/$15 ต่อ million tokens และผมก็สงสัยว่า จะมีคนยอมจ่ายราคานี้มากแค่ไหน เพราะโมเดล open-weight กำลังไล่ตามเร็วมากและถูกกว่ามาก
- ตอนนี้ผมกำลังลอง แนวทางแบบไฮบริด คือใช้ GLM5 ทำงานส่วนใหญ่ แล้วค่อยใช้ Opus/Sonnet ตรวจบั๊กในขั้นตอนสุดท้าย
- ใน benchmark ง่าย ๆ ของผม Claude 4.6 ยังแพ้ Stepfun 3.5 แบบฟรี aibenchy.com ยังมีปัญหาเรื่อง ความแม่นยำในการทำตามคำสั่ง ต่ำอยู่
- สุดท้ายมันก็เป็นเรื่องของคุณให้ค่ากับความต่างระหว่าง “ค่อนข้างดี” กับ “SOTA” มากแค่ไหน การใช้โมเดลที่ผิดพลาดบ่อยก็เป็น ต้นทุน เหมือนกัน
- บางคนชอบ โมเดลที่เดาเจตนาและบริบทเก่ง แบบ Claude มากกว่า ส่วน GLM ต้องระบุรายละเอียดเยอะกว่า
ผมเพิ่มการรองรับ Opus/Sonnet 4.6 ให้ปลั๊กอิน llm.datasette.io เลยทำรูปเพลิแกนช้าไปหน่อย ผลลัพธ์ออกมาระดับ Opus 4.5 และเป็นเวอร์ชันที่ใส่ หมวกทรงสูงสวย ๆ
บล็อกที่เกี่ยวข้อง
- มีคอมเมนต์บอกว่าเคยเห็น เพลิแกนใส่หมวกทรงสูง แบบนั้นในความพยายามอื่นเหมือนกัน
ช่วงไม่กี่วันที่ผ่านมา ผมทดสอบ Sonnet 4.5 อยู่ และบทสนทนานั้น น่าสนใจและคงเส้นคงวาอย่างแปลกประหลาด
ผมใส่การตั้งค่าส่วนตัวว่า “ให้ความสำคัญกับข้อเท็จจริงเชิงวัตถุและการวิเคราะห์เชิงวิพากษ์ ห้ามแสดงความเห็นอกเห็นใจทางอารมณ์” แล้วมันก็ทำตามได้ดีมาก ChatGPT ก็มีปฏิกิริยาใกล้เคียงกัน
ผู้ใช้หลายคนรายงานว่า Opus 4.6 ใช้โทเค็นมากกว่า 4.5 อยู่ 5~10 เท่า ลิงก์ issue ยังไม่มีคำตอบอย่างเป็นทางการ เพราะงั้นผมคงใช้ 4.5 ต่อไป
- คนที่เจอปัญหามักเป็นฝ่ายส่งเสียงดังกว่า ผมกลับพอใจกับ 4.6 ที่ เร็วกว่าและเรียกใช้เครื่องมือเชิงรุกกว่า ถ้าลด reasoning level ลงเป็น medium ก็ลดการคิดมากเกินไปได้
- จากประสบการณ์ของผม Opus 4.5 เป็นสายยึดแผน ส่วน 4.6 เป็น สายสำรวจที่ปรับตัวได้ ปัญหาง่าย ๆ อาจไม่มีประสิทธิภาพ แต่กับปัญหายากกลับเร็วกว่าเยอะ
- ดู reasoning level ได้ใน /models ถ้าตั้งเป็น high การใช้โทเค็นจะพุ่งขึ้นมาก
- ผมเองก็ ใช้โควต้ารายเดือนหมด ภายในไม่กี่วัน
- ในการทดลองของผม 4.6 ใช้โทเค็นมากกว่า 4.5 ราว 15~45% แต่เป็นกรณีที่พรอมป์ต์ไม่สมบูรณ์และต้องให้มันอนุมานเอง ถ้างานเขียนมาดี ความต่างก็ไม่มาก reasoning token ของ Sonnet 4.6 ตอนนี้ มีโครงสร้างมากขึ้น แต่ก็ค่อย ๆ ยืดยาวขึ้น เป็นสไตล์คล้ายโมเดลของ Google

เปิดตัว Claude Sonnet 4.6

ภาพรวมของ Claude Sonnet 4.6

ความสามารถในการใช้งานคอมพิวเตอร์

การประเมินประสิทธิภาพและเบนช์มาร์ก

อัปเดตผลิตภัณฑ์และแพลตฟอร์ม

ช่องทางการใช้งาน

ตัวเลขสำคัญและตัวชี้วัดการประเมิน (สรุปเชิงอรรถ)

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News