- โมเดล Sonnet รุ่นล่าสุดของ Anthropic ที่ยกระดับประสิทธิภาพในทุกด้าน ทั้งการเขียนโค้ด การใช้งานคอมพิวเตอร์ การให้เหตุผลระยะยาว การวางแผนเอเจนต์ งานด้านความรู้ และการออกแบบ
- รองรับ หน้าต่างคอนเท็กซ์ 1M โทเค็น และมีการปรับปรุงครั้งใหญ่ด้านความสม่ำเสมอ การทำตามคำสั่ง และคุณภาพโค้ด เมื่อเทียบกับ Sonnet 4.5
- มอบ ความฉลาดระดับ Opus 4.5 ในต้นทุนที่ต่ำกว่า และแสดงผลลัพธ์ ระดับมนุษย์ ในงานจริง การทำความเข้าใจเอกสาร และการออกแบบฟรอนต์เอนด์
- ความสามารถในการใช้งานคอมพิวเตอร์ดีขึ้นต่อเนื่องใน OSWorld benchmark และยังเสริมความแข็งแกร่งด้าน การป้องกัน prompt injection
- ประเด็นสำคัญคือ นักพัฒนาและองค์กรสามารถใช้ การให้เหตุผลระดับ frontier และคุณภาพโค้ดชั้นนำ ได้โดยไม่ต้องพึ่งโมเดลต้นทุนสูง
ภาพรวมของ Claude Sonnet 4.6
- Sonnet 4.6 เป็น โมเดลที่ทรงพลังที่สุดในซีรีส์ Sonnet ของ Anthropic โดยอัปเกรดความสามารถโดยรวมทั้งด้านการเขียนโค้ด การใช้งานคอมพิวเตอร์ การให้เหตุผลระยะยาว งานความรู้ และการออกแบบ
- รองรับ หน้าต่างคอนเท็กซ์ 1M โทเค็น (เบต้า) ทำให้ประมวลผลโค้ดเบสขนาดใหญ่หรือเอกสารยาวได้ในครั้งเดียว
- ถูกใช้เป็น โมเดลเริ่มต้นสำหรับผู้ใช้แพ็กเกจ Free และ Pro โดยราคายังคงเท่า Sonnet 4.5 ที่ $3/$15 ต่อ 1 ล้านโทเค็น
- ผู้ใช้ช่วงแรก ชื่นชอบ Sonnet 4.6 มากกว่า Sonnet 4.5 อย่างชัดเจน และบางส่วน ชอบมากกว่า Opus 4.5 ด้วยซ้ำ
- จาก ผลการประเมินด้านความปลอดภัย พบว่าปลอดภัยเทียบเท่าหรือดีกว่ารุ่นก่อน และถูกประเมินว่ามี “บุคลิกที่อบอุ่น ซื่อสัตย์ และเป็นมิตรต่อสังคม”
ความสามารถในการใช้งานคอมพิวเตอร์
- Sonnet 4.6 พัฒนาไปเป็นโมเดลที่สามารถ ควบคุมคอมพิวเตอร์ได้คล้ายมนุษย์
- ถูกประเมินด้วย OSWorld benchmark โดยให้ควบคุมซอฟต์แวร์จริง เช่น Chrome, LibreOffice, VS Code ในสภาพแวดล้อมเสมือน
- จากการพัฒนาอย่างต่อเนื่องตลอด 16 เดือน พบความสามารถระดับมนุษย์ในงานอย่าง การนำทางสเปรดชีตที่ซับซ้อน หรือ การกรอกเว็บฟอร์มหลายขั้นตอน
- แม้ยังด้อยกว่ามนุษย์ที่มีความชำนาญสูงสุด แต่ ความเร็วในการยกระดับประสิทธิภาพการทำงาน นั้นสูงมาก
- ความสามารถในการป้องกัน การโจมตีแบบ prompt injection ดีขึ้นอย่างมากเมื่อเทียบกับ Sonnet 4.5 และมีความปลอดภัย ใกล้เคียงกับ Opus 4.6
การประเมินประสิทธิภาพและเบนช์มาร์ก
- Sonnet 4.6 มอบ ความฉลาดระดับ Opus ในต้นทุนที่ต่ำกว่า พร้อมการปรับปรุงโดยรวมในหลายเบนช์มาร์ก
- ใน การทดสอบ Claude Code ผู้ใช้ 70% เลือก Sonnet 4.6 โดยมีการพัฒนาด้านความเข้าใจบริบทและการลดความซ้ำซ้อนเมื่อแก้ไขโค้ด
- มี ความนิยมเหนือกว่า Opus 4.5 ที่ 59% พร้อมลดการออกแบบที่มากเกินไปหรืออาการทำงานแบบขี้เกียจ และเพิ่มความแม่นยำในการทำตามคำสั่ง
- ใน Vending-Bench Arena ซึ่งจำลองการบริหารระยะยาว โมเดลทำผลงานเหนือกว่าคู่แข่งด้วย กลยุทธ์ลงทุนช่วงต้นแล้วเก็บกำไรช่วงท้าย
- ใน OfficeQA มีความสามารถทำความเข้าใจเอกสารเทียบเท่า Opus 4.6 และใน Financial Services Benchmark มีอัตราคำตอบตรงกันเพิ่มขึ้น
- ทำได้ ความแม่นยำ 94% ใน insurance benchmark และมี ประสิทธิภาพการให้เหตุผลเชิงลึกดีขึ้น 15% ใน Box test
- ใน การทดสอบของ Rakuten AI แสดงการสร้างโค้ด iOS ระดับแนวหน้า พร้อมการใช้ tooling สมัยใหม่และคุณภาพสถาปัตยกรรมที่ดีขึ้น
อัปเดตผลิตภัณฑ์และแพลตฟอร์ม
- บน Claude Developer Platform รองรับ adaptive thinking, extended thinking, และ context compaction (เบต้า)
- สรุปบริบทเก่าโดยอัตโนมัติเพื่อ เพิ่มความยาวคอนเท็กซ์ที่ใช้งานได้จริง
- อัปเดตเครื่องมือ API:
- web search และ fetch จะเขียนและรันโค้ดโดยอัตโนมัติเพื่อกรองผลการค้นหา
- ฟีเจอร์อย่าง code execution, memory, programmatic tool calling, tool search พร้อมใช้งานทั่วไปแล้ว
- ในแอดอิน Claude in Excel รองรับ MCP connector และเชื่อมต่อข้อมูลภายนอกจาก S&P Global, LSEG, PitchBook ได้
- Sonnet 4.6 ยังคงประสิทธิภาพสูงได้แม้ไม่ใช้ extended thinking และมีการ แนะนำให้ผู้ใช้ Sonnet 4.5 ย้ายมาใช้งาน
- Opus 4.6 ยังคงเหมาะกับงานที่ต้องการการให้เหตุผลเชิงลึกที่สุด เช่น การรีแฟกเตอร์โค้ด หรือการประสานงานหลายเอเจนต์
ช่องทางการใช้งาน
- Sonnet 4.6 ใช้งานได้บน ทุกแพ็กเกจของ Claude, Claude Cowork, Claude Code, API และแพลตฟอร์มคลาวด์หลัก
- แพ็กเกจฟรีก็อัปเกรดเป็น Sonnet 4.6 เช่นกัน พร้อมความสามารถสร้างไฟล์ คอนเน็กเตอร์ สกิล และฟีเจอร์ compaction
- นักพัฒนาสามารถใช้งานได้ทันทีผ่าน Claude API ด้วยชื่อโมเดล
claude-sonnet-4-6
ตัวเลขสำคัญและตัวชี้วัดการประเมิน (สรุปเชิงอรรถ)
- OSWorld: การประเมินงานคอมพิวเตอร์บนซอฟต์แวร์จริง โดย Sonnet 4.6 ถูกวัดในสถานะ ‘thinking off’
- SWE-bench Verified: ได้คะแนนเฉลี่ย 80.2% จาก 10 รอบ
- ARC-AGI-2: ทำได้ 60.4% ในโหมดใช้ความพยายามสูงสุด
- MMMU-Pro: มีการปรับคะแนนหลังปรับปรุงวิธีประเมิน
- ในการทดลองหลากหลาย เช่น Humanity’s Last Exam, BrowseComp มีการทดสอบโดย เปิดใช้เครื่องมือ การค้นหาเว็บ และฟีเจอร์บีบอัดบริบท
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
น่าประทับใจที่โฟกัสไปที่การใช้งานคอมพิวเตอร์ แปลว่าคงมองว่า มีมูลค่าสูงมาก แต่เรื่องความปลอดภัยก็ยังน่าสงสัยอยู่ ตามการประเมินภายในของพวกเขา ระบบโจมตีอัตโนมัติ มีโอกาส 8% ที่จะเจาะระบบสำเร็จได้ในครั้งเดียว และถ้าลองได้ไม่จำกัดก็สำเร็จได้ถึง 50% ตัวเลขแบบนี้ยอมรับได้ยาก ถ้าผมไม่ได้เข้าใจอะไรผิด นี่คือระดับที่ใช้งานจริงไม่ได้เลย
PDF การประเมินความปลอดภัย
ผมเอากวีนิพนธ์ส่วนตัวราว 900 บทไปทดสอบกับ Sonnet 4.6 แล้วพบว่า ต่างจาก Opus 4.6 มาก Opus 4.6 วิเคราะห์ได้น่าทึ่ง แต่ Sonnet 4.6 ยังมี ภาพหลอนและข้อผิดพลาด บ่อย ในการทดสอบโค้ดก็ให้ความรู้สึกคล้ายกัน ยังห่างจาก Opus มาก
Sonnet 4.6 ยังตอบ ‘ปัญหาร้านล้างรถ’ ผิดอยู่ ผมใส่ คำถามต้นฉบับ ลงไปตรง ๆ แล้วมันตอบว่า “เดินไปสิ” ลองดัดแปลงหลายแบบก็ยังพลาดคล้าย ๆ กัน
ยิ่งรู้สึกว่าคำพูดที่ว่า “การแข่งขันเป็นผลดีกับผู้บริโภค” นั้นจริง ยิ่งตลาดแข่งกันดุเดือด ผลลัพธ์ก็ยิ่งดีขึ้น
การทดสอบ “ร้านล้างรถเฮลิคอปเตอร์” ดีที่สุดแล้ว Sonnet 4.6 ตอบว่า “เดินไปสิ” ซึ่ง เหมือนคำตอบล้อเลียนนิสัยคนอเมริกันที่ชอบขับรถแม้ระยะใกล้มาก เลยดูตลกดี
น่าทึ่งที่ Sonnet 4.6 มีประสิทธิภาพระดับ Opus 4.5 ความเร็วในการพัฒนาทำให้นึกถึง อัตราการพัฒนาสมรรถนะคอมพิวเตอร์ ในยุค 1990
ราคา Sonnet 4.5 อยู่ที่ $3/$15 ต่อ million tokens และผมก็สงสัยว่า จะมีคนยอมจ่ายราคานี้มากแค่ไหน เพราะโมเดล open-weight กำลังไล่ตามเร็วมากและถูกกว่ามาก
ผมเพิ่มการรองรับ Opus/Sonnet 4.6 ให้ปลั๊กอิน llm.datasette.io เลยทำรูปเพลิแกนช้าไปหน่อย ผลลัพธ์ออกมาระดับ Opus 4.5 และเป็นเวอร์ชันที่ใส่ หมวกทรงสูงสวย ๆ
บล็อกที่เกี่ยวข้อง
ช่วงไม่กี่วันที่ผ่านมา ผมทดสอบ Sonnet 4.5 อยู่ และบทสนทนานั้น น่าสนใจและคงเส้นคงวาอย่างแปลกประหลาด
ผมใส่การตั้งค่าส่วนตัวว่า “ให้ความสำคัญกับข้อเท็จจริงเชิงวัตถุและการวิเคราะห์เชิงวิพากษ์ ห้ามแสดงความเห็นอกเห็นใจทางอารมณ์” แล้วมันก็ทำตามได้ดีมาก ChatGPT ก็มีปฏิกิริยาใกล้เคียงกัน
ผู้ใช้หลายคนรายงานว่า Opus 4.6 ใช้โทเค็นมากกว่า 4.5 อยู่ 5~10 เท่า ลิงก์ issue ยังไม่มีคำตอบอย่างเป็นทางการ เพราะงั้นผมคงใช้ 4.5 ต่อไป
/modelsถ้าตั้งเป็น high การใช้โทเค็นจะพุ่งขึ้นมาก