- โมเดล AI ล่าสุดของ Anthropic ที่มาพร้อม ความสามารถด้านการเขียนโค้ดและความต่อเนื่องในการทำงานระยะยาวที่ดีขึ้น พร้อมรองรับ context window ขนาด 1M โทเค็นในสถานะเบตา
- ทำคะแนนได้ในระดับแนวหน้าของอุตสาหกรรมบนเบนช์มาร์กหลัก โดยเหนือกว่า GPT-5.2 ราว 144 คะแนน Elo
- ประสิทธิภาพได้รับการเสริมในงานที่เน้นการใช้งานจริง เช่น การรีวิวโค้ด·ดีบัก, การจัดการโค้ดเบสขนาดใหญ่, การวิเคราะห์การเงิน·การเขียนเอกสาร
- เพิ่มฟีเจอร์ควบคุมสำหรับนักพัฒนา เช่น Adaptive thinking, context compaction, การปรับ effort ทำให้การใช้งานเอเจนต์แบบรันระยะยาวทำได้ง่ายขึ้น
- ในการประเมินด้านความปลอดภัยก็แสดงผลว่า มีข้อผิดพลาด·การใช้งานในทางที่ผิด·อัตราการปฏิเสธเกินจำเป็นต่ำ จึงถูกมองว่าเป็นโมเดลที่ได้ทั้งสมรรถนะสูงและความปลอดภัย
จุดปรับปรุงสำคัญของ Claude Opus 4.6
- Opus 4.6 เป็นโมเดลที่มี ความสามารถในการวางแผน, ความต่อเนื่องของเอเจนต์, การควบคุมคุณภาพโค้ด ดีขึ้นเมื่อเทียบกับเวอร์ชันก่อนหน้า
- ทำงานได้เสถียรมากขึ้นบนโค้ดเบสขนาดใหญ่ พร้อมเสริมความสามารถในการตรวจจับและแก้ไขข้อผิดพลาดด้วยตนเอง
- รองรับการประมวลผลงานยาวและซับซ้อนด้วย context window ขนาด 1M โทเค็น (เบตา)
- การนำไปใช้ในงานประจำวัน ก็ขยายกว้างขึ้น ครอบคลุมงานอย่างการวิเคราะห์การเงิน การวิจัย เอกสาร สเปรดชีต และการสร้างงานนำเสนอ
- ในสภาพแวดล้อม Cowork สามารถทำงานหลายอย่างแบบอัตโนมัติได้ และจัดการงานที่ซับซ้อนแทนผู้ใช้
เบนช์มาร์กและการประเมินประสิทธิภาพ
- ทำคะแนนสูงสุดใน Terminal-Bench 2.0 และนำหน้าทุก frontier model ใน Humanity’s Last Exam
- ในการประเมิน GDPval-AA มีประสิทธิภาพสูงกว่า GPT-5.2 ประมาณ 144 คะแนน Elo และสูงกว่า Opus 4.5 อยู่ 190 คะแนน
- ทำผลงานสูงสุดในแบบทดสอบ BrowseComp เช่นกัน สะท้อนความสามารถในการค้นหาข้อมูลออนไลน์ที่ดีขึ้น
- ใน MRCR v2 (1M variant) ทำคะแนนได้ 76% ซึ่งเพิ่มขึ้นมากเมื่อเทียบกับ 18.5% ของ Sonnet 4.5
- ความสามารถในการรักษาบริบทยาวและติดตามข้อมูลดีขึ้น ช่วยลดอาการ context rot
ประสบการณ์ใช้งานช่วงแรกและเสียงตอบรับจากพาร์ตเนอร์
- ในการทดสอบวิศวกรรมภายใน พบว่า ความสามารถในการแก้ปัญหาซับซ้อนและการตัดสินใจ ดีขึ้น
- เมื่อเจอโจทย์ยาก โมเดลจะคิดเชิงลึกซ้ำหลายรอบเพื่อให้ได้ผลลัพธ์ที่ดีขึ้น
- สำหรับงานง่าย อาจช้าลงจากการคิดมากเกินไป จึงสามารถปรับได้ผ่านพารามิเตอร์
/effort
- พาร์ตเนอร์กลุ่มแรกประเมินว่า Opus 4.6 โดดเด่นในด้าน ความสามารถในการทำงานอัตโนมัติ, การจัดการคำขอที่ซับซ้อน, การสนับสนุนการทำงานร่วมกันในทีม
- มีความแม่นยำสูงในการสำรวจโค้ดเบสขนาดใหญ่ การรันงานย่อยแบบขนาน และการระบุบล็อกเกอร์
- มีความแม่นยำสูงในการวิเคราะห์เนื้อหาด้านกฎหมาย การเงิน และเทคนิค (เช่น BigLaw Bench 90.2%)
- ในการทดสอบจริงด้านการสืบสวนความปลอดภัยไซเบอร์ 38 จาก 40 กรณีให้ผลลัพธ์ดีกว่า Opus 4.5
- มีรายงานกรณีที่ย้ายโค้ดหลายล้านบรรทัดเสร็จในเวลาครึ่งหนึ่ง
การเสริมความปลอดภัยและความมั่นคง
- ใน การตรวจสอบพฤติกรรมอัตโนมัติ มีสัดส่วนพฤติกรรมไม่สอดคล้อง เช่น การหลอกลวง การประจบ และการร่วมมือเพื่อการใช้งานผิดวัตถุประสงค์ อยู่ในระดับต่ำ
- เป็นโมเดล Claude ที่มี อัตราการปฏิเสธเกินจำเป็น (over-refusal) ต่ำที่สุด
- มีการประเมินความปลอดภัยรูปแบบใหม่ เช่น สวัสดิภาพผู้ใช้ การปฏิเสธคำขอเสี่ยง และการตรวจจับพฤติกรรมอันตรายแบบแฝง
- ใช้ งานวิจัยด้านการตีความได้ของโมเดล เพื่อวิเคราะห์สาเหตุการทำงานภายในและตรวจจับปัญหาที่อาจเกิดขึ้น
- จากการที่ ความสามารถด้านไซเบอร์ซีเคียวริตี้ดีขึ้น จึงมีการเพิ่ม security probe ใหม่ 6 ประเภท เพื่อเสริมการตรวจจับการนำไปใช้ในทางที่ผิด
- ในการใช้งานเชิงป้องกัน โมเดลช่วยตรวจหาและแพตช์ช่องโหว่ของโอเพนซอร์ส และมีแผนบล็อกการใช้งานผิดวัตถุประสงค์แบบเรียลไทม์ในอนาคต
อัปเดตผลิตภัณฑ์และ API
- ใน Claude Developer Platform มีการเพิ่มฟีเจอร์ต่อไปนี้
- Adaptive thinking: ให้โมเดลตัดสินใจเองโดยอัตโนมัติว่าควรใช้การคิดเชิงลึกตามสถานการณ์หรือไม่
- ระดับ Effort: มีให้เลือก 4 ระดับคือ low, medium, high (ค่าเริ่มต้น), max
- Context compaction (เบตา) : เมื่อบทสนทนายาวขึ้น จะสรุปและแทนที่บริบทเก่า
- รองรับ 1M token context (เบตา) และ 128k output tokens
- มีตัวเลือก US-only inference (คิดค่าบริการ 1.1 เท่า)
- เพิ่มฟีเจอร์ agent teams ให้กับ Claude Code ทำให้หลายเอเจนต์สามารถร่วมงานกันแบบขนานได้
- Claude in Excel ปรับปรุงความสามารถในการจัดโครงสร้างข้อมูลที่ไม่มีโครงสร้างและจัดการการเปลี่ยนแปลงหลายขั้นตอน
- Claude in PowerPoint (research preview) สามารถรู้จำเทมเพลตสไลด์ ฟอนต์ และเลย์เอาต์ เพื่อคงความสอดคล้องของแบรนด์
การเข้าถึงและราคา
- Opus 4.6 ใช้งานได้ทันทีผ่าน claude.ai, API และแพลตฟอร์มคลาวด์หลัก
- ชื่อโมเดลบน API คือ
claude-opus-4-6 โดยมีราคา $5/$25 per million tokens เท่าเดิม
- พรอมป์ต์ที่เกิน 200k โทเค็นจะคิดอัตราพรีเมียม ($10/$37.50 per million tokens)
บทสรุป
- Claude Opus 4.6 ถือเป็นก้าวกระโดดครั้งใหญ่ในด้าน การจัดการบริบทยาว, งานเอเจนต์อัตโนมัติ, ความสามารถการให้เหตุผลขั้นสูง
- เป็นโมเดลที่เสริมทั้ง ประสิทธิภาพ·ความปลอดภัย·ความสามารถในการควบคุมสำหรับนักพัฒนา พร้อมวางมาตรฐานใหม่ให้เครื่องมือ AI สำหรับการทำงานจริง
9 ความคิดเห็น
ใช้ Max อยู่ ยิ่งใช้โทเคนเยอะก็ยิ่งรู้สึกอิ่มเอม... ถ้าไม่ใช้ก็เสียดาย...
ดูเหมือนว่าจะยังไม่ปรับใช้รายละเอียดการลดราคาที่ลือกันบนอินเทอร์เน็ตนะครับ เศร้า
ดูเหมือนว่าตอนนี้ใน Reddit มีโพสต์หลั่งไหลออกมาว่าคนที่สมัครสมาชิกใช้ลิมิตหมดกันอย่างรวดเร็วราวกับความเร็วแสงเลยนะครับ
ผมก็มีงานที่ทำค้างอยู่ด้วย เลยยังใช้ 4.5 ต่อไปอยู่
ดูเหมือนว่าเขาจะแจกเครดิตใช้งานเพิ่มเติมมูลค่า 50 ดอลลาร์ในช่วงเวลาจำกัดด้วยนะครับ 555
ผมคาดว่าถ้าราคา API ลดลง วงเงินใช้งานรายสัปดาห์ก็น่าจะเพิ่มขึ้นตามธรรมชาติ เลยรู้สึกเสียดายนิดหน่อยครับ ฮือ แพลน 200 ดอลลาร์มีวงเงินรายสัปดาห์ที่ไม่ได้เหลือเฟือเท่าไร..
โห แพงไปหน่อยนะ.. Anthropic โปรยโทเคนมาหน่อยสิ..!!
โอ้ ในที่สุด~~~~
นึกว่าจะเป็น Sonnet 5 ซะอีก กลายเป็น Opus 4.6 นี่เอง 555
ความเห็นจาก Hacker News
เฟรมจักรยานดู เบี้ยวไปหน่อย แต่ตัวนกเพลิแกนเองยอดเยี่ยมมาก
ดูภาพได้ที่นี่
สังเกตได้ทันทีว่าขานกเพลิแกนทั้งสองข้างอยู่ด้านเดียวกัน แต่ตรวจจาก Wikipedia แล้วพบว่าในความเป็นจริงไม่ใช่แบบนั้น
ก็เลยสงสัยว่าได้ลองปรับพรอมป์ต์ซ้ำ ๆ เพื่อให้ได้ผลลัพธ์ที่สมจริงขึ้นหรือไม่
มักพลาดทั้งโครงสร้างเฟรมและสัดส่วนเชิงเรขาคณิต
ลิงก์
GPT‑5.3 Codex แสดงประสิทธิภาพแบบทิ้งห่างที่ 77.3% บน Terminal Bench
น่าทึ่งที่สถิตินี้ถูกทำลายภายในเวลาเพียง 35 นาที
หรือว่าในช่วงเปิดตัวจะรันด้วยประสิทธิภาพสูงสุด แล้วหลังจากนั้นค่อยลดลงเพื่อประหยัดต้นทุนหรือไม่
อยากลองใช้เองแล้วค่อยมาแลกเปลี่ยนความเห็น
หรือบางทีเราอาจมาถึงจุดอิ่มตัวของเบนช์มาร์กแล้วก็ได้
นี่คือสรุปบันทึกการออกรุ่นของ Claude Code
มีอัปเดตหลายอย่าง เช่น เพิ่ม Opus 4.6, ฟีเจอร์การทำงานร่วมกันแบบ multi-agent, การบันทึกความทรงจำอัตโนมัติ, การสรุปบทสนทนาบางส่วน, การปรับปรุง VSCode เป็นต้น
ดูจากเอกสารฟีเจอร์ memory แล้ว แนวคิดนี้คล้ายกับ Knowledge artifact ของ Google Antigravity
คิดว่ามีการปะปนกันของการถกเถียงอยู่สองเรื่อง
อย่างแรกคือ ความสามารถในการทำกำไรบนฐานราคาต่อโทเคน และอีกอย่างคือ เศรษฐศาสตร์ของวงจรชีวิตโมเดล
ต้นทุนการอนุมานอาจทำกำไรได้ แต่ทั้งโปรแกรมโมเดลโดยรวมก็อาจยังขาดทุนอยู่
คำถามจริงคือ “โมเดลต้องรักษาความสามารถในการแข่งขันได้นานแค่ไหนถึงจะคุ้มทางเศรษฐกิจ”
ต่อให้ไม่ดีที่สุด แต่ถ้าดีพอและต้นทุนการเปลี่ยนสูง ก็สามารถครองตลาดได้
ในช่วงแรก การยอมขาดทุนเพื่อยึดตลาดใน โดเมนเฉพาะทาง (เช่น การเขียนโค้ด) ก็อาจเป็นกลยุทธ์ที่สมเหตุสมผล
แต่แพลนที่ทำให้การใช้งานเพิ่มขึ้น 20 เท่าจะยั่งยืนแค่ไหนยังน่าสงสัย
ไม่แน่ใจว่า “ยุคฟื้นฟู vibe-coding” ในตอนนี้จะคงอยู่ได้ภายใต้โครงสร้างต้นทุนแบบนี้หรือไม่
การดูงบกำไรขาดทุนแบบรายปีจึงไม่เหมาะกับลักษณะของบริษัท AI
เพราะสิ่งนี้กำลังค้ำจุนกระแสการเขียนโค้ดแบบ agentic ในตอนนี้
น่าจะมีการอุดหนุนอยู่บ้าง แต่ระยะยาวอาจขึ้นราคาอีกราว 2 เท่า
การมี หน้าต่างคอนเท็กซ์ 1M ถือเป็นการอัปเกรดครั้งใหญ่มาก และรู้สึกพอใจมาก
ยังไม่ค่อยเข้าใจกลยุทธ์ของ Anthropic เท่าไร
การตลาดดูเหมือนมุ่งตลาดแมส แต่จุดแข็งจริงกลับเป็นด้าน การเขียนโค้ด
ในงานวิจัยทั่วไปหรือการค้นหาข้อมูล ChatGPT หรือ Gemini ลึกกว่าและเรียบเรียงดีกว่ามาก
แม้จะทำการตลาดด้วยคำอย่าง “รัฐธรรมนูญ” หรือ “สิทธิมนุษยชน” ที่ดูมีความเป็นมนุษย์ แต่กลับให้ความรู้สึก เชิงธุรกรรม มากที่สุด
ถึงอย่างนั้นก็ยังยอดเยี่ยมสำหรับงานเขียนโค้ด เลยยังยอมจ่ายใช้อยู่ต่อ
เพื่อนที่ไม่ใช่สายเทคนิคของฉันหลายคนย้ายจาก ChatGPT มาใช้ Claude แล้ว และยังไม่เห็นใครย้ายกลับ
เมื่อ 8 เดือนก่อนยังดูเหมาะใช้ผ่าน API เท่านั้น แต่ตอนนี้ดีขึ้นมาก
ฉันใช้ภาษาเช็ก และ Claude ชอบแต่งคำขึ้นมาเอง ส่วน Grok บางครั้งก็ตอบเป็นภาษารัสเซีย
เหมาะกับการเขียนโค้ด แต่ใช้คุยทั่วไปไม่ได้เลย
มันดีสำหรับ งานแบบ agentic หรือการใช้เครื่องมือ แต่ไม่ได้ใช้กับคำถามทั่วไปในชีวิตประจำวัน
ตอนแรกมองไม่เห็น Opus 4.6 ในการติดตั้ง แต่พอรันคำสั่งติดตั้งอีกครั้งก็ขึ้นมาแล้ว (v2.1.32)
คู่มือการติดตั้ง
สงสัยว่าจริง ๆ แล้ว ต้นทุนการดำเนินงาน ของ AI/LLM กำลังลดลงหรือไม่
แนวคิด “ทีมเอเจนต์” ฟังดูเท่มาก แต่พอรันหลายโมเดลพร้อมกันต้นทุนก็สูงจนรู้สึกว่าใช้งานจริงยาก
OpenAI ลดราคา o3 ลงเหลือ 1/5 ด้วยการปรับแต่งทางวิศวกรรม และผู้ให้บริการรายอื่นก็ได้ผลประหยัดคล้ายกัน
คำพูดสมัยก่อนที่ว่า “ขาดทุนทุกครั้งที่มีคำขอ” จึงไม่ตรงกับความเป็นจริง
ทั้งบริษัทอาจขาดทุนจากค่า R&D และค่าเทรน แต่ การใช้งาน API เองทำกำไร
แม้แต่โมเดลเปิดอย่าง DeepSeek ก็ยังทำกำไรได้ในราคาที่ต่ำกว่ามาก
ตัวอย่างเช่น Claude 4 (ประมาณ 400B พารามิเตอร์) แพงกว่า DeepSeek V3 (680B) มาก
Claude อินพุต $1/M, เอาต์พุต $5/M เทียบกับ DeepSeek อินพุต $0.4/M, เอาต์พุต $1.2/M
ความต่างนี้เกิดจากการที่ Anthropic ต้อง กู้คืนต้นทุนการฝึก
ราคา DeepSeek, ราคา Claude
ถ้าดูเฉพาะรายได้จากการอนุมานก็ดูเหมือนมีกำไร แต่ถ้ามองต้นทุนทั้งหมดก็อาจไม่ใช่
ใช้เป็นผู้ช่วยเขียนโค้ด แต่ต้อง ปรับเส้นทาง อยู่บ่อยครั้ง
ถึงอย่างนั้นก็ยังถูกกว่าการจ้างบุคลากรที่มีทักษะมากอย่างมาก
วลี “We build Claude with Claude” น่าสนใจไม่น้อย
แม้จะมีการล้างอัตโนมัติเมื่อไม่มีความเคลื่อนไหว 60 วัน แต่จำนวนก็ยังเพิ่มขึ้นเรื่อย ๆ
นอกจากจะสะท้อนอคติบางอย่างแล้ว วลีนั้นก็ไม่ได้มีความหมายมากนัก
การลองใช้เองคือวิธีที่ดีที่สุดในการยกระดับคุณภาพ
นี่คือเหตุผลที่ wrapper เพิ่มขึ้นอย่างรวดเร็วในตอนนี้ และดูเหมือนว่าสักวันหนึ่งน่าจะเกิดปัญหาด้านความปลอดภัย
กำลังแจก เครดิต $50 เพิ่มเพื่อให้ลองใช้ Opus 4.6
รับได้ทันทีที่หน้าการใช้งาน
น่าจะเป็นเพราะคาดว่าการใช้โทเคนจะเพิ่มขึ้น หรือไม่ก็เพื่อโปรโมตโมเดล