20 คะแนน โดย GN⁺ 2026-02-06 | 9 ความคิดเห็น | แชร์ทาง WhatsApp
  • โมเดล AI ล่าสุดของ Anthropic ที่มาพร้อม ความสามารถด้านการเขียนโค้ดและความต่อเนื่องในการทำงานระยะยาวที่ดีขึ้น พร้อมรองรับ context window ขนาด 1M โทเค็นในสถานะเบตา
  • ทำคะแนนได้ในระดับแนวหน้าของอุตสาหกรรมบนเบนช์มาร์กหลัก โดยเหนือกว่า GPT-5.2 ราว 144 คะแนน Elo
  • ประสิทธิภาพได้รับการเสริมในงานที่เน้นการใช้งานจริง เช่น การรีวิวโค้ด·ดีบัก, การจัดการโค้ดเบสขนาดใหญ่, การวิเคราะห์การเงิน·การเขียนเอกสาร
  • เพิ่มฟีเจอร์ควบคุมสำหรับนักพัฒนา เช่น Adaptive thinking, context compaction, การปรับ effort ทำให้การใช้งานเอเจนต์แบบรันระยะยาวทำได้ง่ายขึ้น
  • ในการประเมินด้านความปลอดภัยก็แสดงผลว่า มีข้อผิดพลาด·การใช้งานในทางที่ผิด·อัตราการปฏิเสธเกินจำเป็นต่ำ จึงถูกมองว่าเป็นโมเดลที่ได้ทั้งสมรรถนะสูงและความปลอดภัย

จุดปรับปรุงสำคัญของ Claude Opus 4.6

  • Opus 4.6 เป็นโมเดลที่มี ความสามารถในการวางแผน, ความต่อเนื่องของเอเจนต์, การควบคุมคุณภาพโค้ด ดีขึ้นเมื่อเทียบกับเวอร์ชันก่อนหน้า
    • ทำงานได้เสถียรมากขึ้นบนโค้ดเบสขนาดใหญ่ พร้อมเสริมความสามารถในการตรวจจับและแก้ไขข้อผิดพลาดด้วยตนเอง
    • รองรับการประมวลผลงานยาวและซับซ้อนด้วย context window ขนาด 1M โทเค็น (เบตา)
  • การนำไปใช้ในงานประจำวัน ก็ขยายกว้างขึ้น ครอบคลุมงานอย่างการวิเคราะห์การเงิน การวิจัย เอกสาร สเปรดชีต และการสร้างงานนำเสนอ
  • ในสภาพแวดล้อม Cowork สามารถทำงานหลายอย่างแบบอัตโนมัติได้ และจัดการงานที่ซับซ้อนแทนผู้ใช้

เบนช์มาร์กและการประเมินประสิทธิภาพ

  • ทำคะแนนสูงสุดใน Terminal-Bench 2.0 และนำหน้าทุก frontier model ใน Humanity’s Last Exam
  • ในการประเมิน GDPval-AA มีประสิทธิภาพสูงกว่า GPT-5.2 ประมาณ 144 คะแนน Elo และสูงกว่า Opus 4.5 อยู่ 190 คะแนน
  • ทำผลงานสูงสุดในแบบทดสอบ BrowseComp เช่นกัน สะท้อนความสามารถในการค้นหาข้อมูลออนไลน์ที่ดีขึ้น
  • ใน MRCR v2 (1M variant) ทำคะแนนได้ 76% ซึ่งเพิ่มขึ้นมากเมื่อเทียบกับ 18.5% ของ Sonnet 4.5
  • ความสามารถในการรักษาบริบทยาวและติดตามข้อมูลดีขึ้น ช่วยลดอาการ context rot

ประสบการณ์ใช้งานช่วงแรกและเสียงตอบรับจากพาร์ตเนอร์

  • ในการทดสอบวิศวกรรมภายใน พบว่า ความสามารถในการแก้ปัญหาซับซ้อนและการตัดสินใจ ดีขึ้น
    • เมื่อเจอโจทย์ยาก โมเดลจะคิดเชิงลึกซ้ำหลายรอบเพื่อให้ได้ผลลัพธ์ที่ดีขึ้น
    • สำหรับงานง่าย อาจช้าลงจากการคิดมากเกินไป จึงสามารถปรับได้ผ่านพารามิเตอร์ /effort
  • พาร์ตเนอร์กลุ่มแรกประเมินว่า Opus 4.6 โดดเด่นในด้าน ความสามารถในการทำงานอัตโนมัติ, การจัดการคำขอที่ซับซ้อน, การสนับสนุนการทำงานร่วมกันในทีม
    • มีความแม่นยำสูงในการสำรวจโค้ดเบสขนาดใหญ่ การรันงานย่อยแบบขนาน และการระบุบล็อกเกอร์
    • มีความแม่นยำสูงในการวิเคราะห์เนื้อหาด้านกฎหมาย การเงิน และเทคนิค (เช่น BigLaw Bench 90.2%)
    • ในการทดสอบจริงด้านการสืบสวนความปลอดภัยไซเบอร์ 38 จาก 40 กรณีให้ผลลัพธ์ดีกว่า Opus 4.5
    • มีรายงานกรณีที่ย้ายโค้ดหลายล้านบรรทัดเสร็จในเวลาครึ่งหนึ่ง

การเสริมความปลอดภัยและความมั่นคง

  • ใน การตรวจสอบพฤติกรรมอัตโนมัติ มีสัดส่วนพฤติกรรมไม่สอดคล้อง เช่น การหลอกลวง การประจบ และการร่วมมือเพื่อการใช้งานผิดวัตถุประสงค์ อยู่ในระดับต่ำ
  • เป็นโมเดล Claude ที่มี อัตราการปฏิเสธเกินจำเป็น (over-refusal) ต่ำที่สุด
  • มีการประเมินความปลอดภัยรูปแบบใหม่ เช่น สวัสดิภาพผู้ใช้ การปฏิเสธคำขอเสี่ยง และการตรวจจับพฤติกรรมอันตรายแบบแฝง
  • ใช้ งานวิจัยด้านการตีความได้ของโมเดล เพื่อวิเคราะห์สาเหตุการทำงานภายในและตรวจจับปัญหาที่อาจเกิดขึ้น
  • จากการที่ ความสามารถด้านไซเบอร์ซีเคียวริตี้ดีขึ้น จึงมีการเพิ่ม security probe ใหม่ 6 ประเภท เพื่อเสริมการตรวจจับการนำไปใช้ในทางที่ผิด
  • ในการใช้งานเชิงป้องกัน โมเดลช่วยตรวจหาและแพตช์ช่องโหว่ของโอเพนซอร์ส และมีแผนบล็อกการใช้งานผิดวัตถุประสงค์แบบเรียลไทม์ในอนาคต

อัปเดตผลิตภัณฑ์และ API

  • ใน Claude Developer Platform มีการเพิ่มฟีเจอร์ต่อไปนี้
    • Adaptive thinking: ให้โมเดลตัดสินใจเองโดยอัตโนมัติว่าควรใช้การคิดเชิงลึกตามสถานการณ์หรือไม่
    • ระดับ Effort: มีให้เลือก 4 ระดับคือ low, medium, high (ค่าเริ่มต้น), max
    • Context compaction (เบตา) : เมื่อบทสนทนายาวขึ้น จะสรุปและแทนที่บริบทเก่า
    • รองรับ 1M token context (เบตา) และ 128k output tokens
    • มีตัวเลือก US-only inference (คิดค่าบริการ 1.1 เท่า)
  • เพิ่มฟีเจอร์ agent teams ให้กับ Claude Code ทำให้หลายเอเจนต์สามารถร่วมงานกันแบบขนานได้
  • Claude in Excel ปรับปรุงความสามารถในการจัดโครงสร้างข้อมูลที่ไม่มีโครงสร้างและจัดการการเปลี่ยนแปลงหลายขั้นตอน
  • Claude in PowerPoint (research preview) สามารถรู้จำเทมเพลตสไลด์ ฟอนต์ และเลย์เอาต์ เพื่อคงความสอดคล้องของแบรนด์

การเข้าถึงและราคา

  • Opus 4.6 ใช้งานได้ทันทีผ่าน claude.ai, API และแพลตฟอร์มคลาวด์หลัก
  • ชื่อโมเดลบน API คือ claude-opus-4-6 โดยมีราคา $5/$25 per million tokens เท่าเดิม
  • พรอมป์ต์ที่เกิน 200k โทเค็นจะคิดอัตราพรีเมียม ($10/$37.50 per million tokens)

บทสรุป

  • Claude Opus 4.6 ถือเป็นก้าวกระโดดครั้งใหญ่ในด้าน การจัดการบริบทยาว, งานเอเจนต์อัตโนมัติ, ความสามารถการให้เหตุผลขั้นสูง
  • เป็นโมเดลที่เสริมทั้ง ประสิทธิภาพ·ความปลอดภัย·ความสามารถในการควบคุมสำหรับนักพัฒนา พร้อมวางมาตรฐานใหม่ให้เครื่องมือ AI สำหรับการทำงานจริง

9 ความคิดเห็น

 
heim2 2026-02-06

ใช้ Max อยู่ ยิ่งใช้โทเคนเยอะก็ยิ่งรู้สึกอิ่มเอม... ถ้าไม่ใช้ก็เสียดาย...

 
duse0001 2026-02-06

ดูเหมือนว่าจะยังไม่ปรับใช้รายละเอียดการลดราคาที่ลือกันบนอินเทอร์เน็ตนะครับ เศร้า

 
wegaia 2026-02-06

ดูเหมือนว่าตอนนี้ใน Reddit มีโพสต์หลั่งไหลออกมาว่าคนที่สมัครสมาชิกใช้ลิมิตหมดกันอย่างรวดเร็วราวกับความเร็วแสงเลยนะครับ
ผมก็มีงานที่ทำค้างอยู่ด้วย เลยยังใช้ 4.5 ต่อไปอยู่

 
duse0001 2026-02-06

ผมคาดว่าถ้าราคา API ลดลง วงเงินใช้งานรายสัปดาห์ก็น่าจะเพิ่มขึ้นตามธรรมชาติ เลยรู้สึกเสียดายนิดหน่อยครับ ฮือ แพลน 200 ดอลลาร์มีวงเงินรายสัปดาห์ที่ไม่ได้เหลือเฟือเท่าไร..

 
princox 2026-02-06

โห แพงไปหน่อยนะ.. Anthropic โปรยโทเคนมาหน่อยสิ..!!

 
hmmhmmhm 2026-02-06

โอ้ ในที่สุด~~~~

 
princox 2026-02-06

นึกว่าจะเป็น Sonnet 5 ซะอีก กลายเป็น Opus 4.6 นี่เอง 555

 
GN⁺ 2026-02-06
ความเห็นจาก Hacker News
  • เฟรมจักรยานดู เบี้ยวไปหน่อย แต่ตัวนกเพลิแกนเองยอดเยี่ยมมาก
    ดูภาพได้ที่นี่

    • สงสัยว่าอาจจะ overfitting กับภาพนกเพลิแกนหรือเปล่า
    • สงสัยว่าการเลือกใช้คำอย่าง “generate” มีผลต่อผลลัพธ์ของโมเดลไหม
      สังเกตได้ทันทีว่าขานกเพลิแกนทั้งสองข้างอยู่ด้านเดียวกัน แต่ตรวจจาก Wikipedia แล้วพบว่าในความเป็นจริงไม่ใช่แบบนั้น
      ก็เลยสงสัยว่าได้ลองปรับพรอมป์ต์ซ้ำ ๆ เพื่อให้ได้ผลลัพธ์ที่สมจริงขึ้นหรือไม่
    • จริง ๆ แล้วคนส่วนใหญ่ก็วาดจักรยานได้ไม่ถูกต้องนัก
      มักพลาดทั้งโครงสร้างเฟรมและสัดส่วนเชิงเรขาคณิต
    • มีเวอร์ชันแอนิเมชันด้วย
      ลิงก์
    • คิดว่าสุดท้ายแล้วผลลัพธ์ลักษณะนี้ก็คงถูกป้อนกลับเข้าไปในการฝึกโมเดลอีกครั้งจนสามารถ ผ่านเบนช์มาร์ก ได้ในที่สุด
  • GPT‑5.3 Codex แสดงประสิทธิภาพแบบทิ้งห่างที่ 77.3% บน Terminal Bench
    น่าทึ่งที่สถิตินี้ถูกทำลายภายในเวลาเพียง 35 นาที

    • ประสิทธิภาพของโมเดลเปลี่ยนไปตามช่วงเวลาและภาระของเซิร์ฟเวอร์ จึงสงสัยว่าจะเชื่อถือ ความน่าเชื่อถือของเบนช์มาร์ก แบบนี้ได้แค่ไหน
      หรือว่าในช่วงเปิดตัวจะรันด้วยประสิทธิภาพสูงสุด แล้วหลังจากนั้นค่อยลดลงเพื่อประหยัดต้นทุนหรือไม่
    • เพราะไม่มีรายงานเบนช์มาร์กแบบครอบคลุม เลยสงสัยว่ามันอาจกลายเป็น benchmaxxing ไปแล้วหรือเปล่า
      อยากลองใช้เองแล้วค่อยมาแลกเปลี่ยนความเห็น
    • คะแนนเพิ่มขึ้นถึง 10 จุดถือว่าเปลี่ยนแปลงมาก เลยสงสัยว่าในการใช้งานจริงจะรู้สึกถึง ความต่างเชิงคุณภาพ ไหม
      หรือบางทีเราอาจมาถึงจุดอิ่มตัวของเบนช์มาร์กแล้วก็ได้
    • Claude swe-bench อยู่ที่ 80.8 ส่วน Codex อยู่ที่ 56.8 ดังนั้นโดยรวมแล้ว Claude 4.6 ยังดูเหนือกว่า
  • นี่คือสรุปบันทึกการออกรุ่นของ Claude Code
    มีอัปเดตหลายอย่าง เช่น เพิ่ม Opus 4.6, ฟีเจอร์การทำงานร่วมกันแบบ multi-agent, การบันทึกความทรงจำอัตโนมัติ, การสรุปบทสนทนาบางส่วน, การปรับปรุง VSCode เป็นต้น

    • ส่วนที่ว่า “Claude จะบันทึกและเรียกใช้ความทรงจำโดยอัตโนมัติระหว่างทำงาน” น่าสนใจมาก
      ดูจากเอกสารฟีเจอร์ memory แล้ว แนวคิดนี้คล้ายกับ Knowledge artifact ของ Google Antigravity
  • คิดว่ามีการปะปนกันของการถกเถียงอยู่สองเรื่อง
    อย่างแรกคือ ความสามารถในการทำกำไรบนฐานราคาต่อโทเคน และอีกอย่างคือ เศรษฐศาสตร์ของวงจรชีวิตโมเดล
    ต้นทุนการอนุมานอาจทำกำไรได้ แต่ทั้งโปรแกรมโมเดลโดยรวมก็อาจยังขาดทุนอยู่
    คำถามจริงคือ “โมเดลต้องรักษาความสามารถในการแข่งขันได้นานแค่ไหนถึงจะคุ้มทางเศรษฐกิจ”

    • ควรจำไว้ว่า “worse is better
      ต่อให้ไม่ดีที่สุด แต่ถ้าดีพอและต้นทุนการเปลี่ยนสูง ก็สามารถครองตลาดได้
      ในช่วงแรก การยอมขาดทุนเพื่อยึดตลาดใน โดเมนเฉพาะทาง (เช่น การเขียนโค้ด) ก็อาจเป็นกลยุทธ์ที่สมเหตุสมผล
    • ถ้ามองตามแพ็กเกจราคา API ก็น่าจะมี กำไร อยู่บ้าง
      แต่แพลนที่ทำให้การใช้งานเพิ่มขึ้น 20 เท่าจะยั่งยืนแค่ไหนยังน่าสงสัย
      ไม่แน่ใจว่า “ยุคฟื้นฟู vibe-coding” ในตอนนี้จะคงอยู่ได้ภายใต้โครงสร้างต้นทุนแบบนี้หรือไม่
    • อย่างที่ Dario พูดไว้ในพอดแคสต์ โมเดลนั้น ทำกำไรได้เมื่อมองตลอดอายุการใช้งาน
      การดูงบกำไรขาดทุนแบบรายปีจึงไม่เหมาะกับลักษณะของบริษัท AI
    • ประเด็นที่น่าสนใจจริง ๆ คือ “แพลน $200/เดือน ได้รับการอุดหนุนอยู่หรือไม่”
      เพราะสิ่งนี้กำลังค้ำจุนกระแสการเขียนโค้ดแบบ agentic ในตอนนี้
      น่าจะมีการอุดหนุนอยู่บ้าง แต่ระยะยาวอาจขึ้นราคาอีกราว 2 เท่า
  • การมี หน้าต่างคอนเท็กซ์ 1M ถือเป็นการอัปเกรดครั้งใหญ่มาก และรู้สึกพอใจมาก

  • ยังไม่ค่อยเข้าใจกลยุทธ์ของ Anthropic เท่าไร
    การตลาดดูเหมือนมุ่งตลาดแมส แต่จุดแข็งจริงกลับเป็นด้าน การเขียนโค้ด
    ในงานวิจัยทั่วไปหรือการค้นหาข้อมูล ChatGPT หรือ Gemini ลึกกว่าและเรียบเรียงดีกว่ามาก
    แม้จะทำการตลาดด้วยคำอย่าง “รัฐธรรมนูญ” หรือ “สิทธิมนุษยชน” ที่ดูมีความเป็นมนุษย์ แต่กลับให้ความรู้สึก เชิงธุรกรรม มากที่สุด
    ถึงอย่างนั้นก็ยังยอดเยี่ยมสำหรับงานเขียนโค้ด เลยยังยอมจ่ายใช้อยู่ต่อ

    • นอกเหนือจากโค้ดแล้ว Claude ก็ทำงานได้ค่อนข้างดีในบทสนทนาทั่วไป
      เพื่อนที่ไม่ใช่สายเทคนิคของฉันหลายคนย้ายจาก ChatGPT มาใช้ Claude แล้ว และยังไม่เห็นใครย้ายกลับ
      เมื่อ 8 เดือนก่อนยังดูเหมาะใช้ผ่าน API เท่านั้น แต่ตอนนี้ดีขึ้นมาก
    • ในภาษาที่ไม่ใช่อังกฤษ คุณภาพตกลงอย่างหนัก
      ฉันใช้ภาษาเช็ก และ Claude ชอบแต่งคำขึ้นมาเอง ส่วน Grok บางครั้งก็ตอบเป็นภาษารัสเซีย
      เหมาะกับการเขียนโค้ด แต่ใช้คุยทั่วไปไม่ได้เลย
    • โมเดลนี้ไม่ค่อยเหมาะกับการใช้งานในชีวิตประจำวัน
      มันดีสำหรับ งานแบบ agentic หรือการใช้เครื่องมือ แต่ไม่ได้ใช้กับคำถามทั่วไปในชีวิตประจำวัน
  • ตอนแรกมองไม่เห็น Opus 4.6 ในการติดตั้ง แต่พอรันคำสั่งติดตั้งอีกครั้งก็ขึ้นมาแล้ว (v2.1.32)
    คู่มือการติดตั้ง

    • ตอนนี้ใช้งานอยู่แล้ว
  • สงสัยว่าจริง ๆ แล้ว ต้นทุนการดำเนินงาน ของ AI/LLM กำลังลดลงหรือไม่
    แนวคิด “ทีมเอเจนต์” ฟังดูเท่มาก แต่พอรันหลายโมเดลพร้อมกันต้นทุนก็สูงจนรู้สึกว่าใช้งานจริงยาก

    • ต้นทุนต่อโทเคนลดลงอย่างต่อเนื่อง
      OpenAI ลดราคา o3 ลงเหลือ 1/5 ด้วยการปรับแต่งทางวิศวกรรม และผู้ให้บริการรายอื่นก็ได้ผลประหยัดคล้ายกัน
      คำพูดสมัยก่อนที่ว่า “ขาดทุนทุกครั้งที่มีคำขอ” จึงไม่ตรงกับความเป็นจริง
    • ข่าวลือนั้นถูกพูดซ้ำอยู่เรื่อย ๆ แต่ในความเป็นจริงคิดว่า ราคาต่อการอนุมาน ไม่น่าจะต่ำกว่าต้นทุน
      ทั้งบริษัทอาจขาดทุนจากค่า R&D และค่าเทรน แต่ การใช้งาน API เองทำกำไร
      แม้แต่โมเดลเปิดอย่าง DeepSeek ก็ยังทำกำไรได้ในราคาที่ต่ำกว่ามาก
    • ถ้าดูจากข้อมูลจริงก็คงไม่ใช่ว่าขาดทุน
      ตัวอย่างเช่น Claude 4 (ประมาณ 400B พารามิเตอร์) แพงกว่า DeepSeek V3 (680B) มาก
      Claude อินพุต $1/M, เอาต์พุต $5/M เทียบกับ DeepSeek อินพุต $0.4/M, เอาต์พุต $1.2/M
      ความต่างนี้เกิดจากการที่ Anthropic ต้อง กู้คืนต้นทุนการฝึก
      ราคา DeepSeek, ราคา Claude
    • การคำนวณกำไรขาดทุนจริงทำได้ยาก เพราะมีความไม่แน่นอนสูงทั้งเรื่อง ค่าเสื่อมราคา และอายุการใช้งานของโมเดล
      ถ้าดูเฉพาะรายได้จากการอนุมานก็ดูเหมือนมีกำไร แต่ถ้ามองต้นทุนทั้งหมดก็อาจไม่ใช่
    • การใช้งาน AI agent จริงยังไม่สูงนัก
      ใช้เป็นผู้ช่วยเขียนโค้ด แต่ต้อง ปรับเส้นทาง อยู่บ่อยครั้ง
      ถึงอย่างนั้นก็ยังถูกกว่าการจ้างบุคลากรที่มีทักษะมากอย่างมาก
  • วลี “We build Claude with Claude” น่าสนใจไม่น้อย

    • Claude Code มี open issue มากกว่า 6000 รายการ
      แม้จะมีการล้างอัตโนมัติเมื่อไม่มีความเคลื่อนไหว 60 วัน แต่จำนวนก็ยังเพิ่มขึ้นเรื่อย ๆ
    • คิดว่าเป็นผลิตภัณฑ์ที่ประสบความสำเร็จมาก
      นอกจากจะสะท้อนอคติบางอย่างแล้ว วลีนั้นก็ไม่ได้มีความหมายมากนัก
    • มองว่าเป็นตัวอย่างที่แสดงให้เห็นความสำคัญของ dogfooding
      การลองใช้เองคือวิธีที่ดีที่สุดในการยกระดับคุณภาพ
    • sandboxing ของ CC แทบจะเป็นเรื่องขำ
      นี่คือเหตุผลที่ wrapper เพิ่มขึ้นอย่างรวดเร็วในตอนนี้ และดูเหมือนว่าสักวันหนึ่งน่าจะเกิดปัญหาด้านความปลอดภัย
    • แบบนี้ก็อธิบายได้ว่าทำไม Claude Code ถึงมีโครงสร้างที่ แอป React ถูกแสดงผลผ่านเทอร์มินัล
  • กำลังแจก เครดิต $50 เพิ่มเพื่อให้ลองใช้ Opus 4.6
    รับได้ทันทีที่หน้าการใช้งาน
    น่าจะเป็นเพราะคาดว่าการใช้โทเคนจะเพิ่มขึ้น หรือไม่ก็เพื่อโปรโมตโมเดล