Anthropic เปิดตัว Claude Opus 4.8
(anthropic.com)Anthropic ได้เปิดตัว Claude Opus 4.8 ซึ่งเป็นเวอร์ชันอัปเกรดของ Claude Opus โมเดลระดับท็อปของบริษัท โดยต่อยอดจากเวอร์ชันก่อนหน้า 4.7 ด้วยการปรับปรุงประสิทธิภาพด้านเบนช์มาร์กและเสริมความสามารถในการทำงานร่วมกัน พร้อมคงราคาเดิมไว้
การปรับปรุงและคุณสมบัติหลัก
- ประสิทธิภาพดีขึ้น: ทำผลงานได้โดดเด่นกว่าโมเดลรุ่นก่อนและโมเดลคู่แข่งอย่าง GPT-5.5 ในงานด้านการเขียนโค้ด ทักษะแบบเอเจนต์ การให้เหตุผล และงานความรู้เชิงปฏิบัติ
- เสริมความซื่อตรง (Honesty): ปรับปรุงปัญหาที่ AI อาจอ้างสิ่งที่ไม่มีหลักฐานหรือสรุปผลเร็วเกินไป โดย Opus 4.8 จะระบุส่วนที่ยังไม่แน่ชัดได้ด้วยตนเอง และมีโอกาสพลาดข้อบกพร่องในโค้ดน้อยลงประมาณ 4 เท่าเมื่อเทียบกับโมเดลก่อนหน้า
- ความสามารถแบบเอเจนต์ที่เชื่อถือได้: ผลการทดสอบเบื้องต้นพบว่า เมื่อต้องทำงานหลายขั้นตอนที่ซับซ้อน โมเดลมีวิจารณญาณที่เฉียบคมขึ้น สามารถจับความผิดพลาดของตัวเอง และโต้แย้งเมื่อแผนงานไม่สมเหตุสมผล แสดงให้เห็นถึงความสามารถในการทำงานร่วมกันที่ดีขึ้น
- ความคุ้มค่าด้านต้นทุน: ความเร็วของ 'Fast Mode' เพิ่มขึ้น 2.5 เท่า และมีต้นทุนถูกลง 3 เท่าเมื่อเทียบกับโมเดลก่อนหน้า
ฟีเจอร์ใหม่ที่เปิดตัวพร้อมกัน
- Dynamic Workflows: ฟีเจอร์พรีวิวงานวิจัยของ Claude Code ที่สามารถรันซับเอเจนต์แบบขนานได้หลายร้อยตัว เพื่อทำงานซับซ้อนอย่างการย้ายโค้ดเบสขนาดใหญ่
- Effort Control: ผู้ใช้สามารถเลือกระดับความพยายามที่ต้องการให้ Claude ใช้กับงานได้ โดยการตั้งค่าสูงจะคิดลึกขึ้นเพื่อให้คำตอบคุณภาพสูง ขณะที่การตั้งค่าต่ำจะตอบได้รวดเร็วกว่า
- อัปเดต Messages API: สามารถใส่ system entry ไว้ภายในอาร์เรย์ของข้อความได้ ทำให้อัปเดตคำสั่งระหว่างงานได้โดยไม่ทำให้ prompt cache ใช้งานไม่ได้
แผนในอนาคต
Anthropic กำลังพัฒนาโมเดลที่ให้ประสิทธิภาพระดับ Opus ด้วยต้นทุนที่ต่ำลง และกำลังเตรียมโมเดลคลาสใหม่ที่มีความฉลาดสูงกว่า Opus (Claude Mythos) ผ่าน Project Glasswing ขณะนี้อยู่ระหว่างการทดสอบความปลอดภัยกับบางองค์กร และมีกำหนดเปิดให้ลูกค้าทุกรายใช้งานภายในไม่กี่สัปดาห์
ราคาและการใช้งาน
- โหมดปกติ: อินพุต $5 / 1M โทเค็น, เอาต์พุต $25 / 1M โทเค็น (เท่ากับ Opus 4.7)
- Fast Mode: อินพุต $10 / 1M โทเค็น, เอาต์พุต $50 / 1M โทเค็น
- ชื่อโมเดล:
claude-opus-4-8
11 ความคิดเห็น
มันชอบทำให้ต้องเสียเวลาลองผิดลองถูกอยู่เรื่อย ๆ เลยรู้สึกว่า GPT ที่เสถียรกว่าน่าจะดีกว่า
ก่อนหน้านี้ใช้ Claude แพ็กเกจ 200 ดอลลาร์ แล้วเปลี่ยนมาเป็น GPT 100 ดอลลาร์ + Claude 100 ดอลลาร์
ตั้งแต่เดือนหน้าคงจะใช้ Claude แค่ 20 ดอลลาร์พอ เพราะยังไงก็เอาไว้ใช้รีวิวเป็นหลัก ไม่ได้จำเป็นต้องใช้เยอะแล้ว แล้วถ้าไม่พอก็ยังจ่าย AGY แบบเสียเงินอยู่ด้วย ก็ใช้ตัวนั้นได้ครับ ฮ่า
แล้วทำไม Sonnet กับ Haiku ถึงถูกปล่อยทิ้งล่ะ? คิดแต่จะแข่งกับ GPT มากเกินไปหรือเปล่า
ดูเหมือนว่าเวอร์ชัน fast mode จะทำงานได้เร็วขึ้นกว่าเดิม 2.5 เท่า ขณะที่ต้นทุนก็ถูกลง 3 เท่าครับ
ผมลดแพ็กเกจ Claude เหลือ Pro แล้วกำลังใช้ GPT อยู่ แต่มีงานที่ทำค้างไว้เลยลองให้มันรีวิวดู ปรากฏว่าโควตาใช้งาน Pro หมดเกลี้ยงใน 10 นาทีแล้วก็หยุดเลย
สุดยอดจริง ๆ Claude!
ช่วงเช้าสำหรับผมมีการใช้สกิลสำหรับสรุปการประชุมหรือถอดสรุปจากไฟล์บันทึกเสียงอยู่ พอลองเปลี่ยน
effortเป็นultracodeใน 4.8 เพื่อใช้งานดู ก็พบว่าดีกว่าที่คิดไว้พอสมควรนะครับ โดยส่วนตัวรู้สึกว่ามันมีแนวทางคล้ายกับ codex พอสมควร เรื่องประสิทธิภาพต่อโทเคนตอนนี้ก็ยังสู้ codex ไม่ได้อยู่ดี แต่ context window ให้มาแบบเหลือเฟือ และเพราะ workflow ทำให้หน้าจอซับเอเจนต์ก็เปลี่ยนไปนิดหน่อย ซึ่งจุดนี้ผมก็ชอบเหมือนกันครับ.4.7 นี่แย่จนรู้สึกได้เลยว่าใช้งานลำบากมาก แต่หวังว่า 4.8 จะดีขึ้นจริง ๆ นะครับ
ก็แอบคิดเหมือนกันว่า นี่คงไม่ใช่การรีบเข็นออกมาเพราะคนจำนวนมากกำลังย้ายไป ChatGPT/Codex กันหรอกนะ..
พอใช้
/effortแล้วเอฟเฟกต์ที่ออกมานี่น่าสนใจดีครับ 555ฉันลองไปหาในต้นฉบับของคอมเมนต์ Hacker News ที่แปลด้านล่างว่าคำว่า "ผลไม้ที่ห้อยต่ำ" หมายถึงอะไร พบว่าต้นฉบับคือ
low hanging juice to squeeze out of smaller models <<
ดังนั้นจึงน่าจะตีความได้ประมาณว่า ยังมี "ผลไม้ที่อยู่ต่ำให้เก็บ" อีกมาก = ยังมีศักยภาพที่สามารถดึงออกมาได้ไม่ยากจากโมเดลขนาดเล็กอีกมาก
พอเถอะ กินไปเยอะแล้วนะ~
ความคิดเห็นจาก Hacker News
นี่น่าจะเป็นครั้งแรกที่โมเดลแนวหน้าของ Anthropic ได้รับการอัปเวอร์ชันย่อยเป็นครั้งที่สาม
ที่นี่เวอร์ชันเพิ่มทีละ 0.5 ออกมาแบบไม่ต่อเนื่องและมีการกระโดดด้านประสิทธิภาพมากพอที่จะมองเป็นเมเจอร์ได้
ตัวอย่างเช่น Sonnet 3.5 และ Opus 4.5
ตอนนี้สาย Opus 4.5 มีรุ่นต่ออย่าง 4.6, 4.7, 4.8 แล้ว และขอบเขตการปรับปรุงของแต่ละรุ่นก็ดูค่อนข้างค่อยเป็นค่อยไปแม้ตามคำกล่าวอ้างเอง
จากที่ลองใช้ 4.6/4.7 ด้วยตัวเอง เทียบกับความทรงจำที่มีต่อ 4.5 ก็ยังจับไม่ชัดว่าความสามารถไหนดีขึ้น และความต่างที่รู้สึกได้ก็ค่อนข้างเลือนรางจนตัดสินยาก
อาจเป็นไปได้ว่ารสนิยมของฉันอิ่มตัวแล้ว หรือโมเดลฉลาดกว่าฉันจนจากนี้ไปคงไม่รู้สึกถึงความก้าวหน้าอีก หรืออีกด้านหนึ่ง ถ้าเอา workflow ปัจจุบันบน 4.7 ไปรันกับ 4.5 ก็อาจสังเกตได้ทันทีว่าเป็นการปรับปรุงแบบค่อยเป็นค่อยไปจริง
ดูเหมือนฝั่งแล็บเองก็อยู่ในสถานการณ์ลำบาก ถ้ามีของที่แรงกว่าก็อยากให้ปล่อยออกมาให้ใช้ แต่ถ้าแนวโน้มนี้ดำเนินต่อไป ต่อให้มีการพัฒนาจริง ผู้ใช้ปลายทางก็อาจมองเห็นน้อยลงเรื่อยๆ และรู้สึกเหมือนโดนเปลี่ยนของบ่อยโดยไม่ได้อะไรตอบแทน
ยังมี ของที่เก็บง่าย เหลืออยู่อีกหลายลำดับขั้นในโมเดลขนาดเล็ก
ภายใน 2-3 ปี โมเดลขนาด 60~90B มีโอกาสสูงมากที่จะเหนือกว่าระดับท็อปปัจจุบันในงานเขียนโค้ด แม้สถาปัตยกรรมจะยังไม่ลงตัวและคงไม่ง่ายนัก
ในทางกลับกัน การจะดีขึ้นอย่างมีนัยสำคัญพอจะคุ้มกับการเทรนโมเดล 1.2T ยังไม่แน่นอนกว่ามาก
ฝั่ง reasoning ถ้าดูการเปิดเผย GRAM ล่าสุด ก็อาจยังมีช่องให้ปรับปรุง reasoning บนโมเดลเล็กได้อีกหลายหลัก
Google, OpenAI, Anthropic สามารถเทรน โมเดลที่อิง GRAM ขนาด 30B ได้ในเวลาไม่กี่วัน และโมเดลนี้ก็อาจทำ local reasoning ได้ดีกว่าโมเดลระดับท็อปในปัจจุบันที่มีพารามิเตอร์เกิน 1T ด้วยซ้ำ ถ้าขยายต่อเป็น MoE ราว 600B ในเวลาไม่กี่วัน ก็อาจมีความรู้ทั่วไปกว้างขวางทัดเทียมโมเดลชั้นนำได้
โมเดลขนาด 1T+ พารามิเตอร์ไม่สามารถเทรนได้เร็วขนาดนั้น จะดีขึ้นมากแค่ไหนจริงจาก GRAM ยังเป็นตัวแปรใหญ่ แต่ดูไม่น่าใช่ว่าจะเล็กน้อยหรือไร้ความหมาย
โมเดลใหญ่ตอนนี้แทบจะพูดได้เกือบทุกอย่างอยู่แล้ว แต่ตราบใดที่ยังเป็น LLM ก็คงตอบถูกทุกอย่างไม่ได้
ดูเหมือนจะรีดอะไรเพิ่มจาก Gemini ได้ไม่มากแล้วในแง่การบอกส่วนสูงของ Ke$ha หรือบอกได้เป๊ะว่า Brittney Spears เข้าคุกครั้งล่าสุดเมื่อไหร่
ส่วนตัวรู้สึกว่าหลัง 4.5 ออกมา การเพิ่มขึ้นของ productivity มาจาก การปรับปรุง harness และ context window ที่เพิ่มจาก 200k เป็น 1M มากกว่าตัวโมเดลเอง ทั้งใน cc, cursor cli, codex, opencode เป็นต้น
ความฉลาดแบบ “ล้วนๆ” ของโมเดลจริงๆ หรือความสามารถในการตัดสินใจได้ดี ดูเหมือนจะนิ่งมาตั้งแต่ 4.5 แล้ว 4.6 อาจดีขึ้นเล็กน้อย แต่ก็แยกยากจากผลของ in-context learning บนหน้าต่าง 1M ส่วน 4.7 สำหรับฉันและเพื่อนร่วมงานกลับรู้สึกเหมือนความรอบคอบถดถอย และตัดสินใจได้แย่ลงและขี้เกียจลงอย่างต่อเนื่อง
ฉันคิดว่าหลังฟีเจอร์ควบคุมใหม่ที่เปิดให้ผู้ใช้เห็น น่าจะมีการควบคุมย่อยภายในที่ละเอียดกว่านั้นมากสำหรับการปรับเมตาตามประเภทผู้ใช้
หมายถึงการควบคุมระดับ effort ที่ละเอียดขึ้น, “dynamic workflow”, การควบคุมความเร็วแบบ “fast mode” อะไรทำนองนั้น ภายนอกอาจแพ็กเป็นฟีเจอร์ผู้ใช้ แต่ก็ดูเหมือนเป็นคันโยกฝั่ง backend สำหรับบาลานซ์ต้นทุน มาร์จิน ARR การเติบโตของผู้ใช้ และ retention เพื่อให้ตัวเลขสำคัญในรายงานรายไตรมาสหลัง IPO ออกมาสวย
จนถึงตอนนี้ Opus 4.8 ก็ดูเหมือนจะไปในทางนั้น ใช้ช้ามากจนแทบใช้งานไม่ได้ แต่อาจเป็นปัญหาการทยอยเปิดใช้งานในวันเปิดตัว ตอนนี้กำลังทดสอบ Opus 4.8 แบบเต็มอยู่
ข้อมูลอยู่ที่ https://gertlabs.com/rankings
ท่าทีแบบ “ผู้ใช้จะรู้สึกว่า Opus 4.8 เป็นการปรับปรุงที่ค่อยเป็นค่อยไปแต่สัมผัสได้เมื่อเทียบกับเวอร์ชันก่อน” ฟังดูสดใหม่ดี
ฉันยังเช็กด้วยว่าในเว็บ UI สามารถปิด adaptive thinking ได้ ซึ่งก็ดี เพราะก่อนหน้านี้มีปัญหาบ่อยที่ thinking ทำงานไม่ถูกและทำให้ผลลัพธ์ของโมเดลแย่มาก
ในที่สุดก็ปิดได้เสียที ถ้าจริงๆ ปิดได้ตลอดอยู่แล้วก็คงน่าเขินนิดหน่อย
ฉันดูเรื่อง web research เป็นหลัก และ Opus 4.7 ถอยหลังจาก Opus 4.6 บน BrowseComp และในการใช้งานจริงก็เป็นแบบนั้น
ส่วน Opus 4.8 ดีขึ้นจากทั้ง 4.7 และ 4.6 มาก และในแชตบอต web search ก็เป็นหนึ่งใน use case หลัก
ประมาณว่าผู้ให้บริการโมเดลรายอื่นอัปเดตใหญ่ทุก x เดือน แต่เราอัปเดตย่อยทุก x/2 เดือน
สำหรับฉัน สิ่งที่สำคัญกว่าคือ CC จะตอบสนองต่อแฟล็ก “เฉพาะ” 4.6 ที่เกี่ยวกับ thinking อย่างไร แต่ตอนนี้ดูเหมือนมันยังไม่ได้เขียนทับค่าตั้งของฉัน
หวังว่าการเปลี่ยนแปลงครั้งนี้จะทำให้ขึ้นมาใกล้เคียงกัน แต่พอลองใช้จริงก็ยังไม่ใช่
ถ้าเป็น ChatGPT มันจะค้นหาเพื่อตรวจสอบข้อเท็จจริงแล้วตอบได้เลยสำหรับคำถามข้อเท็จจริงง่ายๆ แต่ Claude กับโมเดลใหม่แม้เปิด thinking high ก็ยังตอบด้วย “คำถามที่ดี!” แล้วแต่งคำตอบขึ้นมาล้วนๆ มันไม่เหมือน GPT ที่รู้เองว่าควรค้นหา และต้องสั่งชัดๆ ให้ค้นหาแม้แต่ข้อเท็จจริงพื้นฐาน
ส่วน Claude Mythos Preview ที่บอกว่า “มีแผนจะเปิดตัวโมเดลประเภทใหม่ที่มีสติปัญญาสูงกว่า Opus” ดูน่าสนใจกว่าการออก 4.8 เสียอีก
บอกว่ามีองค์กรจำนวนน้อยกำลังใช้งานด้านความปลอดภัยไซเบอร์อยู่ในโครงการ Project Glasswing และโมเดลระดับนี้จำเป็นต้องมีมาตรการป้องกันด้านไซเบอร์ที่เข้มงวดยิ่งกว่าก่อนเปิดให้สาธารณะใช้งาน
การที่ IPO กำลังใกล้เข้ามาก็น่าจะสะท้อนอยู่ในคำพูดต่อสาธารณะอย่างชัดเจนด้วย เพื่อความเป็นธรรม นั่นก็เป็นหน้าที่ของเขาเหมือนกัน
สาเหตุที่โมเดลล่าช้าอาจไม่ใช่ “กำลังทำให้ปลอดภัย” แต่เป็น “ยังไม่รู้จะโฮสต์สิ่งนี้อย่างไรในสเกลใหญ่หรือให้คุ้มต้นทุน” ก็ได้
GPT 5.5 ดูเหมือนจะแกะหาช่องโหว่ได้เก่งพอ ๆ กับ Mythos อยู่แล้ว
สุดท้าย คนที่ไม่ใช่ผู้เชี่ยวชาญมักประเมิน ความสำคัญของฮาร์เนส ในประสิทธิภาพของโมเดลต่ำเกินไป OpenHands มีมาก่อน Claude Code นานกว่ามาก แต่ Claude Code เปลี่ยนเกมได้เพราะวิธีเสริมที่ชาญฉลาด Mythos เองก็น่าจะเป็นมากกว่าแค่ตัวโมเดลอย่างเดียว
ถ้าเทียบกับโมเดลคู่แข่งจากจีนตอนนี้ Sonnet และ Haiku ดูเสียเปรียบพอสมควรในด้านประสิทธิภาพต่อราคา
ถ้าอย่างนั้นก็น่าสงสัยว่ากำลังทำแบบเดียวกันกับ Mythos ด้วย และ Mythos ที่เราจะได้ใช้อาจเป็นเวอร์ชันที่ถูกลดทอนด้านนี้ลง
หรือให้แม่นกว่านั้นคือ Mythos อาจถูกแยกเป็นสองเวอร์ชัน และตัวที่น่ากลัวกว่าน่าจะยังต้องผ่านขั้นตอนเอกสารจำนวนมากต่อไป
/mythos-security-auditหวังว่าคนทั่วไปจะไม่ถูกกันออกจากสิทธิ์เข้าถึงแบบนั้น
ลองสร้าง นกกระทุงขี่จักรยาน ทั้งในระดับ thinking low และ high แล้ว
https://gist.github.com/simonw/68560eddb0b268a8417f80ceb7304dc6?permalink_comment_id=6172953#gistcomment-6172953
ผลของ high ดีกว่าอย่างชัดเจน ต่างจาก low ตรงที่รูปทรงเฟรมจักรยานถูกต้อง
นี่คือผลของ Opus 4.7 สำหรับใช้เปรียบเทียบ: https://gist.github.com/simonw/afcb19addf3f38eb1996e1ebe749c118?permalink_comment_id=6104087#gistcomment-6104087
แฮนด์ไม่ได้หมุนล้อหน้า แต่ไปหมุนเฟรมแทน แฮนด์ควรติดตั้งให้อยู่ในแนวเดียวกับล้อหน้า
หวังว่า 4.9 จะได้อ่านคอมเมนต์ของฉัน
https://www.gianlucagimini.it/portfolio-item/velocipedia/
มนุษย์เองก็วาดจักรยานได้แย่พอตัวเหมือนกัน
https://tools.simonwillison.net/markdown-svg-renderer#url=https%3A%2F%2Fgist.github.com%2Fsimonw%2Ffea4f7546626d627862dc241a4e3a86a
เบนช์มาร์กด้านโค้ดดิ้งที่ชอบใช้กับโมเดลระดับแนวหน้าคือให้มันสร้าง เกมวางแผนการรบแบบเรียลไทม์ ง่ายๆ ในไฟล์เดียว (js/html/css)
Claude Code + Opus 4.8 ในโหมด ultracode ทำได้ดีจริงๆ และเป็นผลลัพธ์ที่ดีที่สุดเท่าที่เคยเห็นจนถึงตอนนี้
https://bsky.app/profile/senko.net/post/3mmwnrkwboc2v
พรอมป์ต์คือ “สร้างเกม RTS ที่เรียบง่ายแต่เล่นได้จริง แบบ WarCraft, StarCraft, Command & Conquer ยุคเก่า ผู้เล่นต้องสร้างอาคาร สร้างยูนิต เก็บทรัพยากร และเปิดแผนที่ทั้งหมด ไม่ต้องมี AI หรือมัลติเพลเยอร์ ใช้กราฟิกที่เรียบง่ายแต่ดูดี ไม่มีเสียง ทำทั้งหมดด้วย HTML/CSS/JS และให้อยู่ในไฟล์เดียว สามารถใช้ไลบรารีหรือเฟรมเวิร์ก js/css ของบุคคลที่สามผ่าน CDN ได้”
น่าสนใจที่สไตล์ภาพก็ค่อนข้างคล้ายกับสิ่งที่มันเคยทำให้ฉัน
สงสัยว่ามีใครไล่ดูการปล่อยรุ่นแบบนี้แล้วลอง คัดเลือกเฉพาะตัวเลขที่เข้าข้างตัวเอง จากตัวชี้วัดสุ่มๆ ที่บริษัทอื่นน่าจะเลือกมาเพื่อทำให้โมเดลตัวเองดูดีบ้างไหม
รู้สึกเหมือนมีเบนช์มาร์กอยู่ราว 8 ล้านตัว ทุกครั้งที่มีการออกรุ่นใหม่ แต่ละโมเดลก็หยิบมาแบบสุ่ม 5-10 ตัว แล้วทำให้ดูเหมือนชนะทุกตัวนอกจากหนึ่งตัว คล้ายกับสุ่มเลือกเฉพาะเบนช์มาร์กที่น่าจะผ่านการ benchmax มาแล้ว แต่ทำเหมือนไม่ได้จงใจคัดมา
แม้จะไม่รู้วิธีวิทยาที่แน่ชัด แต่เวลาใช้โมเดล Claude/GPT ทำงานเขียนโปรแกรมทั่วไป ผลที่เขารายงานก็ค่อนข้างตรงกับความรู้สึกเชิงคุณภาพของฉัน
จากตัวชี้วัดที่รายงานใน 4.7 นั้น 4.8 ตัด BrowseComp, CharXiv Reasoning, CyberGym, GPQA Diamond, MCP Atlas, MMMLU, SWE-bench Verified ออกไป โดย 4 ตัวท้ายแทบจะถูกพูดถึงใน Opus รุ่นก่อนหน้าเกือบทุกครั้ง
“ฉลาดขึ้น 5%” นี่จริงๆ หมายความว่าอะไร? ประสบการณ์การใช้งานของฉันอาจต่างออกไป สู้ลองใช้เองดีกว่า
ฉันไม่คิดว่า Anthropic จะตั้งเป้าปรับปรุงเบนช์มาร์กบางตัวโดยเฉพาะในระดับภายใน มันน่าจะเป็นแค่วิธีใช้แสดงภาพความก้าวหน้า และภายในจริงๆ คงมีตัวชี้วัดที่ซับซ้อนกว่านี้มาก
จากผลเบื้องต้นของ ArtificialAnalysis.ai ตอนนี้ดูเหมือนว่า GPT 5.5 ยังให้ความคุ้มค่าต่อราคาดีกว่า
OpenAI ใช้โทเค็นเอาต์พุตน้อยกว่าประมาณ 50% ในการแก้งาน
https://artificialanalysis.ai/?intelligence=coding-index&intelligence-efficiency=intelligence-efficiency-vs-output-tokens&models=gpt-5-5%2Cgpt-5-5-pro%2Cgemini-3-1-pro-preview%2Cclaude-opus-4-8%2Cclaude-opus-4-7%2Cnvidia-nemotron-3-super-120b-a12b
คิดว่าคงต้องให้ Claude แพงขึ้นกว่านี้มากฉันถึงจะย้าย
ดีใจที่ได้เห็นการประเมินเรื่อง ความชำนาญเชิงสร้างสรรค์ ในหน้า 102 ของ system card
ในงานของเรา เราให้ AI ระดับแนวหน้าหลายตัวลองออกแบบ API ที่จำเป็น และเปรียบเทียบ Opus 4.7 กับ GPT-5.5 เป็นต้น ปรากฏว่า Opus 4.7 เสนอการออกแบบ API ที่ทั้งสร้างสรรค์และชาญฉลาดที่สุด จนทำให้ประทับใจมาก โดยเฉพาะเมื่อ GPT-5.5 นำหน้าในหลายเบนช์มาร์กด้านโค้ดดิ้ง
มันทำให้รู้สึกว่ายังไม่มีเบนช์มาร์กร่วมที่ใช้วัด “ความคิดสร้างสรรค์” กับ “ความแปลกใหม่” และเบนช์มาร์กแบบนั้นในบางแง่ก็อาจขัดกับ IFBench ทั่วไป
ถึงอย่างนั้น ในการออกแบบระบบมันเป็นความสามารถที่สำคัญมาก ดีใจที่ Anthropic ให้ความสำคัญกับเรื่องนี้ และหวังว่าจะมีเบนช์มาร์กสาธารณะที่ใช้ให้โมเดลอื่นเปรียบเทียบกันได้ออกมาด้วย
https://cdn.sanity.io/files/4zrzovbb/website/c886650a2e96fc0925c805a1a7ca77314ccbf4a6.pdf
5.5 เก่งเรื่องโค้ดมากกว่าสองตัวนั้นเยอะ แต่ก็แพงกว่า เลยให้ 4.7 ทำแผน/สถาปัตยกรรม, 4.6 ทำโค้ด แล้วให้ 5.5 วิจารณ์และแก้ไข
GPT เหมือนหุ่นยนต์ที่รับคำสั่งแล้วทำตามตรงๆ ส่วน Opus บางครั้งให้ไอเดียดีๆ จริง และยังโต้แย้งเมื่อไอเดียไม่ดีได้ด้วย ให้ความรู้สึกเกือบเหมือนมนุษย์
ตอนนี้เลยแยกใช้ Opus สำหรับงานวางแผน/สถาปัตยกรรม/กลยุทธ์ และใช้ GPT สำหรับงานโค้ดล้วนๆ
สำหรับการเขียนโค้ดแบบเอเจนต์ การที่ GPT รับโทเค็นได้เผื่อมากกว่าก็ช่วยด้วย
น่าเสียดายที่ดูเหมือนว่า Claude Code จะพังยับไปเลยเพราะ backend release รอบนี้หรือไม่ก็เพราะ CC เวอร์ชันใหม่
ข้อผิดพลาดที่บอกว่า “แก้ไข thinking blocks ไม่ได้” กำลังทำให้เซสชันที่รันยาว ๆ ใช้งานต่อไม่ได้: https://github.com/anthropics/claude-code/issues?q=is%3Aissue%20state%3Aopen%20blocks%20modified
stableของ 4.7 ด้วยฉันแก้ได้โดยให้ Claude สร้างสคริปต์กู้คืนเพื่อปลดล็อกเซสชันที่พัง แต่ผลอาจต่างกันไปตามสภาพแวดล้อม
https://gist.github.com/robertfw/993dbe8643c4fbdf12005dff2eca1f90
/rewindแล้วใช้งานต่อได้ในการทดสอบของฉัน Opus 4.8 แย่ลงเล็กน้อย และแพงกว่า Opus 4.7 เกือบ 2 เท่า
ฉันแปลกใจที่มันพลาดในการทดสอบดึงข้อมูล จาก 3 ครั้งมันตอบถูก 2 ครั้ง แต่อีกครั้งกลับคืนค่าบางตัวเป็น null แบบสุ่ม
ที่มันพลาดมากขึ้นในงานประเภท Trivia/ความรู้เฉพาะโดเมนก็พอเข้าใจได้ระดับหนึ่ง ดูเหมือนโมเดลจะถูกฝึกไปทาง use case แบบ agentic มากขึ้นเรื่อย ๆ มากกว่าความฉลาดทั่วไป
https://aibenchy.com/compare/anthropic-claude-opus-4-7-medium/anthropic-claude-opus-4-8-medium/
ฉันกำลังตรวจ test harness ซ้ำอีกครั้ง แต่เพราะนี่เป็นโมเดลแรกที่มีอาการแบบนี้ ฉันเลยคิดว่าโอกาสจะเป็นปัญหาฝั่งฉันคงต่ำ
แก้ไข: ดูเหมือนว่า harness จะปกติดี และในงานโค้ดล้วนประสิทธิภาพก็เท่าเดิม: https://i.snipboard.io/5xbpzY.jpg
“Claude Opus 4.8 is available everywhere today. Pricing for regular usage is unchanged from Opus 4.7: $5 per million input tokens and $25 per million output tokens. Pricing for fast mode is $10 per million input tokens and $50 per million output tokens.”
เลยสงสัยว่าต้นทุนที่เพิ่มเป็น 2 เท่ามาจากตรงไหน