- Anthropic เปิดตัวโมเดลรุ่นที่ 5 สำหรับงานระยะยาวแบบอะซิงโครนัสที่กินเวลาหลายวัน Fable 5 คือเวอร์ชันที่ทำให้โมเดลระดับ Mythos ปลอดภัยพอสำหรับผู้ใช้ทั่วไป ส่วน Mythos 5 คือเวอร์ชันของโมเดลเดียวกันที่ผ่อนคลายกลไกความปลอดภัยบางส่วน
- ระดับ Mythos เป็นชั้นโมเดลใหม่ที่อยู่เหนือระดับ Opus โดยโมเดลแรก Mythos Preview ถูกเปิดตัวในเดือนเมษายนในชื่อ Project Glasswing และวันนี้ Fable 5 กับ Mythos 5 ก็ตามมา
- ที่มาของชื่อ: Fable มาจากภาษาละติน fabula ("สิ่งที่ถูกเล่า") และเป็นคำร่วมรากกับภาษากรีก mythos สิ่งที่แยกสองโมเดลนี้ออกจากกันคือตัวกลไกความปลอดภัยเอง จึงตั้งชื่อแตกต่างกัน
- ราคาอยู่ที่ 10 ดอลลาร์ต่อโทเค็นอินพุต 1 ล้านโทเค็น และ 50 ดอลลาร์ต่อโทเค็นเอาต์พุต 1 ล้านโทเค็น ซึ่งต่ำกว่าครึ่งหนึ่งของ Mythos Preview ชื่อโมเดลใน API คือ
claude-fable-5
ประสิทธิภาพ
- ข้อความหลักคือยิ่งงานยาวและซับซ้อนมากเท่าไร ความได้เปรียบก็ยิ่งมากขึ้น
- การเขียนโค้ด: ในการทดสอบล่วงหน้าของ Stripe สามารถทำการย้ายทั้งโค้ดเบส Ruby ขนาด 50 ล้านบรรทัดเสร็จภายใน 1 วัน (ถ้าทีมทำด้วยมือจะใช้เวลามากกว่า 2 เดือน) เขียนเทสต์ด้วยตัวเองและใช้วิชันตรวจเทียบผลลัพธ์กับดีไซน์ต้นฉบับ ในการประเมิน FrontierCode ของ Cognition ทำคะแนนสูงสุดในบรรดาโมเดลฟรอนเทียร์แม้ในระดับ medium effort
- เอเจนต์: ทำงานอัตโนมัติได้หลายวันในสภาพแวดล้อมอย่าง Claude Code โดยสามารถวางแผน มอบหมายให้ซับเอเจนต์ และตรวจสอบตัวเองได้
- วิชัน: สร้างซอร์สโค้ดเว็บแอปกลับคืนจากเพียงภาพหน้าจอ และเล่น Pokémon FireRed จบได้ด้วยฮาร์เนสขั้นต่ำสำหรับวิชันโดยเฉพาะ (โมเดลก่อนหน้าต้องใช้ฮาร์เนสช่วยที่ซับซ้อน)
- หน่วยความจำ: ใน Slay the Spire เมื่อให้หน่วยความจำถาวรแบบอิงไฟล์ ประสิทธิภาพดีขึ้น 3 เท่าเมื่อเทียบกับ Opus 4.8 และความถี่ในการไปถึงฉากสุดท้ายก็เพิ่มขึ้น 3 เท่า
- งานความรู้: ได้คะแนนสูงสุดในบรรดาโมเดลทั้งหมดบนเบนช์มาร์กการเงินของ Hebbia และผ่านการประเมินวิเคราะห์การเทรดของ IMC เกือบทุกด้าน
เบนช์มาร์ก
- อ้างความได้เปรียบครอบคลุมการเขียนโค้ด งานความรู้ วิชัน และการใช้งานคอมพิวเตอร์ โดยทำได้ SWE-Bench Pro 80.3% (Opus 4.8 อยู่ที่ 69.2%, GPT 5.5 อยู่ที่ 58.6%), GDPval-AA 1932, OSWorld 85.0% เป็นต้น
- ข้อควรระวัง: ตัวเลขบางส่วนในตารางเป็นค่าที่สูงกว่าระหว่าง Mythos 5 และ Fable 5 และรายการที่มีเครื่องหมายดอกจัน (ชีววิทยา, ความปลอดภัยไซเบอร์ ฯลฯ) มีหมายเหตุว่าประสิทธิภาพใกล้เคียง Opus 4.8 เนื่องจาก fallback ของกลไกความปลอดภัย
ผลงานทางวิทยาศาสตร์ของ Mythos 5
- เร่งกระบวนการออกแบบโปรตีนได้ประมาณ 10 เท่า และได้ตัวเลือกที่มีศักยภาพใน 9 จาก 14 เป้าหมาย สามารถเลือกตำแหน่งการจับ ทำงานกับเครื่องมือ และฟื้นตัวจากความล้มเหลวได้โดยไม่ต้องมีมนุษย์ช่วย
- ในการเปรียบเทียบแบบ blind นักวิทยาศาสตร์เลือกสมมติฐานชีววิทยาระดับโมเลกุลมากกว่าประมาณ 80% โดยมีสมมติฐานหนึ่ง (กลไกใหม่ของโปรตีนใน E. coli) ที่ได้รับการยืนยันจากแล็บที่ศึกษาโจทย์เดียวกันอย่างอิสระ
- ด้วยการทำงานอัตโนมัตินานกว่า 1 สัปดาห์ ได้รวบรวมข้อมูลเซลล์หลายล้านเซลล์จากสัตว์ 138 ชนิด แล้วออกแบบและฝึกโมเดล ML แบบกำหนดเอง ซึ่งทำได้ดีกว่าโมเดลล่าสุดที่ตีพิมพ์ใน Science ทั้งที่มีขนาดเล็กกว่า 100 เท่า
- การประเมิน alignment: รายงานว่าระดับพฤติกรรมที่ไม่สอดคล้องของ Mythos 5 อยู่ในระดับต่ำและใกล้เคียง Opus 4.8
กลไกความปลอดภัย
- มี 3 หมวดที่ตัวจำแนกจะบล็อก: ความปลอดภัยไซเบอร์, ชีววิทยาและเคมี, และการ distillation (ความพยายามสกัดความสามารถเพื่อฝึกโมเดลคู่แข่งของรัฐอำนาจนิยม) คำขอประเภทดังกล่าวจะถูกส่งต่อไปยัง Opus 4.8 โดยอัตโนมัติและแจ้งผู้ใช้ (หากมีการส่งต่อ จะไม่คิดค่าบริการในอัตรา Fable)
- มากกว่า 95% ของเซสชันไม่มี fallback โดยกลไกความปลอดภัยทำงานในเซสชันเฉลี่ยน้อยกว่า 5% แต่ก็ยอมรับว่ามีการตั้งค่าค่อนข้างเข้มงวดจนบางครั้งคำขอที่ไม่เป็นอันตรายก็ถูกบล็อก และมีแผนจะลด false positive ลง
- ในการทำ bug bounty ภายนอกมากกว่า 1,000 ชั่วโมง ยังไม่พบ universal jailbreak แต่ UK AISI มีความคืบหน้าใกล้เคียงในช่วงทดสอบเบื้องต้นระยะสั้น ขณะที่การทดสอบของพาร์ตเนอร์ภายนอกรายหนึ่ง คำขออันตรายแบบ single-turn ที่เกี่ยวกับการโจมตีไซเบอร์ไม่ถูกตอบสนองเลย 0 ครั้ง แม้ใช้เทคนิค jailbreak สาธารณะ 30 แบบ
- ในการประเมินการออกแบบ AAV (พาหนะนำส่งยีนบำบัด) ระดับ Mythos ทำได้เหนือกว่าโมเดลภาษาโปรตีนเฉพาะทางด้วยการให้เหตุผลทางชีววิทยาเพียงอย่างเดียว และถูกยกเป็นหลักฐานของความเสี่ยงแบบใช้ได้สองทาง
- การใช้งานจำเป็นต้องเก็บข้อมูลไว้ 30 วันเพื่อจุดประสงค์ด้านการเฝ้าระวังความปลอดภัย มีผลกับทราฟฟิกทั้งหมดทั้ง 1st party และ 3rd party โดยจะไม่ถูกใช้เพื่อฝึกโมเดลหรือจุดประสงค์ที่ไม่ใช่ด้านความปลอดภัย มีการบันทึกการเข้าถึงของมนุษย์และลบหลังครบ 30 วัน
ราคาและการเปิดให้ใช้งาน
- ให้บริการบนแผน Enterprise (คิดตามการใช้งาน) และบน Claude Platform, AWS, GCP, Microsoft Foundry
- แผนสมัครสมาชิกจะทยอยเปิดใช้งาน: ตั้งแต่ 9 มิถุนายนถึง 22 มิถุนายน รวมฟรีใน Pro, Max, Team และ Enterprise แบบคิดตามจำนวนที่นั่ง ตั้งแต่ 23 มิถุนายนจะถูกถอดออกและต้องใช้ usage credit โดยมีแผนจะนำกลับมาเป็นค่าพื้นฐานเมื่อมีความจุเพียงพอ ส่วน API และ Enterprise แบบคิดตามการใช้งานเปิดใช้ได้เต็มรูปแบบตั้งแต่วันนี้
- Mythos 5 เปิดให้อัปเกรดได้ตั้งแต่วันนี้สำหรับผู้ใช้ Mythos Preview เดิม (เช่น พาร์ตเนอร์ Glasswing) โดยในกรณีส่วนใหญ่ให้ความสามารถใกล้เคียงหรือแรงกว่านิดหน่อยจาก Preview แต่มีต้นทุนถูกกว่ามาก พร้อมอ้างว่ามีความสามารถด้านความปลอดภัยไซเบอร์แข็งแกร่งที่สุดในโลก
- จะมีการเปิด trusted access program ด้านชีววิทยาแยกต่างหากด้วย (ใน Fable 5 จะปลดเฉพาะกลไกความปลอดภัยด้านชีววิทยาและเคมี แต่ยังคงกลไกด้านไซเบอร์ไว้)
14 ความคิดเห็น
แม้จะขอให้ช่วยเสริมความปลอดภัยให้โปรเจกต์ของตัวเอง แต่ระบบเซฟการ์ดเจ้าปัญหานั่นก็ยังบล็อกอยู่ดี
ความรู้สึกคือการปล่อยออกมาในสภาพนี้มันดูเหมือนแค่การโชว์เทคโนโลยีเพื่อเข้าตลาดหุ้นเท่านั้น
เป็นแพ็กเกจ 5x แต่พอลองให้มันรีวิวโค้ดครั้งหนึ่ง มันก็วนอยู่ 40 นาทีจนใช้โควตา 5 ชั่วโมงหมดเลย;;;; ไม่ใช่ว่าการรีวิวโค้ดทุกครั้งจะกินเยอะขนาดนี้ แล้วมันก็หาจุดที่ควรปรับปรุงได้ดีอยู่หรอก แต่ก็แบบว่า...
ถ้าจะประชดนิด ๆ ก็คือ ถ้า opus หรือ gpt "ขยัน" ทำงานระดับนี้เหมือนกัน ผลลัพธ์ก็คงต่างกันไม่มาก ในบางงาน การทำงานแบบนี้ต่อเนื่อง 40 นาทีอาจเป็นข้อดีมหาศาลก็ได้
เห็นว่าตั้งแต่วันนี้ใช้ใน Cursor ได้ เลยพยายามหาดูว่าผลการประเมินเป็นอย่างไร แต่ตอนนี้ข้อมูลยังมีไม่มากนัก
ได้ยินว่าคะแนนประเมินประสิทธิภาพสูงกว่า Opus ก็คงต้องลองใช้ดูเองถึงจะรู้
กังวลว่าจะกินโทเคนแค่ไหน
เมื่อวานลองใช้ดูแล้ว เห็นได้ชัดว่าใช้โทเค็นหมดเร็วมากจริง ๆ คุณภาพโค้ดก็ดูเหมือนจะดีขึ้น และจัดการได้ทั้งรีวิวกับประเด็นด้านความปลอดภัยในครั้งเดียวเลย
อยากลองใช้อยู่เหมือนกัน แต่ถึงจะจ่ายเงินให้ Claude
หลังวันที่ 23 มิถุนายนไปแล้วก็จะไม่ถูกนับรวมในโควต้าการใช้งานของการสมัครสมาชิก เลยไม่ค่อยอยากแตะเท่าไร...
ยอมรับครับ..
ระหว่างคุยกันเกี่ยวกับลิงก์นั้น พอมีการพูดถึง กรณีที่ Fable ปฏิเสธการแก้โจทย์ข้อสอบ CSAT วิชาชีววิทยา 1 มันก็สลับไปเป็น Opus 4.8 แบบบังคับ โดยบอกว่าหัวข้อสนทนามีความเสี่ยงครับ ตอนนี้กำลังคิดอย่างจริงจังว่าจะลดแพ็กเกจลง
กำลังลังเลอยู่ว่าจะย้ายจาก claude ไป codex ดีไหม
ยังไม่แน่ใจครับ เอาเป็นว่าต้องลองใช้ดูก่อน
อันดับแรก มีเขียนไว้ว่าโทเค็นจะหมดเร็วกว่า
opus2 เท่าเลยลองใช้ดู แต่ส่วนตัวยังไม่ค่อยรู้สึกเท่าไรนัก... แล้วก็ขึ้นอยู่กับงาน บางครั้งอาจสลับไปใช้โมเดลopusอัตโนมัติด้วยเหตุผลต่อไปนี้ (https://support.claude.com/en/articles/15363606)รู้สึกได้ชัดเลยว่าการใช้โทเคนสิ้นเปลืองมาก ส่วนการสลับโมเดลดูเหมือนจะสลับอัตโนมัติเมื่อพิจารณาว่าเป็นประเด็นด้านความปลอดภัยที่อ่อนไหว แต่ตอนนี้เหมือนเกณฑ์นั้นยังสูงเกินไปหน่อยครับ
ลองใช้ codex อยู่ แล้วแวะลองนิดหน่อย ก่อนจะกดจ่าย 200 ดอลลาร์ไปทันที
มีข้อดีอะไรบ้าง?
จากที่รู้สึกเอง คุณภาพงานก็พอเหมาะและใช้โทเคนน้อยด้วยครับ Claude ราคา 200 ดอลลาร์ยังไม่พอ แต่ Codex ราคา 200 ดอลลาร์กลับเหลือ
ผมเคยบอกให้ codex แก้บั๊ก แต่สุดท้ายมันก็ยังไม่ถูกแก้อยู่ดี ทั้งที่ผมอธิบายปัญหาไว้ค่อนข้างดีแล้ว
พอลองสั่งด้วยพรอมป์ต์เดียวกัน โดยใส่ทั้งปัญหาเดิมนั้น + การปรับปรุงขั้นสูงเพิ่มเข้าไปด้วย มันก็จัดการให้ได้อย่างเรียบร้อย