เปิดตัว Claude Fable 5/Mythos 5 โมเดลฟรอนเทียร์รุ่นที่ 5 ของ Anthropic

boradi · 2026-06-10T02:46:30+09:00

Anthropic เปิดตัวโมเดลรุ่นที่ 5 สำหรับงานระยะยาวแบบอะซิงโครนัสที่กินเวลาหลายวัน Fable 5 คือเวอร์ชันที่ทำให้โมเดลระดับ Mythos ปลอดภัยพอสำหรับผู้ใช้ทั่วไป ส่วน Mythos 5 คือเวอร์ชันของโมเดลเดียวกันที่ผ่อนคลายกลไกความปลอดภัยบางส่วน ระดับ Mythos เป็นชั้นโมเดลใหม่ที่อยู่เหนือระดับ Opus โดยโมเดลแรก Mythos Preview ถูกเปิดตัวในเดือนเมษายนในชื่อ Project Glasswing และวันนี้ Fable 5 กับ Mythos 5 ก็ตามมา ที่มาของชื่อ: Fable มาจากภาษาละติน fabula ("สิ่งที่ถูกเล่า") และเป็นคำร่วมรากกับภาษากรีก mythos สิ่งที่แยกสองโมเดลนี้ออกจากกันคือตัวกลไกความปลอดภัยเอง จึงตั้งชื่อแตกต่างกัน ราคาอยู่ที่ 10 ดอลลาร์ต่อโทเค็นอินพุต 1 ล้านโทเค็น และ 50 ดอลลาร์ต่อโทเค็นเอาต์พุต 1 ล้านโทเค็น ซึ่งต่ำกว่าครึ่งหนึ่งของ Mythos Preview ชื่อโมเดลใน API คือ claude-fable-5 ประสิทธิภาพ ข้อความหลักคือยิ่งงานยาวและซับซ้อนมากเท่าไร ความได้เปรียบก็ยิ่งมากขึ้น การเขียนโค้ด: ในการทดสอบล่วงหน้าของ Stripe สามารถทำการย้ายทั้งโค้ดเบส Ruby ขนาด 50 ล้านบรรทัดเสร็จภายใน 1 วัน (ถ้าทีมทำด้วยมือจะใช้เวลามากกว่า 2 เดือน) เขียนเทสต์ด้วยตัวเองและใช้วิชันตรวจเทียบผลลัพธ์กับดีไซน์ต้นฉบับ ในการประเมิน FrontierCode ของ Cognition ทำคะแนนสูงสุดในบรรดาโมเดลฟรอนเทียร์แม้ในระดับ medium effort เอเจนต์: ทำงานอัตโนมัติได้หลายวันในสภาพแวดล้อมอย่าง Claude Code โดยสามารถวางแผน มอบหมายให้ซับเอเจนต์ และตรวจสอบตัวเองได้ วิชัน: สร้างซอร์สโค้ดเว็บแอปกลับคืนจากเพียงภาพหน้าจอ และเล่น Pokémon FireRed จบได้ด้วยฮาร์เนสขั้นต่ำสำหรับวิชันโดยเฉพาะ (โมเดลก่อนหน้าต้องใช้ฮาร์เนสช่วยที่ซับซ้อน) หน่วยความจำ: ใน Slay the Spire เมื่อให้หน่วยความจำถาวรแบบอิงไฟล์ ประสิทธิภาพดีขึ้น 3 เท่าเมื่อเทียบกับ Opus 4.8 และความถี่ในการไปถึงฉากสุดท้ายก็เพิ่มขึ้น 3 เท่า งานความรู้: ได้คะแนนสูงสุดในบรรดาโมเดลทั้งหมดบนเบนช์มาร์กการเงินของ Hebbia และผ่านการประเมินวิเคราะห์การเทรดของ IMC เกือบทุกด้าน เบนช์มาร์ก อ้างความได้เปรียบครอบคลุมการเขียนโค้ด งานความรู้ วิชัน และการใช้งานคอมพิวเตอร์ โดยทำได้ SWE-Bench Pro 80.3% (Opus 4.8 อยู่ที่ 69.2%, GPT 5.5 อยู่ที่ 58.6%), GDPval-AA 1932, OSWorld 85.0% เป็นต้น ข้อควรระวัง: ตัวเลขบางส่วนในตารางเป็นค่าที่สูงกว่าระหว่าง Mythos 5 และ Fable 5 และรายการที่มีเครื่องหมายดอกจัน (ชีววิทยา, ความปลอดภัยไซเบอร์ ฯลฯ) มีหมายเหตุว่าประสิทธิภาพใกล้เคียง Opus 4.8 เนื่องจาก fallback ของกลไกความปลอดภัย ผลงานทางวิทยาศาสตร์ของ Mythos 5 เร่งกระบวนการออกแบบโปรตีนได้ประมาณ 10 เท่า และได้ตัวเลือกที่มีศักยภาพใน 9 จาก 14 เป้าหมาย สามารถเลือกตำแหน่งการจับ ทำงานกับเครื่องมือ และฟื้นตัวจากความล้มเหลวได้โดยไม่ต้องมีมนุษย์ช่วย ในการเปรียบเทียบแบบ blind นักวิทยาศาสตร์เลือกสมมติฐานชีววิทยาระดับโมเลกุลมากกว่าประมาณ 80% โดยมีสมมติฐานหนึ่ง (กลไกใหม่ของโปรตีนใน E. coli) ที่ได้รับการยืนยันจากแล็บที่ศึกษาโจทย์เดียวกันอย่างอิสระ ด้วยการทำงานอัตโนมัตินานกว่า 1 สัปดาห์ ได้รวบรวมข้อมูลเซลล์หลายล้านเซลล์จากสัตว์ 138 ชนิด แล้วออกแบบและฝึกโมเดล ML แบบกำหนดเอง ซึ่งทำได้ดีกว่าโมเดลล่าสุดที่ตีพิมพ์ใน Science ทั้งที่มีขนาดเล็กกว่า 100 เท่า การประเมิน alignment: รายงานว่าระดับพฤติกรรมที่ไม่สอดคล้องของ Mythos 5 อยู่ในระดับต่ำและใกล้เคียง Opus 4.8 กลไกความปลอดภัย มี 3 หมวดที่ตัวจำแนกจะบล็อก: ความปลอดภัยไซเบอร์, ชีววิทยาและเคมี, และการ distillation (ความพยายามสกัดความสามารถเพื่อฝึกโมเดลคู่แข่งของรัฐอำนาจนิยม) คำขอประเภทดังกล่าวจะถูกส่งต่อไปยัง Opus 4.8 โดยอัตโนมัติและแจ้งผู้ใช้ (หากมีการส่งต่อ จะไม่คิดค่าบริการในอัตรา Fable) มากกว่า 95% ของเซสชันไม่มี fallback โดยกลไกความปลอดภัยทำงานในเซสชันเฉลี่ยน้อยกว่า 5% แต่ก็ยอมรับว่ามีการตั้งค่าค่อนข้างเข้มงวดจนบางครั้งคำขอที่ไม่เป็นอันตรายก็ถูกบล็อก และมีแผนจะลด false positive ลง ในการทำ bug bounty ภายนอกมากกว่า 1,000 ชั่วโมง ยังไม่พบ universal jailbreak แต่ UK AISI มีความคืบหน้าใกล้เคียงในช่วงทดสอบเบื้องต้นระยะสั้น ขณะที่การทดสอบของพาร์ตเนอร์ภายนอกรายหนึ่ง คำขออันตรายแบบ single-turn ที่เกี่ยวกับการโจมตีไซเบอร์ไม่ถูกตอบสนองเลย 0 ครั้ง แม้ใช้เทคนิค jailbreak สาธารณะ 30 แบบ ในการประเมินการออกแบบ AAV (พาหนะนำส่งยีนบำบัด) ระดับ Mythos ทำได้เหนือกว่าโมเดลภาษาโปรตีนเฉพาะทางด้วยการให้เหตุผลทางชีววิทยาเพียงอย่างเดียว และถูกยกเป็นหลักฐานของความเสี่ยงแบบใช้ได้สองทาง การใช้งานจำเป็นต้องเก็บข้อมูลไว้ 30 วันเพื่อจุดประสงค์ด้านการเฝ้าระวังความปลอดภัย มีผลกับทราฟฟิกทั้งหมดทั้ง 1st party และ 3rd party โดยจะไม่ถูกใช้เพื่อฝึกโมเดลหรือจุดประสงค์ที่ไม่ใช่ด้านความปลอดภัย มีการบันทึกการเข้าถึงของมนุษย์และลบหลังครบ 30 วัน ราคาและการเปิดให้ใช้งาน ให้บริการบนแผน Enterprise (คิดตามการใช้งาน) และบน Claude Platform, AWS, GCP, Microsoft Foundry แผนสมัครสมาชิกจะทยอยเปิดใช้งาน: ตั้งแต่ 9 มิถุนายนถึง 22 มิถุนายน รวมฟรีใน Pro, Max, Team และ Enterprise แบบคิดตามจำนวนที่นั่ง ตั้งแต่ 23 มิถุนายนจะถูกถอดออกและต้องใช้ usage credit โดยมีแผนจะนำกลับมาเป็นค่าพื้นฐานเมื่อมีความจุเพียงพอ ส่วน API และ Enterprise แบบคิดตามการใช้งานเปิดใช้ได้เต็มรูปแบบตั้งแต่วันนี้ Mythos 5 เปิดให้อัปเกรดได้ตั้งแต่วันนี้สำหรับผู้ใช้ Mythos Preview เดิม (เช่น พาร์ตเนอร์ Glasswing) โดยในกรณีส่วนใหญ่ให้ความสามารถใกล้เคียงหรือแรงกว่านิดหน่อยจาก Preview แต่มีต้นทุนถูกกว่ามาก พร้อมอ้างว่ามีความสามารถด้านความปลอดภัยไซเบอร์แข็งแกร่งที่สุดในโลก จะมีการเปิด trusted access program ด้านชีววิทยาแยกต่างหากด้วย (ใน Fable 5 จะปลดเฉพาะกลไกความปลอดภัยด้านชีววิทยาและเคมี แต่ยังคงกลไกด้านไซเบอร์ไว้)

(anthropic.com)

20 คะแนน โดย boradi 2026-06-10 | 14 ความคิดเห็น | แชร์ทาง WhatsApp

Anthropic เปิดตัวโมเดลรุ่นที่ 5 สำหรับงานระยะยาวแบบอะซิงโครนัสที่กินเวลาหลายวัน Fable 5 คือเวอร์ชันที่ทำให้โมเดลระดับ Mythos ปลอดภัยพอสำหรับผู้ใช้ทั่วไป ส่วน Mythos 5 คือเวอร์ชันของโมเดลเดียวกันที่ผ่อนคลายกลไกความปลอดภัยบางส่วน
ระดับ Mythos เป็นชั้นโมเดลใหม่ที่อยู่เหนือระดับ Opus โดยโมเดลแรก Mythos Preview ถูกเปิดตัวในเดือนเมษายนในชื่อ Project Glasswing และวันนี้ Fable 5 กับ Mythos 5 ก็ตามมา
ที่มาของชื่อ: Fable มาจากภาษาละติน fabula ("สิ่งที่ถูกเล่า") และเป็นคำร่วมรากกับภาษากรีก mythos สิ่งที่แยกสองโมเดลนี้ออกจากกันคือตัวกลไกความปลอดภัยเอง จึงตั้งชื่อแตกต่างกัน
ราคาอยู่ที่ 10 ดอลลาร์ต่อโทเค็นอินพุต 1 ล้านโทเค็น และ 50 ดอลลาร์ต่อโทเค็นเอาต์พุต 1 ล้านโทเค็น ซึ่งต่ำกว่าครึ่งหนึ่งของ Mythos Preview ชื่อโมเดลใน API คือ claude-fable-5

ประสิทธิภาพ

ข้อความหลักคือยิ่งงานยาวและซับซ้อนมากเท่าไร ความได้เปรียบก็ยิ่งมากขึ้น
การเขียนโค้ด: ในการทดสอบล่วงหน้าของ Stripe สามารถทำการย้ายทั้งโค้ดเบส Ruby ขนาด 50 ล้านบรรทัดเสร็จภายใน 1 วัน (ถ้าทีมทำด้วยมือจะใช้เวลามากกว่า 2 เดือน) เขียนเทสต์ด้วยตัวเองและใช้วิชันตรวจเทียบผลลัพธ์กับดีไซน์ต้นฉบับ ในการประเมิน FrontierCode ของ Cognition ทำคะแนนสูงสุดในบรรดาโมเดลฟรอนเทียร์แม้ในระดับ medium effort
เอเจนต์: ทำงานอัตโนมัติได้หลายวันในสภาพแวดล้อมอย่าง Claude Code โดยสามารถวางแผน มอบหมายให้ซับเอเจนต์ และตรวจสอบตัวเองได้
วิชัน: สร้างซอร์สโค้ดเว็บแอปกลับคืนจากเพียงภาพหน้าจอ และเล่น Pokémon FireRed จบได้ด้วยฮาร์เนสขั้นต่ำสำหรับวิชันโดยเฉพาะ (โมเดลก่อนหน้าต้องใช้ฮาร์เนสช่วยที่ซับซ้อน)
หน่วยความจำ: ใน Slay the Spire เมื่อให้หน่วยความจำถาวรแบบอิงไฟล์ ประสิทธิภาพดีขึ้น 3 เท่าเมื่อเทียบกับ Opus 4.8 และความถี่ในการไปถึงฉากสุดท้ายก็เพิ่มขึ้น 3 เท่า
งานความรู้: ได้คะแนนสูงสุดในบรรดาโมเดลทั้งหมดบนเบนช์มาร์กการเงินของ Hebbia และผ่านการประเมินวิเคราะห์การเทรดของ IMC เกือบทุกด้าน

เบนช์มาร์ก

อ้างความได้เปรียบครอบคลุมการเขียนโค้ด งานความรู้ วิชัน และการใช้งานคอมพิวเตอร์ โดยทำได้ SWE-Bench Pro 80.3% (Opus 4.8 อยู่ที่ 69.2%, GPT 5.5 อยู่ที่ 58.6%), GDPval-AA 1932, OSWorld 85.0% เป็นต้น
ข้อควรระวัง: ตัวเลขบางส่วนในตารางเป็นค่าที่สูงกว่าระหว่าง Mythos 5 และ Fable 5 และรายการที่มีเครื่องหมายดอกจัน (ชีววิทยา, ความปลอดภัยไซเบอร์ ฯลฯ) มีหมายเหตุว่าประสิทธิภาพใกล้เคียง Opus 4.8 เนื่องจาก fallback ของกลไกความปลอดภัย

ผลงานทางวิทยาศาสตร์ของ Mythos 5

เร่งกระบวนการออกแบบโปรตีนได้ประมาณ 10 เท่า และได้ตัวเลือกที่มีศักยภาพใน 9 จาก 14 เป้าหมาย สามารถเลือกตำแหน่งการจับ ทำงานกับเครื่องมือ และฟื้นตัวจากความล้มเหลวได้โดยไม่ต้องมีมนุษย์ช่วย
ในการเปรียบเทียบแบบ blind นักวิทยาศาสตร์เลือกสมมติฐานชีววิทยาระดับโมเลกุลมากกว่าประมาณ 80% โดยมีสมมติฐานหนึ่ง (กลไกใหม่ของโปรตีนใน E. coli) ที่ได้รับการยืนยันจากแล็บที่ศึกษาโจทย์เดียวกันอย่างอิสระ
ด้วยการทำงานอัตโนมัตินานกว่า 1 สัปดาห์ ได้รวบรวมข้อมูลเซลล์หลายล้านเซลล์จากสัตว์ 138 ชนิด แล้วออกแบบและฝึกโมเดล ML แบบกำหนดเอง ซึ่งทำได้ดีกว่าโมเดลล่าสุดที่ตีพิมพ์ใน Science ทั้งที่มีขนาดเล็กกว่า 100 เท่า
การประเมิน alignment: รายงานว่าระดับพฤติกรรมที่ไม่สอดคล้องของ Mythos 5 อยู่ในระดับต่ำและใกล้เคียง Opus 4.8

กลไกความปลอดภัย

มี 3 หมวดที่ตัวจำแนกจะบล็อก: ความปลอดภัยไซเบอร์, ชีววิทยาและเคมี, และการ distillation (ความพยายามสกัดความสามารถเพื่อฝึกโมเดลคู่แข่งของรัฐอำนาจนิยม) คำขอประเภทดังกล่าวจะถูกส่งต่อไปยัง Opus 4.8 โดยอัตโนมัติและแจ้งผู้ใช้ (หากมีการส่งต่อ จะไม่คิดค่าบริการในอัตรา Fable)
มากกว่า 95% ของเซสชันไม่มี fallback โดยกลไกความปลอดภัยทำงานในเซสชันเฉลี่ยน้อยกว่า 5% แต่ก็ยอมรับว่ามีการตั้งค่าค่อนข้างเข้มงวดจนบางครั้งคำขอที่ไม่เป็นอันตรายก็ถูกบล็อก และมีแผนจะลด false positive ลง
ในการทำ bug bounty ภายนอกมากกว่า 1,000 ชั่วโมง ยังไม่พบ universal jailbreak แต่ UK AISI มีความคืบหน้าใกล้เคียงในช่วงทดสอบเบื้องต้นระยะสั้น ขณะที่การทดสอบของพาร์ตเนอร์ภายนอกรายหนึ่ง คำขออันตรายแบบ single-turn ที่เกี่ยวกับการโจมตีไซเบอร์ไม่ถูกตอบสนองเลย 0 ครั้ง แม้ใช้เทคนิค jailbreak สาธารณะ 30 แบบ
ในการประเมินการออกแบบ AAV (พาหนะนำส่งยีนบำบัด) ระดับ Mythos ทำได้เหนือกว่าโมเดลภาษาโปรตีนเฉพาะทางด้วยการให้เหตุผลทางชีววิทยาเพียงอย่างเดียว และถูกยกเป็นหลักฐานของความเสี่ยงแบบใช้ได้สองทาง
การใช้งานจำเป็นต้องเก็บข้อมูลไว้ 30 วันเพื่อจุดประสงค์ด้านการเฝ้าระวังความปลอดภัย มีผลกับทราฟฟิกทั้งหมดทั้ง 1st party และ 3rd party โดยจะไม่ถูกใช้เพื่อฝึกโมเดลหรือจุดประสงค์ที่ไม่ใช่ด้านความปลอดภัย มีการบันทึกการเข้าถึงของมนุษย์และลบหลังครบ 30 วัน

ราคาและการเปิดให้ใช้งาน

ให้บริการบนแผน Enterprise (คิดตามการใช้งาน) และบน Claude Platform, AWS, GCP, Microsoft Foundry
แผนสมัครสมาชิกจะทยอยเปิดใช้งาน: ตั้งแต่ 9 มิถุนายนถึง 22 มิถุนายน รวมฟรีใน Pro, Max, Team และ Enterprise แบบคิดตามจำนวนที่นั่ง ตั้งแต่ 23 มิถุนายนจะถูกถอดออกและต้องใช้ usage credit โดยมีแผนจะนำกลับมาเป็นค่าพื้นฐานเมื่อมีความจุเพียงพอ ส่วน API และ Enterprise แบบคิดตามการใช้งานเปิดใช้ได้เต็มรูปแบบตั้งแต่วันนี้
Mythos 5 เปิดให้อัปเกรดได้ตั้งแต่วันนี้สำหรับผู้ใช้ Mythos Preview เดิม (เช่น พาร์ตเนอร์ Glasswing) โดยในกรณีส่วนใหญ่ให้ความสามารถใกล้เคียงหรือแรงกว่านิดหน่อยจาก Preview แต่มีต้นทุนถูกกว่ามาก พร้อมอ้างว่ามีความสามารถด้านความปลอดภัยไซเบอร์แข็งแกร่งที่สุดในโลก
จะมีการเปิด trusted access program ด้านชีววิทยาแยกต่างหากด้วย (ใน Fable 5 จะปลดเฉพาะกลไกความปลอดภัยด้านชีววิทยาและเคมี แต่ยังคงกลไกด้านไซเบอร์ไว้)

14 ความคิดเห็น

makekr 2026-06-11

แม้จะขอให้ช่วยเสริมความปลอดภัยให้โปรเจกต์ของตัวเอง แต่ระบบเซฟการ์ดเจ้าปัญหานั่นก็ยังบล็อกอยู่ดี
ความรู้สึกคือการปล่อยออกมาในสภาพนี้มันดูเหมือนแค่การโชว์เทคโนโลยีเพื่อเข้าตลาดหุ้นเท่านั้น

wkang586 2026-06-10

เห็นว่าตั้งแต่วันนี้ใช้ใน Cursor ได้ เลยพยายามหาดูว่าผลการประเมินเป็นอย่างไร แต่ตอนนี้ข้อมูลยังมีไม่มากนัก
ได้ยินว่าคะแนนประเมินประสิทธิภาพสูงกว่า Opus ก็คงต้องลองใช้ดูเองถึงจะรู้
กังวลว่าจะกินโทเคนแค่ไหน

gkhcdef 29 일 전

เป็นแพ็กเกจ 5x แต่พอลองให้มันรีวิวโค้ดครั้งหนึ่ง มันก็วนอยู่ 40 นาทีจนใช้โควตา 5 ชั่วโมงหมดเลย;;;; ไม่ใช่ว่าการรีวิวโค้ดทุกครั้งจะกินเยอะขนาดนี้ แล้วมันก็หาจุดที่ควรปรับปรุงได้ดีอยู่หรอก แต่ก็แบบว่า...
ถ้าจะประชดนิด ๆ ก็คือ ถ้า opus หรือ gpt "ขยัน" ทำงานระดับนี้เหมือนกัน ผลลัพธ์ก็คงต่างกันไม่มาก ในบางงาน การทำงานแบบนี้ต่อเนื่อง 40 นาทีอาจเป็นข้อดีมหาศาลก็ได้

bluekai17 29 일 전

เมื่อวานลองใช้ดูแล้ว เห็นได้ชัดว่าใช้โทเค็นหมดเร็วมากจริง ๆ คุณภาพโค้ดก็ดูเหมือนจะดีขึ้น และจัดการได้ทั้งรีวิวกับประเด็นด้านความปลอดภัยในครั้งเดียวเลย

seoseonyu 2026-06-10

อยากลองใช้อยู่เหมือนกัน แต่ถึงจะจ่ายเงินให้ Claude
หลังวันที่ 23 มิถุนายนไปแล้วก็จะไม่ถูกนับรวมในโควต้าการใช้งานของการสมัครสมาชิก เลยไม่ค่อยอยากแตะเท่าไร...

awbrg789 2026-06-10

ยอมรับครับ..

savvykang 2026-06-10

ระหว่างคุยกันเกี่ยวกับลิงก์นั้น พอมีการพูดถึง กรณีที่ Fable ปฏิเสธการแก้โจทย์ข้อสอบ CSAT วิชาชีววิทยา 1 มันก็สลับไปเป็น Opus 4.8 แบบบังคับ โดยบอกว่าหัวข้อสนทนามีความเสี่ยงครับ ตอนนี้กำลังคิดอย่างจริงจังว่าจะลดแพ็กเกจลง

dhkd63 2026-06-10

กำลังลังเลอยู่ว่าจะย้ายจาก claude ไป codex ดีไหม
ยังไม่แน่ใจครับ เอาเป็นว่าต้องลองใช้ดูก่อน

winkagn 2026-06-10

อันดับแรก มีเขียนไว้ว่าโทเค็นจะหมดเร็วกว่า opus 2 เท่าเลยลองใช้ดู แต่ส่วนตัวยังไม่ค่อยรู้สึกเท่าไรนัก... แล้วก็ขึ้นอยู่กับงาน บางครั้งอาจสลับไปใช้โมเดล opus อัตโนมัติด้วยเหตุผลต่อไปนี้ (https://support.claude.com/en/articles/15363606)

bluekai17 29 일 전

รู้สึกได้ชัดเลยว่าการใช้โทเคนสิ้นเปลืองมาก ส่วนการสลับโมเดลดูเหมือนจะสลับอัตโนมัติเมื่อพิจารณาว่าเป็นประเด็นด้านความปลอดภัยที่อ่อนไหว แต่ตอนนี้เหมือนเกณฑ์นั้นยังสูงเกินไปหน่อยครับ

newdps 2026-06-10

ลองใช้ codex อยู่ แล้วแวะลองนิดหน่อย ก่อนจะกดจ่าย 200 ดอลลาร์ไปทันที

shakespeares 2026-06-10

มีข้อดีอะไรบ้าง?

jimmy2056 2026-06-10

จากที่รู้สึกเอง คุณภาพงานก็พอเหมาะและใช้โทเคนน้อยด้วยครับ Claude ราคา 200 ดอลลาร์ยังไม่พอ แต่ Codex ราคา 200 ดอลลาร์กลับเหลือ