20 คะแนน โดย boradi 3 일 전 | 14 ความคิดเห็น | แชร์ทาง WhatsApp
  • Anthropic เปิดตัวโมเดลรุ่นที่ 5 สำหรับงานระยะยาวแบบอะซิงโครนัสที่กินเวลาหลายวัน Fable 5 คือเวอร์ชันที่ทำให้โมเดลระดับ Mythos ปลอดภัยพอสำหรับผู้ใช้ทั่วไป ส่วน Mythos 5 คือเวอร์ชันของโมเดลเดียวกันที่ผ่อนคลายกลไกความปลอดภัยบางส่วน
  • ระดับ Mythos เป็นชั้นโมเดลใหม่ที่อยู่เหนือระดับ Opus โดยโมเดลแรก Mythos Preview ถูกเปิดตัวในเดือนเมษายนในชื่อ Project Glasswing และวันนี้ Fable 5 กับ Mythos 5 ก็ตามมา
  • ที่มาของชื่อ: Fable มาจากภาษาละติน fabula ("สิ่งที่ถูกเล่า") และเป็นคำร่วมรากกับภาษากรีก mythos สิ่งที่แยกสองโมเดลนี้ออกจากกันคือตัวกลไกความปลอดภัยเอง จึงตั้งชื่อแตกต่างกัน
  • ราคาอยู่ที่ 10 ดอลลาร์ต่อโทเค็นอินพุต 1 ล้านโทเค็น และ 50 ดอลลาร์ต่อโทเค็นเอาต์พุต 1 ล้านโทเค็น ซึ่งต่ำกว่าครึ่งหนึ่งของ Mythos Preview ชื่อโมเดลใน API คือ claude-fable-5

ประสิทธิภาพ

  • ข้อความหลักคือยิ่งงานยาวและซับซ้อนมากเท่าไร ความได้เปรียบก็ยิ่งมากขึ้น
  • การเขียนโค้ด: ในการทดสอบล่วงหน้าของ Stripe สามารถทำการย้ายทั้งโค้ดเบส Ruby ขนาด 50 ล้านบรรทัดเสร็จภายใน 1 วัน (ถ้าทีมทำด้วยมือจะใช้เวลามากกว่า 2 เดือน) เขียนเทสต์ด้วยตัวเองและใช้วิชันตรวจเทียบผลลัพธ์กับดีไซน์ต้นฉบับ ในการประเมิน FrontierCode ของ Cognition ทำคะแนนสูงสุดในบรรดาโมเดลฟรอนเทียร์แม้ในระดับ medium effort
  • เอเจนต์: ทำงานอัตโนมัติได้หลายวันในสภาพแวดล้อมอย่าง Claude Code โดยสามารถวางแผน มอบหมายให้ซับเอเจนต์ และตรวจสอบตัวเองได้
  • วิชัน: สร้างซอร์สโค้ดเว็บแอปกลับคืนจากเพียงภาพหน้าจอ และเล่น Pokémon FireRed จบได้ด้วยฮาร์เนสขั้นต่ำสำหรับวิชันโดยเฉพาะ (โมเดลก่อนหน้าต้องใช้ฮาร์เนสช่วยที่ซับซ้อน)
  • หน่วยความจำ: ใน Slay the Spire เมื่อให้หน่วยความจำถาวรแบบอิงไฟล์ ประสิทธิภาพดีขึ้น 3 เท่าเมื่อเทียบกับ Opus 4.8 และความถี่ในการไปถึงฉากสุดท้ายก็เพิ่มขึ้น 3 เท่า
  • งานความรู้: ได้คะแนนสูงสุดในบรรดาโมเดลทั้งหมดบนเบนช์มาร์กการเงินของ Hebbia และผ่านการประเมินวิเคราะห์การเทรดของ IMC เกือบทุกด้าน

เบนช์มาร์ก

  • อ้างความได้เปรียบครอบคลุมการเขียนโค้ด งานความรู้ วิชัน และการใช้งานคอมพิวเตอร์ โดยทำได้ SWE-Bench Pro 80.3% (Opus 4.8 อยู่ที่ 69.2%, GPT 5.5 อยู่ที่ 58.6%), GDPval-AA 1932, OSWorld 85.0% เป็นต้น
  • ข้อควรระวัง: ตัวเลขบางส่วนในตารางเป็นค่าที่สูงกว่าระหว่าง Mythos 5 และ Fable 5 และรายการที่มีเครื่องหมายดอกจัน (ชีววิทยา, ความปลอดภัยไซเบอร์ ฯลฯ) มีหมายเหตุว่าประสิทธิภาพใกล้เคียง Opus 4.8 เนื่องจาก fallback ของกลไกความปลอดภัย

ผลงานทางวิทยาศาสตร์ของ Mythos 5

  • เร่งกระบวนการออกแบบโปรตีนได้ประมาณ 10 เท่า และได้ตัวเลือกที่มีศักยภาพใน 9 จาก 14 เป้าหมาย สามารถเลือกตำแหน่งการจับ ทำงานกับเครื่องมือ และฟื้นตัวจากความล้มเหลวได้โดยไม่ต้องมีมนุษย์ช่วย
  • ในการเปรียบเทียบแบบ blind นักวิทยาศาสตร์เลือกสมมติฐานชีววิทยาระดับโมเลกุลมากกว่าประมาณ 80% โดยมีสมมติฐานหนึ่ง (กลไกใหม่ของโปรตีนใน E. coli) ที่ได้รับการยืนยันจากแล็บที่ศึกษาโจทย์เดียวกันอย่างอิสระ
  • ด้วยการทำงานอัตโนมัตินานกว่า 1 สัปดาห์ ได้รวบรวมข้อมูลเซลล์หลายล้านเซลล์จากสัตว์ 138 ชนิด แล้วออกแบบและฝึกโมเดล ML แบบกำหนดเอง ซึ่งทำได้ดีกว่าโมเดลล่าสุดที่ตีพิมพ์ใน Science ทั้งที่มีขนาดเล็กกว่า 100 เท่า
  • การประเมิน alignment: รายงานว่าระดับพฤติกรรมที่ไม่สอดคล้องของ Mythos 5 อยู่ในระดับต่ำและใกล้เคียง Opus 4.8

กลไกความปลอดภัย

  • มี 3 หมวดที่ตัวจำแนกจะบล็อก: ความปลอดภัยไซเบอร์, ชีววิทยาและเคมี, และการ distillation (ความพยายามสกัดความสามารถเพื่อฝึกโมเดลคู่แข่งของรัฐอำนาจนิยม) คำขอประเภทดังกล่าวจะถูกส่งต่อไปยัง Opus 4.8 โดยอัตโนมัติและแจ้งผู้ใช้ (หากมีการส่งต่อ จะไม่คิดค่าบริการในอัตรา Fable)
  • มากกว่า 95% ของเซสชันไม่มี fallback โดยกลไกความปลอดภัยทำงานในเซสชันเฉลี่ยน้อยกว่า 5% แต่ก็ยอมรับว่ามีการตั้งค่าค่อนข้างเข้มงวดจนบางครั้งคำขอที่ไม่เป็นอันตรายก็ถูกบล็อก และมีแผนจะลด false positive ลง
  • ในการทำ bug bounty ภายนอกมากกว่า 1,000 ชั่วโมง ยังไม่พบ universal jailbreak แต่ UK AISI มีความคืบหน้าใกล้เคียงในช่วงทดสอบเบื้องต้นระยะสั้น ขณะที่การทดสอบของพาร์ตเนอร์ภายนอกรายหนึ่ง คำขออันตรายแบบ single-turn ที่เกี่ยวกับการโจมตีไซเบอร์ไม่ถูกตอบสนองเลย 0 ครั้ง แม้ใช้เทคนิค jailbreak สาธารณะ 30 แบบ
  • ในการประเมินการออกแบบ AAV (พาหนะนำส่งยีนบำบัด) ระดับ Mythos ทำได้เหนือกว่าโมเดลภาษาโปรตีนเฉพาะทางด้วยการให้เหตุผลทางชีววิทยาเพียงอย่างเดียว และถูกยกเป็นหลักฐานของความเสี่ยงแบบใช้ได้สองทาง
  • การใช้งานจำเป็นต้องเก็บข้อมูลไว้ 30 วันเพื่อจุดประสงค์ด้านการเฝ้าระวังความปลอดภัย มีผลกับทราฟฟิกทั้งหมดทั้ง 1st party และ 3rd party โดยจะไม่ถูกใช้เพื่อฝึกโมเดลหรือจุดประสงค์ที่ไม่ใช่ด้านความปลอดภัย มีการบันทึกการเข้าถึงของมนุษย์และลบหลังครบ 30 วัน

ราคาและการเปิดให้ใช้งาน

  • ให้บริการบนแผน Enterprise (คิดตามการใช้งาน) และบน Claude Platform, AWS, GCP, Microsoft Foundry
  • แผนสมัครสมาชิกจะทยอยเปิดใช้งาน: ตั้งแต่ 9 มิถุนายนถึง 22 มิถุนายน รวมฟรีใน Pro, Max, Team และ Enterprise แบบคิดตามจำนวนที่นั่ง ตั้งแต่ 23 มิถุนายนจะถูกถอดออกและต้องใช้ usage credit โดยมีแผนจะนำกลับมาเป็นค่าพื้นฐานเมื่อมีความจุเพียงพอ ส่วน API และ Enterprise แบบคิดตามการใช้งานเปิดใช้ได้เต็มรูปแบบตั้งแต่วันนี้
  • Mythos 5 เปิดให้อัปเกรดได้ตั้งแต่วันนี้สำหรับผู้ใช้ Mythos Preview เดิม (เช่น พาร์ตเนอร์ Glasswing) โดยในกรณีส่วนใหญ่ให้ความสามารถใกล้เคียงหรือแรงกว่านิดหน่อยจาก Preview แต่มีต้นทุนถูกกว่ามาก พร้อมอ้างว่ามีความสามารถด้านความปลอดภัยไซเบอร์แข็งแกร่งที่สุดในโลก
  • จะมีการเปิด trusted access program ด้านชีววิทยาแยกต่างหากด้วย (ใน Fable 5 จะปลดเฉพาะกลไกความปลอดภัยด้านชีววิทยาและเคมี แต่ยังคงกลไกด้านไซเบอร์ไว้)

14 ความคิดเห็น

 
makekr 2 일 전

แม้จะขอให้ช่วยเสริมความปลอดภัยให้โปรเจกต์ของตัวเอง แต่ระบบเซฟการ์ดเจ้าปัญหานั่นก็ยังบล็อกอยู่ดี
ความรู้สึกคือการปล่อยออกมาในสภาพนี้มันดูเหมือนแค่การโชว์เทคโนโลยีเพื่อเข้าตลาดหุ้นเท่านั้น

 
gkhcdef 2 일 전

เป็นแพ็กเกจ 5x แต่พอลองให้มันรีวิวโค้ดครั้งหนึ่ง มันก็วนอยู่ 40 นาทีจนใช้โควตา 5 ชั่วโมงหมดเลย;;;; ไม่ใช่ว่าการรีวิวโค้ดทุกครั้งจะกินเยอะขนาดนี้ แล้วมันก็หาจุดที่ควรปรับปรุงได้ดีอยู่หรอก แต่ก็แบบว่า...
ถ้าจะประชดนิด ๆ ก็คือ ถ้า opus หรือ gpt "ขยัน" ทำงานระดับนี้เหมือนกัน ผลลัพธ์ก็คงต่างกันไม่มาก ในบางงาน การทำงานแบบนี้ต่อเนื่อง 40 นาทีอาจเป็นข้อดีมหาศาลก็ได้

 
wkang586 3 일 전

เห็นว่าตั้งแต่วันนี้ใช้ใน Cursor ได้ เลยพยายามหาดูว่าผลการประเมินเป็นอย่างไร แต่ตอนนี้ข้อมูลยังมีไม่มากนัก
ได้ยินว่าคะแนนประเมินประสิทธิภาพสูงกว่า Opus ก็คงต้องลองใช้ดูเองถึงจะรู้
กังวลว่าจะกินโทเคนแค่ไหน

 
bluekai17 2 일 전

เมื่อวานลองใช้ดูแล้ว เห็นได้ชัดว่าใช้โทเค็นหมดเร็วมากจริง ๆ คุณภาพโค้ดก็ดูเหมือนจะดีขึ้น และจัดการได้ทั้งรีวิวกับประเด็นด้านความปลอดภัยในครั้งเดียวเลย

 
seoseonyu 3 일 전

อยากลองใช้อยู่เหมือนกัน แต่ถึงจะจ่ายเงินให้ Claude
หลังวันที่ 23 มิถุนายนไปแล้วก็จะไม่ถูกนับรวมในโควต้าการใช้งานของการสมัครสมาชิก เลยไม่ค่อยอยากแตะเท่าไร...

 
awbrg789 3 일 전

ยอมรับครับ..

 
savvykang 3 일 전

ระหว่างคุยกันเกี่ยวกับลิงก์นั้น พอมีการพูดถึง กรณีที่ Fable ปฏิเสธการแก้โจทย์ข้อสอบ CSAT วิชาชีววิทยา 1 มันก็สลับไปเป็น Opus 4.8 แบบบังคับ โดยบอกว่าหัวข้อสนทนามีความเสี่ยงครับ ตอนนี้กำลังคิดอย่างจริงจังว่าจะลดแพ็กเกจลง

 
dhkd63 3 일 전

กำลังลังเลอยู่ว่าจะย้ายจาก claude ไป codex ดีไหม
ยังไม่แน่ใจครับ เอาเป็นว่าต้องลองใช้ดูก่อน

 
winkagn 3 일 전

อันดับแรก มีเขียนไว้ว่าโทเค็นจะหมดเร็วกว่า opus 2 เท่าเลยลองใช้ดู แต่ส่วนตัวยังไม่ค่อยรู้สึกเท่าไรนัก... แล้วก็ขึ้นอยู่กับงาน บางครั้งอาจสลับไปใช้โมเดล opus อัตโนมัติด้วยเหตุผลต่อไปนี้ (https://support.claude.com/en/articles/15363606)

 
bluekai17 2 일 전

รู้สึกได้ชัดเลยว่าการใช้โทเคนสิ้นเปลืองมาก ส่วนการสลับโมเดลดูเหมือนจะสลับอัตโนมัติเมื่อพิจารณาว่าเป็นประเด็นด้านความปลอดภัยที่อ่อนไหว แต่ตอนนี้เหมือนเกณฑ์นั้นยังสูงเกินไปหน่อยครับ

 
newdps 3 일 전

ลองใช้ codex อยู่ แล้วแวะลองนิดหน่อย ก่อนจะกดจ่าย 200 ดอลลาร์ไปทันที

 
shakespeares 3 일 전

มีข้อดีอะไรบ้าง?

 
jimmy2056 3 일 전

จากที่รู้สึกเอง คุณภาพงานก็พอเหมาะและใช้โทเคนน้อยด้วยครับ Claude ราคา 200 ดอลลาร์ยังไม่พอ แต่ Codex ราคา 200 ดอลลาร์กลับเหลือ

 
newdps 3 일 전

ผมเคยบอกให้ codex แก้บั๊ก แต่สุดท้ายมันก็ยังไม่ถูกแก้อยู่ดี ทั้งที่ผมอธิบายปัญหาไว้ค่อนข้างดีแล้ว

พอลองสั่งด้วยพรอมป์ต์เดียวกัน โดยใส่ทั้งปัญหาเดิมนั้น + การปรับปรุงขั้นสูงเพิ่มเข้าไปด้วย มันก็จัดการให้ได้อย่างเรียบร้อย