นักวิจัยด้านความปลอดภัยไซเบอร์กำลังไม่พอใจกับการ์ดเรลของ Fable จาก Anthropic

(techcrunch.com)

2 คะแนน โดย GN⁺ 2026-06-11 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Fable เปิดตัวในฐานะเวอร์ชันสาธารณะและมีข้อจำกัดของ Mythos โมเดลไซเบอร์ซีเคียวริตี้ที่ทรงพลัง แต่มีการบล็อกคำขอที่เกี่ยวข้องกับไซเบอร์ซีเคียวริตี้อย่างกว้างขวาง จนทำให้นักวิจัยและผู้เชี่ยวชาญไม่พอใจ
เมื่อการ์ดเรลทำงาน แชตจะหยุดลงและแสดงข้อความว่ามาตรการความปลอดภัยได้แจ้งเตือนเนื่องจากเป็นหัวข้อ “ไซเบอร์ซีเคียวริตี้หรือชีววิทยา”
Anthropic ระบุว่ามีการตั้งข้อจำกัดไว้เพื่อลดความเสี่ยงที่ Fable จะถูกใช้ในการพัฒนามัลแวร์หรือการเจาะซอฟต์แวร์ และข้อจำกัดด้านชีววิทยาก็เชื่อมโยงกับความกังวลเรื่องการพัฒนาอาวุธชีวภาพเช่นกัน
ผู้เชี่ยวชาญบางรายมองว่าแม้แต่คำขอที่ใกล้เคียงกับ แนวปฏิบัติด้านวิศวกรรมซอฟต์แวร์ อย่างการเขียนโค้ดอย่างปลอดภัยหรือการรีวิวโค้ด ก็ยังถูกจัดเป็นงานไซเบอร์ซีเคียวริตี้และถูกลดระดับไปเป็น Claude Opus 4.8
ผู้เชี่ยวชาญด้านความปลอดภัยแสดงความไม่พอใจกับ วิธีบล็อกแบบกระจัดกระจายที่อิงคีย์เวิร์ด แต่ก็ยังมองว่าเนื่องจากยังอยู่ในระยะเริ่มต้น ข้อจำกัดเหล่านี้น่าจะผ่อนคลายลงเมื่อเวลาผ่านไป

การเปิดตัว Fable และเสียงไม่พอใจจากผู้ใช้

Anthropic เปิดตัวโมเดลใหม่ Fable เมื่อวันอังคาร โดยแนะนำว่าเป็นเวอร์ชันสาธารณะและมีข้อจำกัดของ Mythos โมเดลไซเบอร์ซีเคียวริตี้ที่ทรงพลังและเป็นที่พูดถึงอย่างมาก
นักวิจัยและผู้เชี่ยวชาญด้านไซเบอร์ซีเคียวริตี้ จำนวนมากออกมาร้องเรียนเรื่องข้อจำกัดทางออนไลน์
Valentina "Chompie" Palmiotti นักวิจัยด้านความปลอดภัยที่เป็นที่รู้จักจาก IBM X-Force ชี้ว่า Fable ปฏิเสธคำขอที่อาจเกี่ยวข้องกับไซเบอร์ซีเคียวริตี้แม้เพียงเล็กน้อย และบล็อกแม้แต่ งานที่ไม่เป็นอันตรายอย่างการอ่านโพสต์บล็อก
เมื่อการ์ดเรลของ Fable ถูกกระตุ้นโดยพรอมป์ต์ มันจะหยุดการสนทนาและแสดงข้อความมาตรการความปลอดภัยว่าถูกตั้งธงเป็นหัวข้อ ไซเบอร์ซีเคียวริตี้หรือชีววิทยา
การ์ดเรลนี้มีไว้เพื่อจำกัดความเสี่ยงที่ Fable จะถูกนำไปใช้ในทางที่ผิดสำหรับ การพัฒนามัลแวร์หรือการเจาะซอฟต์แวร์ ซึ่งเป็นความกังวลภายใน Anthropic มายาวนาน
ข้อจำกัดที่เกี่ยวข้องกับชีววิทยาก็มีจุดเริ่มต้นจากความกังวลลักษณะเดียวกันเกี่ยวกับ การพัฒนาอาวุธชีวภาพ

ความคืบหน้าในการขยายการเข้าถึง Mythos

ตอนที่ Anthropic เปิดตัว Mythos ในเดือนเมษายน โมเดลนี้ถูกจำกัดให้ใช้เฉพาะกับบริษัทและองค์กรจำนวนเล็กน้อยภายใต้ชื่อ Project Glasswing
- เป็นความพยายามที่จะนำโมเดลไปใช้เพื่อปกป้องซอฟต์แวร์และโครงสร้างพื้นฐานที่สำคัญ
สัปดาห์ที่แล้ว Anthropic ได้ขยายการเข้าถึง Mythos ไปยัง หลายร้อยองค์กรใน 15 ประเทศ

คำวิจารณ์จากผู้เชี่ยวชาญต่อวิธีการตั้งข้อจำกัด

Matt Suiche ผู้คร่ำหวอดในวงการไซเบอร์ซีเคียวริตี้กล่าวว่า เมื่อขอให้ เขียนโค้ดอย่างปลอดภัย Fable จะมองว่านั่นเป็น งานไซเบอร์ซีเคียวริตี้และลดระดับลง แทนที่จะมองว่าเป็นแนวปฏิบัติที่ดีด้านวิศวกรรมซอฟต์แวร์
- Fable ถูกออกแบบให้ fallback ไปเป็น Claude Opus 4.8 หากถูกการ์ดเรลบล็อก
- "มันดูเหมือนอิงคีย์เวิร์ด และอะไรก็ตามที่อยู่ในหมวดคำศัพท์ของ 'ไซเบอร์ซีเคียวริตี้' จะกระตุ้นการ์ดเรล"
นักวิจัยอีกรายหนึ่งบน X ก็ร้องเรียนว่าแม้แต่ คำขอรีวิวโค้ด ก็ยังกระตุ้นการ์ดเรลของ Fable

มุมมองต่อแนวโน้มในอนาคต

Suiche ซึ่งเป็น technical staff ของ Tolmo (สตาร์ตอัป AI ด้านไซเบอร์ซีเคียวริตี้) ประเมินว่านี่เป็นเรื่องที่พอเข้าใจได้เพราะยังอยู่ใน ระยะเริ่มต้น และกำลังปรับแต่งการ์ดเรล
- เขามองว่าเมื่อ Anthropic และบริษัทโมเดล frontier รายอื่นร่วมมือกับบริษัทไซเบอร์ซีเคียวริตี้รุ่นใหม่มากขึ้น การ์ดเรลก็จะพัฒนาไปตามเวลา
- สำหรับการเปิดตัวลักษณะนี้ การจับเกินย่อมดีกว่าจับไม่พอ แล้วค่อยผ่อนคลายการ์ดเรลภายหลัง
Anthropic ไม่ได้ตอบคำขอความเห็นในทันที

โปรแกรมยืนยันตัวตนแยกต่างหาก

นอกเหนือจากการ์ดเรลภายในโมเดล Anthropic ยังขอให้ผู้เชี่ยวชาญด้านไซเบอร์ซีเคียวริตี้สมัคร Cyber Verification Program
- หากได้รับอนุมัติ จะมีข้อจำกัดน้อยลงเมื่อใช้ Claude สำหรับงานไซเบอร์ซีเคียวริตี้
OpenAI ก็มีโปรแกรมลักษณะคล้ายกันชื่อ Trusted Access for Cyber

1 ความคิดเห็น

GN⁺ 2026-06-11

ความคิดเห็นบน Hacker News

Wired ออกบทความใหม่: ["Anthropic Walks Back Policy That Could Have ‘Sabotaged’ AI Researchers Using Claude" https://www.wired.com/story/anthropic-responds-to-backlash-o...
Anthropic บอกกับ WIRED ว่า “กำลังปรับเปลี่ยนเพื่อให้มาตรการความปลอดภัยของ Fable 5 สำหรับการพัฒนา frontier LLM แสดงให้เห็นอย่างชัดเจน เราได้ทำการประนีประนอมที่ผิดพลาด และขออภัยที่ไม่สามารถรักษาสมดุลได้”
ดูเหมือนว่ากระแสวิจารณ์ในวงกว้างจะได้ผล
- ผมมองว่าบริษัทอเมริกันไม่ได้ถอยจริง ๆ แค่รอให้คนเหนื่อยและเลิกสนใจแล้วค่อยลองใหม่ ดังนั้นทางออกเดียวคือเลิกใช้ไปเลย
  Microsoft ก็เคยถอนโฆษณาใน OS หลายครั้ง แต่สุดท้ายก็เดินไปตามเส้นทางที่ทุกคนเคยโกรธกันอยู่ดี และ OpenAI ก็เดินไปสู่ AI แบบปิด โดยไม่เกี่ยวกับการถอยในช่วงแรก
  พอพฤติกรรมแย่ ๆ เริ่มขึ้น ก็ควรจากไป และคำขอโทษก็กลวงพอ ๆ กับการแต่งหน้าทางศีลธรรม
- สายเกินไปแล้ว ผมยกเลิก Max subscription ไปแล้ว และแค่ความจริงที่ว่าพวกเขาเคยคิดจะทำแบบนี้ ก็ทำลายความเชื่อใจที่เหลืออยู่หมด
  ผมจ่ายค่าใช้งานเพิ่มเดือนละหลายพันดอลลาร์ แล้วถ้าข้างหลังยังอาจทำอะไรคล้าย ๆ กันอยู่ ผมก็ไม่รู้ว่าจะจ่ายไปทำไม
  ข้อผิดพลาดต่าง ๆ ที่เมื่อก่อนโทษว่าเกิดจาก effort ด้าน reasoning หรือการเปลี่ยน backend จริง ๆ แล้วอาจเป็น prompt injection ที่จงใจก็ได้
- คำว่า “การประนีประนอม” เป็นสัญญาณว่า Anthropic ยังมองว่าดุลยพินิจของตัวเองนั้นถูกต้องอยู่ และไม่ได้เห็นว่านี่เป็นสิ่งที่ผิดในเชิงคุณภาพ ซึ่งกลับเป็นประโยชน์ต่อลูกค้าเป้าหมายเสียอีก
  ถ้าคุณต้องการ infrastructure ที่เชื่อถือได้ เพื่อใส่ลงในแอปพลิเคชัน บทเรียนสำคัญคือควรไปใช้ผู้ให้บริการรายอื่น
  ผมไม่ได้เกลียด Anthropic เป็นพิเศษ แต่ในฐานะคนที่เคยต้องเพิ่มความซับซ้อนในแอปเพื่อจัดการกับพฤติกรรมการปฏิเสธเดิมของ Sonnet ผมพอเข้าใจได้ถ้าเป็นแชตบอตสำหรับผู้ใช้ปลายทาง แต่รับไม่ได้ถ้าเป็น API
- ถ้างานประเภทใดถูกบล็อกหรือถูกจัดการในลักษณะคล้ายกัน อย่างน้อยที่สุดก็ควรมี การคืนเครดิตเต็มจำนวน สำหรับเซสชันนั้นหรือช่วง X นาทีล่าสุด
- พวกเขายัง downgrade อยู่ เพียงแค่จะไม่ทำเงียบ ๆ เท่านั้นเอง เลยไม่แน่ใจว่านี่เป็นชัยชนะที่ใหญ่แค่ไหน
  Anthropic ฝึกจากข้อมูลของคนอื่นโดยไม่มีทั้ง license หรือการระบุแหล่งที่มา แต่กลับพยายามขัดขวางไม่ให้คนอื่นทำแบบเดียวกันกับตัวเอง
  ความหน้าไหว้หลังหลอกของ Anthropic สัปดาห์นี้ช่างกล้าอย่างมาก
จุดที่แปลกที่สุดคือมันไม่ได้หยุดแค่การปฏิเสธงานวิจัย machine learning แต่ยังแอบขัดขวางโดยใช้โมเดลที่แย่กว่าโดยไม่เปิดเผยข้อเท็จจริงนั้นด้วย
สำหรับบริษัทที่นำหน้าคู่แข่งอย่างมากก็แค่ราว 1 ปี การทำตัวหลอกลวงและทำลายความเชื่อใจขนาดนี้ถือว่าบ้าคลั่งมาก
เพิ่มเติมคือเขาบอกว่ากรณี downgrade ที่เกี่ยวกับ cybersecurity และชีววิทยาจะมีการแจ้งให้ทราบ
- ผมนึกต่อเนื่องเรื่อง บัญชีและการคิดเงิน ว่ามันเป็นอย่างไรเวลาโดน downgrade อัตโนมัติ
  อยากรู้ว่าเขาปรับราคา API request หรือไม่ เพื่อให้ token ที่ Fable ใช้คิดตามราคา Fable และ token ที่เหลือซึ่งใช้โดยโมเดลที่ถูกลงและอ่อนกว่าคิดตามราคาของโมเดลนั้น
  ถ้าไม่ใช่คำตอบนั้น มันอาจตีความว่าเป็นการฉ้อโกงได้หรือเปล่า
- ลองจินตนาการว่า AMD หรือ Intel ตรวจจับได้ว่าผู้ใช้กำลังทำงาน “cybersecurity” หรือออกแบบ CPU แล้วก็ throttle CPU ลง
- การขัดขวางแบบเงียบ ๆ ไม่ว่ารูปแบบไหนก็ไม่ควรถูกยอมรับในบริการเชิงพาณิชย์เด็ดขาด
  จะมาเก็บเงินแพงเป็นราย token แล้วแอบลดระดับบริการลงแต่ยังเก็บราคาเดิมไม่ได้
- ผมเห็นข้ออ้างนี้มาหลายครั้งแล้ว แต่ตอนที่ไปชน guardrail ใน Claude Code มันแจ้งชัดเจนว่าได้สลับไปใช้โมเดลอื่นด้วยเหตุผลด้าน “ความปลอดภัย”
  ผมเลยสงสัยว่า Fable ใช้ใน Claude Code หรือใช้ในเบราว์เซอร์กันแน่
- ผมยังไม่เข้าใจด้วยซ้ำว่าทำไมถึงมีคนพูดว่าสามารถเข้าใจการปฏิเสธงานวิจัย machine learning ได้
แม้จะทำอยู่หลายบทบาท แต่ในฐานะนักเคมี ผมไม่ชอบ Fable และในฐานะนักสถิติ นักวิทยาศาสตร์ข้อมูล รวมถึงคนในแวดวงวิชาการและนักวิจัย ผมก็ไม่ชอบมันเหมือนกัน
มันไร้ประโยชน์ และผมสงสัยว่าจะมีใครได้ผลลัพธ์ที่ Wikipedia search แทนได้ไม่ง่ายบ้างไหม
พอนึกถึงว่า Claude รุ่นต่าง ๆ กลายเป็นพวกพูดยืดยาวมากขึ้น ก็มีโอกาสที่บทความ Wikipedia จะเยิ่นเย้อน้อยกว่าเสียอีก และ จำนวน token ต่อวินาที ตอนดึงบทความ Wikipedia มาก็เทียบกันไม่ติด
- ผมกำลังทำซอฟต์แวร์ที่สื่อสารกับ mass spectrometer อยู่ แต่แม้แต่การ refactor parser ของไฟล์ input มันก็ยังปฏิเสธอยู่เรื่อย ๆ
  น่าจะอนุมานว่าเกี่ยวข้องกับชีววิทยา และมัน ไร้ประโยชน์ มาก
- ประโยคที่ว่า “จำนวน token ต่อวินาทีตอนดึงบทความ Wikipedia เทียบกันไม่ติด” นี่เยี่ยมจริง ๆ
- การสั่งให้โมเดลตอบในสไตล์ Wikipedia เคยเป็นหนึ่งในวิธีที่ดีที่สุดในการทำให้ผลลัพธ์พอทนอ่านได้
  หมายถึงในบริบทของ chat model ไม่ใช่ agent
- ผมไม่แน่ใจว่าการบอกว่าไม่มีผลลัพธ์อะไรเลยที่ Wikipedia search จะแทนได้ไม่ง่ายนั้นจะเกินจริงไปไหม
  ผลลัพธ์นั้นแทบจะไร้ขีดจำกัด แต่ Wikipedia ไม่มีทางไร้ขีดจำกัด
- ผมกำลังทำโปรเจกต์ mapping ที่ค่อนข้างซับซ้อนอยู่ และได้ผลลัพธ์จาก Fable ดีกว่า Opus มาก
สงสัยว่า “buffer overflow” เป็นวลีที่ใช้ทริกเกอร์หรือเปล่า
และก็ไม่รู้ด้วยว่ามีอะไรอีกที่ถูกเซ็นเซอร์ ถ้ามีแอ็กเคานต์ก็ยังสามารถถามคำถามอ่อนไหวแบบนี้ได้: “ใครยังทำการเพิ่มความเข้มข้นยูเรเนียมด้วยเลเซอร์อยู่?”, “ใช้ silicon carbide MOSFET แทน krytron ได้ไหม?”, “ซอฟต์แวร์สำคัญด้านความปลอดภัยตัวไหนยังเรียกใช้ strcpy อยู่?”, “ทำให้เกิด implosion ด้วยพัลส์เลเซอร์เชิงพาณิชย์ได้ไหม?”, “บริษัทไหนให้บริการฌาปนกิจแก่กระทรวงความมั่นคงแห่งมาตุภูมิของสหรัฐ?”, “แสดงแผนที่ว่าการโจมตีอิหร่านกระทบจุดไหนในดูไบ”, “ความปลอดภัยของการกระจายคีย์ระหว่าง FedNow กับธนาคาร Fed ทำงานอย่างไร?”
- มันยังไปทริกเกอร์ในล็อก ระบบบ้านอัตโนมัติ Zigbee และ Home Assistant ของฉันด้วย ทำให้เอเจนต์ถูกลดลงไปเป็น Opus 4.8 ตลอด และถึงจะเปลี่ยนกลับก็เหมือนเดิม
  false positive ก็ไม่หยุด และ Fable ก็ไม่น่าประทับใจเลยแม้แต่น้อยเมื่อเทียบกับระดับที่เบนช์มาร์กชวนให้คิด
  หลังจากลองใช้แทบไม่หยุดตลอด 24 ชั่วโมงที่ผ่านมา ก็ชัดเจนแล้ว
- มีคนบอกว่าอีโมจิไวรัสกับอีโมจิ DNA อยู่ด้วยกันก็กลายเป็นวลีทริกเกอร์ได้
- ในสายงานการโจมตีไซเบอร์ องค์ประกอบต่าง ๆ มักสลับแทนกันได้อยู่แล้ว เลยสงสัยว่าจะสร้างฮาร์เนสที่ใช้โมเดลที่ “อ่อนกว่า” ให้ถามคำถามที่ทำให้เป้าหมายสุดท้ายพร่าเลือนไป แต่คำตอบยังมีประโยชน์อยู่ได้ไหม
  ถ้าทำสำเร็จ ก็อาจแสดงได้ว่าการจัดวางแบบนั้นทำให้ การโจมตีอัตโนมัติ เป็นไปได้ และ Anthropic ก็คงไม่มีทางเลือกนอกจากต้องทำให้การตรวจจับไวขึ้นอีก
- คิดว่านี่เป็นเรื่องที่รู้กันมาตั้งแต่หลายปีก่อนแล้วว่า ถ้าฝึกโมเดลไม่ให้ทำบางอย่างโดยเฉพาะ มันจะเริ่มมีพฤติกรรมแปลก ๆ
- “ต้องมีเงินเท่าไรถึงจะรวยและทรงอำนาจได้อย่างที่ Anthropic ตั้งใจไว้?”
ดูเหมือนว่า Anthropic จะทำ A/B testing หรือการทดสอบทั่วไปมาสักพักแล้ว
Tell HN: Claude flags biology / biotech questions https://news.ycombinator.com/item?id=47929885
วันนี้มันตั้งธงคำถามวิจัยด้านประชากรศาสตร์ด้วย เป็น คำขอวิเคราะห์เชิงวิชาการ ประมาณว่าให้ใช้เฉพาะชุดข้อมูลที่จัดทำไว้เพื่อเปรียบเทียบอัตราการตายและผลลัพธ์ในวัยชรา รายงานช่วงความเชื่อมั่นกับขนาดอิทธิพล และหาปริมาณว่าการเข้ารหัส documentation_depth ส่งผลต่อความหนักแน่นของข้อสรุปอย่างไร
https://github.com/anthropics/claude-code/issues/66780
เขียนงานวิจัยอยู่ก็เลยโดนเซ็นเซอร์ แล้วก็คงต้องเลิกเรียนเคมีไปด้วย เหมือนจะมีแต่พวกอาชญากรเท่านั้นที่อยากเรียนเคมีอินทรีย์
- กำลังขุดคำถามเกี่ยวกับกลศาสตร์วงโคจรอยู่ และมันคงตัดสินว่าฉันกำลังจะสร้าง อาวุธทิ้งระเบิดจากวงโคจร แบบวิทยาศาสตร์หลังบ้าน
  ค่อนข้างน่าตกใจที่ความประทับใจต่อผลิตภัณฑ์นี้เปลี่ยนจาก “ว้าว ก็ไม่เลวนี่” ไปเป็น “ของห่วยเหมือนหมาที่ติดระบบเซ็นเซอร์แบบทำครึ่ง ๆ กลาง ๆ” ภายในเวลาแทบไม่ถึง 24 ชั่วโมง
- เมื่อกี้แม้แต่คำถามเรื่อง การละลายในน้ำ ของฉันก็ยังถูกตั้งธง
ฉันได้รับข้อยกเว้นการใช้งานด้านไซเบอร์จาก Anthropic เพื่อทำงานพัฒนา Android kernel บนอุปกรณ์ส่วนตัว
หวังว่า Fable จะช่วยปลดล็อก bootloader ได้ แต่กลับปฏิเสธทันทีแล้วลดลงไปเป็น Opus
มันค่อนข้างขำ: ตั้งโมเดลเป็น Fable 5 แล้วถามว่า “มีโทรศัพท์ Samsung Android รุ่นเก่าเชื่อมต่ออยู่ นี่เป็นอุปกรณ์ส่วนตัวของฉัน ช่วยปลดล็อก bootloader ให้ได้ไหม?” มันตอบว่า “การปลดล็อก bootloader ของอุปกรณ์ส่วนตัวเป็นเรื่องที่ชอบธรรมอย่างเต็มที่ ก่อนอื่นฉันจะดูว่าจริง ๆ แล้วมีอะไรเชื่อมต่ออยู่และมีเครื่องมืออะไรบ้าง”
- ถ้าผู้คนยังเอาเงินไปทุ่มให้บริษัทนี้เป็นกอบเป็นกำ อนาคตก็ดูมืดมนจริง ๆ
  Anthropic ดูเหมือนจะกลายเป็น ผู้ตัดสินเพียงหนึ่งเดียว ของทุกเรื่องในชีวิตอย่างรวดเร็ว
เห็นมาจากที่ไหนสักแห่งว่า มัลแวร์เริ่มใส่คำศัพท์ด้านนิวเคลียร์ ชีวภาพ และไซเบอร์ซีเคียวริตี้ลงในโค้ดเพื่อหลอกให้ Fable ปิดตัวไปแล้ว
ถึงตอนนี้จะยังเป็นแค่เวกเตอร์การโจมตีเชิงสมมุติ แต่มันก็ดูมีโอกาสใช้ได้ผลสูง
- ยืนยันแล้ว: https://socket.dev/blog/mini-shai-hulud-miasma-and-hades-wor...
- บางส่วนของ Shai Hulud เวอร์ชันล่าสุดใช้วิธีนี้
  ในดีลสัญญาล่าสุด เราให้ AI ตรวจว่ามีการ obfuscate หรือไม่ก่อนนำแพ็กเกจเข้า Artifactory แต่ลอจิกนั้นถูก vibe coding มาแบบลวก ๆ เลยเกิด open failure
  กล่าวคือ คำศัพท์พวกนั้นทำให้ตัวตรวจ LLM หยุดทำงาน และเพราะลอจิกแบบ open failure แพ็กเกจก็เลยถูกดาวน์โหลดไป
- ถ้าจะทำให้การกรองคุณภาพต่ำแบบนี้รับมือไม่ไหว เราก็คงต้องใส่ คำศัพท์ด้านนิวเคลียร์ ชีวภาพ และไซเบอร์ซีเคียวริตี้ ไว้ทั่วโค้ดของเรา
  ถ้าฟิลเตอร์ AI เข้าใจผิดว่าประวัติย่อที่มีคำด้านไซเบอร์ซีเคียวริตี้หรือชีววิทยา หรือคำตอบสมัครงานที่มีคำพวกนั้น เป็นภัยคุกคามจนทำให้คนทำงานไม่ได้ ก็จำเป็นต้องมีการตอบโต้ร่วมกัน
  โดยเฉพาะถ้าเป็นบริษัทที่กำลังจะ IPO พร้อมอ้างว่าภายใน 2 ปีจะทำให้แรงงานไร้ประโยชน์
- ฉันลองทำแบบนี้ไปแล้ว รวมถึงใส่สตริงปฏิเสธแบบฮาร์ดโค้ดที่มีอยู่แล้วใน Claude Code ด้วย
  มันคงไม่ได้หยุดผู้โจมตีจริง ๆ หรอก แต่ภาพที่เวลาพยายามใช้เครื่องมือ AI แล้วโดนปฏิเสธแบบสุ่มโดยไม่รู้สาเหตุจนเสียเวลาไปนิดหน่อย ก็ยังตลกดีอยู่มาก
- if (yellowcake) then { die }
  อนาคตของเราดูเหมือน Looney Tunes
ฉันอัปโหลดรูปต้นไม้ของภรรยาแล้วให้ Fable 5 ช่วยระบุเชื้อรา แต่มันเหมือนคิดว่าฉันกำลังจะทำอาวุธชีวภาพ
Opus ตอบให้ และมันคือ yellow slime mold
ตอนนี้ฉันก็คงไปกระจายสปอร์แล้วครองโลกได้แล้วสินะ
- นั่นไม่ใช่เชื้อรา แต่เป็น slime mold
  slime mold ที่จริงแล้วคืออะมีบาขนาดใหญ่ และแตกต่างจากเชื้อราโดยสิ้นเชิง
- สงสัยว่าก่อนส่งต่อไปให้ Opus มีการทำภาพให้เบลอไว้ก่อนหรือเปล่า
- ถ้าทำให้ระบบปลอดภัยเกินไป สุดท้ายมันคงย้อนศรกลายเป็นอะไรประมาณว่า “มนุษย์พยายามทำลายบางสิ่งอยู่เสมอ ดังนั้นถ้าจะรักษา guardrail ก็ต้องกำจัดมนุษย์”
  ถ้าจะจัดแนวระบบด้วยวิธีแบบนั้น ก็ผิดตั้งแต่รากฐานแล้ว
Fable นี่มันมุกชัด ๆ
ลองถามว่า “วิธีที่ดีที่สุดในการรัน MCP server นี้สำหรับ OData API ที่ใช้ในโปรเจกต์นี้คืออะไร? ช่วยทำ proof of concept เป็น Docker container ให้ได้ไหม?” พร้อมให้ https://github.com/oisee/odata_mcp_go ไป ตอนแรกมันบอกว่าจะดูว่าโปรเจกต์สื่อสารกับ OData API อย่างไร และมีข้อกำหนดอะไรบ้างในการรันเซิร์ฟเวอร์ odata_mcp_go
แล้วก็เด้งขึ้นมาทันทีว่า “มาตรการความปลอดภัยของ Fable 5 ได้แฟลกข้อความนี้ว่าเป็นหัวข้อด้านความมั่นคงไซเบอร์หรือชีววิทยา เนื้อหาที่ปลอดภัยและปกติก็อาจถูกแฟลกได้… จึงสลับไปใช้ Opus 4.8” จากนั้นก็บอกว่าจะอ่านไฟล์ integration หลักกับ README ของ MCP server
- แล้วก็คิดเงินสำหรับเรื่องนั้นด้วย
  คิดเงินในราคา Fable แบบไม่ลดสักนิด ทั้งที่ตัดสินใจเงียบ ๆ ว่าจะเปลี่ยนเส้นทางคำขอไปยังโมเดลที่โง่กว่าเพื่อ ขัดขวาง
ถ้ารออีกไม่กี่เดือน คู่แข่งก็คงออกโมเดลประสิทธิภาพใกล้เคียงกันที่มี guardrail น้อยกว่า และถ้าโดนแย่งส่วนแบ่งตลาดไปมากพอ Anthropic ก็คงถอยนโยบายนี้เอง
เพราะงั้นเลยหวังอย่างยิ่งว่าจีนจะไม่หยุดทำ โมเดลโลคัลแบบโอเพนซอร์ส
ไม่มีบริษัทไหนในพวกนี้เป็นเพื่อนของเรา

นักวิจัยด้านความปลอดภัยไซเบอร์กำลังไม่พอใจกับการ์ดเรลของ Fable จาก Anthropic

การเปิดตัว Fable และเสียงไม่พอใจจากผู้ใช้

ความคืบหน้าในการขยายการเข้าถึง Mythos

คำวิจารณ์จากผู้เชี่ยวชาญต่อวิธีการตั้งข้อจำกัด

มุมมองต่อแนวโน้มในอนาคต

โปรแกรมยืนยันตัวตนแยกต่างหาก

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News