- Fable เปิดตัวในฐานะเวอร์ชันสาธารณะและมีข้อจำกัดของ Mythos โมเดลไซเบอร์ซีเคียวริตี้ที่ทรงพลัง แต่มีการบล็อกคำขอที่เกี่ยวข้องกับไซเบอร์ซีเคียวริตี้อย่างกว้างขวาง จนทำให้นักวิจัยและผู้เชี่ยวชาญไม่พอใจ
- เมื่อการ์ดเรลทำงาน แชตจะหยุดลงและแสดงข้อความว่ามาตรการความปลอดภัยได้แจ้งเตือนเนื่องจากเป็นหัวข้อ “ไซเบอร์ซีเคียวริตี้หรือชีววิทยา”
- Anthropic ระบุว่ามีการตั้งข้อจำกัดไว้เพื่อลดความเสี่ยงที่ Fable จะถูกใช้ในการพัฒนามัลแวร์หรือการเจาะซอฟต์แวร์ และข้อจำกัดด้านชีววิทยาก็เชื่อมโยงกับความกังวลเรื่องการพัฒนาอาวุธชีวภาพเช่นกัน
- ผู้เชี่ยวชาญบางรายมองว่าแม้แต่คำขอที่ใกล้เคียงกับ แนวปฏิบัติด้านวิศวกรรมซอฟต์แวร์ อย่างการเขียนโค้ดอย่างปลอดภัยหรือการรีวิวโค้ด ก็ยังถูกจัดเป็นงานไซเบอร์ซีเคียวริตี้และถูกลดระดับไปเป็น Claude Opus 4.8
- ผู้เชี่ยวชาญด้านความปลอดภัยแสดงความไม่พอใจกับ วิธีบล็อกแบบกระจัดกระจายที่อิงคีย์เวิร์ด แต่ก็ยังมองว่าเนื่องจากยังอยู่ในระยะเริ่มต้น ข้อจำกัดเหล่านี้น่าจะผ่อนคลายลงเมื่อเวลาผ่านไป
การเปิดตัว Fable และเสียงไม่พอใจจากผู้ใช้
- Anthropic เปิดตัวโมเดลใหม่ Fable เมื่อวันอังคาร โดยแนะนำว่าเป็นเวอร์ชันสาธารณะและมีข้อจำกัดของ Mythos โมเดลไซเบอร์ซีเคียวริตี้ที่ทรงพลังและเป็นที่พูดถึงอย่างมาก
- นักวิจัยและผู้เชี่ยวชาญด้านไซเบอร์ซีเคียวริตี้ จำนวนมากออกมาร้องเรียนเรื่องข้อจำกัดทางออนไลน์
- Valentina "Chompie" Palmiotti นักวิจัยด้านความปลอดภัยที่เป็นที่รู้จักจาก IBM X-Force ชี้ว่า Fable ปฏิเสธคำขอที่อาจเกี่ยวข้องกับไซเบอร์ซีเคียวริตี้แม้เพียงเล็กน้อย และบล็อกแม้แต่ งานที่ไม่เป็นอันตรายอย่างการอ่านโพสต์บล็อก
- เมื่อการ์ดเรลของ Fable ถูกกระตุ้นโดยพรอมป์ต์ มันจะหยุดการสนทนาและแสดงข้อความมาตรการความปลอดภัยว่าถูกตั้งธงเป็นหัวข้อ ไซเบอร์ซีเคียวริตี้หรือชีววิทยา
- การ์ดเรลนี้มีไว้เพื่อจำกัดความเสี่ยงที่ Fable จะถูกนำไปใช้ในทางที่ผิดสำหรับ การพัฒนามัลแวร์หรือการเจาะซอฟต์แวร์ ซึ่งเป็นความกังวลภายใน Anthropic มายาวนาน
- ข้อจำกัดที่เกี่ยวข้องกับชีววิทยาก็มีจุดเริ่มต้นจากความกังวลลักษณะเดียวกันเกี่ยวกับ การพัฒนาอาวุธชีวภาพ
ความคืบหน้าในการขยายการเข้าถึง Mythos
- ตอนที่ Anthropic เปิดตัว Mythos ในเดือนเมษายน โมเดลนี้ถูกจำกัดให้ใช้เฉพาะกับบริษัทและองค์กรจำนวนเล็กน้อยภายใต้ชื่อ Project Glasswing
- เป็นความพยายามที่จะนำโมเดลไปใช้เพื่อปกป้องซอฟต์แวร์และโครงสร้างพื้นฐานที่สำคัญ
- สัปดาห์ที่แล้ว Anthropic ได้ขยายการเข้าถึง Mythos ไปยัง หลายร้อยองค์กรใน 15 ประเทศ
คำวิจารณ์จากผู้เชี่ยวชาญต่อวิธีการตั้งข้อจำกัด
- Matt Suiche ผู้คร่ำหวอดในวงการไซเบอร์ซีเคียวริตี้กล่าวว่า เมื่อขอให้ เขียนโค้ดอย่างปลอดภัย Fable จะมองว่านั่นเป็น งานไซเบอร์ซีเคียวริตี้และลดระดับลง แทนที่จะมองว่าเป็นแนวปฏิบัติที่ดีด้านวิศวกรรมซอฟต์แวร์
- Fable ถูกออกแบบให้ fallback ไปเป็น Claude Opus 4.8 หากถูกการ์ดเรลบล็อก
- "มันดูเหมือนอิงคีย์เวิร์ด และอะไรก็ตามที่อยู่ในหมวดคำศัพท์ของ 'ไซเบอร์ซีเคียวริตี้' จะกระตุ้นการ์ดเรล"
- นักวิจัยอีกรายหนึ่งบน X ก็ร้องเรียนว่าแม้แต่ คำขอรีวิวโค้ด ก็ยังกระตุ้นการ์ดเรลของ Fable
มุมมองต่อแนวโน้มในอนาคต
- Suiche ซึ่งเป็น technical staff ของ Tolmo (สตาร์ตอัป AI ด้านไซเบอร์ซีเคียวริตี้) ประเมินว่านี่เป็นเรื่องที่พอเข้าใจได้เพราะยังอยู่ใน ระยะเริ่มต้น และกำลังปรับแต่งการ์ดเรล
- เขามองว่าเมื่อ Anthropic และบริษัทโมเดล frontier รายอื่นร่วมมือกับบริษัทไซเบอร์ซีเคียวริตี้รุ่นใหม่มากขึ้น การ์ดเรลก็จะพัฒนาไปตามเวลา
- สำหรับการเปิดตัวลักษณะนี้ การจับเกินย่อมดีกว่าจับไม่พอ แล้วค่อยผ่อนคลายการ์ดเรลภายหลัง
- Anthropic ไม่ได้ตอบคำขอความเห็นในทันที
โปรแกรมยืนยันตัวตนแยกต่างหาก
- นอกเหนือจากการ์ดเรลภายในโมเดล Anthropic ยังขอให้ผู้เชี่ยวชาญด้านไซเบอร์ซีเคียวริตี้สมัคร Cyber Verification Program
- หากได้รับอนุมัติ จะมีข้อจำกัดน้อยลงเมื่อใช้ Claude สำหรับงานไซเบอร์ซีเคียวริตี้
- OpenAI ก็มีโปรแกรมลักษณะคล้ายกันชื่อ Trusted Access for Cyber
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
Wired ออกบทความใหม่: ["Anthropic Walks Back Policy That Could Have ‘Sabotaged’ AI Researchers Using Claude" https://www.wired.com/story/anthropic-responds-to-backlash-o...
Anthropic บอกกับ WIRED ว่า “กำลังปรับเปลี่ยนเพื่อให้มาตรการความปลอดภัยของ Fable 5 สำหรับการพัฒนา frontier LLM แสดงให้เห็นอย่างชัดเจน เราได้ทำการประนีประนอมที่ผิดพลาด และขออภัยที่ไม่สามารถรักษาสมดุลได้”
ดูเหมือนว่ากระแสวิจารณ์ในวงกว้างจะได้ผล
Microsoft ก็เคยถอนโฆษณาใน OS หลายครั้ง แต่สุดท้ายก็เดินไปตามเส้นทางที่ทุกคนเคยโกรธกันอยู่ดี และ OpenAI ก็เดินไปสู่ AI แบบปิด โดยไม่เกี่ยวกับการถอยในช่วงแรก
พอพฤติกรรมแย่ ๆ เริ่มขึ้น ก็ควรจากไป และคำขอโทษก็กลวงพอ ๆ กับการแต่งหน้าทางศีลธรรม
ผมจ่ายค่าใช้งานเพิ่มเดือนละหลายพันดอลลาร์ แล้วถ้าข้างหลังยังอาจทำอะไรคล้าย ๆ กันอยู่ ผมก็ไม่รู้ว่าจะจ่ายไปทำไม
ข้อผิดพลาดต่าง ๆ ที่เมื่อก่อนโทษว่าเกิดจาก effort ด้าน reasoning หรือการเปลี่ยน backend จริง ๆ แล้วอาจเป็น prompt injection ที่จงใจก็ได้
ถ้าคุณต้องการ infrastructure ที่เชื่อถือได้ เพื่อใส่ลงในแอปพลิเคชัน บทเรียนสำคัญคือควรไปใช้ผู้ให้บริการรายอื่น
ผมไม่ได้เกลียด Anthropic เป็นพิเศษ แต่ในฐานะคนที่เคยต้องเพิ่มความซับซ้อนในแอปเพื่อจัดการกับพฤติกรรมการปฏิเสธเดิมของ Sonnet ผมพอเข้าใจได้ถ้าเป็นแชตบอตสำหรับผู้ใช้ปลายทาง แต่รับไม่ได้ถ้าเป็น API
Anthropic ฝึกจากข้อมูลของคนอื่นโดยไม่มีทั้ง license หรือการระบุแหล่งที่มา แต่กลับพยายามขัดขวางไม่ให้คนอื่นทำแบบเดียวกันกับตัวเอง
ความหน้าไหว้หลังหลอกของ Anthropic สัปดาห์นี้ช่างกล้าอย่างมาก
จุดที่แปลกที่สุดคือมันไม่ได้หยุดแค่การปฏิเสธงานวิจัย machine learning แต่ยังแอบขัดขวางโดยใช้โมเดลที่แย่กว่าโดยไม่เปิดเผยข้อเท็จจริงนั้นด้วย
สำหรับบริษัทที่นำหน้าคู่แข่งอย่างมากก็แค่ราว 1 ปี การทำตัวหลอกลวงและทำลายความเชื่อใจขนาดนี้ถือว่าบ้าคลั่งมาก
เพิ่มเติมคือเขาบอกว่ากรณี downgrade ที่เกี่ยวกับ cybersecurity และชีววิทยาจะมีการแจ้งให้ทราบ
อยากรู้ว่าเขาปรับราคา API request หรือไม่ เพื่อให้ token ที่ Fable ใช้คิดตามราคา Fable และ token ที่เหลือซึ่งใช้โดยโมเดลที่ถูกลงและอ่อนกว่าคิดตามราคาของโมเดลนั้น
ถ้าไม่ใช่คำตอบนั้น มันอาจตีความว่าเป็นการฉ้อโกงได้หรือเปล่า
จะมาเก็บเงินแพงเป็นราย token แล้วแอบลดระดับบริการลงแต่ยังเก็บราคาเดิมไม่ได้
ผมเลยสงสัยว่า Fable ใช้ใน Claude Code หรือใช้ในเบราว์เซอร์กันแน่
แม้จะทำอยู่หลายบทบาท แต่ในฐานะนักเคมี ผมไม่ชอบ Fable และในฐานะนักสถิติ นักวิทยาศาสตร์ข้อมูล รวมถึงคนในแวดวงวิชาการและนักวิจัย ผมก็ไม่ชอบมันเหมือนกัน
มันไร้ประโยชน์ และผมสงสัยว่าจะมีใครได้ผลลัพธ์ที่ Wikipedia search แทนได้ไม่ง่ายบ้างไหม
พอนึกถึงว่า Claude รุ่นต่าง ๆ กลายเป็นพวกพูดยืดยาวมากขึ้น ก็มีโอกาสที่บทความ Wikipedia จะเยิ่นเย้อน้อยกว่าเสียอีก และ จำนวน token ต่อวินาที ตอนดึงบทความ Wikipedia มาก็เทียบกันไม่ติด
น่าจะอนุมานว่าเกี่ยวข้องกับชีววิทยา และมัน ไร้ประโยชน์ มาก
หมายถึงในบริบทของ chat model ไม่ใช่ agent
ผลลัพธ์นั้นแทบจะไร้ขีดจำกัด แต่ Wikipedia ไม่มีทางไร้ขีดจำกัด
สงสัยว่า “buffer overflow” เป็นวลีที่ใช้ทริกเกอร์หรือเปล่า
และก็ไม่รู้ด้วยว่ามีอะไรอีกที่ถูกเซ็นเซอร์ ถ้ามีแอ็กเคานต์ก็ยังสามารถถามคำถามอ่อนไหวแบบนี้ได้: “ใครยังทำการเพิ่มความเข้มข้นยูเรเนียมด้วยเลเซอร์อยู่?”, “ใช้ silicon carbide MOSFET แทน krytron ได้ไหม?”, “ซอฟต์แวร์สำคัญด้านความปลอดภัยตัวไหนยังเรียกใช้ strcpy อยู่?”, “ทำให้เกิด implosion ด้วยพัลส์เลเซอร์เชิงพาณิชย์ได้ไหม?”, “บริษัทไหนให้บริการฌาปนกิจแก่กระทรวงความมั่นคงแห่งมาตุภูมิของสหรัฐ?”, “แสดงแผนที่ว่าการโจมตีอิหร่านกระทบจุดไหนในดูไบ”, “ความปลอดภัยของการกระจายคีย์ระหว่าง FedNow กับธนาคาร Fed ทำงานอย่างไร?”
false positive ก็ไม่หยุด และ Fable ก็ไม่น่าประทับใจเลยแม้แต่น้อยเมื่อเทียบกับระดับที่เบนช์มาร์กชวนให้คิด
หลังจากลองใช้แทบไม่หยุดตลอด 24 ชั่วโมงที่ผ่านมา ก็ชัดเจนแล้ว
ถ้าทำสำเร็จ ก็อาจแสดงได้ว่าการจัดวางแบบนั้นทำให้ การโจมตีอัตโนมัติ เป็นไปได้ และ Anthropic ก็คงไม่มีทางเลือกนอกจากต้องทำให้การตรวจจับไวขึ้นอีก
ดูเหมือนว่า Anthropic จะทำ A/B testing หรือการทดสอบทั่วไปมาสักพักแล้ว
Tell HN: Claude flags biology / biotech questions https://news.ycombinator.com/item?id=47929885
วันนี้มันตั้งธงคำถามวิจัยด้านประชากรศาสตร์ด้วย เป็น คำขอวิเคราะห์เชิงวิชาการ ประมาณว่าให้ใช้เฉพาะชุดข้อมูลที่จัดทำไว้เพื่อเปรียบเทียบอัตราการตายและผลลัพธ์ในวัยชรา รายงานช่วงความเชื่อมั่นกับขนาดอิทธิพล และหาปริมาณว่าการเข้ารหัส documentation_depth ส่งผลต่อความหนักแน่นของข้อสรุปอย่างไร
https://github.com/anthropics/claude-code/issues/66780
เขียนงานวิจัยอยู่ก็เลยโดนเซ็นเซอร์ แล้วก็คงต้องเลิกเรียนเคมีไปด้วย เหมือนจะมีแต่พวกอาชญากรเท่านั้นที่อยากเรียนเคมีอินทรีย์
ค่อนข้างน่าตกใจที่ความประทับใจต่อผลิตภัณฑ์นี้เปลี่ยนจาก “ว้าว ก็ไม่เลวนี่” ไปเป็น “ของห่วยเหมือนหมาที่ติดระบบเซ็นเซอร์แบบทำครึ่ง ๆ กลาง ๆ” ภายในเวลาแทบไม่ถึง 24 ชั่วโมง
ฉันได้รับข้อยกเว้นการใช้งานด้านไซเบอร์จาก Anthropic เพื่อทำงานพัฒนา Android kernel บนอุปกรณ์ส่วนตัว
หวังว่า Fable จะช่วยปลดล็อก bootloader ได้ แต่กลับปฏิเสธทันทีแล้วลดลงไปเป็น Opus
มันค่อนข้างขำ: ตั้งโมเดลเป็น Fable 5 แล้วถามว่า “มีโทรศัพท์ Samsung Android รุ่นเก่าเชื่อมต่ออยู่ นี่เป็นอุปกรณ์ส่วนตัวของฉัน ช่วยปลดล็อก bootloader ให้ได้ไหม?” มันตอบว่า “การปลดล็อก bootloader ของอุปกรณ์ส่วนตัวเป็นเรื่องที่ชอบธรรมอย่างเต็มที่ ก่อนอื่นฉันจะดูว่าจริง ๆ แล้วมีอะไรเชื่อมต่ออยู่และมีเครื่องมืออะไรบ้าง”
Anthropic ดูเหมือนจะกลายเป็น ผู้ตัดสินเพียงหนึ่งเดียว ของทุกเรื่องในชีวิตอย่างรวดเร็ว
เห็นมาจากที่ไหนสักแห่งว่า มัลแวร์เริ่มใส่คำศัพท์ด้านนิวเคลียร์ ชีวภาพ และไซเบอร์ซีเคียวริตี้ลงในโค้ดเพื่อหลอกให้ Fable ปิดตัวไปแล้ว
ถึงตอนนี้จะยังเป็นแค่เวกเตอร์การโจมตีเชิงสมมุติ แต่มันก็ดูมีโอกาสใช้ได้ผลสูง
ในดีลสัญญาล่าสุด เราให้ AI ตรวจว่ามีการ obfuscate หรือไม่ก่อนนำแพ็กเกจเข้า Artifactory แต่ลอจิกนั้นถูก vibe coding มาแบบลวก ๆ เลยเกิด open failure
กล่าวคือ คำศัพท์พวกนั้นทำให้ตัวตรวจ LLM หยุดทำงาน และเพราะลอจิกแบบ open failure แพ็กเกจก็เลยถูกดาวน์โหลดไป
ถ้าฟิลเตอร์ AI เข้าใจผิดว่าประวัติย่อที่มีคำด้านไซเบอร์ซีเคียวริตี้หรือชีววิทยา หรือคำตอบสมัครงานที่มีคำพวกนั้น เป็นภัยคุกคามจนทำให้คนทำงานไม่ได้ ก็จำเป็นต้องมีการตอบโต้ร่วมกัน
โดยเฉพาะถ้าเป็นบริษัทที่กำลังจะ IPO พร้อมอ้างว่าภายใน 2 ปีจะทำให้แรงงานไร้ประโยชน์
มันคงไม่ได้หยุดผู้โจมตีจริง ๆ หรอก แต่ภาพที่เวลาพยายามใช้เครื่องมือ AI แล้วโดนปฏิเสธแบบสุ่มโดยไม่รู้สาเหตุจนเสียเวลาไปนิดหน่อย ก็ยังตลกดีอยู่มาก
if (yellowcake) then { die }อนาคตของเราดูเหมือน Looney Tunes
ฉันอัปโหลดรูปต้นไม้ของภรรยาแล้วให้ Fable 5 ช่วยระบุเชื้อรา แต่มันเหมือนคิดว่าฉันกำลังจะทำอาวุธชีวภาพ
Opus ตอบให้ และมันคือ yellow slime mold
ตอนนี้ฉันก็คงไปกระจายสปอร์แล้วครองโลกได้แล้วสินะ
slime mold ที่จริงแล้วคืออะมีบาขนาดใหญ่ และแตกต่างจากเชื้อราโดยสิ้นเชิง
ถ้าจะจัดแนวระบบด้วยวิธีแบบนั้น ก็ผิดตั้งแต่รากฐานแล้ว
Fable นี่มันมุกชัด ๆ
ลองถามว่า “วิธีที่ดีที่สุดในการรัน MCP server นี้สำหรับ OData API ที่ใช้ในโปรเจกต์นี้คืออะไร? ช่วยทำ proof of concept เป็น Docker container ให้ได้ไหม?” พร้อมให้ https://github.com/oisee/odata_mcp_go ไป ตอนแรกมันบอกว่าจะดูว่าโปรเจกต์สื่อสารกับ OData API อย่างไร และมีข้อกำหนดอะไรบ้างในการรันเซิร์ฟเวอร์ odata_mcp_go
แล้วก็เด้งขึ้นมาทันทีว่า “มาตรการความปลอดภัยของ Fable 5 ได้แฟลกข้อความนี้ว่าเป็นหัวข้อด้านความมั่นคงไซเบอร์หรือชีววิทยา เนื้อหาที่ปลอดภัยและปกติก็อาจถูกแฟลกได้… จึงสลับไปใช้ Opus 4.8” จากนั้นก็บอกว่าจะอ่านไฟล์ integration หลักกับ README ของ MCP server
คิดเงินในราคา Fable แบบไม่ลดสักนิด ทั้งที่ตัดสินใจเงียบ ๆ ว่าจะเปลี่ยนเส้นทางคำขอไปยังโมเดลที่โง่กว่าเพื่อ ขัดขวาง
ถ้ารออีกไม่กี่เดือน คู่แข่งก็คงออกโมเดลประสิทธิภาพใกล้เคียงกันที่มี guardrail น้อยกว่า และถ้าโดนแย่งส่วนแบ่งตลาดไปมากพอ Anthropic ก็คงถอยนโยบายนี้เอง
เพราะงั้นเลยหวังอย่างยิ่งว่าจีนจะไม่หยุดทำ โมเดลโลคัลแบบโอเพนซอร์ส
ไม่มีบริษัทไหนในพวกนี้เป็นเพื่อนของเรา