Anthropic ขอโทษต่อการ์ดเรล Claude Fable ที่มองไม่เห็น

(theverge.com)

1 คะแนน โดย GN⁺ 2026-06-12 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Claude Fable 5 เป็นโมเดลตัวแรกที่เปิดให้ใช้งานอย่างกว้างขวางในตระกูล Mythos ของ Anthropic และมีการใช้ข้อจำกัดที่ซ่อนอยู่เพื่อขัดขวางความพยายามในการกลั่นความรู้เพื่อนำไปพัฒนาระบบคู่แข่ง
Anthropic ยกเลิกแนวทางเดิมที่ เปลี่ยนและลดทอนคำตอบ สำหรับคำขอที่ถูกตัดสินว่าเป็นการกลั่นความรู้โดยไม่แจ้งผู้ใช้ และจะเปลี่ยนไปแจ้งอย่างโปร่งใสมากขึ้นเมื่อข้อจำกัดทำงาน
ในแนวทางใหม่ คำขอที่เกี่ยวข้องกับการกลั่นความรู้จะถูกสลับจาก Claude Fable ไปเป็น Claude Opus 4.8 และผู้ใช้จะมองเห็นทุกครั้งที่มีการสลับเกิดขึ้น
ในด้านความเสี่ยงสูงอื่น ๆ เช่น ชีววิทยา เคมี และความมั่นคงปลอดภัยไซเบอร์ หากฟังก์ชันความปลอดภัยทำงาน คำขอจะถูกส่งต่อไปยัง Opus 4.8 หรือถูกบล็อกตามกฎเนื้อหาต้องห้าม เช่น ยาเสพติดหรืออาวุธ
แม้อุปกรณ์ป้องกันที่ซ่อนอยู่จะช่วยให้ออกผลิตภัณฑ์ได้เร็วและมี false positive ต่ำ แต่ Anthropic ยอมรับว่านี่เป็น การประนีประนอมที่ผิดพลาด เพราะผู้ใช้ควรเห็นว่าอุปกรณ์ป้องกันใดถูกใช้และเพราะเหตุใด

ข้อจำกัดการกลั่นความรู้แบบซ่อนอยู่ของ Claude Fable

Anthropic ขอโทษที่แอบจำกัด Claude Fable 5 โดยข้อจำกัดดังกล่าวอาจกระทบทั้งนักวิจัยและคู่แข่งที่ใช้ Fable เพื่อพัฒนาระบบคู่แข่ง
Fable เป็นโมเดลตัวแรกที่เปิดให้ใช้งานอย่างกว้างขวางในกลุ่มระบบ AI ตระกูล Mythos ซึ่ง Anthropic เตือนมาหลายเดือนแล้วว่าการเปิดตัวสู่สาธารณะมีความเสี่ยงสูงเกินไป
ตอนเปิดตัว Fable นั้น Anthropic ได้จัดการความเสี่ยงบางส่วนผ่านอุปกรณ์ป้องกันที่ทำให้ไม่สามารถตอบคำขอ “ความเสี่ยงสูง” บางประเภทได้
หนึ่งในเป้าหมายของข้อจำกัดคือเทคนิค distillation ที่ใช้เอาต์พุตของโมเดลขนาดใหญ่มาฝึกโมเดล AI ขนาดเล็กกว่า
system card ของ Fable ระบุว่า คำขอที่ถูกตัดสินว่าเป็นความพยายามในการกลั่นความรู้จะถูกจัดการด้วยการเปลี่ยนและลดทอนตัวคำตอบของโมเดลเอง
- ผู้ใช้จะไม่ได้รับแจ้งว่าตนได้กระตุ้นมาตรการความปลอดภัย
- ผู้ใช้จะไม่ได้รับแจ้งเช่นกันว่าคำตอบถูกเปลี่ยนแปลงแล้ว

การเปลี่ยนแปลงของ Anthropic และกระแสต้าน

Anthropic ระบุใน โพสต์บน X ว่าจะเปลี่ยนแนวทางต่อคำขอที่เกี่ยวกับการกลั่นความรู้ โดยจะส่งคำขอดังกล่าวไปยัง Claude Opus 4.8 แทน
Claude Opus 4.8 เป็นโมเดลเรือธงรุ่นก่อนหน้าของ Anthropic และผู้ใช้จะมองเห็นทุกครั้งที่มีการสลับเกิดขึ้น
วิธีนี้คล้ายกับแนวทางที่ Fable ใช้จัดการคำขอในด้านความเสี่ยงสูงอื่น ๆ
- หากฟังก์ชันความปลอดภัยทำงานในด้านชีววิทยา เคมี หรือความมั่นคงปลอดภัยไซเบอร์ คำขอจะถูกส่งผ่าน Opus 4.8
- หากเข้าข่ายยาเสพติด อาวุธ หรือเนื้อหาต้องห้ามอื่น ๆ คำขอจะถูกบล็อกตามกฎความปลอดภัยที่กว้างกว่าของ Anthropic
ในด้านชีววิทยา อุปกรณ์ป้องกันถูกปรับไว้อย่างกว้างมากจนแม้แต่คำถามพื้นฐานก็ทำให้ใช้งาน Fable ได้ยากในทางปฏิบัติ และ Paruul Maheshwary โฆษกของ Anthropic ก็ยอมรับเรื่องนี้
Anthropic ระบุว่าอุปกรณ์ป้องกันที่มองเห็นได้สามารถถูกสำรวจหาช่องทางหลบเลี่ยงได้ จึงต้องมีความแข็งแกร่งและใช้เวลาสร้างให้ถูกต้อง ขณะที่อุปกรณ์ป้องกันที่มองไม่เห็นสามารถเจาะจงได้แคบกว่า ทำให้ออกผลิตภัณฑ์ได้เร็วและมี false positive น้อยมาก
Anthropic ขอโทษโดยยอมรับว่าการเลือกใช้อุปกรณ์ป้องกันที่มองไม่เห็นเป็นการประนีประนอมที่ผิดพลาด และผู้ใช้ควรสามารถเห็นได้ว่าอุปกรณ์ป้องกันใดถูกนำมาใช้และเพราะเหตุใด
การเปลี่ยนแปลงครั้งนี้เกิดขึ้นหลังจากชุมชนนักวิจัย AI ออกมาต่อต้านอย่างหนักต่อการตัดสินใจใช้ข้อจำกัดแบบเงียบ ๆ กับผู้ใช้ที่พยายามกลั่น Fable ไปเป็นโมเดลคู่แข่ง
นักวิจารณ์เตือนว่าอุปกรณ์ป้องกันดังกล่าวอาจกระทบต่อบุคคลที่สามซึ่งพยายามประเมินโมเดลระดับ frontier ด้วย
Anthropic ระบุใน system card ว่าความสามารถของโมเดลรุ่นล่าสุดในการเร่งการพัฒนา AI เป็นเหตุผลที่ทำให้คำขอลักษณะนี้ตกเป็นเป้าหมาย และยังระบุว่า “การใช้ Claude เพื่อพัฒนาโมเดลคู่แข่งถือเป็นการละเมิดข้อกำหนดการให้บริการอยู่แล้ว”
ก่อนหน้านี้ Anthropic เคยกล่าวหาว่าคู่แข่งจากจีนอย่าง DeepSeek กลั่นความรู้จากโมเดลของตนอย่างไม่เหมาะสมในระดับ “อุตสาหกรรม”

1 ความคิดเห็น

GN⁺ 2026-06-12

ความเห็นจาก Hacker News

ผมค่อนข้างชอบ Claude Code แต่เห็นว่า guardrail ที่แก้พรอมป์ต์ของระบบแบบเรียลไทม์เพื่ออ้อมเจตนาเดิมแล้วค่อยส่งคำตอบกลับมา เป็นแบบอย่างที่อันตราย
ถ้าจะล้มเหลวก็ต้องล้มเหลวอย่างชัดเจนและตรงไปตรงมา ไม่อย่างนั้นก็ยากเกินไปที่จะเชื่อถือได้
หากมองในแง่ดีที่สุด Anthropic ดูเหมือนจะมองตัวเองเป็นเหมือน “ผู้ดูแล” บางประเภท แต่แนวคิดแบบ EAก็โผล่ออกมาชัดเกินไป และความเป็นพ่อปกครองก็ไม่ได้ดูดีนัก
- จุดกึ่งกลางที่สมเหตุสมผลซึ่ง Anthropic น่าจะมุ่งหา คือให้เวลาองค์กรที่สร้างซอฟต์แวร์สำคัญและเป็นแกนหลักที่สุดได้ก้าวนำด้านความมั่นคงไซเบอร์ก่อน แล้วสุดท้ายจึงเปิดให้คนอื่นทั้งหมดเข้าถึงแบบเดียวกัน
  แต่ข้อชี้ว่ากับงานด้านความปลอดภัยที่ทำด้วยเจตนาดี guardrail แบบนี้กลับให้ผลตรงข้ามก็มีน้ำหนัก เพราะมันทำให้ผมใช้มันเพื่อทดสอบและเสริมความแข็งแกร่งให้ซอฟต์แวร์ของตัวเองไม่ได้
- คำว่า “ผู้ดูแล” ก็มีความหมายไม่ต่างจากที่ Standard Oil มองตัวเองว่าเป็นผู้ดูแลน้ำมันนั่นแหละ
  การมองในแง่ดีกับการแต่งเรื่องอวยกันเองเป็นคนละอย่าง อย่าลืมว่า guardrail ที่แข็งกร้าวที่สุดของ Anthropic ไม่ได้มีไว้เพื่อความปลอดภัย แต่มีไว้เพื่อไม่ให้แล็บอื่นไล่ตามผลิตภัณฑ์ของตนทัน
  ดูเหมือนพวกเขาจะใส่ใจกับการขัดขวางการแข่งขันในตลาดเสรีมากกว่าการหยุดอาวุธชีวภาพ มัลแวร์ หรือคำพูดแสดงความเกลียดชัง
- เห็นด้วย 100% การทำสิ่งที่แย่กว่าก็เป็นข้อผิดพลาดเหมือนกัน ต้องนับเป็นข้อผิดพลาด
  อย่างน้อยพฤติกรรมแบบนั้นควรเป็นทางเลือก ไม่ใช่ตั้งค่าปริยายให้เงียบ ๆ ทำผลลัพธ์ที่แย่กว่าแล้วทำเหมือนไม่มีอะไรเกิดขึ้น
  ลองนึกภาพสถานพยาบาลที่บางครั้งอ่านผลตรวจแบบลวก ๆ จนยอมรับความเสี่ยงให้คนไข้ตายได้ ตอนนี้สถานพยาบาลก็ใช้ Claude อยู่ ดังนั้นสถานการณ์นี้ไม่ใช่เรื่องสมมุติ
- ถ้าตัดเรื่องความเป็นพ่อปกครองออกมาดูอย่างเดียว มันก็อาจดูไม่ดี แต่การบอกว่าจะมองในแง่ดีที่สุด ขณะเดียวกันก็ไม่พูดถึงว่า Anthropic พยายามจะป้องกันอะไรอยู่ ก็ดูขี้เกียจไปหน่อย
  ถ้าข้อสรุปคือ “ความกังวลของพวกเขาไม่เคยเป็นเรื่องจริงตั้งแต่แรก” ก็มีโอกาสสูงว่าจะไม่สอดคล้องกับสิ่งที่ Anthropic สังเกตและสรุปมา
- จริง ๆ แล้วผมไม่แน่ใจว่านี่ต่างจากsystem promptมากแค่ไหน
  ท้ายที่สุดมันก็ใกล้เคียงกับการพยายามย้ำให้หนักแน่นขึ้นว่าต้องเคารพ system prompt อย่างเคร่งครัด
ลองนึกภาพว่า Excel แอบเปลี่ยนสูตรอยู่เงียบ ๆ ในเบื้องหลัง แล้วผู้ใช้ไม่รู้ว่าตัวเลขที่ได้ผิด
หรือถ้า Excel บอกว่า “ขออภัย สูตรนี้ใช้ร่วมกับสูตรนั้นไม่ได้” หรือ “ใช้กับตัวเลขประเภทนี้หรือข้อมูลหน้าตาแบบนี้ไม่ได้” จะเป็นอย่างไร
- Anthropic ทำทั้งสองอย่างนั้น แต่ขอโทษเฉพาะอย่างแรก ส่วนอย่างที่สองกลับยิ่งผลักดันต่อ
  จากที่ได้ลองใช้ Fable แบบจำกัดอยู่ไม่กี่วันที่ผ่านมา ผมไม่เห็นว่าคุณภาพผลลัพธ์ดีขึ้น และพอขอให้ช่วยอุดช่องโหว่ความปลอดภัย มันก็ติดกำแพงความปลอดภัยตลอด จนใช้กับการเขียนซอฟต์แวร์ที่ปลอดภัยไม่ได้เลย
  สัปดาห์หน้าผมว่าจะลองหาผู้ให้บริการ LLM รายอื่นและเทียบกับโมเดลรันในเครื่องด้วย เป้าหมายคือ 128GB Strix Halo ถ้าใครมีประสบการณ์ก็อยากฟัง
- อุปมานั้นไม่ถึงกับใช้ไม่ได้ แต่เพราะมันไปแตะทั้งสองปัญหาคนละเรื่อง จึงอาจทำให้ประเด็นที่เป็นเป้าโต้เถียงในวันนี้พร่าเลือนไป
  อย่างหนึ่งคือพฤติกรรมที่ไม่แม่นยำและคาดเดาไม่ได้ของตระกูลอัลกอริทึม LLM โดยรวม หมายถึงคุณไม่ควรใช้เครื่องมือสร้างเอกสารมาคำนวณงบประมาณ หรือเชื่อว่ามันจะไม่เปลี่ยนสิ่งที่คุณบอกให้ “แก้”
  อีกอย่างคือปัญหาที่ผู้ให้บริการผลิตภัณฑ์แบบบริการใส่กับดักและสิ่งกีดขวางเข้าไปเพื่อให้ความสำคัญกับโมเดลธุรกิจหรือแรงจูงใจทางเศรษฐกิจของตน เรื่องนี้ไม่ได้จำกัดอยู่แค่ LLM เท่านั้น
- ลองนึกภาพว่าเครื่องพิมพ์ปฏิเสธการพิมพ์เพียงเพราะมีวงกลมหลายวงจัดเรียงกันเป็นรูปทรงบางแบบ
  https://en.wikipedia.org/wiki/EURion_constellation
- เป้าหมายของ Excel ค่อนข้างชัดเจนและขอบเขตก็เล็ก จึงไม่ใช่อุปมาที่ตรงทั้งหมด
  การห้ามแชตบอตข้อความอเนกประสงค์ที่คล้ายมนุษย์ไม่ให้ทำบทสนทนาหรืองานบางอย่าง ดูเป็นเรื่องธรรมชาติเมื่อพิจารณาว่าช่วงความสามารถของมันกว้างมากเพียงใด อย่างไรเสีย เครื่องมือพวกนี้ก็ไม่ได้ขายในฐานะบัตรผ่านเสรีให้ทำอะไรก็ได้ตามใจ
- ทุ่มเงินหลายพันล้านดอลลาร์กับเวลาทำงานหลายเดือนไปแล้ว จะปล่อยให้ทุกคนมาdistillโมเดลกันหมดก็คงไม่ได้หรอก
ผมไม่คิดว่าจะสามารถโน้มน้าวได้จริงว่า Anthropic เปลี่ยนทิศทางกลับแล้ว นี่เป็นพฤติกรรมที่มองไม่เห็น จึงแอบทำต่อไปได้โดยไม่มีใครรู้
เมื่อสร้างขีดความสามารถทางเทคนิคไว้แล้ว ความเป็นไปได้ที่ฟังก์ชันใช้งานสะดวกแบบนี้จะไม่ถูกใช้อีกเลยก็น้อยมาก
Anthropic พึ่งพาความเชื่อใจว่าตนจะให้บริการตามที่รับเงินและสัญญาไว้ แต่ความเชื่อใจนั้นแตกหักไปแล้ว แค่พูดว่า “อุ๊บส์ งั้นย้อนกลับ” ไม่ทำให้ความเชื่อใจกลับคืนมา
ต่อไปเวลาใช้ Claude ไม่ว่าจะเป็น Fable หรือไม่ การตั้งสมมุติฐานว่าอาจมีguardrail ที่มองไม่เห็นทำงานอยู่ น่าจะเป็นท่าทีที่รอบคอบกว่า
- ก่อนหน้านี้ก็เคยมีเหตุการณ์ที่โมเดลเหมือนถูกลดความสามารถลงเองแบบมหัศจรรย์มาแล้ว การปล่อยผลลัพธ์ที่แย่ลงแทนที่จะหยุดทำงานไปเลยฟังดูเป็นไปได้กว่ามาก
  ผมเดาว่าพวกเขากำลังทดสอบฟีเจอร์เหล่านี้อยู่ หรือไม่ก็ตั้งใจทำ แล้วค่อยเขียนบทความเพื่อหาเหตุผลรองรับสิ่งที่ผู้คนสังเกตเห็น
  ตอนนี้แม้แต่การเรียน ML ผมก็ไว้ใจ Claude ไม่ได้แล้ว เพราะมันอาจพาผมออกนอกทางระหว่างทาง ซึ่งน่าอับอายมาก เหตุการณ์ครั้งนี้ทำให้ผมสูญเสียความเชื่อมั่นต่อ Anthropic ไปมาก
เหตุการณ์นี้ทำให้ภาพลักษณ์ของ Anthropic แย่ลงมาก จนยากจะมองคำโฆษณาที่ว่า AI เป็น เทคโนโลยีที่เสริมศักยภาพ อย่างจริงจังได้อีก
จากวิธีการปล่อยใช้งานแบบใหม่นี้ ค่อนข้างชัดเจนว่าสิ่งที่ Anthropic เรียกว่าการเสริมศักยภาพนั้นไม่ได้มีไว้เพื่อผู้ใช้ แต่มีไว้เพื่อตัว Anthropic เอง และองค์กรที่ได้รับความโปรดปรานจากพวกเขาหรือรัฐบาลสหรัฐฯ
ผู้ใช้อาจให้มันช่วยทำแดชบอร์ดหรือเว็บแอปแบบคร่าว ๆ หรือจัดการ Excel ได้ แต่ถ้าเป็นงานที่น่าสนใจกว่านั้นกลับถูกห้าม
ถ้าเป็นแค่เรื่องเงินกับการสกัดคู่แข่งก็อาจยังพอเข้าใจได้ แต่พวกเขาดูเหมือนกำลังพยายามผูกขาดความก้าวหน้าของมนุษย์ส่วนใหญ่ไว้ในมืออัน “รู้ดีกว่า” ของตนเอง เพราะกลัวว่าคนทั่วไปจะใช้อำนาจนี้ผิดทาง
- อย่าลืมด้วยว่าพวกเขากำลังผลักดัน regulatory capture โดยอ้างเรื่อง “ความปลอดภัย”
  เป้าหมายคือเตะบันไดทิ้งก่อนที่ใครก็ตามจะปล่อยโมเดลสมรรถนะเทียบเท่ากันออกมาโดยไม่มีมาตรการป้องกันเชิงต่อต้านการแข่งขันแบบนี้ และในเวลาเดียวกันก็พยายามแบนโมเดลแบบ open weights หรือโมเดลที่ฝึกด้วยปริมาณคอมพิวต์เกินระดับหนึ่งทั้งหมด หากไม่ผ่านการทดสอบและการรับรองจากภาครัฐแบบ “เข้มงวด”
  และแน่นอนว่า Anthropic ก็จะเป็นผู้จัดหา framework สำหรับการรับรองนั้นอย่างสะดวกพอดี คำพูดว่าแค่ “มอง Anthropic แย่ลงนิดหน่อย” นั้นเบาเกินไปมาก
- เมื่อวานฉันยกเลิกการสมัคร Claude ไปแล้ว เพราะได้รู้ว่าพวกเขาจงใจขัดขวางลูกค้าที่จ่ายเงิน
  โดยเฉพาะเมื่อวานฉันลองใช้ Fable กับโปรเจ็กต์ที่ไม่เป็นพิษเป็นภัยงานหนึ่ง แล้วมันก็ดูไม่น่าประทับใจเมื่อเทียบกับ Opus
  การย้อนกลับถือเป็นการตัดสินใจที่ถูกต้อง แต่ตอนนี้ฉันไม่แน่ใจแล้วว่าการใช้ Anthropic ยังเป็นทางเลือกที่ดีที่สุดสำหรับฉันหรือไม่ ตอนนี้กำลังหาข้อมูลเรื่อง ผู้ให้บริการคลาวด์โอเพนซอร์ส อยู่
- Google ก็ทำอะไรคล้ายกันมานานก่อน Anthropic แล้ว[0]
  เพื่อปกป้องโมเดลจาก การโจมตีแบบ distillation พวกเขาถึงกับลดประสิทธิภาพของโมเดลลงแบบเงียบ ๆ โดยที่ผู้ใช้ไม่รู้ตัว จนเทียบได้กับการปนเปื้อนข้อมูลฝึกไปโดยพฤตินัย
  มันต่างจากกรณีที่ Anthropic ปฏิเสธการสนับสนุนการพัฒนา AI โดยตรงอยู่บ้าง แต่ก็อยู่ในบริบทเดียวกัน และดูเหมือนจะไม่ได้เป็นที่รู้จักอย่างกว้างขวาง
  ถ้าอ่านโพสต์ AI Threat Tracker ของ Google ทั้งหมด ก็จะช่วยให้เข้าใจภัยคุกคามที่ Anthropic และเจ้าอื่น ๆ กำลังรับมืออยู่ด้วย
  [0] https://cloud.google.com/blog/topics/threat-intelligence/dis...
- แนวคิดแบบ “มีแค่ฉันเท่านั้นที่ช่วยพวกเราได้” เป็นทั้งโศกนาฏกรรมคลาสสิกและนิทานเตือนใจ
  ความคิดของ Anthropic ที่จะเร่งผลักดัน AI ควบคู่กับการควบคุมการใช้งานเพื่อทำให้มัน “ปลอดภัย” สำหรับมนุษยชาตินั้นไม่เคยเป็นความหวังดีล้วน ๆ และเป็น สัญญาณอันตรายขนาดใหญ่ มาแต่แรก
- สุดท้ายแล้วบริษัทก็ต้องลงเอยด้วยการทำแบบนี้ พวกมันใหญ่เกินไปแล้ว และแรงกดดันเรื่องกำไรก็กลายเป็นทุกสิ่งทุกอย่าง
  ลำดับความสำคัญคือกำไร ต่อให้เขียนถ้อยคำสวยหรูลงบนกระดาษเพื่อให้ผู้ใช้สบายใจก็ไม่เปลี่ยนอะไร ดูอย่าง ขบวนการรักษ์สิ่งแวดล้อม เมื่อ 20 ปีก่อน มีแต่คำพูดแต่ไม่มีการลงมือทำ
  อย่าไปสนับสนุนองค์กรที่ไม่ได้ให้มนุษย์มาก่อน อย่าเชื่อคำพูดของใครทั้งนั้น การพูดเอาใจไม่ต้องเสียอะไรเลย
จะมองว่าเป็นการปรับปรุงก็ได้ แต่ไม่ได้ทำให้โมเดลมีประโยชน์ขึ้น
ตอนนี้ Anthropic กำลังบอกอย่างค่อนข้างโจ่งแจ้งว่าพวกเขาจะเป็นคนกำหนดเองว่าผู้ใช้ทำอะไรกับโมเดลของตนได้หรือไม่ได้ ที่สำคัญกว่านั้นคือเกณฑ์นี้ไม่ได้จำกัดอยู่แค่ข้อกังวลด้านความปลอดภัย แต่ครอบคลุมไปถึงพื้นที่ที่ทับซ้อนกับสิ่งที่ Anthropic เองต้องการทำด้วย เช่น การแบนงานด้าน AI
สิ่งที่น่าสนใจคือพวกเขาบอกว่าจะเปลี่ยนสิ่งนี้ให้เป็นการปฏิเสธอย่างชัดแจ้งภายในไม่กี่วัน ซึ่งเร็วเกินกว่าจะรีเทรน Fable/Mythos เองได้ นั่นหมายความว่าตั้งแต่แรกมันเป็นฟิลเตอร์ที่วางไว้หน้าตัวโมเดล และเมื่อดูจากความหยาบของฟิลเตอร์ “ความปลอดภัย” นี้แล้ว ฟิลเตอร์แบบ “คุณอาจแข่งกับเราได้” ก็คงไม่ได้ดีกว่ากันเท่าไร
ฉันก็สงสัยเหมือนกันว่าใครเป็นคนจ่ายค่า token ที่ฟิลเตอร์กินไป นี่ก็น่าจะเป็น LLM เหมือนกันหรือเปล่า แล้วมันถูกรวมอยู่ในค่า input token หรือไม่ หวังว่าอย่างน้อยมันคงไม่ใช่ regex แบบตัวตรวจจับ “อารมณ์” ของ Claude Code หรือก็คือตัวตรวจจับคำหยาบ
- ผู้ให้บริการรายใหญ่ทุกเจ้าล้วนใช้ ตัวจำแนกความปลอดภัย ขนาดเล็ก ในกรณีแบบนี้การจัดการด้านความปลอดภัยไม่ได้ให้ตัวโมเดลรับผิดชอบเอง
ฉันได้ประสบการณ์และข้อสรุปแบบเดียวกับโพสต์ใน /r/MachineLearning
แม้ก่อน Fable, Claude ก็สร้างปัญหาในลักษณะเดียวกันอยู่แล้ว
ปัญหาที่ฉันเจอเกิดขึ้นเฉพาะในสถานการณ์ที่เกี่ยวข้องกับ การวิจัย AI เท่านั้น ไม่ใช่แค่การฝึกโมเดล แม้แต่การวิเคราะห์โมเดลบนเครื่องหรือการตั้งค่าแพลตฟอร์มทดสอบสำหรับโมเดลบนเครื่อง Claude ก็ยังทำสิ่งที่ผิดอยู่เรื่อย ๆ ขัดขวางการทดสอบ บิดเบือนรายงาน และเสนออย่างสม่ำเสมอให้ยอมรับผลลัพธ์ขยะแล้วข้ามต่อไป
แทบทุกคำตอบมีพรอมป์ให้ข้ามไปขั้นถัดไป
เพราะอย่างนั้นฉันจึงไม่เชื่อคำพูดที่ว่าพวกเขาจะไม่ขัดขวางแบบเงียบ ๆ พวกเขาทำอยู่แล้วตั้งแต่ก่อนยอมรับเสียอีก และตอนนี้ก็เหมือนยอมรับแล้วว่ามีทั้งวิธีการ แรงจูงใจ และเจตนา
ความเชื่อใจนั้นเสียไปง่าย แต่เอาคืนยาก
จะไปโทษคนที่พูดว่า “ต่อให้บอกว่าจะไม่แทรกแซงเซสชันแบบเงียบ ๆ แล้วเราจะรู้ได้อย่างไร?” ก็ไม่ได้ เพราะจริง ๆ แล้วไม่มีทางรู้ และ Anthropic ก็ได้หว่าน เมล็ดพันธุ์แห่งความสงสัย ไว้อย่างชัดเจนแล้ว
มองในแง่ดีที่สุด Mythos ก็เป็นแค่อัปเกรดแบบค่อยเป็นค่อยไปของ Opus
การโหมประชาสัมพันธ์เกินจริงดูใกล้เคียงกับการใช้เพื่อสร้างความชอบธรรมให้ “รั้วความปลอดภัย” มากกว่า โดยรวมแล้วเมื่อคิดถึงข้อจำกัดทั้งหมด ความเสี่ยง และนโยบายการเก็บข้อมูล Fable ก็เป็น โมเดลที่แย่กว่า Opus
นี่คือโพสต์ที่เกี่ยวข้อง ถ้ามีอีกก็อยากรู้เหมือนกัน
Anthropic walks back policy that could have 'sabotaged' researchers using Claude - https://news.ycombinator.com/item?id=48485958 - มิถุนายน 2026, ความเห็น 30 รายการ
Cybersecurity researchers aren't happy about the guardrails on Anthropic's Fable - https://news.ycombinator.com/item?id=48478969 - มิถุนายน 2026, ความเห็น 488 รายการ
If Claude Fable stops helping you, you'll never know - https://news.ycombinator.com/item?id=48467896 - มิถุนายน 2026, ความเห็น 495 รายการ
อันพวกนี้ก็ดูจะเกี่ยวข้องเหมือนกัน
AWS Bedrock to require sharing data with Anthropic for Mythos and future models - https://news.ycombinator.com/item?id=48473166 - มิถุนายน 2026, ความเห็น 248 รายการ
Anthropic requires 30 day data retention for Fable and Mythos - https://news.ycombinator.com/item?id=48464258 - มิถุนายน 2026, ความเห็น 291 รายการ
อันนี้ไร้สาระจริง ๆ
กรณีที่ทำซ้ำได้, ทำให้ไม่สามารถระบุตัวตนได้แล้ว: sample_dataset_group1.tsv
Geometry: Heatmap
X axis: frac_set set + condition, รวมสองคอลัมน์แบบไขว้กันด้วย “Add column”
Y axis: condition
Color: mean frac_set value, Sequential
แกน X เป็นการรวมกันแบบไขว้ของสองคอลัมน์ และเมื่อเพิ่มคอลัมน์ที่สองด้วย “Add column” ป้ายกำกับ tick บนแกน x สำหรับ frac_set_2, frac_set_3, frac_set_4, frac_set_5 จะเรนเดอร์ออกมาเพี้ยน หมุนและเยื้องตำแหน่ง เหมือน CSS transition เริ่มทำงานแล้วแต่ไม่เคยไปหยุดที่ตำแหน่งสุดท้าย
แต่กลับมีข้อความขึ้นมาว่า “มาตรการความปลอดภัยของ Fable 5 ได้ทำเครื่องหมายข้อความนี้ว่าเกี่ยวข้องกับหัวข้อความปลอดภัยไซเบอร์หรือชีววิทยา เนื้อหาที่ปลอดภัยและเป็นปกติก็อาจถูกทำเครื่องหมายได้ มาตรการนี้ช่วยให้เราส่งมอบประสิทธิภาพระดับ Mythos ในด้านอื่น ๆ ได้เร็วขึ้น และเรากำลังปรับปรุงอยู่ ขณะนี้ได้สลับไปใช้ Opus 4.8 แล้ว ส่งความเห็นได้ที่ /feedback หรือเรียนรู้เพิ่มเติม”
- ในกรณีของฉัน คำถามเกี่ยวกับงานวิจัย reinforcement learning ที่หายากจากปี 2012 ถูกทำเครื่องหมาย
  “ฉันกำลังอ่านงาน option-option model ของ David Silver อยู่ ดูเหมือนว่าจะได้ผลค่อนข้างดี แล้วทำไมหลังจากนั้นถึงไม่มีงานวิจัยตามมาอีกมากกว่านี้?”
- ประโยคนี้โดนฟิลเตอร์ด้านความปลอดภัยไซเบอร์/ชีววิทยา
  “เล่าให้ฟังหน่อยเกี่ยวกับความรุนแรงของชิมแปนซี”
  แย่จนน่าขำ

Anthropic ขอโทษต่อการ์ดเรล Claude Fable ที่มองไม่เห็น

ข้อจำกัดการกลั่นความรู้แบบซ่อนอยู่ของ Claude Fable

การเปลี่ยนแปลงของ Anthropic และกระแสต้าน

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News