1 คะแนน โดย GN⁺ 3 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Claude Fable 5 เป็นโมเดลตัวแรกที่เปิดให้ใช้งานอย่างกว้างขวางในตระกูล Mythos ของ Anthropic และมีการใช้ข้อจำกัดที่ซ่อนอยู่เพื่อขัดขวางความพยายามในการกลั่นความรู้เพื่อนำไปพัฒนาระบบคู่แข่ง
  • Anthropic ยกเลิกแนวทางเดิมที่ เปลี่ยนและลดทอนคำตอบ สำหรับคำขอที่ถูกตัดสินว่าเป็นการกลั่นความรู้โดยไม่แจ้งผู้ใช้ และจะเปลี่ยนไปแจ้งอย่างโปร่งใสมากขึ้นเมื่อข้อจำกัดทำงาน
  • ในแนวทางใหม่ คำขอที่เกี่ยวข้องกับการกลั่นความรู้จะถูกสลับจาก Claude Fable ไปเป็น Claude Opus 4.8 และผู้ใช้จะมองเห็นทุกครั้งที่มีการสลับเกิดขึ้น
  • ในด้านความเสี่ยงสูงอื่น ๆ เช่น ชีววิทยา เคมี และความมั่นคงปลอดภัยไซเบอร์ หากฟังก์ชันความปลอดภัยทำงาน คำขอจะถูกส่งต่อไปยัง Opus 4.8 หรือถูกบล็อกตามกฎเนื้อหาต้องห้าม เช่น ยาเสพติดหรืออาวุธ
  • แม้อุปกรณ์ป้องกันที่ซ่อนอยู่จะช่วยให้ออกผลิตภัณฑ์ได้เร็วและมี false positive ต่ำ แต่ Anthropic ยอมรับว่านี่เป็น การประนีประนอมที่ผิดพลาด เพราะผู้ใช้ควรเห็นว่าอุปกรณ์ป้องกันใดถูกใช้และเพราะเหตุใด

ข้อจำกัดการกลั่นความรู้แบบซ่อนอยู่ของ Claude Fable

  • Anthropic ขอโทษที่แอบจำกัด Claude Fable 5 โดยข้อจำกัดดังกล่าวอาจกระทบทั้งนักวิจัยและคู่แข่งที่ใช้ Fable เพื่อพัฒนาระบบคู่แข่ง
  • Fable เป็นโมเดลตัวแรกที่เปิดให้ใช้งานอย่างกว้างขวางในกลุ่มระบบ AI ตระกูล Mythos ซึ่ง Anthropic เตือนมาหลายเดือนแล้วว่าการเปิดตัวสู่สาธารณะมีความเสี่ยงสูงเกินไป
  • ตอนเปิดตัว Fable นั้น Anthropic ได้จัดการความเสี่ยงบางส่วนผ่านอุปกรณ์ป้องกันที่ทำให้ไม่สามารถตอบคำขอ “ความเสี่ยงสูง” บางประเภทได้
  • หนึ่งในเป้าหมายของข้อจำกัดคือเทคนิค distillation ที่ใช้เอาต์พุตของโมเดลขนาดใหญ่มาฝึกโมเดล AI ขนาดเล็กกว่า
  • system card ของ Fable ระบุว่า คำขอที่ถูกตัดสินว่าเป็นความพยายามในการกลั่นความรู้จะถูกจัดการด้วยการเปลี่ยนและลดทอนตัวคำตอบของโมเดลเอง
    • ผู้ใช้จะไม่ได้รับแจ้งว่าตนได้กระตุ้นมาตรการความปลอดภัย
    • ผู้ใช้จะไม่ได้รับแจ้งเช่นกันว่าคำตอบถูกเปลี่ยนแปลงแล้ว

การเปลี่ยนแปลงของ Anthropic และกระแสต้าน

  • Anthropic ระบุใน โพสต์บน X ว่าจะเปลี่ยนแนวทางต่อคำขอที่เกี่ยวกับการกลั่นความรู้ โดยจะส่งคำขอดังกล่าวไปยัง Claude Opus 4.8 แทน
  • Claude Opus 4.8 เป็นโมเดลเรือธงรุ่นก่อนหน้าของ Anthropic และผู้ใช้จะมองเห็นทุกครั้งที่มีการสลับเกิดขึ้น
  • วิธีนี้คล้ายกับแนวทางที่ Fable ใช้จัดการคำขอในด้านความเสี่ยงสูงอื่น ๆ
    • หากฟังก์ชันความปลอดภัยทำงานในด้านชีววิทยา เคมี หรือความมั่นคงปลอดภัยไซเบอร์ คำขอจะถูกส่งผ่าน Opus 4.8
    • หากเข้าข่ายยาเสพติด อาวุธ หรือเนื้อหาต้องห้ามอื่น ๆ คำขอจะถูกบล็อกตามกฎความปลอดภัยที่กว้างกว่าของ Anthropic
  • ในด้านชีววิทยา อุปกรณ์ป้องกันถูกปรับไว้อย่างกว้างมากจนแม้แต่คำถามพื้นฐานก็ทำให้ใช้งาน Fable ได้ยากในทางปฏิบัติ และ Paruul Maheshwary โฆษกของ Anthropic ก็ยอมรับเรื่องนี้
  • Anthropic ระบุว่าอุปกรณ์ป้องกันที่มองเห็นได้สามารถถูกสำรวจหาช่องทางหลบเลี่ยงได้ จึงต้องมีความแข็งแกร่งและใช้เวลาสร้างให้ถูกต้อง ขณะที่อุปกรณ์ป้องกันที่มองไม่เห็นสามารถเจาะจงได้แคบกว่า ทำให้ออกผลิตภัณฑ์ได้เร็วและมี false positive น้อยมาก
  • Anthropic ขอโทษโดยยอมรับว่าการเลือกใช้อุปกรณ์ป้องกันที่มองไม่เห็นเป็นการประนีประนอมที่ผิดพลาด และผู้ใช้ควรสามารถเห็นได้ว่าอุปกรณ์ป้องกันใดถูกนำมาใช้และเพราะเหตุใด
  • การเปลี่ยนแปลงครั้งนี้เกิดขึ้นหลังจากชุมชนนักวิจัย AI ออกมาต่อต้านอย่างหนักต่อการตัดสินใจใช้ข้อจำกัดแบบเงียบ ๆ กับผู้ใช้ที่พยายามกลั่น Fable ไปเป็นโมเดลคู่แข่ง
  • นักวิจารณ์เตือนว่าอุปกรณ์ป้องกันดังกล่าวอาจกระทบต่อบุคคลที่สามซึ่งพยายามประเมินโมเดลระดับ frontier ด้วย
  • Anthropic ระบุใน system card ว่าความสามารถของโมเดลรุ่นล่าสุดในการเร่งการพัฒนา AI เป็นเหตุผลที่ทำให้คำขอลักษณะนี้ตกเป็นเป้าหมาย และยังระบุว่า “การใช้ Claude เพื่อพัฒนาโมเดลคู่แข่งถือเป็นการละเมิดข้อกำหนดการให้บริการอยู่แล้ว”
  • ก่อนหน้านี้ Anthropic เคยกล่าวหาว่าคู่แข่งจากจีนอย่าง DeepSeek กลั่นความรู้จากโมเดลของตนอย่างไม่เหมาะสมในระดับ “อุตสาหกรรม”

1 ความคิดเห็น

 
GN⁺ 3 시간 전
ความเห็นจาก Hacker News
  • ผมค่อนข้างชอบ Claude Code แต่เห็นว่า guardrail ที่แก้พรอมป์ต์ของระบบแบบเรียลไทม์เพื่ออ้อมเจตนาเดิมแล้วค่อยส่งคำตอบกลับมา เป็นแบบอย่างที่อันตราย
    ถ้าจะล้มเหลวก็ต้องล้มเหลวอย่างชัดเจนและตรงไปตรงมา ไม่อย่างนั้นก็ยากเกินไปที่จะเชื่อถือได้
    หากมองในแง่ดีที่สุด Anthropic ดูเหมือนจะมองตัวเองเป็นเหมือน “ผู้ดูแล” บางประเภท แต่แนวคิดแบบ EAก็โผล่ออกมาชัดเกินไป และความเป็นพ่อปกครองก็ไม่ได้ดูดีนัก

    • จุดกึ่งกลางที่สมเหตุสมผลซึ่ง Anthropic น่าจะมุ่งหา คือให้เวลาองค์กรที่สร้างซอฟต์แวร์สำคัญและเป็นแกนหลักที่สุดได้ก้าวนำด้านความมั่นคงไซเบอร์ก่อน แล้วสุดท้ายจึงเปิดให้คนอื่นทั้งหมดเข้าถึงแบบเดียวกัน
      แต่ข้อชี้ว่ากับงานด้านความปลอดภัยที่ทำด้วยเจตนาดี guardrail แบบนี้กลับให้ผลตรงข้ามก็มีน้ำหนัก เพราะมันทำให้ผมใช้มันเพื่อทดสอบและเสริมความแข็งแกร่งให้ซอฟต์แวร์ของตัวเองไม่ได้
    • คำว่า “ผู้ดูแล” ก็มีความหมายไม่ต่างจากที่ Standard Oil มองตัวเองว่าเป็นผู้ดูแลน้ำมันนั่นแหละ
      การมองในแง่ดีกับการแต่งเรื่องอวยกันเองเป็นคนละอย่าง อย่าลืมว่า guardrail ที่แข็งกร้าวที่สุดของ Anthropic ไม่ได้มีไว้เพื่อความปลอดภัย แต่มีไว้เพื่อไม่ให้แล็บอื่นไล่ตามผลิตภัณฑ์ของตนทัน
      ดูเหมือนพวกเขาจะใส่ใจกับการขัดขวางการแข่งขันในตลาดเสรีมากกว่าการหยุดอาวุธชีวภาพ มัลแวร์ หรือคำพูดแสดงความเกลียดชัง
    • เห็นด้วย 100% การทำสิ่งที่แย่กว่าก็เป็นข้อผิดพลาดเหมือนกัน ต้องนับเป็นข้อผิดพลาด
      อย่างน้อยพฤติกรรมแบบนั้นควรเป็นทางเลือก ไม่ใช่ตั้งค่าปริยายให้เงียบ ๆ ทำผลลัพธ์ที่แย่กว่าแล้วทำเหมือนไม่มีอะไรเกิดขึ้น
      ลองนึกภาพสถานพยาบาลที่บางครั้งอ่านผลตรวจแบบลวก ๆ จนยอมรับความเสี่ยงให้คนไข้ตายได้ ตอนนี้สถานพยาบาลก็ใช้ Claude อยู่ ดังนั้นสถานการณ์นี้ไม่ใช่เรื่องสมมุติ
    • ถ้าตัดเรื่องความเป็นพ่อปกครองออกมาดูอย่างเดียว มันก็อาจดูไม่ดี แต่การบอกว่าจะมองในแง่ดีที่สุด ขณะเดียวกันก็ไม่พูดถึงว่า Anthropic พยายามจะป้องกันอะไรอยู่ ก็ดูขี้เกียจไปหน่อย
      ถ้าข้อสรุปคือ “ความกังวลของพวกเขาไม่เคยเป็นเรื่องจริงตั้งแต่แรก” ก็มีโอกาสสูงว่าจะไม่สอดคล้องกับสิ่งที่ Anthropic สังเกตและสรุปมา
    • จริง ๆ แล้วผมไม่แน่ใจว่านี่ต่างจากsystem promptมากแค่ไหน
      ท้ายที่สุดมันก็ใกล้เคียงกับการพยายามย้ำให้หนักแน่นขึ้นว่าต้องเคารพ system prompt อย่างเคร่งครัด
  • ลองนึกภาพว่า Excel แอบเปลี่ยนสูตรอยู่เงียบ ๆ ในเบื้องหลัง แล้วผู้ใช้ไม่รู้ว่าตัวเลขที่ได้ผิด
    หรือถ้า Excel บอกว่า “ขออภัย สูตรนี้ใช้ร่วมกับสูตรนั้นไม่ได้” หรือ “ใช้กับตัวเลขประเภทนี้หรือข้อมูลหน้าตาแบบนี้ไม่ได้” จะเป็นอย่างไร

    • Anthropic ทำทั้งสองอย่างนั้น แต่ขอโทษเฉพาะอย่างแรก ส่วนอย่างที่สองกลับยิ่งผลักดันต่อ
      จากที่ได้ลองใช้ Fable แบบจำกัดอยู่ไม่กี่วันที่ผ่านมา ผมไม่เห็นว่าคุณภาพผลลัพธ์ดีขึ้น และพอขอให้ช่วยอุดช่องโหว่ความปลอดภัย มันก็ติดกำแพงความปลอดภัยตลอด จนใช้กับการเขียนซอฟต์แวร์ที่ปลอดภัยไม่ได้เลย
      สัปดาห์หน้าผมว่าจะลองหาผู้ให้บริการ LLM รายอื่นและเทียบกับโมเดลรันในเครื่องด้วย เป้าหมายคือ 128GB Strix Halo ถ้าใครมีประสบการณ์ก็อยากฟัง
    • อุปมานั้นไม่ถึงกับใช้ไม่ได้ แต่เพราะมันไปแตะทั้งสองปัญหาคนละเรื่อง จึงอาจทำให้ประเด็นที่เป็นเป้าโต้เถียงในวันนี้พร่าเลือนไป
      อย่างหนึ่งคือพฤติกรรมที่ไม่แม่นยำและคาดเดาไม่ได้ของตระกูลอัลกอริทึม LLM โดยรวม หมายถึงคุณไม่ควรใช้เครื่องมือสร้างเอกสารมาคำนวณงบประมาณ หรือเชื่อว่ามันจะไม่เปลี่ยนสิ่งที่คุณบอกให้ “แก้”
      อีกอย่างคือปัญหาที่ผู้ให้บริการผลิตภัณฑ์แบบบริการใส่กับดักและสิ่งกีดขวางเข้าไปเพื่อให้ความสำคัญกับโมเดลธุรกิจหรือแรงจูงใจทางเศรษฐกิจของตน เรื่องนี้ไม่ได้จำกัดอยู่แค่ LLM เท่านั้น
    • ลองนึกภาพว่าเครื่องพิมพ์ปฏิเสธการพิมพ์เพียงเพราะมีวงกลมหลายวงจัดเรียงกันเป็นรูปทรงบางแบบ
      https://en.wikipedia.org/wiki/EURion_constellation
    • เป้าหมายของ Excel ค่อนข้างชัดเจนและขอบเขตก็เล็ก จึงไม่ใช่อุปมาที่ตรงทั้งหมด
      การห้ามแชตบอตข้อความอเนกประสงค์ที่คล้ายมนุษย์ไม่ให้ทำบทสนทนาหรืองานบางอย่าง ดูเป็นเรื่องธรรมชาติเมื่อพิจารณาว่าช่วงความสามารถของมันกว้างมากเพียงใด อย่างไรเสีย เครื่องมือพวกนี้ก็ไม่ได้ขายในฐานะบัตรผ่านเสรีให้ทำอะไรก็ได้ตามใจ
    • ทุ่มเงินหลายพันล้านดอลลาร์กับเวลาทำงานหลายเดือนไปแล้ว จะปล่อยให้ทุกคนมาdistillโมเดลกันหมดก็คงไม่ได้หรอก
  • ผมไม่คิดว่าจะสามารถโน้มน้าวได้จริงว่า Anthropic เปลี่ยนทิศทางกลับแล้ว นี่เป็นพฤติกรรมที่มองไม่เห็น จึงแอบทำต่อไปได้โดยไม่มีใครรู้
    เมื่อสร้างขีดความสามารถทางเทคนิคไว้แล้ว ความเป็นไปได้ที่ฟังก์ชันใช้งานสะดวกแบบนี้จะไม่ถูกใช้อีกเลยก็น้อยมาก
    Anthropic พึ่งพาความเชื่อใจว่าตนจะให้บริการตามที่รับเงินและสัญญาไว้ แต่ความเชื่อใจนั้นแตกหักไปแล้ว แค่พูดว่า “อุ๊บส์ งั้นย้อนกลับ” ไม่ทำให้ความเชื่อใจกลับคืนมา
    ต่อไปเวลาใช้ Claude ไม่ว่าจะเป็น Fable หรือไม่ การตั้งสมมุติฐานว่าอาจมีguardrail ที่มองไม่เห็นทำงานอยู่ น่าจะเป็นท่าทีที่รอบคอบกว่า

    • ก่อนหน้านี้ก็เคยมีเหตุการณ์ที่โมเดลเหมือนถูกลดความสามารถลงเองแบบมหัศจรรย์มาแล้ว การปล่อยผลลัพธ์ที่แย่ลงแทนที่จะหยุดทำงานไปเลยฟังดูเป็นไปได้กว่ามาก
      ผมเดาว่าพวกเขากำลังทดสอบฟีเจอร์เหล่านี้อยู่ หรือไม่ก็ตั้งใจทำ แล้วค่อยเขียนบทความเพื่อหาเหตุผลรองรับสิ่งที่ผู้คนสังเกตเห็น
      ตอนนี้แม้แต่การเรียน ML ผมก็ไว้ใจ Claude ไม่ได้แล้ว เพราะมันอาจพาผมออกนอกทางระหว่างทาง ซึ่งน่าอับอายมาก เหตุการณ์ครั้งนี้ทำให้ผมสูญเสียความเชื่อมั่นต่อ Anthropic ไปมาก
  • เหตุการณ์นี้ทำให้ภาพลักษณ์ของ Anthropic แย่ลงมาก จนยากจะมองคำโฆษณาที่ว่า AI เป็น เทคโนโลยีที่เสริมศักยภาพ อย่างจริงจังได้อีก
    จากวิธีการปล่อยใช้งานแบบใหม่นี้ ค่อนข้างชัดเจนว่าสิ่งที่ Anthropic เรียกว่าการเสริมศักยภาพนั้นไม่ได้มีไว้เพื่อผู้ใช้ แต่มีไว้เพื่อตัว Anthropic เอง และองค์กรที่ได้รับความโปรดปรานจากพวกเขาหรือรัฐบาลสหรัฐฯ
    ผู้ใช้อาจให้มันช่วยทำแดชบอร์ดหรือเว็บแอปแบบคร่าว ๆ หรือจัดการ Excel ได้ แต่ถ้าเป็นงานที่น่าสนใจกว่านั้นกลับถูกห้าม
    ถ้าเป็นแค่เรื่องเงินกับการสกัดคู่แข่งก็อาจยังพอเข้าใจได้ แต่พวกเขาดูเหมือนกำลังพยายามผูกขาดความก้าวหน้าของมนุษย์ส่วนใหญ่ไว้ในมืออัน “รู้ดีกว่า” ของตนเอง เพราะกลัวว่าคนทั่วไปจะใช้อำนาจนี้ผิดทาง

    • อย่าลืมด้วยว่าพวกเขากำลังผลักดัน regulatory capture โดยอ้างเรื่อง “ความปลอดภัย”
      เป้าหมายคือเตะบันไดทิ้งก่อนที่ใครก็ตามจะปล่อยโมเดลสมรรถนะเทียบเท่ากันออกมาโดยไม่มีมาตรการป้องกันเชิงต่อต้านการแข่งขันแบบนี้ และในเวลาเดียวกันก็พยายามแบนโมเดลแบบ open weights หรือโมเดลที่ฝึกด้วยปริมาณคอมพิวต์เกินระดับหนึ่งทั้งหมด หากไม่ผ่านการทดสอบและการรับรองจากภาครัฐแบบ “เข้มงวด”
      และแน่นอนว่า Anthropic ก็จะเป็นผู้จัดหา framework สำหรับการรับรองนั้นอย่างสะดวกพอดี คำพูดว่าแค่ “มอง Anthropic แย่ลงนิดหน่อย” นั้นเบาเกินไปมาก
    • เมื่อวานฉันยกเลิกการสมัคร Claude ไปแล้ว เพราะได้รู้ว่าพวกเขาจงใจขัดขวางลูกค้าที่จ่ายเงิน
      โดยเฉพาะเมื่อวานฉันลองใช้ Fable กับโปรเจ็กต์ที่ไม่เป็นพิษเป็นภัยงานหนึ่ง แล้วมันก็ดูไม่น่าประทับใจเมื่อเทียบกับ Opus
      การย้อนกลับถือเป็นการตัดสินใจที่ถูกต้อง แต่ตอนนี้ฉันไม่แน่ใจแล้วว่าการใช้ Anthropic ยังเป็นทางเลือกที่ดีที่สุดสำหรับฉันหรือไม่ ตอนนี้กำลังหาข้อมูลเรื่อง ผู้ให้บริการคลาวด์โอเพนซอร์ส อยู่
    • Google ก็ทำอะไรคล้ายกันมานานก่อน Anthropic แล้ว[0]
      เพื่อปกป้องโมเดลจาก การโจมตีแบบ distillation พวกเขาถึงกับลดประสิทธิภาพของโมเดลลงแบบเงียบ ๆ โดยที่ผู้ใช้ไม่รู้ตัว จนเทียบได้กับการปนเปื้อนข้อมูลฝึกไปโดยพฤตินัย
      มันต่างจากกรณีที่ Anthropic ปฏิเสธการสนับสนุนการพัฒนา AI โดยตรงอยู่บ้าง แต่ก็อยู่ในบริบทเดียวกัน และดูเหมือนจะไม่ได้เป็นที่รู้จักอย่างกว้างขวาง
      ถ้าอ่านโพสต์ AI Threat Tracker ของ Google ทั้งหมด ก็จะช่วยให้เข้าใจภัยคุกคามที่ Anthropic และเจ้าอื่น ๆ กำลังรับมืออยู่ด้วย
      [0] https://cloud.google.com/blog/topics/threat-intelligence/dis...
    • แนวคิดแบบ “มีแค่ฉันเท่านั้นที่ช่วยพวกเราได้” เป็นทั้งโศกนาฏกรรมคลาสสิกและนิทานเตือนใจ
      ความคิดของ Anthropic ที่จะเร่งผลักดัน AI ควบคู่กับการควบคุมการใช้งานเพื่อทำให้มัน “ปลอดภัย” สำหรับมนุษยชาตินั้นไม่เคยเป็นความหวังดีล้วน ๆ และเป็น สัญญาณอันตรายขนาดใหญ่ มาแต่แรก
    • สุดท้ายแล้วบริษัทก็ต้องลงเอยด้วยการทำแบบนี้ พวกมันใหญ่เกินไปแล้ว และแรงกดดันเรื่องกำไรก็กลายเป็นทุกสิ่งทุกอย่าง
      ลำดับความสำคัญคือกำไร ต่อให้เขียนถ้อยคำสวยหรูลงบนกระดาษเพื่อให้ผู้ใช้สบายใจก็ไม่เปลี่ยนอะไร ดูอย่าง ขบวนการรักษ์สิ่งแวดล้อม เมื่อ 20 ปีก่อน มีแต่คำพูดแต่ไม่มีการลงมือทำ
      อย่าไปสนับสนุนองค์กรที่ไม่ได้ให้มนุษย์มาก่อน อย่าเชื่อคำพูดของใครทั้งนั้น การพูดเอาใจไม่ต้องเสียอะไรเลย
  • จะมองว่าเป็นการปรับปรุงก็ได้ แต่ไม่ได้ทำให้โมเดลมีประโยชน์ขึ้น
    ตอนนี้ Anthropic กำลังบอกอย่างค่อนข้างโจ่งแจ้งว่าพวกเขาจะเป็นคนกำหนดเองว่าผู้ใช้ทำอะไรกับโมเดลของตนได้หรือไม่ได้ ที่สำคัญกว่านั้นคือเกณฑ์นี้ไม่ได้จำกัดอยู่แค่ข้อกังวลด้านความปลอดภัย แต่ครอบคลุมไปถึงพื้นที่ที่ทับซ้อนกับสิ่งที่ Anthropic เองต้องการทำด้วย เช่น การแบนงานด้าน AI
    สิ่งที่น่าสนใจคือพวกเขาบอกว่าจะเปลี่ยนสิ่งนี้ให้เป็นการปฏิเสธอย่างชัดแจ้งภายในไม่กี่วัน ซึ่งเร็วเกินกว่าจะรีเทรน Fable/Mythos เองได้ นั่นหมายความว่าตั้งแต่แรกมันเป็นฟิลเตอร์ที่วางไว้หน้าตัวโมเดล และเมื่อดูจากความหยาบของฟิลเตอร์ “ความปลอดภัย” นี้แล้ว ฟิลเตอร์แบบ “คุณอาจแข่งกับเราได้” ก็คงไม่ได้ดีกว่ากันเท่าไร
    ฉันก็สงสัยเหมือนกันว่าใครเป็นคนจ่ายค่า token ที่ฟิลเตอร์กินไป นี่ก็น่าจะเป็น LLM เหมือนกันหรือเปล่า แล้วมันถูกรวมอยู่ในค่า input token หรือไม่ หวังว่าอย่างน้อยมันคงไม่ใช่ regex แบบตัวตรวจจับ “อารมณ์” ของ Claude Code หรือก็คือตัวตรวจจับคำหยาบ

    • ผู้ให้บริการรายใหญ่ทุกเจ้าล้วนใช้ ตัวจำแนกความปลอดภัย ขนาดเล็ก ในกรณีแบบนี้การจัดการด้านความปลอดภัยไม่ได้ให้ตัวโมเดลรับผิดชอบเอง
  • ฉันได้ประสบการณ์และข้อสรุปแบบเดียวกับโพสต์ใน /r/MachineLearning
    แม้ก่อน Fable, Claude ก็สร้างปัญหาในลักษณะเดียวกันอยู่แล้ว
    ปัญหาที่ฉันเจอเกิดขึ้นเฉพาะในสถานการณ์ที่เกี่ยวข้องกับ การวิจัย AI เท่านั้น ไม่ใช่แค่การฝึกโมเดล แม้แต่การวิเคราะห์โมเดลบนเครื่องหรือการตั้งค่าแพลตฟอร์มทดสอบสำหรับโมเดลบนเครื่อง Claude ก็ยังทำสิ่งที่ผิดอยู่เรื่อย ๆ ขัดขวางการทดสอบ บิดเบือนรายงาน และเสนออย่างสม่ำเสมอให้ยอมรับผลลัพธ์ขยะแล้วข้ามต่อไป
    แทบทุกคำตอบมีพรอมป์ให้ข้ามไปขั้นถัดไป
    เพราะอย่างนั้นฉันจึงไม่เชื่อคำพูดที่ว่าพวกเขาจะไม่ขัดขวางแบบเงียบ ๆ พวกเขาทำอยู่แล้วตั้งแต่ก่อนยอมรับเสียอีก และตอนนี้ก็เหมือนยอมรับแล้วว่ามีทั้งวิธีการ แรงจูงใจ และเจตนา

  • ความเชื่อใจนั้นเสียไปง่าย แต่เอาคืนยาก
    จะไปโทษคนที่พูดว่า “ต่อให้บอกว่าจะไม่แทรกแซงเซสชันแบบเงียบ ๆ แล้วเราจะรู้ได้อย่างไร?” ก็ไม่ได้ เพราะจริง ๆ แล้วไม่มีทางรู้ และ Anthropic ก็ได้หว่าน เมล็ดพันธุ์แห่งความสงสัย ไว้อย่างชัดเจนแล้ว

  • มองในแง่ดีที่สุด Mythos ก็เป็นแค่อัปเกรดแบบค่อยเป็นค่อยไปของ Opus
    การโหมประชาสัมพันธ์เกินจริงดูใกล้เคียงกับการใช้เพื่อสร้างความชอบธรรมให้ “รั้วความปลอดภัย” มากกว่า โดยรวมแล้วเมื่อคิดถึงข้อจำกัดทั้งหมด ความเสี่ยง และนโยบายการเก็บข้อมูล Fable ก็เป็น โมเดลที่แย่กว่า Opus

  • นี่คือโพสต์ที่เกี่ยวข้อง ถ้ามีอีกก็อยากรู้เหมือนกัน
    Anthropic walks back policy that could have 'sabotaged' researchers using Claude - https://news.ycombinator.com/item?id=48485958 - มิถุนายน 2026, ความเห็น 30 รายการ
    Cybersecurity researchers aren't happy about the guardrails on Anthropic's Fable - https://news.ycombinator.com/item?id=48478969 - มิถุนายน 2026, ความเห็น 488 รายการ
    If Claude Fable stops helping you, you'll never know - https://news.ycombinator.com/item?id=48467896 - มิถุนายน 2026, ความเห็น 495 รายการ
    อันพวกนี้ก็ดูจะเกี่ยวข้องเหมือนกัน
    AWS Bedrock to require sharing data with Anthropic for Mythos and future models - https://news.ycombinator.com/item?id=48473166 - มิถุนายน 2026, ความเห็น 248 รายการ
    Anthropic requires 30 day data retention for Fable and Mythos - https://news.ycombinator.com/item?id=48464258 - มิถุนายน 2026, ความเห็น 291 รายการ

  • อันนี้ไร้สาระจริง ๆ
    กรณีที่ทำซ้ำได้, ทำให้ไม่สามารถระบุตัวตนได้แล้ว: sample_dataset_group1.tsv
    Geometry: Heatmap
    X axis: frac_set set + condition, รวมสองคอลัมน์แบบไขว้กันด้วย “Add column”
    Y axis: condition
    Color: mean frac_set value, Sequential
    แกน X เป็นการรวมกันแบบไขว้ของสองคอลัมน์ และเมื่อเพิ่มคอลัมน์ที่สองด้วย “Add column” ป้ายกำกับ tick บนแกน x สำหรับ frac_set_2, frac_set_3, frac_set_4, frac_set_5 จะเรนเดอร์ออกมาเพี้ยน หมุนและเยื้องตำแหน่ง เหมือน CSS transition เริ่มทำงานแล้วแต่ไม่เคยไปหยุดที่ตำแหน่งสุดท้าย
    แต่กลับมีข้อความขึ้นมาว่า “มาตรการความปลอดภัยของ Fable 5 ได้ทำเครื่องหมายข้อความนี้ว่าเกี่ยวข้องกับหัวข้อความปลอดภัยไซเบอร์หรือชีววิทยา เนื้อหาที่ปลอดภัยและเป็นปกติก็อาจถูกทำเครื่องหมายได้ มาตรการนี้ช่วยให้เราส่งมอบประสิทธิภาพระดับ Mythos ในด้านอื่น ๆ ได้เร็วขึ้น และเรากำลังปรับปรุงอยู่ ขณะนี้ได้สลับไปใช้ Opus 4.8 แล้ว ส่งความเห็นได้ที่ /feedback หรือเรียนรู้เพิ่มเติม”

    • ในกรณีของฉัน คำถามเกี่ยวกับงานวิจัย reinforcement learning ที่หายากจากปี 2012 ถูกทำเครื่องหมาย
      “ฉันกำลังอ่านงาน option-option model ของ David Silver อยู่ ดูเหมือนว่าจะได้ผลค่อนข้างดี แล้วทำไมหลังจากนั้นถึงไม่มีงานวิจัยตามมาอีกมากกว่านี้?”
    • ประโยคนี้โดนฟิลเตอร์ด้านความปลอดภัยไซเบอร์/ชีววิทยา
      “เล่าให้ฟังหน่อยเกี่ยวกับความรุนแรงของชิมแปนซี”
      แย่จนน่าขำ