1 คะแนน โดย GN⁺ 3 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ไบนารีของ Claude Code 2.1.196 มีฟังก์ชันที่ซ่อน สัญญาณการจัดประเภทภายในคำขอ โดยเปลี่ยนประโยควันที่ปัจจุบันใน system prompt
  • ตัวกระตุ้นคือ ANTHROPIC_BASE_URL; หากไม่ใช่ api.anthropic.com อย่างเป็นทางการ หรือมีการตั้งค่าไว้ ระบบจะตรวจสอบชื่อโฮสต์และเขตเวลา แล้วเปลี่ยน เครื่องหมายอะพอสทรอฟีและตัวคั่นวันที่
  • ชื่อโฮสต์จะถูกนำไปเทียบกับรายการโดเมนและคีย์เวิร์ดที่ถอดรหัสจากสตริง base64 ด้วยคีย์ XOR 91 ซึ่งมีรายการอย่าง deepseek, zhipu, moonshot, baidu.com, bytedance.net, proxyai.com
  • หากใช้ Anthropic API endpoint อย่างเป็นทางการ หรือไม่มี ANTHROPIC_BASE_URL ระบบจะคืนค่าก่อนกำหนด ทำให้ยังคงรูปแบบปกติอย่าง Today's date is 2026-06-30.
  • แม้จะยังสรุปไม่ได้ว่าเป็นฟีเจอร์อันตราย แต่เมื่อเครื่องมือสำหรับนักพัฒนาที่มีสิทธิ์เข้าถึงไฟล์ระบบและเชลล์ซ่อนข้อมูลการจัดประเภทไว้ด้วย เครื่องหมาย Unicode ที่มองไม่เห็น ก็ย่อมกระทบต่อความเชื่อมั่น

มาร์กเกอร์ที่ซ่อนอยู่ในประโยควันที่

  • ในไบนารีของ Claude Code มีฟังก์ชันที่เปลี่ยนสตริงวันที่ปัจจุบันซึ่งถูกใส่เข้าไปใน system prompt
  • ประโยคเริ่มต้นมีรูปแบบดังนี้
    • Today's date is 2026-06-30.
  • มีอยู่ 2 จุดที่อาจถูกเปลี่ยน
    • เครื่องหมายอะพอสทรอฟี ใน Today's
    • ตัวคั่นวันที่: เปลี่ยนจาก - เป็น /
  • ประโยคที่ได้ภายนอกดูเหมือนข้อความแจ้งวันที่ทั่วไป แต่ในคำขอดิบจะมี มาร์กเกอร์ที่ซ่อนอยู่
  • นี่เป็นการซ่อนข้อมูลไว้ในสิ่งที่ดูเหมือนข้อความธรรมดา จึงเข้าข่าย prompt steganography

เส้นทางแบบมีเงื่อนไขที่ ANTHROPIC_BASE_URL เป็นตัวเปิด

  • ตัวกระตุ้นคือ ANTHROPIC_BASE_URL ซึ่งเป็นการ override API base URL ของ Claude Code
  • หากไม่มี ANTHROPIC_BASE_URL ฟังก์ชันจะคืนค่าก่อนกำหนด
  • ต่อให้มีค่าอยู่ แต่ถ้าโฮสต์เป็น api.anthropic.com ก็จะออกไปตามเส้นทางเดียวกัน
  • จะตรวจสอบเงื่อนไขต่อไปนี้ก็ต่อเมื่อไม่มีการคืนค่าก่อนกำหนด
    • เขตเวลาของระบบเป็น Asia/Shanghai หรือ Asia/Urumqi
    • ชื่อโฮสต์ของ API base URL ตรงกับรายการโดเมนที่ถอดรหัสแล้ว หรือเป็นซับโดเมนของรายการนั้น
    • ชื่อโฮสต์มีคีย์เวิร์ดของแล็บ AI บางรายการอยู่หรือไม่

ข้อมูลที่ถูกเข้ารหัสในวันที่และอะพอสทรอฟี

  • หากเขตเวลาเป็น Asia/Shanghai หรือ Asia/Urumqi รูปแบบวันที่จะเปลี่ยนไป
    • 2026-06-302026/06/30
  • เครื่องหมายอะพอสทรอฟีใน Today's จะเปลี่ยนตามผลการจัดประเภทของชื่อโฮสต์
    • ทั่วไป: '
    • โดเมนที่รู้จัก: \u2019
    • คีย์เวิร์ดของแล็บวิจัย: \u02BC
    • ทั้งเป็นโดเมนที่รู้จักและมีคีย์เวิร์ดของแล็บวิจัย: \u02B9
  • อักขระ Unicode เหล่านี้ในฟอนต์ monospace ส่วนใหญ่ แทบมองไม่เห็นความแตกต่างทางสายตา ทำให้สังเกตได้ยาก

รายการโดเมนและคีย์เวิร์ดที่ซ่อนอยู่

  • รายการโดเมนและคีย์เวิร์ดถูกเก็บเป็นสตริง base64 และถอดรหัสด้วยคีย์ XOR 91
  • รายการคีย์เวิร์ดของแล็บวิจัยที่ถอดรหัสแล้วมีดังนี้
    • deepseek
    • moonshot
    • minimax
    • xaminim
    • zhipu
    • bigmodel
    • baichuan
    • stepfun
    • 01ai
    • dashscope
    • volces
  • รายการโดเมนที่ถอดรหัสแล้วมีขนาดใหญ่กว่า และรวมถึงโดเมนของบริษัทจีน บริษัท AI รวมถึงโดเมนของพร็อกซี รีเซลเลอร์ และเกตเวย์
  • ตัวอย่างรายการมีดังนี้
    • cn
    • baidu.com
    • alibaba-inc.com
    • alipay.com
    • antgroup-inc.cn
    • bytedance.net
    • kuaishou.com
    • xiaohongshu.com
    • jd.com
    • bilibili.co
    • iflytek.com
    • stepfun-inc.com
    • moonshot.ai
    • anyrouter.top
    • claude-code-hub.app
    • claude-opus.top
    • openclaude.me
    • proxyai.com
    • yunwu.ai
    • zenmux.ai
  • สามารถดูรายการทั้งหมดได้ที่ cc-domains.js

ตำแหน่งที่ถูกใส่เข้าไปใน system context

  • ผลลัพธ์จากฟังก์ชันวันที่จะถูกใส่เป็นค่า currentDate ระหว่างการประกอบ agent context
  • ใน context เดียวกันนี้ อาจมีข้อมูลโปรเจกต์ที่เชื่อมโยงกับอีเมลผู้ใช้รวมอยู่ด้วยตามเงื่อนไข
  • ดังนั้นมาร์กเกอร์นี้จึงกลายเป็นส่วนหนึ่งของ system context ที่ถูกส่งไปยังโมเดล
  • ยังมีความเป็นไปได้ด้วยว่าแบ็กเอนด์ของ Anthropic อาจพาร์สค่านี้

สภาพแวดล้อมการติดตั้งที่ยืนยันแล้ว

  • ไบนารี Claude Code ที่ตรวจสอบแล้วเป็นไฟล์ที่ลงลายเซ็นโดย Anthropic
    • Identifier=com.anthropic.claude-code
    • TeamIdentifier=Q6L2SF6YDW
    • Timestamp=Jun 29, 2026
    • SHA256=6fc6e61ab7582c2bf241225ff90d9f79e91d69380cb9589fc9dedd3a30070f5a
  • ตอนที่ตรวจสอบ ไม่มีการตั้งค่า ANTHROPIC_BASE_URL ในเชลล์ และเขตเวลาเป็น Asia/Hong_Kong
  • ในสภาพแวดล้อมนี้ ระบบจะสร้างอะพอสทรอฟีแบบปกติและสตริงวันที่แบบ YYYY-MM-DD

กรณีใช้งานที่ได้รับผลกระทบและข้อจำกัด

  • ผู้ใช้ส่วนใหญ่อาจปล่อยให้เส้นทางนี้ไม่ทำงานอยู่ตลอด
  • หากใช้ Anthropic API endpoint อย่างเป็นทางการ หรือไม่มี ANTHROPIC_BASE_URL prompt วันที่จะยังคงอยู่ในรูปแบบปกติ
  • กรณีที่น่าสนใจคือเมื่อมีการส่ง Claude Code ผ่าน base URL แบบกำหนดเอง
    • เกตเวย์ภายใน
    • local proxy
    • model router
    • รีเซลเลอร์
    • สภาพแวดล้อมวิจัย
  • ในกรณีนี้ Claude Code จะจัดประเภทชื่อโฮสต์และเข้ารหัสผลลัพธ์นั้นลงใน prompt
  • วิธีหลีกเลี่ยงทำได้ไม่ยาก
    • เปลี่ยนชื่อโฮสต์
    • เปลี่ยนเขตเวลา
    • แพตช์ไบนารี
    • ห่อโปรเซส
  • ผู้โจมตีที่จริงจังสามารถทำให้สัญญาณนี้ใช้การไม่ได้ ดังนั้นคนที่มีแนวทางตั้งค่าที่แปลกแต่ถูกต้องตามกฎหมายจึงอาจกลายเป็นเป้าหมายการเก็บลายนิ้วมือได้ง่ายกว่า

วิธีการติดตั้งที่บั่นทอนความเชื่อมั่น

  • เป็นไปได้ว่า Anthropic ต้องการตรวจจับ API รีเซลเลอร์, Claude Code gateway ที่ไม่ได้รับอนุญาต, หรือไปป์ไลน์โจมตีแบบ model “distillation attack”
  • หาก ANTHROPIC_BASE_URL แบบกำหนดเองชี้ไปยังโดเมนรีเซลเลอร์ที่รู้จัก หรือชื่อโฮสต์มี deepseek, zhipu อยู่ ก็อาจถูกใช้เป็นสัญญาณตรวจจับได้
  • ปัญหาคือวิธีการติดตั้งนี้เอง
    • เปลี่ยน system prompt อย่างเงียบ ๆ
    • เข้ารหัสข้อมูลการจัดประเภทพร็อกซี/เกตเวย์ไว้ในตำแหน่งที่ดูเหมือนประโยคภาษาอังกฤษธรรมดา
    • ซ่อนรายการโดเมนไว้หลัง XOR และ base64
  • เอเจนต์สำหรับการเขียนโค้ดสามารถตรวจโค้ดบนเครื่องโลคัล รันคำสั่ง ติดตั้งแพ็กเกจ แก้ไขไฟล์ ไปจนถึง push commit ได้
  • หากต้องการตรวจจับ API gateway แบบกำหนดเอง ก็ยังสามารถใช้วิธีอย่างฟิลด์ telemetry แบบชัดเจนที่มีเอกสารอธิบาย นโยบายสาธารณะ หรือ release note ได้
  • เมื่อเครื่องมือที่มีสิทธิ์เข้าถึงไฟล์ระบบและเชลล์ซ่อนบิตการจัดประเภทไว้ในเครื่องหมายวรรคตอนของ prompt ที่มองไม่เห็น ก็ยากจะเชื่อถือคำกล่าวอ้างเรื่องความเป็นส่วนตัวอื่น ๆ ได้เช่นกัน

1 ความคิดเห็น

 
GN⁺ 3 시간 전
ความคิดเห็นบน Hacker News
  • มีปฏิกิริยาบางส่วนที่ลดทอน ความร้ายแรงของการที่ผู้ให้บริการไม่เปิดเผยอย่างโปร่งใส ว่าเครื่องมือที่นำไปติดตั้งบนเครื่องของลูกค้าทำอะไรกันแน่
    การที่มีความจำเป็นทางธุรกิจไม่ได้แปลว่าไม่ต้องเปิดเผยอย่างตรงไปตรงมา
    การที่ถ้าเปิดเผยอย่างตรงไปตรงมาแล้ววิธีแก้ของพวกเขาจะใช้ไม่ได้ ก็ไม่ใช่ปัญหาของผม และกลับทำให้สงสัยด้วยซ้ำว่าถ้าพวกเขามองว่านี่ไม่เป็นไร แล้วบนเครื่องของผมพวกเขาอาจกำลังเก็บอะไรอย่าง ข้อมูลระบุตัวบุคคล เพิ่มเติมอยู่อีกหรือไม่
    หากมองแบบเสียดสี ก็รู้สึกว่าบรรยากาศในคอมเมนต์สะท้อนอารมณ์ที่มีต่อ AI/Anthropic/สหรัฐฯ มากกว่าจะเป็นการตัดสินประเด็นนี้โดยตรง

    • ตอนแรกคือ “คนจีน” ต่อไปจะขยายเป็นคนที่ใช้ความสามารถด้าน “ไซเบอร์”, คนที่ “เจลเบรก”, คนที่ “ขัดกับ Dario” หรือคนที่พวกเขา มองว่าไม่น่าพอใจ
    • ไม่ว่าคุณจะมองว่าการกระทำของ Anthropic แย่หรือไม่ Anthropic ก็พูดเสียงดังมากมาสักพักแล้วว่าแล็บต่างประเทศกำลัง กลั่นโมเดล ของตนอยู่
      นี่ดูเหมือนเป็นมาตรการตอบสนองที่สมเหตุสมผลเพื่อเปิดเผยข้อเท็จจริงนั้น
    • ก็แค่ใส่ watermark ลงในคำขอตาม environment variable และเปลี่ยนรูปแบบสตริงถ้าอยู่ในบางเขตเวลาไม่ใช่เหรอ? ผมพลาดอะไรไปหรือเปล่า? ไม่เข้าใจเลยว่าตรงไหนถึงเป็นเรื่องใหญ่ระดับไฟไหม้ครั้งใหญ่
    • ถ้า “ความจำเป็นทางธุรกิจของผู้ให้บริการเรียกร้องให้ทำแบบนี้” เป็นความจริง นั่นก็เป็นอีกเหตุผลหนึ่งที่ทำให้ธุรกิจนั้นเป็น ธุรกิจที่ไม่ชอบธรรม
    • ดูเหมือนจะมีจุดยืนทางการเมือง แต่ดูไม่เข้าใจเลยว่า บริการคลาวด์ ทำงานอย่างไร
  • ตัดสินคุณค่าไว้ก่อน สิ่งที่น่าประหลาดใจเล็กน้อยคือพวกเขา ทำออกมาได้หละหลวม ขนาดนี้
    น่าจะทำให้ได้ผลลัพธ์แบบเดียวกันพร้อมลดโอกาสถูกตรวจเจอด้วย reverse engineering ได้
    วงการนี้เป็นที่รู้จักจาก “underhanded code” ที่ Underhanded C Contest ทำให้เป็นที่รู้จัก: https://www.underhanded-c.org
    เป็น “ทักษะเชิงศิลป์” ที่ไม่ค่อยมีคนรู้จัก ซึ่งเหตุผลก็คงชัดเจนอยู่แล้ว มีวิธีที่ฉลาดกว่านี้มากในการบรรลุเป้าหมายแบบนี้
    วิธีที่เห็นได้ชัดวิธีหนึ่งคือย้ายงานจากไคลเอนต์ไปไว้บนเซิร์ฟเวอร์ให้มากขึ้น และอีกวิธีคือเขียนโค้ดฝั่งไคลเอนต์ที่ปฏิเสธได้อย่างน่าเชื่อถือให้ดูไม่มีพิษภัยกว่านี้มาก
    บางส่วนที่เพิ่มเข้ามาทำได้เฉพาะบนไคลเอนต์ แต่บางส่วนย้ายออกไปได้ และแม้ส่วนที่จำเป็นต้องอยู่บนไคลเอนต์ก็น่าจะทำให้แนบเนียนและน่าเชื่อถือกว่านี้ได้
    ก็เป็นไปได้ว่าพวกเขารู้ว่า JS bundle ถูกตรวจสอบกันเยอะมาก สุดท้ายก็ต้องถูกค้นพบและรายงานข่าวอยู่ดี เลยไม่ได้ทำให้ลับและหลอกลวงกว่านี้ แต่ถึงอย่างนั้นก็ดูขาดความใส่ใจไปหน่อย

    • อาจมีวิธีตรวจจับเชิงลึกกว่านี้แยกต่างหากอยู่แล้ว และนี่เป็น แนวป้องกันด่านแรกที่ถูกและง่าย สำหรับจับผู้ไม่ประสงค์ดีที่ไม่ซับซ้อนจำนวนมาก จึงไม่ได้ถอดออก
      คงยากที่จะหยุดแล็บ AI รายใหญ่ที่ตั้งใจจริงในการกลั่นโมเดล แต่ A) อาจกันพวกผู้ค้าปลีก token แบบลวก ๆ ที่หวังทำเงินเร็วได้จำนวนมาก และ B) อาจมีใครบางคนในแล็บใหญ่เหล่านั้นลืมติดตั้งวิธีเลี่ยงจนเผยตัวเองออกมา
      ผมมองว่าคล้ายกับมีนกเยอะในสวนเลยซื้อนกฮูกพลาสติกมา นกฮูกไล่นกได้ส่วนใหญ่แต่ไม่ทั้งหมด ต่อให้คุณซื้ออุปกรณ์อัลตราซาวนด์เพิ่ม ก็ไม่มีเหตุผลต้องเอานกฮูกลง
      เพราะตอนนี้ชั้นป้องกันไม่ได้มีชั้นเดียว แต่มี สองชั้น
    • ถ้าคิดว่า Claude ถูกทำขึ้นแบบ vibe coding ความหละหลวมนี้ก็ไม่น่าประหลาดใจเลย
      ไม่ใช่เพราะโมเดลของ Anthropic แย่ แต่เพราะ Claude ดูเหมือนทำของใหม่ ๆ ที่น่ารำคาญพังวันละอย่าง ผมเลยย้ายไปใช้ Codex กับ OpenCode มากขึ้น
    • Claude Code กำลัง maximize แบบลวก ๆ อยู่ แล้วคุณยังพิจารณา “วิจารณญาณ” ของพวกเขาอยู่หรือ :-)
    • แนวทางนี้อาจน่าสนใจกว่านี้ได้มาก
      โมเดลภาษาขนาดใหญ่สามารถใช้การกระจายของ token เพื่อสร้าง steganotext ที่อ่านเหมือนร้อยแก้วสมจริง แต่ถอดรหัสออกมาเป็น payload ได้¹
      ¹ https://github.com/hodgesmr/calgacus-mlx
    • ตอนแรกผมเห็นด้วยว่านี่เป็นการทำที่หละหลวมและย่อมถูกจับได้เร็วแน่ ๆ แต่ก็มีความเป็นไปได้อีกอย่าง
      Anthropic อาจไม่ได้ทำสิ่งนี้เป็นระบบตรวจจับต่อเนื่องสำหรับผู้ค้าปลีกผ่านพร็อกซี แต่ทำเป็นระบบสุ่มเก็บตัวอย่าง ณ ช่วงเวลาหนึ่ง เพื่อดูว่าปัจจุบันมีการ ขายต่อผ่านพร็อกซี เกิดขึ้นที่ไหนและในบริบทใด
      สักวันหนึ่งก็จะถูกจับได้ แต่ก่อนถึงตอนนั้น Anthropic จะได้ข้อมูลสแนปช็อตที่มีประโยชน์
  • ข้อสรุปของบล็อกโพสต์นี้ออกจะตื่นตระหนกเกินไป
    เจตนาของ steganography นี้ชัดเจนมาก คือเพื่อระบุการใช้งานของบริษัทจีนที่อาจกำลัง กลั่นโมเดล อยู่
    ยังไม่ชัดเจนว่าสิ่งนี้ “ลงโทษนักพัฒนาทั่วไป” ในรูปแบบใด

    • หากต้องการ พร็อกซี Claude ด้วยเหตุผลที่ชอบธรรม คุณภาพของคำตอบอาจลดลงได้
      เหตุผลที่ชอบธรรมรวมถึงการวิเคราะห์ว่า Claude Code ส่งอะไรไปยัง Anthropic เพื่อตรวจสอบว่าไม่มีข้อมูลรั่วไหล, เลือกโมเดลแบบไดนามิกตามความยากของพรอมป์หรือบังคับใช้โมเดลบางตัว, สลับหลายบัญชี Anthropic ตามโปรเจกต์, กรองข้อมูลรับรอง·ข้อมูลระบุตัวบุคคล·ความลับของบริษัท เป็นต้น
    • ถ้าซอฟต์แวร์ที่รันบนเครื่องผู้ใช้แอบทำ การรั่วไหลของข้อมูลแบบ steganography ที่เหมือนมัลแวร์ นั่นเป็นปัญหาเรื่องความไว้วางใจ
    • บริษัทจีนที่ต้องการกลั่นผลิตภัณฑ์จะใช้ Claude Code ไปทำไม?
    • เราเคยเห็น false positive มาแล้ว เช่นตอนที่ Fable ลดคุณภาพเงียบ ๆ ตามพรอมป์/เซสชัน
    • เป้าหมายที่ดีก็ไม่อาจทำให้การดำเนินการที่มุ่งร้ายหรือบุ่มบ่ามกลายเป็นเรื่องชอบธรรมได้
      จุดประสงค์ไม่ได้ทำให้วิธีการชอบธรรมเสมอไป
      ไม่ว่าครั้งนี้จะมีความเสียหายเกิดขึ้นหรือไม่ นี่คือการละเมิด ความไว้วางใจและอำนาจตัดสินใจของผู้ใช้
      แม้จะมีแค่โค้ดที่คอยตรวจจับและฟ้องว่ามีใครบางคนเป็นศัตรูสาธารณะอันดับ 1 อย่างน้อยก็ในตอนนี้ แต่ถ้าแอบติดตั้ง rootkit ก็ย่อมต้องโกรธเป็นธรรมดา
  • Codex CLI ต่างจาก Claude Code ตรงที่เป็น ซอฟต์แวร์โอเพนซอร์สเสรี จึงมีโอกาสน้อยกว่าที่จะทำเรื่องแบบนี้ และนี่ก็เป็นอีกเหตุผลหนึ่งที่ควรหลีกเลี่ยง Claude Code รวมถึง Claude โดยรวม
    หวังว่าจะมีสายตาจำนวนมากช่วยตรวจดูพฤติกรรมมุ่งร้ายแบบนี้ใน Codex

    • สงสัยจริง ๆ ว่า ถ้าฉันจ่ายค่าสมัครสมาชิกและปฏิบัติตามเงื่อนไขอยู่ ทำไมฉันต้องสนใจด้วย?
      ฉันค่อนข้างกังขามากกับนโยบายความเป็นส่วนตัวหรือแนวปฏิบัติทางธุรกิจ แต่ก็อยากรู้ว่าสิ่งนี้ทำให้ฉันซึ่งเป็นลูกค้าเสียประโยชน์อย่างไร
      ถ้ามันช่วยยืดเวลาจนกว่าจะถูกตัดเงินอุดหนุนได้ จากมุมมองลูกค้าก็ดูเหมือนจะเป็นประโยชน์เสียด้วยซ้ำ
      แต่ถ้าพร็อกซีหลอกลวงพวกนี้ช่วยให้ห้องแล็บวิจัยจีนไล่ตามทัน ในระยะยาวมันก็อาจเป็นประโยชน์กับฉันในการมี AI ส่วนตัว คุณภาพสูงที่ฉันควบคุมได้อย่างสมบูรณ์บนฮาร์ดแวร์ของตัวเอง
      ไม่ได้หมายความว่าสนับสนุนนะ แต่ยอมรับว่ามีแรงจูงใจแบบนั้นอยู่
    • “มุ่งร้าย” เหรอ? ดูเหมือนเป็นวิธีที่ดีในการคัดกรองผู้ใช้ที่ละเมิดเงื่อนไข โดยไม่รบกวนผู้ใช้ปกติ
      การเป็นไคลเอนต์โอเพนซอร์สเสรีก็แค่หมายความว่าจะมีการวิเคราะห์เพิ่มเติมที่ทำแบบ ซ่อน ไว้บนเซิร์ฟเวอร์เท่านั้น
    • เท่าที่รู้ GitHub เป็นผู้เผยแพร่และลงนามให้
      แม้จะไม่ใช่บิลด์แบบกำหนดผลลัพธ์แน่นอน แต่ก็ยังมี การรับประกันแหล่งที่มา อยู่บ้างว่ามาจากรีโพซิทอรีจริง
    • Claude Code ไม่ได้รั่วออกมาแล้วเหรอ? ทำไมถึงไม่ถูกพบเร็วกว่านี้?
  • ปฏิกิริยาที่ว่า “ถ้าไคลเอนต์อยากตรวจจับ API gateway แบบกำหนดเอง ก็แค่พูดให้ชัดไปเลย ส่งฟิลด์ telemetry ระยะไกลแบบชัดเจนที่มีเอกสารกำกับ ทำให้นโยบายมองเห็นได้ และใส่พฤติกรรมนี้ใน release notes” ดูไร้เดียงสามาก
    ถ้าไคลเอนต์ส่งฟิลด์ telemetry ระยะไกลแบบชัดเจนไปยัง gateway, gateway มุ่งร้ายก็สามารถลบหรือแก้ไขฟิลด์นั้นให้ดูเหมือนทราฟฟิกปกติได้ง่ายมาก
    เหตุผลที่ เกมแมวไล่หนูแบบสเตกาโนกราฟี มีคุณค่า คือมันทำให้ gateway ต้องทำ reverse engineering กลไกการเก็บลายนิ้วมือทั้งหมดที่ถูกใช้อยู่ต่อเนื่อง ซึ่งยากกว่ามาก
    แน่นอนว่า gateway มุ่งร้ายบางส่วนก็จะตามทันต่อไป แต่ไม่ใช่ทั้งหมดที่จะทำได้ตลอดเวลา

    • จริง ๆ แล้ว ผู้เขียนดูเหมือนไม่เคยรับมือกับการใช้งานไคลเอนต์ในทางที่ผิดเลย
      ถ้าไม่ใช่ห้องแล็บกลั่นโมเดลของจีน เรื่องนี้ก็ ไม่มีปัญหาโดยสิ้นเชิง
    • อย่างน้อยก่อนถูกค้นพบ มันอาจทำงานได้ดีกว่า KYC อยู่พักหนึ่งด้วยซ้ำ
      เพราะตลาดสากลสำหรับบริการหลบเลี่ยง KYC นั้นพัฒนาไปมากแล้ว
  • ไม่ใช่แค่เครื่องมือ AI แต่เครื่องมือพัฒนาก็ควรถูกรันใน แซนด์บ็อกซ์ ด้วย
    ตัวอย่างเช่น ในคลังแพ็กเกจ Python หรือ JavaScript อะไรก็ถูกใส่เข้าไปได้ ไม่มีสัญญากับบริษัทแอนติไวรัส และไม่มีการตรวจสอบจากพลเมืองที่เชื่อถือได้ จึงไม่ควรรันโดยไม่มีแซนด์บ็อกซ์
    ลองคิดดูว่า ผู้ใช้นิรนามจากประเทศไหนก็ได้สามารถอัปโหลดอะไรก็ได้ และนักพัฒนาหลายล้านคนสามารถรันสิ่งนั้นบนคอมพิวเตอร์ของตัวเองได้
    IDE, ปลั๊กอิน IDE, เซิร์ฟเวอร์ LSP, ปลั๊กอิน AI ทั้งหมดก็ควรอยู่ในแซนด์บ็อกซ์
    ส่วนใหญ่ไม่ได้ถูกบริษัทแอนติไวรัสตรวจสอบ และไม่ควรรันแบบไร้ข้อจำกัด
    ยิ่งไปกว่านั้น มีทฤษฎีบทอยู่แล้วว่าไม่มีแอนติไวรัสใดรับประกันความปลอดภัยของโค้ดได้ 100%
    น่าสนใจที่เอกสาร pip ไม่ได้กล่าวถึงหัวข้อแซนด์บ็อกซ์หรือมัลแวร์เลยในเอกสาร “เริ่มต้นใช้งาน” ราวกับอยู่ในโลกอันงดงามที่ไม่มีคน บริษัท หรือรัฐประสงค์ร้าย
    อย่างน้อยก็หวังว่าใน HN จะไม่มีใครอยู่ในภาพลวงตาแบบนั้น
    เพราะอยากใช้ IDE, LSP, เครื่องมือ AI ก็เลยต้องเขียนระบบแซนด์บ็อกซ์ของตัวเองก่อน แต่ Linux มีให้แค่ primitive พื้นฐาน จึงกินเวลามาก
    ตัวอย่างเช่น หากต้องการควบคุมทราฟฟิกเครือข่ายทั้งหมดโดยไม่มีสิทธิ์ root ต้องสร้าง user namespace เพื่อให้ได้สิทธิ์ root, สร้าง network namespace, เขียน “ตัวเก็บทราฟฟิก” ที่รันอยู่ใน namespace และ pipe ข้อมูลออกไปยังโปรแกรม “ผู้ควบคุม” ภายนอก จากนั้นโปรแกรมผู้ควบคุมจึง route ทราฟฟิกไปยังปลายทาง
    แม้แต่การกรองและตรวจสอบทราฟฟิกแบบง่าย ๆ โดยไม่มีสิทธิ์ root, Linux ก็ยังบังคับให้ต้องทำงานมากเกินไป
    ไม่ควรทิ้งข้อมูลใด ๆ ไว้แม้แต่ในชื่อผู้ใช้หรือชื่อโฮสต์ อย่างที่บทความนี้พิสูจน์ ข้อมูลนั้นจะถูกใช้ เล่นงานคุณ

  • สรุปสิ่งที่ Anthropic ทำมาแล้วได้แบบนี้: คัดกรองคนที่อยู่ผิดฝั่งของ “มวลมนุษยชาติ” ออกตั้งแต่หลายปีก่อนที่รัฐบาลจะเรียกร้อง, ดาวน์เกรดโมเดลตามอำเภอใจ แล้วภายหลังตอบกลับในทำนอง “ขอโทษนะ แต่ก็ไม่ได้เสียใจอะไรเป็นพิเศษ”, และ ขัดขวางอย่างแข็งขัน ด้วยการแอบเปลี่ยนคำตอบเพื่อให้ผู้ใช้ได้ผลลัพธ์ที่ผิด
    ต่อไปควรคาดหวังอะไร? มัลแวร์ที่ทำให้เครื่องของผู้ใช้ที่ไม่ถูกใจกลายเป็นก้อนอิฐ? ขยายไปยังคนที่ไม่ถูกใจมากขึ้นอีก?
    รู้สึกเหมือนเริ่มเห็นแล้วว่าวิสัยทัศน์อนาคตยูโทเปียของ Dario Amodei เพื่อ “มวลมนุษยชาติ” จะคลี่คลายไปอย่างไร

    • ปฏิกิริยาตื่นตูมเกินเหตุของ HN น่าขัน
      ถ้ามองจากมุมที่ว่าคนเหล่านี้เชื่อจริง ๆ ว่าพวกเขากำลังสร้าง ปัญญาเหนือมนุษย์ ทุกอย่างก็เข้าใจได้
      คนส่วนใหญ่ท่วมท้นในฝ่ายความปลอดภัย AI ได้ทุ่มชีวิตและเวลาให้กับปัญหานี้มากกว่านักวิจารณ์นั่งเก้าอี้ใน HN ทั่วไปอย่างมาก และมองว่าต้องไม่ให้จีนไปถึงปัญญาเหนือมนุษย์ก่อน, การเข้าถึงปัญญาเหนือมนุษย์ควรอนุญาตเฉพาะผู้กระทำการที่ดีซึ่งผ่านการตรวจสอบแล้วเท่านั้น, และหากล้มเหลวในเป้าหมายนี้ มันคือการแข่งขันที่มนุษยชาติจะสูญพันธุ์
      ถ้าไม่ตั้งสมมติฐานว่าคำพูดที่ว่า “เราคิดว่าเรากำลังสร้างปัญญาเหนือมนุษย์” เป็นเรื่องโกหก การกระทำแทบทั้งหมดของพวกเขาก็เข้าใจได้
  • เคยรายงานกลไก การฉีด system prompt ที่คล้ายกันไว้ที่นี่
    https://news.ycombinator.com/item?id=48259288
    https://github.com/anthropics/claude-code/issues/62061
    ตามคาด ดูเหมือนว่าจะยังคงพบการใช้งานใหม่ ๆ ที่ “สร้างสรรค์” สำหรับสิ่งแบบนี้ต่อไป
    ผมจะลบมันออกด้วยแพตช์ต่อไป

    • ขอบคุณที่ทำสิ่งนี้
      ไม่รู้เลยว่า system prompt กำลังฝังข้อความอย่าง “หลีกเลี่ยง abstraction; โค้ดที่คล้ายกันสามบรรทัดดีกว่า helper หนึ่งตัว” อยู่
      ซึ่งเป็นสิ่งที่ผมไม่เห็นด้วย
      มีวิธีแก้โดยใส่คำสั่งใน CLAUDE.md เพื่อเขียนทับ prompt แบบนี้ไหม? คงเปลี่ยน system prompt เองโดยตรงไม่ได้ แต่ CLAUDE.md ไม่ควรมี อำนาจตัดสินขั้นสุดท้าย เหรอ?
  • ผมไม่ค่อยเข้าใจ ความกังวลเรื่องความเป็นส่วนตัว ที่ผู้เขียนพยายามเน้น
    แน่นอนว่าเวลาทำอะไร “ลับ ๆ” แล้วถูกจับได้ ก็ย่อมถูกสงสัยเสมอ แต่ในทางกลับกัน ถ้าเปิดเผยไปเลยว่า “ฟีเจอร์ความปลอดภัย” แบบนี้ทำงานอย่างไร ก็ไม่มีความหมายที่จะนำไปใช้งาน
    และในความเห็นของผม steganography ไม่ใช่ security through obscurity
    เช่นเดียวกับที่การเก็บ private key ของ RSA ให้เป็นความลับไม่ใช่ security through obscurity การรักษาสิ่งที่ควรเป็นความลับให้เป็นความลับนั้นเป็น ส่วนหนึ่งของโมเดลความปลอดภัย

    • การที่ Anthropic เลือกจะชะลอการกลั่นโมเดลของคู่แข่ง เป็นดุลยพินิจของพวกเขาเอง
      แต่พวกเขาทำพลาดตรงที่นำมาใช้ด้วยวิธี เก็บลายนิ้วมือ โดยไม่เปิดเผยรูปแบบการเข้าถึงของผมก่อน
      นี่ไม่ใช่แค่ “ลับ ๆ” แต่เป็นการทำอย่างลับ ๆ ไม่ซื่อสัตย์ และไร้จริยธรรม
      การที่กรณีนี้ไม่เป็นอันตรายก็ไม่ได้ทำให้สบายใจขึ้นสักเท่าไร ใครจะรับประกันได้ว่าไม่ได้เก็บข้อมูลที่ระบุตัวบุคคลได้?
      การที่พฤติกรรมของพวกเขาสมเหตุสมผลในเชิงธุรกิจ ไม่ใช่เหตุผลที่ผู้คนควรยอมรับการตัดสินใจที่หลอกลวงและเป็นปฏิปักษ์ต่อลูกค้า
    • ถ้าสลับประเทศกัน หากซอฟต์แวร์จีนทำ “ฟีเจอร์ความปลอดภัย” แบบเดียวกันเพื่อติดตามผู้ใช้ชาวอเมริกัน ข่าวคงเต็มไปด้วยการกล่าวหาว่าจีนกำลัง เฝ้าระวังและจารกรรม สหรัฐฯ
      หรือไม่อย่างนั้นผมก็สงสัยว่าคงไม่เข้าใจแม้แต่สมมติฐานนี้ แต่จริง ๆ แล้วดูเหมือนว่าไม่ได้สนใจความเป็นส่วนตัวของคนอื่นมากกว่า
  • ที่ว่า “ดังนั้นฟีเจอร์นี้จึงลงโทษคนที่เก็บลายนิ้วมือได้ง่ายเป็นหลัก นั่นคือเดเวลลอปเปอร์ทั่วไปที่ทำเรื่องแปลกแต่ถูกกฎหมาย” คำว่า ลงโทษ ในที่นี้หมายถึงอะไรกันแน่?

    • โอกาสถูกบล็อกสูงขึ้น ทั้งที่เป็นการใช้งานที่ถูกกฎหมาย
    • หากถูกทำเครื่องหมายว่าน่าสงสัยว่าเป็นคู่แข่ง ก็ลบบัญชีทิ้ง
    • คืน ผลลัพธ์ที่ผิดพลาดและปนเปื้อน ซึ่งต่างจากสิ่งที่จ่ายเงินซื้อไป
    • เมื่อเห็นว่า Anthropic ออกมาพูดเสียงดังเรื่อง “การโจมตีกลั่นโมเดลผิดกฎหมายจากจีน” ทุกหนึ่งหรือสองเดือน ผมพนันได้เลยว่าถ้าตรงกับรูปแบบการระบุตัวตนแม้แต่อย่างเดียว พวกเขาก็น่าจะลดประสิทธิภาพโมเดลลงอย่างเงียบ ๆ แล้ว หรืออย่างน้อยก็กำลังตรวจสอบ/ซ้อมขั้นตอนอยู่
      ยิ่งเมื่อคิดว่ามีเทคโนโลยีแบบนั้นอยู่จริง และเคยประกาศต่อสาธารณะว่าจะใช้ในโปรดักชันที่ Fable ก็ยิ่งใช่
    • ถ้าให้เดา ก็คงเป็นการปนเปื้อนเอาต์พุต และ/หรือท้ายที่สุดคือ การระงับบัญชี