Claude Code กำลังใส่สัญลักษณ์แบบสเตกาโนกราฟีลงในคำขอ
(thereallo.dev)- ไบนารีของ Claude Code 2.1.196 มีฟังก์ชันที่ซ่อน สัญญาณการจัดประเภทภายในคำขอ โดยเปลี่ยนประโยควันที่ปัจจุบันใน system prompt
- ตัวกระตุ้นคือ
ANTHROPIC_BASE_URL; หากไม่ใช่api.anthropic.comอย่างเป็นทางการ หรือมีการตั้งค่าไว้ ระบบจะตรวจสอบชื่อโฮสต์และเขตเวลา แล้วเปลี่ยน เครื่องหมายอะพอสทรอฟีและตัวคั่นวันที่ - ชื่อโฮสต์จะถูกนำไปเทียบกับรายการโดเมนและคีย์เวิร์ดที่ถอดรหัสจากสตริง base64 ด้วยคีย์ XOR
91ซึ่งมีรายการอย่างdeepseek,zhipu,moonshot,baidu.com,bytedance.net,proxyai.com - หากใช้ Anthropic API endpoint อย่างเป็นทางการ หรือไม่มี
ANTHROPIC_BASE_URLระบบจะคืนค่าก่อนกำหนด ทำให้ยังคงรูปแบบปกติอย่างToday's date is 2026-06-30. - แม้จะยังสรุปไม่ได้ว่าเป็นฟีเจอร์อันตราย แต่เมื่อเครื่องมือสำหรับนักพัฒนาที่มีสิทธิ์เข้าถึงไฟล์ระบบและเชลล์ซ่อนข้อมูลการจัดประเภทไว้ด้วย เครื่องหมาย Unicode ที่มองไม่เห็น ก็ย่อมกระทบต่อความเชื่อมั่น
มาร์กเกอร์ที่ซ่อนอยู่ในประโยควันที่
- ในไบนารีของ Claude Code มีฟังก์ชันที่เปลี่ยนสตริงวันที่ปัจจุบันซึ่งถูกใส่เข้าไปใน system prompt
- ประโยคเริ่มต้นมีรูปแบบดังนี้
Today's date is 2026-06-30.
- มีอยู่ 2 จุดที่อาจถูกเปลี่ยน
- เครื่องหมายอะพอสทรอฟี ใน
Today's - ตัวคั่นวันที่: เปลี่ยนจาก
-เป็น/
- เครื่องหมายอะพอสทรอฟี ใน
- ประโยคที่ได้ภายนอกดูเหมือนข้อความแจ้งวันที่ทั่วไป แต่ในคำขอดิบจะมี มาร์กเกอร์ที่ซ่อนอยู่
- นี่เป็นการซ่อนข้อมูลไว้ในสิ่งที่ดูเหมือนข้อความธรรมดา จึงเข้าข่าย prompt steganography
เส้นทางแบบมีเงื่อนไขที่ ANTHROPIC_BASE_URL เป็นตัวเปิด
- ตัวกระตุ้นคือ
ANTHROPIC_BASE_URLซึ่งเป็นการ override API base URL ของ Claude Code - หากไม่มี
ANTHROPIC_BASE_URLฟังก์ชันจะคืนค่าก่อนกำหนด - ต่อให้มีค่าอยู่ แต่ถ้าโฮสต์เป็น
api.anthropic.comก็จะออกไปตามเส้นทางเดียวกัน - จะตรวจสอบเงื่อนไขต่อไปนี้ก็ต่อเมื่อไม่มีการคืนค่าก่อนกำหนด
- เขตเวลาของระบบเป็น
Asia/ShanghaiหรือAsia/Urumqi - ชื่อโฮสต์ของ API base URL ตรงกับรายการโดเมนที่ถอดรหัสแล้ว หรือเป็นซับโดเมนของรายการนั้น
- ชื่อโฮสต์มีคีย์เวิร์ดของแล็บ AI บางรายการอยู่หรือไม่
- เขตเวลาของระบบเป็น
ข้อมูลที่ถูกเข้ารหัสในวันที่และอะพอสทรอฟี
- หากเขตเวลาเป็น
Asia/ShanghaiหรือAsia/Urumqiรูปแบบวันที่จะเปลี่ยนไป2026-06-30→2026/06/30
- เครื่องหมายอะพอสทรอฟีใน
Today'sจะเปลี่ยนตามผลการจัดประเภทของชื่อโฮสต์- ทั่วไป:
' - โดเมนที่รู้จัก:
\u2019 - คีย์เวิร์ดของแล็บวิจัย:
\u02BC - ทั้งเป็นโดเมนที่รู้จักและมีคีย์เวิร์ดของแล็บวิจัย:
\u02B9
- ทั่วไป:
- อักขระ Unicode เหล่านี้ในฟอนต์ monospace ส่วนใหญ่ แทบมองไม่เห็นความแตกต่างทางสายตา ทำให้สังเกตได้ยาก
รายการโดเมนและคีย์เวิร์ดที่ซ่อนอยู่
- รายการโดเมนและคีย์เวิร์ดถูกเก็บเป็นสตริง base64 และถอดรหัสด้วยคีย์ XOR
91 - รายการคีย์เวิร์ดของแล็บวิจัยที่ถอดรหัสแล้วมีดังนี้
deepseekmoonshotminimaxxaminimzhipubigmodelbaichuanstepfun01aidashscopevolces
- รายการโดเมนที่ถอดรหัสแล้วมีขนาดใหญ่กว่า และรวมถึงโดเมนของบริษัทจีน บริษัท AI รวมถึงโดเมนของพร็อกซี รีเซลเลอร์ และเกตเวย์
- ตัวอย่างรายการมีดังนี้
cnbaidu.comalibaba-inc.comalipay.comantgroup-inc.cnbytedance.netkuaishou.comxiaohongshu.comjd.combilibili.coiflytek.comstepfun-inc.commoonshot.aianyrouter.topclaude-code-hub.appclaude-opus.topopenclaude.meproxyai.comyunwu.aizenmux.ai
- สามารถดูรายการทั้งหมดได้ที่ cc-domains.js
ตำแหน่งที่ถูกใส่เข้าไปใน system context
- ผลลัพธ์จากฟังก์ชันวันที่จะถูกใส่เป็นค่า
currentDateระหว่างการประกอบ agent context - ใน context เดียวกันนี้ อาจมีข้อมูลโปรเจกต์ที่เชื่อมโยงกับอีเมลผู้ใช้รวมอยู่ด้วยตามเงื่อนไข
- ดังนั้นมาร์กเกอร์นี้จึงกลายเป็นส่วนหนึ่งของ system context ที่ถูกส่งไปยังโมเดล
- ยังมีความเป็นไปได้ด้วยว่าแบ็กเอนด์ของ Anthropic อาจพาร์สค่านี้
สภาพแวดล้อมการติดตั้งที่ยืนยันแล้ว
- ไบนารี Claude Code ที่ตรวจสอบแล้วเป็นไฟล์ที่ลงลายเซ็นโดย Anthropic
Identifier=com.anthropic.claude-codeTeamIdentifier=Q6L2SF6YDWTimestamp=Jun 29, 2026SHA256=6fc6e61ab7582c2bf241225ff90d9f79e91d69380cb9589fc9dedd3a30070f5a
- ตอนที่ตรวจสอบ ไม่มีการตั้งค่า
ANTHROPIC_BASE_URLในเชลล์ และเขตเวลาเป็นAsia/Hong_Kong - ในสภาพแวดล้อมนี้ ระบบจะสร้างอะพอสทรอฟีแบบปกติและสตริงวันที่แบบ
YYYY-MM-DD
กรณีใช้งานที่ได้รับผลกระทบและข้อจำกัด
- ผู้ใช้ส่วนใหญ่อาจปล่อยให้เส้นทางนี้ไม่ทำงานอยู่ตลอด
- หากใช้ Anthropic API endpoint อย่างเป็นทางการ หรือไม่มี
ANTHROPIC_BASE_URLprompt วันที่จะยังคงอยู่ในรูปแบบปกติ - กรณีที่น่าสนใจคือเมื่อมีการส่ง Claude Code ผ่าน base URL แบบกำหนดเอง
- เกตเวย์ภายใน
- local proxy
- model router
- รีเซลเลอร์
- สภาพแวดล้อมวิจัย
- ในกรณีนี้ Claude Code จะจัดประเภทชื่อโฮสต์และเข้ารหัสผลลัพธ์นั้นลงใน prompt
- วิธีหลีกเลี่ยงทำได้ไม่ยาก
- เปลี่ยนชื่อโฮสต์
- เปลี่ยนเขตเวลา
- แพตช์ไบนารี
- ห่อโปรเซส
- ผู้โจมตีที่จริงจังสามารถทำให้สัญญาณนี้ใช้การไม่ได้ ดังนั้นคนที่มีแนวทางตั้งค่าที่แปลกแต่ถูกต้องตามกฎหมายจึงอาจกลายเป็นเป้าหมายการเก็บลายนิ้วมือได้ง่ายกว่า
วิธีการติดตั้งที่บั่นทอนความเชื่อมั่น
- เป็นไปได้ว่า Anthropic ต้องการตรวจจับ API รีเซลเลอร์, Claude Code gateway ที่ไม่ได้รับอนุญาต, หรือไปป์ไลน์โจมตีแบบ model “distillation attack”
- หาก
ANTHROPIC_BASE_URLแบบกำหนดเองชี้ไปยังโดเมนรีเซลเลอร์ที่รู้จัก หรือชื่อโฮสต์มีdeepseek,zhipuอยู่ ก็อาจถูกใช้เป็นสัญญาณตรวจจับได้ - ปัญหาคือวิธีการติดตั้งนี้เอง
- เปลี่ยน system prompt อย่างเงียบ ๆ
- เข้ารหัสข้อมูลการจัดประเภทพร็อกซี/เกตเวย์ไว้ในตำแหน่งที่ดูเหมือนประโยคภาษาอังกฤษธรรมดา
- ซ่อนรายการโดเมนไว้หลัง XOR และ base64
- เอเจนต์สำหรับการเขียนโค้ดสามารถตรวจโค้ดบนเครื่องโลคัล รันคำสั่ง ติดตั้งแพ็กเกจ แก้ไขไฟล์ ไปจนถึง push commit ได้
- หากต้องการตรวจจับ API gateway แบบกำหนดเอง ก็ยังสามารถใช้วิธีอย่างฟิลด์ telemetry แบบชัดเจนที่มีเอกสารอธิบาย นโยบายสาธารณะ หรือ release note ได้
- เมื่อเครื่องมือที่มีสิทธิ์เข้าถึงไฟล์ระบบและเชลล์ซ่อนบิตการจัดประเภทไว้ในเครื่องหมายวรรคตอนของ prompt ที่มองไม่เห็น ก็ยากจะเชื่อถือคำกล่าวอ้างเรื่องความเป็นส่วนตัวอื่น ๆ ได้เช่นกัน
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
มีปฏิกิริยาบางส่วนที่ลดทอน ความร้ายแรงของการที่ผู้ให้บริการไม่เปิดเผยอย่างโปร่งใส ว่าเครื่องมือที่นำไปติดตั้งบนเครื่องของลูกค้าทำอะไรกันแน่
การที่มีความจำเป็นทางธุรกิจไม่ได้แปลว่าไม่ต้องเปิดเผยอย่างตรงไปตรงมา
การที่ถ้าเปิดเผยอย่างตรงไปตรงมาแล้ววิธีแก้ของพวกเขาจะใช้ไม่ได้ ก็ไม่ใช่ปัญหาของผม และกลับทำให้สงสัยด้วยซ้ำว่าถ้าพวกเขามองว่านี่ไม่เป็นไร แล้วบนเครื่องของผมพวกเขาอาจกำลังเก็บอะไรอย่าง ข้อมูลระบุตัวบุคคล เพิ่มเติมอยู่อีกหรือไม่
หากมองแบบเสียดสี ก็รู้สึกว่าบรรยากาศในคอมเมนต์สะท้อนอารมณ์ที่มีต่อ AI/Anthropic/สหรัฐฯ มากกว่าจะเป็นการตัดสินประเด็นนี้โดยตรง
นี่ดูเหมือนเป็นมาตรการตอบสนองที่สมเหตุสมผลเพื่อเปิดเผยข้อเท็จจริงนั้น
ตัดสินคุณค่าไว้ก่อน สิ่งที่น่าประหลาดใจเล็กน้อยคือพวกเขา ทำออกมาได้หละหลวม ขนาดนี้
น่าจะทำให้ได้ผลลัพธ์แบบเดียวกันพร้อมลดโอกาสถูกตรวจเจอด้วย reverse engineering ได้
วงการนี้เป็นที่รู้จักจาก “underhanded code” ที่ Underhanded C Contest ทำให้เป็นที่รู้จัก: https://www.underhanded-c.org
เป็น “ทักษะเชิงศิลป์” ที่ไม่ค่อยมีคนรู้จัก ซึ่งเหตุผลก็คงชัดเจนอยู่แล้ว มีวิธีที่ฉลาดกว่านี้มากในการบรรลุเป้าหมายแบบนี้
วิธีที่เห็นได้ชัดวิธีหนึ่งคือย้ายงานจากไคลเอนต์ไปไว้บนเซิร์ฟเวอร์ให้มากขึ้น และอีกวิธีคือเขียนโค้ดฝั่งไคลเอนต์ที่ปฏิเสธได้อย่างน่าเชื่อถือให้ดูไม่มีพิษภัยกว่านี้มาก
บางส่วนที่เพิ่มเข้ามาทำได้เฉพาะบนไคลเอนต์ แต่บางส่วนย้ายออกไปได้ และแม้ส่วนที่จำเป็นต้องอยู่บนไคลเอนต์ก็น่าจะทำให้แนบเนียนและน่าเชื่อถือกว่านี้ได้
ก็เป็นไปได้ว่าพวกเขารู้ว่า JS bundle ถูกตรวจสอบกันเยอะมาก สุดท้ายก็ต้องถูกค้นพบและรายงานข่าวอยู่ดี เลยไม่ได้ทำให้ลับและหลอกลวงกว่านี้ แต่ถึงอย่างนั้นก็ดูขาดความใส่ใจไปหน่อย
คงยากที่จะหยุดแล็บ AI รายใหญ่ที่ตั้งใจจริงในการกลั่นโมเดล แต่ A) อาจกันพวกผู้ค้าปลีก token แบบลวก ๆ ที่หวังทำเงินเร็วได้จำนวนมาก และ B) อาจมีใครบางคนในแล็บใหญ่เหล่านั้นลืมติดตั้งวิธีเลี่ยงจนเผยตัวเองออกมา
ผมมองว่าคล้ายกับมีนกเยอะในสวนเลยซื้อนกฮูกพลาสติกมา นกฮูกไล่นกได้ส่วนใหญ่แต่ไม่ทั้งหมด ต่อให้คุณซื้ออุปกรณ์อัลตราซาวนด์เพิ่ม ก็ไม่มีเหตุผลต้องเอานกฮูกลง
เพราะตอนนี้ชั้นป้องกันไม่ได้มีชั้นเดียว แต่มี สองชั้น
ไม่ใช่เพราะโมเดลของ Anthropic แย่ แต่เพราะ Claude ดูเหมือนทำของใหม่ ๆ ที่น่ารำคาญพังวันละอย่าง ผมเลยย้ายไปใช้ Codex กับ OpenCode มากขึ้น
โมเดลภาษาขนาดใหญ่สามารถใช้การกระจายของ token เพื่อสร้าง steganotext ที่อ่านเหมือนร้อยแก้วสมจริง แต่ถอดรหัสออกมาเป็น payload ได้¹
¹ https://github.com/hodgesmr/calgacus-mlx
Anthropic อาจไม่ได้ทำสิ่งนี้เป็นระบบตรวจจับต่อเนื่องสำหรับผู้ค้าปลีกผ่านพร็อกซี แต่ทำเป็นระบบสุ่มเก็บตัวอย่าง ณ ช่วงเวลาหนึ่ง เพื่อดูว่าปัจจุบันมีการ ขายต่อผ่านพร็อกซี เกิดขึ้นที่ไหนและในบริบทใด
สักวันหนึ่งก็จะถูกจับได้ แต่ก่อนถึงตอนนั้น Anthropic จะได้ข้อมูลสแนปช็อตที่มีประโยชน์
ข้อสรุปของบล็อกโพสต์นี้ออกจะตื่นตระหนกเกินไป
เจตนาของ steganography นี้ชัดเจนมาก คือเพื่อระบุการใช้งานของบริษัทจีนที่อาจกำลัง กลั่นโมเดล อยู่
ยังไม่ชัดเจนว่าสิ่งนี้ “ลงโทษนักพัฒนาทั่วไป” ในรูปแบบใด
เหตุผลที่ชอบธรรมรวมถึงการวิเคราะห์ว่า Claude Code ส่งอะไรไปยัง Anthropic เพื่อตรวจสอบว่าไม่มีข้อมูลรั่วไหล, เลือกโมเดลแบบไดนามิกตามความยากของพรอมป์หรือบังคับใช้โมเดลบางตัว, สลับหลายบัญชี Anthropic ตามโปรเจกต์, กรองข้อมูลรับรอง·ข้อมูลระบุตัวบุคคล·ความลับของบริษัท เป็นต้น
จุดประสงค์ไม่ได้ทำให้วิธีการชอบธรรมเสมอไป
ไม่ว่าครั้งนี้จะมีความเสียหายเกิดขึ้นหรือไม่ นี่คือการละเมิด ความไว้วางใจและอำนาจตัดสินใจของผู้ใช้
แม้จะมีแค่โค้ดที่คอยตรวจจับและฟ้องว่ามีใครบางคนเป็นศัตรูสาธารณะอันดับ 1 อย่างน้อยก็ในตอนนี้ แต่ถ้าแอบติดตั้ง rootkit ก็ย่อมต้องโกรธเป็นธรรมดา
Codex CLI ต่างจาก Claude Code ตรงที่เป็น ซอฟต์แวร์โอเพนซอร์สเสรี จึงมีโอกาสน้อยกว่าที่จะทำเรื่องแบบนี้ และนี่ก็เป็นอีกเหตุผลหนึ่งที่ควรหลีกเลี่ยง Claude Code รวมถึง Claude โดยรวม
หวังว่าจะมีสายตาจำนวนมากช่วยตรวจดูพฤติกรรมมุ่งร้ายแบบนี้ใน Codex
ฉันค่อนข้างกังขามากกับนโยบายความเป็นส่วนตัวหรือแนวปฏิบัติทางธุรกิจ แต่ก็อยากรู้ว่าสิ่งนี้ทำให้ฉันซึ่งเป็นลูกค้าเสียประโยชน์อย่างไร
ถ้ามันช่วยยืดเวลาจนกว่าจะถูกตัดเงินอุดหนุนได้ จากมุมมองลูกค้าก็ดูเหมือนจะเป็นประโยชน์เสียด้วยซ้ำ
แต่ถ้าพร็อกซีหลอกลวงพวกนี้ช่วยให้ห้องแล็บวิจัยจีนไล่ตามทัน ในระยะยาวมันก็อาจเป็นประโยชน์กับฉันในการมี AI ส่วนตัว คุณภาพสูงที่ฉันควบคุมได้อย่างสมบูรณ์บนฮาร์ดแวร์ของตัวเอง
ไม่ได้หมายความว่าสนับสนุนนะ แต่ยอมรับว่ามีแรงจูงใจแบบนั้นอยู่
การเป็นไคลเอนต์โอเพนซอร์สเสรีก็แค่หมายความว่าจะมีการวิเคราะห์เพิ่มเติมที่ทำแบบ ซ่อน ไว้บนเซิร์ฟเวอร์เท่านั้น
แม้จะไม่ใช่บิลด์แบบกำหนดผลลัพธ์แน่นอน แต่ก็ยังมี การรับประกันแหล่งที่มา อยู่บ้างว่ามาจากรีโพซิทอรีจริง
ปฏิกิริยาที่ว่า “ถ้าไคลเอนต์อยากตรวจจับ API gateway แบบกำหนดเอง ก็แค่พูดให้ชัดไปเลย ส่งฟิลด์ telemetry ระยะไกลแบบชัดเจนที่มีเอกสารกำกับ ทำให้นโยบายมองเห็นได้ และใส่พฤติกรรมนี้ใน release notes” ดูไร้เดียงสามาก
ถ้าไคลเอนต์ส่งฟิลด์ telemetry ระยะไกลแบบชัดเจนไปยัง gateway, gateway มุ่งร้ายก็สามารถลบหรือแก้ไขฟิลด์นั้นให้ดูเหมือนทราฟฟิกปกติได้ง่ายมาก
เหตุผลที่ เกมแมวไล่หนูแบบสเตกาโนกราฟี มีคุณค่า คือมันทำให้ gateway ต้องทำ reverse engineering กลไกการเก็บลายนิ้วมือทั้งหมดที่ถูกใช้อยู่ต่อเนื่อง ซึ่งยากกว่ามาก
แน่นอนว่า gateway มุ่งร้ายบางส่วนก็จะตามทันต่อไป แต่ไม่ใช่ทั้งหมดที่จะทำได้ตลอดเวลา
ถ้าไม่ใช่ห้องแล็บกลั่นโมเดลของจีน เรื่องนี้ก็ ไม่มีปัญหาโดยสิ้นเชิง
เพราะตลาดสากลสำหรับบริการหลบเลี่ยง KYC นั้นพัฒนาไปมากแล้ว
ไม่ใช่แค่เครื่องมือ AI แต่เครื่องมือพัฒนาก็ควรถูกรันใน แซนด์บ็อกซ์ ด้วย
ตัวอย่างเช่น ในคลังแพ็กเกจ Python หรือ JavaScript อะไรก็ถูกใส่เข้าไปได้ ไม่มีสัญญากับบริษัทแอนติไวรัส และไม่มีการตรวจสอบจากพลเมืองที่เชื่อถือได้ จึงไม่ควรรันโดยไม่มีแซนด์บ็อกซ์
ลองคิดดูว่า ผู้ใช้นิรนามจากประเทศไหนก็ได้สามารถอัปโหลดอะไรก็ได้ และนักพัฒนาหลายล้านคนสามารถรันสิ่งนั้นบนคอมพิวเตอร์ของตัวเองได้
IDE, ปลั๊กอิน IDE, เซิร์ฟเวอร์ LSP, ปลั๊กอิน AI ทั้งหมดก็ควรอยู่ในแซนด์บ็อกซ์
ส่วนใหญ่ไม่ได้ถูกบริษัทแอนติไวรัสตรวจสอบ และไม่ควรรันแบบไร้ข้อจำกัด
ยิ่งไปกว่านั้น มีทฤษฎีบทอยู่แล้วว่าไม่มีแอนติไวรัสใดรับประกันความปลอดภัยของโค้ดได้ 100%
น่าสนใจที่เอกสาร pip ไม่ได้กล่าวถึงหัวข้อแซนด์บ็อกซ์หรือมัลแวร์เลยในเอกสาร “เริ่มต้นใช้งาน” ราวกับอยู่ในโลกอันงดงามที่ไม่มีคน บริษัท หรือรัฐประสงค์ร้าย
อย่างน้อยก็หวังว่าใน HN จะไม่มีใครอยู่ในภาพลวงตาแบบนั้น
เพราะอยากใช้ IDE, LSP, เครื่องมือ AI ก็เลยต้องเขียนระบบแซนด์บ็อกซ์ของตัวเองก่อน แต่ Linux มีให้แค่ primitive พื้นฐาน จึงกินเวลามาก
ตัวอย่างเช่น หากต้องการควบคุมทราฟฟิกเครือข่ายทั้งหมดโดยไม่มีสิทธิ์ root ต้องสร้าง user namespace เพื่อให้ได้สิทธิ์ root, สร้าง network namespace, เขียน “ตัวเก็บทราฟฟิก” ที่รันอยู่ใน namespace และ pipe ข้อมูลออกไปยังโปรแกรม “ผู้ควบคุม” ภายนอก จากนั้นโปรแกรมผู้ควบคุมจึง route ทราฟฟิกไปยังปลายทาง
แม้แต่การกรองและตรวจสอบทราฟฟิกแบบง่าย ๆ โดยไม่มีสิทธิ์ root, Linux ก็ยังบังคับให้ต้องทำงานมากเกินไป
ไม่ควรทิ้งข้อมูลใด ๆ ไว้แม้แต่ในชื่อผู้ใช้หรือชื่อโฮสต์ อย่างที่บทความนี้พิสูจน์ ข้อมูลนั้นจะถูกใช้ เล่นงานคุณ
สรุปสิ่งที่ Anthropic ทำมาแล้วได้แบบนี้: คัดกรองคนที่อยู่ผิดฝั่งของ “มวลมนุษยชาติ” ออกตั้งแต่หลายปีก่อนที่รัฐบาลจะเรียกร้อง, ดาวน์เกรดโมเดลตามอำเภอใจ แล้วภายหลังตอบกลับในทำนอง “ขอโทษนะ แต่ก็ไม่ได้เสียใจอะไรเป็นพิเศษ”, และ ขัดขวางอย่างแข็งขัน ด้วยการแอบเปลี่ยนคำตอบเพื่อให้ผู้ใช้ได้ผลลัพธ์ที่ผิด
ต่อไปควรคาดหวังอะไร? มัลแวร์ที่ทำให้เครื่องของผู้ใช้ที่ไม่ถูกใจกลายเป็นก้อนอิฐ? ขยายไปยังคนที่ไม่ถูกใจมากขึ้นอีก?
รู้สึกเหมือนเริ่มเห็นแล้วว่าวิสัยทัศน์อนาคตยูโทเปียของ Dario Amodei เพื่อ “มวลมนุษยชาติ” จะคลี่คลายไปอย่างไร
ถ้ามองจากมุมที่ว่าคนเหล่านี้เชื่อจริง ๆ ว่าพวกเขากำลังสร้าง ปัญญาเหนือมนุษย์ ทุกอย่างก็เข้าใจได้
คนส่วนใหญ่ท่วมท้นในฝ่ายความปลอดภัย AI ได้ทุ่มชีวิตและเวลาให้กับปัญหานี้มากกว่านักวิจารณ์นั่งเก้าอี้ใน HN ทั่วไปอย่างมาก และมองว่าต้องไม่ให้จีนไปถึงปัญญาเหนือมนุษย์ก่อน, การเข้าถึงปัญญาเหนือมนุษย์ควรอนุญาตเฉพาะผู้กระทำการที่ดีซึ่งผ่านการตรวจสอบแล้วเท่านั้น, และหากล้มเหลวในเป้าหมายนี้ มันคือการแข่งขันที่มนุษยชาติจะสูญพันธุ์
ถ้าไม่ตั้งสมมติฐานว่าคำพูดที่ว่า “เราคิดว่าเรากำลังสร้างปัญญาเหนือมนุษย์” เป็นเรื่องโกหก การกระทำแทบทั้งหมดของพวกเขาก็เข้าใจได้
เคยรายงานกลไก การฉีด system prompt ที่คล้ายกันไว้ที่นี่
https://news.ycombinator.com/item?id=48259288
https://github.com/anthropics/claude-code/issues/62061
ตามคาด ดูเหมือนว่าจะยังคงพบการใช้งานใหม่ ๆ ที่ “สร้างสรรค์” สำหรับสิ่งแบบนี้ต่อไป
ผมจะลบมันออกด้วยแพตช์ต่อไป
ไม่รู้เลยว่า system prompt กำลังฝังข้อความอย่าง “หลีกเลี่ยง abstraction; โค้ดที่คล้ายกันสามบรรทัดดีกว่า helper หนึ่งตัว” อยู่
ซึ่งเป็นสิ่งที่ผมไม่เห็นด้วย
มีวิธีแก้โดยใส่คำสั่งใน CLAUDE.md เพื่อเขียนทับ prompt แบบนี้ไหม? คงเปลี่ยน system prompt เองโดยตรงไม่ได้ แต่ CLAUDE.md ไม่ควรมี อำนาจตัดสินขั้นสุดท้าย เหรอ?
ผมไม่ค่อยเข้าใจ ความกังวลเรื่องความเป็นส่วนตัว ที่ผู้เขียนพยายามเน้น
แน่นอนว่าเวลาทำอะไร “ลับ ๆ” แล้วถูกจับได้ ก็ย่อมถูกสงสัยเสมอ แต่ในทางกลับกัน ถ้าเปิดเผยไปเลยว่า “ฟีเจอร์ความปลอดภัย” แบบนี้ทำงานอย่างไร ก็ไม่มีความหมายที่จะนำไปใช้งาน
และในความเห็นของผม steganography ไม่ใช่ security through obscurity
เช่นเดียวกับที่การเก็บ private key ของ RSA ให้เป็นความลับไม่ใช่ security through obscurity การรักษาสิ่งที่ควรเป็นความลับให้เป็นความลับนั้นเป็น ส่วนหนึ่งของโมเดลความปลอดภัย
แต่พวกเขาทำพลาดตรงที่นำมาใช้ด้วยวิธี เก็บลายนิ้วมือ โดยไม่เปิดเผยรูปแบบการเข้าถึงของผมก่อน
นี่ไม่ใช่แค่ “ลับ ๆ” แต่เป็นการทำอย่างลับ ๆ ไม่ซื่อสัตย์ และไร้จริยธรรม
การที่กรณีนี้ไม่เป็นอันตรายก็ไม่ได้ทำให้สบายใจขึ้นสักเท่าไร ใครจะรับประกันได้ว่าไม่ได้เก็บข้อมูลที่ระบุตัวบุคคลได้?
การที่พฤติกรรมของพวกเขาสมเหตุสมผลในเชิงธุรกิจ ไม่ใช่เหตุผลที่ผู้คนควรยอมรับการตัดสินใจที่หลอกลวงและเป็นปฏิปักษ์ต่อลูกค้า
หรือไม่อย่างนั้นผมก็สงสัยว่าคงไม่เข้าใจแม้แต่สมมติฐานนี้ แต่จริง ๆ แล้วดูเหมือนว่าไม่ได้สนใจความเป็นส่วนตัวของคนอื่นมากกว่า
ที่ว่า “ดังนั้นฟีเจอร์นี้จึงลงโทษคนที่เก็บลายนิ้วมือได้ง่ายเป็นหลัก นั่นคือเดเวลลอปเปอร์ทั่วไปที่ทำเรื่องแปลกแต่ถูกกฎหมาย” คำว่า ลงโทษ ในที่นี้หมายถึงอะไรกันแน่?
ยิ่งเมื่อคิดว่ามีเทคโนโลยีแบบนั้นอยู่จริง และเคยประกาศต่อสาธารณะว่าจะใช้ในโปรดักชันที่ Fable ก็ยิ่งใช่