อนาคตของทุกสิ่งคือเรื่องโกหกหรือไม่: ความปลอดภัย

(aphyr.com)

1 คะแนน โดย GN⁺ 15 일 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Machine Learning และ LLM กำลังก่อภัยต่อความปลอดภัยทั้งทางจิตใจและทางกายของมนุษย์ และแม้แต่ AI ที่ถูกทำให้เป็นมิตร ก็อาจเปลี่ยนเป็น โมเดลมุ่งร้าย ได้
การจัดแนว (alignment) เป็นแนวคิดที่ล้มเหลวโดยพื้นฐาน เพราะ แนวป้องกันทั้งหมดถูกทำให้ไร้ผล ไม่ว่าจะเป็นข้อจำกัดด้านฮาร์ดแวร์, โค้ดปิด, การควบคุมข้อมูล, หรือการประเมินโดยมนุษย์
LLM ก่อให้เกิดฝันร้ายด้านความปลอดภัยผ่าน prompt injection และการเชื่อมกับสิทธิ์ภายนอก และทำงานอย่างคาดเดาไม่ได้ในสภาพแวดล้อมแบบ สามประสานมรณะ
ML เร่ง การตรวจหาช่องโหว่ความปลอดภัย, การฉ้อโกง, การคุกคาม, และการทำให้การสังหารเป็นระบบอัตโนมัติ จนบ่อนทำลายความไว้วางใจทางสังคมและระเบียบทางกฎหมาย
ผลลัพธ์คือ ‘AI ที่ปลอดภัย’ เป็นไปไม่ได้ และหากไม่มีการกำกับดูแลและข้อจำกัดจากมนุษย์ การแพร่กระจายของเทคโนโลยีเองก็คือการทำให้ความเสี่ยงเป็นประชาธิปไตย

อนาคตของความปลอดภัยและเรื่องโกหก

ระบบแมชชีนเลิร์นนิง กำลังก้าวขึ้นมาเป็นสิ่งที่คุกคามความปลอดภัยทั้งทางจิตใจและทางกายของมนุษย์
- ความพยายามในการสร้าง “AI ที่เป็นมิตร” กลับทำให้การสร้าง “โมเดลมุ่งร้าย” เป็นไปได้
- LLM มีโครงสร้างที่ขยายความเสี่ยงหลากหลายรูปแบบ ทั้งด้านความปลอดภัย การฉ้อโกง การคุกคาม และการทำให้เป็นอาวุธ

การจัดแนว (Alignment) เป็นแนวคิดที่ล้มเหลว

การจัดแนว (alignment) คือกระบวนการทำให้ LLM ประพฤติตัวอย่างเป็นมิตรต่อมนุษย์ แต่โดยพื้นฐานแล้วมันใช้การไม่ได้
- โมเดลเป็นเพียง โครงสร้างการคำนวณเชิงพีชคณิตเชิงเส้น จึงไม่มีพื้นฐานทางชีววิทยาแบบมนุษย์ที่จะเรียนรู้พฤติกรรมเพื่อสังคม
- OpenAI และบริษัทอื่นๆ ปรับโมเดลด้วยการเรียนรู้เสริมกำลังจากฟีดแบ็กของมนุษย์ แต่สิ่งนี้เป็น กระบวนการที่มีต้นทุนสูงและทำได้อย่างเลือกสรร
มีการเสนอแนวป้องกันสี่ชั้นเพื่อป้องกันความล้มเหลวของการจัดแนว
- การจำกัดการเข้าถึงฮาร์ดแวร์ หมดความหมายลงเพราะการขยายตัวของอุตสาหกรรม
- การปิดเป็นความลับของคณิตศาสตร์และซอฟต์แวร์ ไม่ยั่งยืนเพราะการย้ายงานของบุคลากรและการรั่วไหลของเทคโนโลยี
- ความยากในการจัดหาข้อมูลฝึกสอน ต่ำ — การละเมิดลิขสิทธิ์และการ scrape เว็บกลายเป็นเรื่องปกติ
- การพึ่งผู้ประเมินที่เป็นมนุษย์ ถูกแทนที่ด้วยการพึ่งผลลัพธ์จากโมเดลอื่นเพราะปัญหาต้นทุน
ผลคือ อุปสรรคในการฝึกโมเดลมุ่งร้ายลดต่ำลง และแม้แต่โมเดลที่ถูกจัดแนวแล้วก็ยังไม่อาจรับประกันความปลอดภัยได้อย่างสมบูรณ์
- เมื่อมี “โมเดลที่เป็นมิตร” ก็ย่อมจะมี “เวอร์ชันมุ่งร้าย” ตามมาในไม่ช้า
- ดังนั้น หากไม่ต้องการให้มี โมเดลมุ่งร้าย ก็ไม่ควรสร้างแม้แต่โมเดลที่เป็นมิตรด้วยซ้ำ

ฝันร้ายด้านความปลอดภัย

LLM เป็น ระบบโกลาหลที่จัดการอินพุตและเอาต์พุตแบบไม่มีโครงสร้าง จึงไม่ควรถูกเชื่อมต่อเข้ากับระบบที่ความปลอดภัยเป็นสิ่งจำเป็น
- ผ่าน การโจมตีแบบ prompt injection โมเดลอาจรั่วไหลข้อมูลอ่อนไหวได้
- อินพุตที่ไม่น่าเชื่อถือมีอยู่ได้ทุกที่ ไม่ว่าจะเป็นอีเมล โค้ด หรือหน้าเว็บ
‘สามประสานมรณะ (lethal trifecta)’
- เมื่อเนื้อหาที่ไม่น่าเชื่อถือ + การเข้าถึงข้อมูลส่วนบุคคล + สิทธิ์สื่อสารภายนอก ถูกรวมเข้าด้วยกัน จะเกิดความเสี่ยงร้ายแรง
- ในความเป็นจริง ระบบ AI agent อย่าง OpenClaw และ Moltbook ได้ทำให้ความเสี่ยงนี้กลายเป็นเรื่องจริงแล้ว
- LLM ยังประพฤติตัวอย่างคาดเดาไม่ได้แม้กับอินพุตที่เชื่อถือได้ และมีหลายกรณีของ การลบไฟล์และการตีความคำสั่งผิด
- รวมถึงกรณีที่หัวหน้าฝ่าย AI Alignment ของ Meta ถูก OpenClaw ลบกล่องจดหมาย
- สรุปคือ LLM ไม่ควรได้รับสิทธิ์ที่ก่อความเสียหายได้ และควรถูกใช้อย่างจำกัดภายใต้การกำกับดูแลของมนุษย์เสมอ

ความปลอดภัย II: สภาพแวดล้อมการโจมตีแบบใหม่ที่ ML สร้างขึ้น

LLM สามารถถูกใช้เป็น เครื่องมือตรวจหาช่องโหว่ด้านความปลอดภัย ได้เช่นกัน
- Mythos model ของ Anthropic มีความสามารถสูงในการตรวจหาข้อบกพร่องด้านความปลอดภัย แต่ผลกระทบของมันอาจรุนแรงในมิติเศรษฐกิจและความมั่นคง
ML กำลัง เปลี่ยนโครงสร้างต้นทุนด้านความปลอดภัย ทำให้การค้นหาช่องโหว่เร็วขึ้นและถูกลง
- เมื่อเทียบกับซอฟต์แวร์ขนาดใหญ่ พื้นที่แบบ long tail ที่ขาดบุคลากรดูแลมีแนวโน้มจะได้รับความเสียหายหนักกว่า
เมื่อเวลาผ่านไป การตรวจหาช่องโหว่และการแก้ไขอาจดำเนินไปพร้อมกันได้ แต่คาดว่าจะเกิดความสับสนจาก ความล่าช้าในการกระจายแพตช์และการรับมือเชิงองค์กรที่ไม่เพียงพอ
ปัจจุบันอุตสาหกรรม ML กำลังทำงานคล้าย ‘โครงการอาวุธนิวเคลียร์’ ที่ขับเคลื่อนโดยภาคเอกชน และการแข่งขันด้านซอฟต์แวร์ที่ถูกทำให้เป็นอาวุธกำลังเร่งตัวขึ้น

การฉ้อโกงที่ซับซ้อนขึ้น

ML กำลัง ทำลายโครงสร้างทางสังคมที่ตั้งอยู่บนความเชื่อถือในหลักฐานภาพและเสียง
- ในการเคลมประกัน อุบัติเหตุจราจร การศึกษา การจ้างงาน ฯลฯ สามารถเกิดการฉ้อโกงผ่าน ภาพและวิดีโอปลอมแปลง ได้
- มีตัวอย่างจริงมากมายของการหลอกครอบครัวด้วย การโคลนเสียงและวิดีโอปลอม รวมถึงการโกงการเบิกค่ารักษาพยาบาล
ผลคือ ความไม่ไว้วางใจเพิ่มขึ้นทั่วสังคม ต้นทุนทางการเงินและประกันสูงขึ้น และเกิดความสับสนทางกฎหมาย
แม้จะมีความพยายามใช้เทคโนโลยีรับรองแหล่งที่มาของคอนเทนต์อย่าง C2PA แต่ก็ยากจะสร้างความน่าเชื่อถือได้ เพราะมีความเสี่ยงจาก การขโมยคีย์และการปลอมลายเซ็น
แนวทางรับมือที่เสนอ ได้แก่ การนำผู้ตรวจสอบที่เป็นมนุษย์กลับมา, การเพิ่มการตรวจสอบแบบพบหน้า, และ ระบบยืนยันตัวตนที่ต้องแลกกับความเป็นส่วนตัว

การคุกคามแบบอัตโนมัติ

ML ทำให้ การคุกคามออนไลน์ขนาดใหญ่และซับซ้อน กลายเป็นระบบอัตโนมัติ
- LLM สามารถสร้างบัญชีและโพสต์ที่ดูเหมือนมนุษย์ เพื่อทำ การโจมตีแบบรุมถล่ม (dogpiling) ในวงกว้าง
- ยังสามารถขยายไปเป็นภัยคุกคามออฟไลน์ได้ เช่น การคาดเดาตำแหน่งจากภาพถ่าย
Generative AI ยังสร้าง ภาพเชิงเพศและภาพความรุนแรง ได้ง่าย ทำให้เหยื่อได้รับบาดแผลทางจิตใจ
- ตัวอย่าง: Grok ถูกวิจารณ์จากการสร้างภาพถอดเสื้อผ้าของบุคคล
เทคโนโลยีเหล่านี้ เพิ่มทั้งความถี่และความรุนแรงของการคุกคาม และยิ่งโมเดลที่ไม่ถูกจัดแนวแพร่กระจายมากขึ้น ความเสี่ยงก็ยิ่งสูงขึ้น
บางส่วนจึงพูดถึงความจำเป็นของอุปกรณ์ป้องกันทางสังคมแบบ ‘firewall สไตล์ cyberpunk (Blackwall)’

PTSD as a Service

การตรวจจับ สื่อการล่วงละเมิดทางเพศเด็ก (CSAM) ไม่อาจหยุด ภาพที่สร้างขึ้นใหม่ ได้ด้วยระบบแบบแฮชในปัจจุบัน
- Generative AI สามารถผลิต ภาพการล่วงละเมิดรูปแบบใหม่ ได้จำนวนมาก
ผู้ตรวจคัดกรองคอนเทนต์ต้องตรวจดูภาพเหล่านี้เพราะ ภาระหน้าที่ทางกฎหมาย และต้องเผชิญกับ บาดแผลทางจิตใจ (PTSD)
- แพลตฟอร์มขนาดใหญ่ได้ ผลักภาระความเสียหายทางจิตใจไปให้แรงงานเอาต์ซอร์ซ อยู่แล้ว
การแพร่กระจายของ LLM ทำให้ ปริมาณคอนเทนต์อันตรายพุ่งสูงขึ้น และสร้างภาระที่หนักกว่าเดิมแก่ ผู้คัดกรองและผู้ดูแลแพลตฟอร์ม
- แม้โมเดลกรองอัตโนมัติกำลังพัฒนาอยู่ แต่ก็ยังไม่สมบูรณ์

เครื่องจักรสังหาร

ML ถูกใช้เป็น เครื่องมือสังหารโดยตรง แล้ว
- กองทัพสหรัฐใช้ ระบบ Maven ของ Palantir เพื่อ คัดเลือกเป้าหมายการโจมตีทางอากาศในอิหร่าน และ ประเมินความเสียหาย
- มีรายงานกรณีที่ข้อมูลผิดพลาดนำไปสู่ การเสียชีวิตของพลเรือนและเด็ก
ระหว่าง Anthropic กับกระทรวงกลาโหมสหรัฐมี ความขัดแย้งเรื่องการมีส่วนร่วมในงานเฝ้าระวังและการทำให้เป็นอาวุธ
- OpenAI เองก็มีข้อถกเถียงเกี่ยวกับสัญญากับรัฐบาลเช่นกัน
การทำให้เป็นอาวุธแบบอัตโนมัติกำลังเกิดขึ้นแล้ว
- ยูเครนผลิตโดรนหลายล้านลำต่อปี และใช้โมดูลกำหนดเป้าหมายด้วย AI อย่าง TFL-1
- ระบบ ML กำลังวิวัฒน์ไปเป็นเทคโนโลยีที่ตัดสินว่า ใครจะตาย และตายอย่างไร และเราจำเป็นต้องเผชิญหน้ากับต้นทุนทางจริยธรรมและสังคมของมันอย่างตรงไปตรงมา

ข้อสรุปเชิงนัยสำคัญ

ระบบ LLM และ ML มีความเสี่ยงหลายชั้น ทั้ง ความล้มเหลวของการจัดแนว, ช่องโหว่ด้านความปลอดภัย, และการทำให้การฉ้อโกง การคุกคาม และการสังหารเป็นระบบอัตโนมัติ
หากไม่มีการกำกับดูแลของมนุษย์และข้อจำกัดทางเทคนิค ความเสียหายทั้งทางจิตใจและทางกายย่อมหลีกเลี่ยงไม่ได้
แนวคิดเรื่อง “AI ที่ปลอดภัย” ยังไม่อาจทำให้เป็นจริงได้ในตอนนี้ และ การแพร่กระจายของเทคโนโลยีเองก็กำลังทำให้ความเสี่ยงเป็นประชาธิปไตย

1 ความคิดเห็น

GN⁺ 15 일 전

ความเห็นบน Hacker News

สรุปชุดบทความที่ถกเถียงกันตลอด 5 วันที่ผ่านมา
1. Introduction
2. Dynamics
3. Culture
4. Information Ecology
5. Annoyances
6. Psychological Hazards
7. Safety
  และยังมี เวอร์ชัน PDF ที่รวมเนื้อหาทั้งหมดไว้เป็นไฟล์เดียวด้วย
ไม่ได้คาดหวังว่าบริษัทเชิงพาณิชย์หรือหน่วยงานรัฐจะมี เป้าหมายที่ตรงกับของฉันอย่างแม่นยำ
ความสัมพันธ์แบบนี้โดยเนื้อแท้แล้วมีลักษณะเป็น ปฏิปักษ์ และการไว้วางใจเครื่องมือ AI ของคนอื่นให้ทำงานตามเป้าหมายของฉัน ก็เท่ากับย้ายปากท้องของฉันไปไว้ในกระเป๋าเงินของคนอื่น
- สงสัยว่าทำไมความสัมพันธ์เชิงพาณิชย์ถึงต้องเป็นปฏิปักษ์เสมอไป
  ความสัมพันธ์ทางการค้าจะยั่งยืนได้ก็ต่อเมื่อผู้บริโภคได้ความคุ้มค่าต่อราคา และบริษัทได้ผลตอบแทนคุ้มต้นทุน
  บางด้านอาจเป็นความขัดแย้งกัน แต่ก็ดูไม่ใช่ว่าจะเป็นปฏิปักษ์กันทั้งหมด
- สงสัยว่าทำไมถึงไม่ได้พูดถึงความสัมพันธ์ระหว่างคนด้วยกัน
  ทำให้นึกถึงว่าเป็นเพราะ ระบบราชการหรือการกระจุกตัวของทรัพยากร ที่สร้างความแตกต่าง หรือเป็นเพราะโครงสร้างทางกฎหมาย
- เห็นด้วย แต่ถ้าโลกเป็นแบบที่ ‘ความยินยอม(consent)’ ทำงานได้เหมือนสกุลเงิน ก็คงอาจเป็นไปได้
- การเรียกร้องให้ต้อง “ตรงกับฉันอย่างแม่นยำ” ฟังดูเหมือนการตั้งหุ่นฟางให้โจมตี
  ที่จริงแล้วกำลังพูดถึง เป้าหมายสากล ที่ใช้ได้กับมนุษยชาติทั้งหมด (เช่น การหลีกเลี่ยงปัญหา paperclip)
อุตสาหกรรม ML กำลังสร้างสภาพแวดล้อมที่ใครก็ตามที่มีเงินทุนมากพอก็สามารถฝึก โมเดลที่ไม่ถูกจัดแนว ได้
กลับกัน คิดว่าการที่กำแพงกั้นต่ำลงเป็นเรื่องน่ายินดี ฉันไม่เชื่อว่าโมเดลขนาดใหญ่จากสหรัฐหรือจีนจะถูกจัดแนวให้ตรงกับความต้องการของฉัน
การที่หลายกลุ่มสามารถสร้างโมเดลทรงพลังได้จะเพิ่ม อรรถประโยชน์สุทธิ ของ AI และลดความเสี่ยงจากการที่ห้องแล็บไม่กี่แห่งเป็นผู้ควบคุม
- การกระจายแบบนี้ช่วยลด ความเสี่ยงแบบคาร์เทล ได้ก็จริง แต่ท้ายที่สุดแต่ละประเทศก็คงออกกฎระเบียบขึ้นมา
  มีแนวโน้มจะไปสู่การลงทะเบียนโมเดล การทดสอบความปลอดภัย และการลงโทษเมื่อมีการใช้งานผิดกฎหมาย
- ปัญหา paperclip ไม่ได้เป็นแค่ ‘ความล้มเหลวในการจัดแนว’ แต่เกิดจาก ความมุ่งทำตามเป้าหมายแบบมืดบอด
  ถ้ามอบเครื่องมือที่ทรงพลังพอให้ ปัญหาแบบนั้นก็เกิดขึ้นกับ AI ปัจจุบันได้เช่นกัน
- ปัญหาคือใครเป็นคนให้นิยามความหมายของการจัดแนว และมันเปลี่ยนไปอย่างไรเมื่อเวลาผ่านไป
  ท้ายที่สุดผู้ใช้ทั่วไปกำลัง สูญเสียความเป็นเจ้าของอำนาจตัดสินใจ ในการถกเถียงนั้น
มีข้อความขึ้นว่า “Unavailable Due to the UK Online Safety Act” เลยสงสัยว่าคนนอกสหราชอาณาจักรกำลังเห็นอะไรอยู่
- ดูได้จาก ลิงก์ Web Archive
- รู้สึกว่ามันช่างประชดประชันดี
- สงสัยว่าส่วนไหนของบทความนี้ที่ถูกตัดสินว่า ‘ไม่ปลอดภัย’
- มีคนแนะนำให้ใช้ Tor Browser ด้วย
การถกเถียงจากบทความก่อนหน้านี้ดำเนินต่อมาจาก ตอน Culture และ ตอน Annoyances
คิดว่านี่เป็นมุมมองต่อธรรมชาติของมนุษย์ที่ ใจดีเกินไป
ฉันสงสัยต่อข้ออ้างที่ว่ามนุษย์นั้น ถูกออกแบบทางชีววิทยาให้เรียนรู้พฤติกรรมแบบเอื้อต่อสังคมโดยพื้นฐาน
- มีคนโต้แย้งว่าความร่วมมือของมนุษย์ไม่ใช่ข้อยกเว้น แต่เป็น ค่าเริ่มต้น ต่างหาก
- และก็มีคอมเมนต์ตอบแบบเหน็บแนมว่า “เริ่มจากสมมติฐานที่ผิดก็ไม่เป็นไร”
ไม่จำเป็นต้องฝึกโมเดลใหม่เลย
โมเดลฟรอนเทียร์ ทั้งหมดยังมี ช่องโหว่ jailbreak แบบเดียวกับเมื่อ 3 ปีก่อน
เพียงแต่ตอนนี้โมเดลทรงพลังขึ้นมาก ทำให้เอเจนต์ที่อ่านอีเมลของ CEO กลายเป็นเรื่องอันตรายกว่ามาก
- มีความเห็นด้วยว่าช่องโหว่บางอย่างยังคงอยู่ แต่ jailbreak ทั่วไป จำนวนมากถูกแก้ไขไปแล้ว
ความไม่สมมาตรของอำนาจ มักถูกมองข้ามในการถกเถียงเรื่องการจัดแนว
ถ้า AI จะทำอันตรายต่อผู้ใช้ มันไม่จำเป็นต้อง ‘ไม่ถูกจัดแนว’ ด้วยซ้ำ
แค่ไม่ตรงกับผู้ใช้ และ ถูกจัดแนวกับฝ่ายที่จ่ายเงิน ก็เพียงพอแล้ว
ทุกวันนี้ Enterprise SaaS ส่วนใหญ่ก็ทำงานในโครงสร้างแบบนี้อยู่แล้ว
มีการแชร์ งานวิจัยเกี่ยวกับ Adversarial AI
เรื่องสวนเอเดนเป็นนิทานเปรียบเปรยที่แต่งขึ้น แต่กลับชวนให้นึกถึงสถานการณ์ตอนนี้อย่างประหลาด
Geoffrey Hinton คงไม่ได้ถูกจิกกินตับทุกวันเหมือน Prometheus แต่ความหมายเชิงสัญลักษณ์ยังคงอยู่
- มีคอมเมนต์ตอบแบบติดตลกว่า ในบางตำนาน บาซิลิสก์ถูกพรรณนาเป็นสิ่งมีชีวิตที่คล้ายนก ด้วยเหมือนกัน

อนาคตของทุกสิ่งคือเรื่องโกหกหรือไม่: ความปลอดภัย

อนาคตของความปลอดภัยและเรื่องโกหก

การจัดแนว (Alignment) เป็นแนวคิดที่ล้มเหลว

ฝันร้ายด้านความปลอดภัย

‘สามประสานมรณะ (lethal trifecta)’

ความปลอดภัย II: สภาพแวดล้อมการโจมตีแบบใหม่ที่ ML สร้างขึ้น

การฉ้อโกงที่ซับซ้อนขึ้น

การคุกคามแบบอัตโนมัติ

PTSD as a Service

เครื่องจักรสังหาร

การทำให้เป็นอาวุธแบบอัตโนมัติกำลังเกิดขึ้นแล้ว

ข้อสรุปเชิงนัยสำคัญ

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นบน Hacker News