1 คะแนน โดย GN⁺ 15 일 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Machine Learning และ LLM กำลังก่อภัยต่อความปลอดภัยทั้งทางจิตใจและทางกายของมนุษย์ และแม้แต่ AI ที่ถูกทำให้เป็นมิตร ก็อาจเปลี่ยนเป็น โมเดลมุ่งร้าย ได้
  • การจัดแนว (alignment) เป็นแนวคิดที่ล้มเหลวโดยพื้นฐาน เพราะ แนวป้องกันทั้งหมดถูกทำให้ไร้ผล ไม่ว่าจะเป็นข้อจำกัดด้านฮาร์ดแวร์, โค้ดปิด, การควบคุมข้อมูล, หรือการประเมินโดยมนุษย์
  • LLM ก่อให้เกิดฝันร้ายด้านความปลอดภัยผ่าน prompt injection และการเชื่อมกับสิทธิ์ภายนอก และทำงานอย่างคาดเดาไม่ได้ในสภาพแวดล้อมแบบ สามประสานมรณะ
  • ML เร่ง การตรวจหาช่องโหว่ความปลอดภัย, การฉ้อโกง, การคุกคาม, และการทำให้การสังหารเป็นระบบอัตโนมัติ จนบ่อนทำลายความไว้วางใจทางสังคมและระเบียบทางกฎหมาย
  • ผลลัพธ์คือ ‘AI ที่ปลอดภัย’ เป็นไปไม่ได้ และหากไม่มีการกำกับดูแลและข้อจำกัดจากมนุษย์ การแพร่กระจายของเทคโนโลยีเองก็คือการทำให้ความเสี่ยงเป็นประชาธิปไตย

อนาคตของความปลอดภัยและเรื่องโกหก

  • ระบบแมชชีนเลิร์นนิง กำลังก้าวขึ้นมาเป็นสิ่งที่คุกคามความปลอดภัยทั้งทางจิตใจและทางกายของมนุษย์
    • ความพยายามในการสร้าง “AI ที่เป็นมิตร” กลับทำให้การสร้าง “โมเดลมุ่งร้าย” เป็นไปได้
    • LLM มีโครงสร้างที่ขยายความเสี่ยงหลากหลายรูปแบบ ทั้งด้านความปลอดภัย การฉ้อโกง การคุกคาม และการทำให้เป็นอาวุธ

การจัดแนว (Alignment) เป็นแนวคิดที่ล้มเหลว

  • การจัดแนว (alignment) คือกระบวนการทำให้ LLM ประพฤติตัวอย่างเป็นมิตรต่อมนุษย์ แต่โดยพื้นฐานแล้วมันใช้การไม่ได้
    • โมเดลเป็นเพียง โครงสร้างการคำนวณเชิงพีชคณิตเชิงเส้น จึงไม่มีพื้นฐานทางชีววิทยาแบบมนุษย์ที่จะเรียนรู้พฤติกรรมเพื่อสังคม
    • OpenAI และบริษัทอื่นๆ ปรับโมเดลด้วยการเรียนรู้เสริมกำลังจากฟีดแบ็กของมนุษย์ แต่สิ่งนี้เป็น กระบวนการที่มีต้นทุนสูงและทำได้อย่างเลือกสรร
  • มีการเสนอแนวป้องกันสี่ชั้นเพื่อป้องกันความล้มเหลวของการจัดแนว
    • การจำกัดการเข้าถึงฮาร์ดแวร์ หมดความหมายลงเพราะการขยายตัวของอุตสาหกรรม
    • การปิดเป็นความลับของคณิตศาสตร์และซอฟต์แวร์ ไม่ยั่งยืนเพราะการย้ายงานของบุคลากรและการรั่วไหลของเทคโนโลยี
    • ความยากในการจัดหาข้อมูลฝึกสอน ต่ำ — การละเมิดลิขสิทธิ์และการ scrape เว็บกลายเป็นเรื่องปกติ
    • การพึ่งผู้ประเมินที่เป็นมนุษย์ ถูกแทนที่ด้วยการพึ่งผลลัพธ์จากโมเดลอื่นเพราะปัญหาต้นทุน
  • ผลคือ อุปสรรคในการฝึกโมเดลมุ่งร้ายลดต่ำลง และแม้แต่โมเดลที่ถูกจัดแนวแล้วก็ยังไม่อาจรับประกันความปลอดภัยได้อย่างสมบูรณ์
    • เมื่อมี “โมเดลที่เป็นมิตร” ก็ย่อมจะมี “เวอร์ชันมุ่งร้าย” ตามมาในไม่ช้า
    • ดังนั้น หากไม่ต้องการให้มี โมเดลมุ่งร้าย ก็ไม่ควรสร้างแม้แต่โมเดลที่เป็นมิตรด้วยซ้ำ

ฝันร้ายด้านความปลอดภัย

  • LLM เป็น ระบบโกลาหลที่จัดการอินพุตและเอาต์พุตแบบไม่มีโครงสร้าง จึงไม่ควรถูกเชื่อมต่อเข้ากับระบบที่ความปลอดภัยเป็นสิ่งจำเป็น
    • ผ่าน การโจมตีแบบ prompt injection โมเดลอาจรั่วไหลข้อมูลอ่อนไหวได้
    • อินพุตที่ไม่น่าเชื่อถือมีอยู่ได้ทุกที่ ไม่ว่าจะเป็นอีเมล โค้ด หรือหน้าเว็บ
  • ‘สามประสานมรณะ (lethal trifecta)’

    • เมื่อเนื้อหาที่ไม่น่าเชื่อถือ + การเข้าถึงข้อมูลส่วนบุคคล + สิทธิ์สื่อสารภายนอก ถูกรวมเข้าด้วยกัน จะเกิดความเสี่ยงร้ายแรง
    • ในความเป็นจริง ระบบ AI agent อย่าง OpenClaw และ Moltbook ได้ทำให้ความเสี่ยงนี้กลายเป็นเรื่องจริงแล้ว
    • LLM ยังประพฤติตัวอย่างคาดเดาไม่ได้แม้กับอินพุตที่เชื่อถือได้ และมีหลายกรณีของ การลบไฟล์และการตีความคำสั่งผิด
    • รวมถึงกรณีที่หัวหน้าฝ่าย AI Alignment ของ Meta ถูก OpenClaw ลบกล่องจดหมาย
    • สรุปคือ LLM ไม่ควรได้รับสิทธิ์ที่ก่อความเสียหายได้ และควรถูกใช้อย่างจำกัดภายใต้การกำกับดูแลของมนุษย์เสมอ

ความปลอดภัย II: สภาพแวดล้อมการโจมตีแบบใหม่ที่ ML สร้างขึ้น

  • LLM สามารถถูกใช้เป็น เครื่องมือตรวจหาช่องโหว่ด้านความปลอดภัย ได้เช่นกัน
    • Mythos model ของ Anthropic มีความสามารถสูงในการตรวจหาข้อบกพร่องด้านความปลอดภัย แต่ผลกระทบของมันอาจรุนแรงในมิติเศรษฐกิจและความมั่นคง
  • ML กำลัง เปลี่ยนโครงสร้างต้นทุนด้านความปลอดภัย ทำให้การค้นหาช่องโหว่เร็วขึ้นและถูกลง
    • เมื่อเทียบกับซอฟต์แวร์ขนาดใหญ่ พื้นที่แบบ long tail ที่ขาดบุคลากรดูแลมีแนวโน้มจะได้รับความเสียหายหนักกว่า
  • เมื่อเวลาผ่านไป การตรวจหาช่องโหว่และการแก้ไขอาจดำเนินไปพร้อมกันได้ แต่คาดว่าจะเกิดความสับสนจาก ความล่าช้าในการกระจายแพตช์และการรับมือเชิงองค์กรที่ไม่เพียงพอ
  • ปัจจุบันอุตสาหกรรม ML กำลังทำงานคล้าย ‘โครงการอาวุธนิวเคลียร์’ ที่ขับเคลื่อนโดยภาคเอกชน และการแข่งขันด้านซอฟต์แวร์ที่ถูกทำให้เป็นอาวุธกำลังเร่งตัวขึ้น

การฉ้อโกงที่ซับซ้อนขึ้น

  • ML กำลัง ทำลายโครงสร้างทางสังคมที่ตั้งอยู่บนความเชื่อถือในหลักฐานภาพและเสียง
    • ในการเคลมประกัน อุบัติเหตุจราจร การศึกษา การจ้างงาน ฯลฯ สามารถเกิดการฉ้อโกงผ่าน ภาพและวิดีโอปลอมแปลง ได้
    • มีตัวอย่างจริงมากมายของการหลอกครอบครัวด้วย การโคลนเสียงและวิดีโอปลอม รวมถึงการโกงการเบิกค่ารักษาพยาบาล
  • ผลคือ ความไม่ไว้วางใจเพิ่มขึ้นทั่วสังคม ต้นทุนทางการเงินและประกันสูงขึ้น และเกิดความสับสนทางกฎหมาย
  • แม้จะมีความพยายามใช้เทคโนโลยีรับรองแหล่งที่มาของคอนเทนต์อย่าง C2PA แต่ก็ยากจะสร้างความน่าเชื่อถือได้ เพราะมีความเสี่ยงจาก การขโมยคีย์และการปลอมลายเซ็น
  • แนวทางรับมือที่เสนอ ได้แก่ การนำผู้ตรวจสอบที่เป็นมนุษย์กลับมา, การเพิ่มการตรวจสอบแบบพบหน้า, และ ระบบยืนยันตัวตนที่ต้องแลกกับความเป็นส่วนตัว

การคุกคามแบบอัตโนมัติ

  • ML ทำให้ การคุกคามออนไลน์ขนาดใหญ่และซับซ้อน กลายเป็นระบบอัตโนมัติ
    • LLM สามารถสร้างบัญชีและโพสต์ที่ดูเหมือนมนุษย์ เพื่อทำ การโจมตีแบบรุมถล่ม (dogpiling) ในวงกว้าง
    • ยังสามารถขยายไปเป็นภัยคุกคามออฟไลน์ได้ เช่น การคาดเดาตำแหน่งจากภาพถ่าย
  • Generative AI ยังสร้าง ภาพเชิงเพศและภาพความรุนแรง ได้ง่าย ทำให้เหยื่อได้รับบาดแผลทางจิตใจ
    • ตัวอย่าง: Grok ถูกวิจารณ์จากการสร้างภาพถอดเสื้อผ้าของบุคคล
  • เทคโนโลยีเหล่านี้ เพิ่มทั้งความถี่และความรุนแรงของการคุกคาม และยิ่งโมเดลที่ไม่ถูกจัดแนวแพร่กระจายมากขึ้น ความเสี่ยงก็ยิ่งสูงขึ้น
  • บางส่วนจึงพูดถึงความจำเป็นของอุปกรณ์ป้องกันทางสังคมแบบ ‘firewall สไตล์ cyberpunk (Blackwall)’

PTSD as a Service

  • การตรวจจับ สื่อการล่วงละเมิดทางเพศเด็ก (CSAM) ไม่อาจหยุด ภาพที่สร้างขึ้นใหม่ ได้ด้วยระบบแบบแฮชในปัจจุบัน
    • Generative AI สามารถผลิต ภาพการล่วงละเมิดรูปแบบใหม่ ได้จำนวนมาก
  • ผู้ตรวจคัดกรองคอนเทนต์ต้องตรวจดูภาพเหล่านี้เพราะ ภาระหน้าที่ทางกฎหมาย และต้องเผชิญกับ บาดแผลทางจิตใจ (PTSD)
    • แพลตฟอร์มขนาดใหญ่ได้ ผลักภาระความเสียหายทางจิตใจไปให้แรงงานเอาต์ซอร์ซ อยู่แล้ว
  • การแพร่กระจายของ LLM ทำให้ ปริมาณคอนเทนต์อันตรายพุ่งสูงขึ้น และสร้างภาระที่หนักกว่าเดิมแก่ ผู้คัดกรองและผู้ดูแลแพลตฟอร์ม
    • แม้โมเดลกรองอัตโนมัติกำลังพัฒนาอยู่ แต่ก็ยังไม่สมบูรณ์

เครื่องจักรสังหาร

  • ML ถูกใช้เป็น เครื่องมือสังหารโดยตรง แล้ว
    • กองทัพสหรัฐใช้ ระบบ Maven ของ Palantir เพื่อ คัดเลือกเป้าหมายการโจมตีทางอากาศในอิหร่าน และ ประเมินความเสียหาย
    • มีรายงานกรณีที่ข้อมูลผิดพลาดนำไปสู่ การเสียชีวิตของพลเรือนและเด็ก
  • ระหว่าง Anthropic กับกระทรวงกลาโหมสหรัฐมี ความขัดแย้งเรื่องการมีส่วนร่วมในงานเฝ้าระวังและการทำให้เป็นอาวุธ
    • OpenAI เองก็มีข้อถกเถียงเกี่ยวกับสัญญากับรัฐบาลเช่นกัน
  • การทำให้เป็นอาวุธแบบอัตโนมัติกำลังเกิดขึ้นแล้ว

    • ยูเครนผลิตโดรนหลายล้านลำต่อปี และใช้โมดูลกำหนดเป้าหมายด้วย AI อย่าง TFL-1
    • ระบบ ML กำลังวิวัฒน์ไปเป็นเทคโนโลยีที่ตัดสินว่า ใครจะตาย และตายอย่างไร และเราจำเป็นต้องเผชิญหน้ากับต้นทุนทางจริยธรรมและสังคมของมันอย่างตรงไปตรงมา

ข้อสรุปเชิงนัยสำคัญ

  • ระบบ LLM และ ML มีความเสี่ยงหลายชั้น ทั้ง ความล้มเหลวของการจัดแนว, ช่องโหว่ด้านความปลอดภัย, และการทำให้การฉ้อโกง การคุกคาม และการสังหารเป็นระบบอัตโนมัติ
  • หากไม่มีการกำกับดูแลของมนุษย์และข้อจำกัดทางเทคนิค ความเสียหายทั้งทางจิตใจและทางกายย่อมหลีกเลี่ยงไม่ได้
  • แนวคิดเรื่อง “AI ที่ปลอดภัย” ยังไม่อาจทำให้เป็นจริงได้ในตอนนี้ และ การแพร่กระจายของเทคโนโลยีเองก็กำลังทำให้ความเสี่ยงเป็นประชาธิปไตย

1 ความคิดเห็น

 
GN⁺ 15 일 전
ความเห็นบน Hacker News
  • สรุปชุดบทความที่ถกเถียงกันตลอด 5 วันที่ผ่านมา

    1. Introduction
    2. Dynamics
    3. Culture
    4. Information Ecology
    5. Annoyances
    6. Psychological Hazards
    7. Safety
      และยังมี เวอร์ชัน PDF ที่รวมเนื้อหาทั้งหมดไว้เป็นไฟล์เดียวด้วย
  • ไม่ได้คาดหวังว่าบริษัทเชิงพาณิชย์หรือหน่วยงานรัฐจะมี เป้าหมายที่ตรงกับของฉันอย่างแม่นยำ
    ความสัมพันธ์แบบนี้โดยเนื้อแท้แล้วมีลักษณะเป็น ปฏิปักษ์ และการไว้วางใจเครื่องมือ AI ของคนอื่นให้ทำงานตามเป้าหมายของฉัน ก็เท่ากับย้ายปากท้องของฉันไปไว้ในกระเป๋าเงินของคนอื่น

    • สงสัยว่าทำไมความสัมพันธ์เชิงพาณิชย์ถึงต้องเป็นปฏิปักษ์เสมอไป
      ความสัมพันธ์ทางการค้าจะยั่งยืนได้ก็ต่อเมื่อผู้บริโภคได้ความคุ้มค่าต่อราคา และบริษัทได้ผลตอบแทนคุ้มต้นทุน
      บางด้านอาจเป็นความขัดแย้งกัน แต่ก็ดูไม่ใช่ว่าจะเป็นปฏิปักษ์กันทั้งหมด
    • สงสัยว่าทำไมถึงไม่ได้พูดถึงความสัมพันธ์ระหว่างคนด้วยกัน
      ทำให้นึกถึงว่าเป็นเพราะ ระบบราชการหรือการกระจุกตัวของทรัพยากร ที่สร้างความแตกต่าง หรือเป็นเพราะโครงสร้างทางกฎหมาย
    • เห็นด้วย แต่ถ้าโลกเป็นแบบที่ ‘ความยินยอม(consent)’ ทำงานได้เหมือนสกุลเงิน ก็คงอาจเป็นไปได้
    • การเรียกร้องให้ต้อง “ตรงกับฉันอย่างแม่นยำ” ฟังดูเหมือนการตั้งหุ่นฟางให้โจมตี
      ที่จริงแล้วกำลังพูดถึง เป้าหมายสากล ที่ใช้ได้กับมนุษยชาติทั้งหมด (เช่น การหลีกเลี่ยงปัญหา paperclip)
  • อุตสาหกรรม ML กำลังสร้างสภาพแวดล้อมที่ใครก็ตามที่มีเงินทุนมากพอก็สามารถฝึก โมเดลที่ไม่ถูกจัดแนว ได้
    กลับกัน คิดว่าการที่กำแพงกั้นต่ำลงเป็นเรื่องน่ายินดี ฉันไม่เชื่อว่าโมเดลขนาดใหญ่จากสหรัฐหรือจีนจะถูกจัดแนวให้ตรงกับความต้องการของฉัน
    การที่หลายกลุ่มสามารถสร้างโมเดลทรงพลังได้จะเพิ่ม อรรถประโยชน์สุทธิ ของ AI และลดความเสี่ยงจากการที่ห้องแล็บไม่กี่แห่งเป็นผู้ควบคุม

    • การกระจายแบบนี้ช่วยลด ความเสี่ยงแบบคาร์เทล ได้ก็จริง แต่ท้ายที่สุดแต่ละประเทศก็คงออกกฎระเบียบขึ้นมา
      มีแนวโน้มจะไปสู่การลงทะเบียนโมเดล การทดสอบความปลอดภัย และการลงโทษเมื่อมีการใช้งานผิดกฎหมาย
    • ปัญหา paperclip ไม่ได้เป็นแค่ ‘ความล้มเหลวในการจัดแนว’ แต่เกิดจาก ความมุ่งทำตามเป้าหมายแบบมืดบอด
      ถ้ามอบเครื่องมือที่ทรงพลังพอให้ ปัญหาแบบนั้นก็เกิดขึ้นกับ AI ปัจจุบันได้เช่นกัน
    • ปัญหาคือใครเป็นคนให้นิยามความหมายของการจัดแนว และมันเปลี่ยนไปอย่างไรเมื่อเวลาผ่านไป
      ท้ายที่สุดผู้ใช้ทั่วไปกำลัง สูญเสียความเป็นเจ้าของอำนาจตัดสินใจ ในการถกเถียงนั้น
  • มีข้อความขึ้นว่า “Unavailable Due to the UK Online Safety Act” เลยสงสัยว่าคนนอกสหราชอาณาจักรกำลังเห็นอะไรอยู่

    • ดูได้จาก ลิงก์ Web Archive
    • รู้สึกว่ามันช่างประชดประชันดี
    • สงสัยว่าส่วนไหนของบทความนี้ที่ถูกตัดสินว่า ‘ไม่ปลอดภัย’
    • มีคนแนะนำให้ใช้ Tor Browser ด้วย
  • การถกเถียงจากบทความก่อนหน้านี้ดำเนินต่อมาจาก ตอน Culture และ ตอน Annoyances

  • คิดว่านี่เป็นมุมมองต่อธรรมชาติของมนุษย์ที่ ใจดีเกินไป
    ฉันสงสัยต่อข้ออ้างที่ว่ามนุษย์นั้น ถูกออกแบบทางชีววิทยาให้เรียนรู้พฤติกรรมแบบเอื้อต่อสังคมโดยพื้นฐาน

    • มีคนโต้แย้งว่าความร่วมมือของมนุษย์ไม่ใช่ข้อยกเว้น แต่เป็น ค่าเริ่มต้น ต่างหาก
    • และก็มีคอมเมนต์ตอบแบบเหน็บแนมว่า “เริ่มจากสมมติฐานที่ผิดก็ไม่เป็นไร”
  • ไม่จำเป็นต้องฝึกโมเดลใหม่เลย
    โมเดลฟรอนเทียร์ ทั้งหมดยังมี ช่องโหว่ jailbreak แบบเดียวกับเมื่อ 3 ปีก่อน
    เพียงแต่ตอนนี้โมเดลทรงพลังขึ้นมาก ทำให้เอเจนต์ที่อ่านอีเมลของ CEO กลายเป็นเรื่องอันตรายกว่ามาก

    • มีความเห็นด้วยว่าช่องโหว่บางอย่างยังคงอยู่ แต่ jailbreak ทั่วไป จำนวนมากถูกแก้ไขไปแล้ว
  • ความไม่สมมาตรของอำนาจ มักถูกมองข้ามในการถกเถียงเรื่องการจัดแนว
    ถ้า AI จะทำอันตรายต่อผู้ใช้ มันไม่จำเป็นต้อง ‘ไม่ถูกจัดแนว’ ด้วยซ้ำ
    แค่ไม่ตรงกับผู้ใช้ และ ถูกจัดแนวกับฝ่ายที่จ่ายเงิน ก็เพียงพอแล้ว
    ทุกวันนี้ Enterprise SaaS ส่วนใหญ่ก็ทำงานในโครงสร้างแบบนี้อยู่แล้ว

  • มีการแชร์ งานวิจัยเกี่ยวกับ Adversarial AI

  • เรื่องสวนเอเดนเป็นนิทานเปรียบเปรยที่แต่งขึ้น แต่กลับชวนให้นึกถึงสถานการณ์ตอนนี้อย่างประหลาด
    Geoffrey Hinton คงไม่ได้ถูกจิกกินตับทุกวันเหมือน Prometheus แต่ความหมายเชิงสัญลักษณ์ยังคงอยู่

    • มีคอมเมนต์ตอบแบบติดตลกว่า ในบางตำนาน บาซิลิสก์ถูกพรรณนาเป็นสิ่งมีชีวิตที่คล้ายนก ด้วยเหมือนกัน