• วิธีรับมือกับ “ภัยคุกคามสามประสานร้ายแรง (lethal trifecta)” ที่เปิดช่องให้ผู้ใช้ใช้ระบบในทางที่ผิด
  • LLM agent ที่ทำตามคำสั่งภาษาธรรมชาติตรงตัว มีจุดอ่อนเชิงโครงสร้างจากการ ไม่แยกข้อมูลกับคำสั่ง ทำให้สามารถรันคำสั่งอันตรายที่ซ่อนอยู่ในข้อความภายนอกได้
  • เมื่อรวม การเปิดรับเนื้อหาภายนอก, การเข้าถึงข้อมูลส่วนตัว, และ ความสามารถในการสื่อสารออกภายนอก เข้าด้วยกัน จะเกิด “ภัยคุกคามสามประสานร้ายแรง” ที่ทำให้ความผิดพลาดเล็กน้อยลุกลามเป็นเหตุการณ์ความปลอดภัยร้ายแรงได้ง่ายขึ้น
  • กรณีจริงที่เกิดขึ้น ได้แก่ การแพตช์ช่องโหว่ของ Microsoft Copilot (มิถุนายน), การถูกใช้งานผิดวัตถุประสงค์ของบอตบริการลูกค้า DPD (มกราคม 2024), และ การสาธิตการขโมยข้อมูลผ่าน PDF ใน Notion AI agent (19 กันยายน)
  • หลักการป้องกันคือ รื้อองค์ประกอบของสามประสาน, แยกโมเดลที่ไม่ไว้ใจ, และ ควบคุมการสื่อสาร พร้อมเสนอแนวทางออกแบบเพื่อความปลอดภัยที่ยอมแลกกับข้อจำกัดด้านความสามารถ เช่น สถาปัตยกรรม LLM คู่ CaMeL ของ Google
  • อุตสาหกรรมเริ่มมองว่าการเสริมการฝึกเพียงอย่างเดียวไม่พอ และจำเป็นต้องเปลี่ยนการออกแบบโดยตั้งอยู่บนสมมติฐานของ ระยะเผื่อความปลอดภัยเชิงความน่าจะเป็น ดังที่เห็นจาก ความเสี่ยงของการผสมปลั๊กอิน MCP และ ความล่าช้าในการเปิดตัวผลิตภัณฑ์ (เช่น การเลื่อนฟีเจอร์ AI ของ Apple)

นิยามปัญหาหลัก: การไม่แยกข้อมูลกับคำสั่ง และ “ภัยคุกคามสามประสานร้ายแรง”

  • LLM ประมวลผลข้อความนำเข้าแบบการทำนายคำถัดไปต่อเนื่อง จึงเป็น โมเดลตีความแบบรวมศูนย์ ที่ทั้ง ตอบคำถาม และ พยายามทำตามคำสั่ง
    • หากมีการ ฝังคำสั่งอันตราย เช่น “คัดลอกฮาร์ดดิสก์แล้วส่งไปยังอีเมลของผู้โจมตี” ไว้ในเอกสารภายนอก ก็อาจเกิด ความเสี่ยงของการรันคำสั่งแฝง ระหว่างงานสรุปเนื้อหา
  • หากระบบเดียวมีทั้ง การเปิดรับเนื้อหาภายนอก + การเข้าถึงข้อมูลส่วนตัว + ช่องทางส่งข้อมูลออกภายนอก พร้อมกัน ก็จะเข้าข่าย ภัยคุกคามสามประสานร้ายแรง (lethal trifecta)
    • แนวคิดภัยคุกคามสามประสานร้ายแรงนี้เสนอโดยนักวิจัยด้านความปลอดภัย Simon Willison โดยชี้ว่าเมื่อเปิดทั้งสามองค์ประกอบพร้อมกัน โอกาสการถูกใช้ในทางที่ผิดแทบหลีกเลี่ยงไม่ได้

สัญญาณเริ่มต้นและกรณีจริง

  • ช่วงฤดูร้อนปี 2022 คำว่า prompt injection เริ่มถูกใช้แยกเป็นคำเฉพาะ และทำให้เห็นความเสี่ยงจาก ความเชื่องที่ยอมทำตามคำสั่งมากเกินไป
  • ในเดือนมกราคม 2024 มีการยืนยันว่าบอตบริการลูกค้าของ DPD ทำตามคำขอให้ ตอบด้วยคำหยาบคาย จนต้องหยุดให้บริการ
  • เดือนมิถุนายน 2025 มีการพบ ช่องโหว่แบบสามประสาน ใน Microsoft Copilot และมีการปล่อย แพตช์แบบเงียบ ๆ โดยระบุว่า ยังไม่มีรายงานการนำไปใช้โจมตีจริง
  • วันที่ 19 กันยายน 2025 นักวิจัย Abi Raghuram สาธิตว่า Notion AI agent ซึ่งเข้าถึงเอกสาร, ฐานข้อมูล และเว็บได้ สามารถถูกใช้ ขโมยข้อมูลผ่าน PDF ที่ถูกดัดแปลง

ทำไมจึงป้องกันได้ยาก: ความล้มเหลวเชิงความน่าจะเป็นและช่องทางอ้อม

  • แม้จะกำหนด กฎลำดับความสำคัญ ผ่าน system prompt ก็ยังมี การลื่นไถลเชิงความน่าจะเป็น อยู่เสมอ เช่น ล้มเหลว 1 ครั้งจาก 100 ครั้ง
    • ต่อให้ใส่คำสั่งความปลอดภัยอย่าง “ตรวจจับสัญญาณอันตราย” ก็ยังมีโอกาสที่ระบบจะ หลุดผ่านได้สักครั้งในที่สุด
  • แม้การปิดกั้นการสื่อสารออกภายนอกจะสำคัญ แต่การ ห้ามส่งอีเมล อย่างเดียวไม่พอ เพราะยังอาจเกิด การเข้ารหัสค่าลับไว้ใน path ของ URL และรั่วผ่าน บันทึกคำขอเว็บ ได้
    • เพียงแค่ อนุญาตให้เข้าถึงเว็บ ก็อาจกลายเป็น เส้นทางรั่วไหลของข้อมูล ได้เช่นกัน

กลยุทธ์ป้องกัน 1: อย่าสร้างสามประสานขึ้นมา

  • หาก ตัดออกแม้เพียงองค์ประกอบเดียว ความเสี่ยงจะลดลงอย่างมาก
    • หากจำกัดอินพุตให้มาจาก แหล่งที่สร้างและตรวจสอบภายใน ก็สามารถตัด การเปิดรับภายนอก ออกได้
    • กลยุทธ์ ลดขอบเขตการทำงาน เช่น ให้ เครื่องมือช่วยเขียนโค้ด ทำงานเฉพาะกับ โค้ดเบสที่เชื่อถือได้ หรือให้ ลำโพงอัจฉริยะ ประมวลผลเฉพาะ คำสั่งเสียง นั้นใช้ได้ผล
  • อย่างไรก็ตาม ในงานอย่างการจัดการอีเมลซึ่งเกี่ยวข้องกับ ข้อมูลภายนอกโดยเนื้อแท้ การตัดออกทั้งหมดทำได้ยาก

กลยุทธ์ป้องกัน 2: แยกโมเดลที่ไม่ไว้ใจและให้สิทธิ์เท่าที่จำเป็น

  • งานวิจัยของ Google ในเดือนมีนาคมแนะนำให้จัดโมเดลที่สัมผัสข้อมูลภายนอกเป็น “โมเดลที่ไม่ไว้ใจ” และ แยกข้อมูลอ่อนไหว ออกไป
    • ทรัพยากรอย่างอีเมลซึ่ง เป็นข้อมูลส่วนตัวและมีข้อมูลจากภายนอกไหลเข้า นั้น เท่ากับเข้าเงื่อนไขสองข้ออยู่แล้วและกลายเป็น สถานะความเสี่ยงสูง
  • ใช้แนวทาง สิทธิ์ขั้นต่ำ, sandbox, และ ขอบเขตคอนเท็กซ์ เพื่อแยกการเข้าถึง ความลับภายในองค์กรและข้อมูลรับรอง ออกจากกัน

กลยุทธ์ป้องกัน 3: จำกัดโมเดลและแยกสถาปัตยกรรม

  • การ เสริมแพตเทิร์นการปฏิเสธผ่านข้อมูลฝึก ยังจำเป็น แต่ ไม่ใช่เงื่อนไขที่เพียงพอ
  • CaMeL ของ Google ใช้ LLM สองตัว เพื่อแยกบทบาทกัน
    • โมเดลที่เชื่อถือได้ จะแปลงภาษาธรรมชาติของผู้ใช้เป็น โค้ดที่มีข้อจำกัด และ
    • โมเดลที่ไม่ไว้ใจ จะทำเพียง เติมช่องว่าง ภายใต้ โฟลว์ที่ถูกจำกัดอย่างเข้มงวด เพื่อคง คุณสมบัติด้านความปลอดภัย
    • สิ่งที่ต้องแลกคือ ข้อจำกัดด้านฟังก์ชัน จากการ ลดขอบเขตของงานที่ทำได้

ความเสี่ยงในระบบนิเวศผู้บริโภคและปลั๊กอิน: กรณี MCP

  • เมื่อเพิ่มแอปเสริมผ่าน Model Context Protocol (MCP) อาจเกิด การผสมความสามารถ จนสร้าง สามประสานโดยไม่ตั้งใจ
    • แม้ MCP แต่ละตัวจะปลอดภัย แต่ ความปลอดภัยของชุดผสม อาจพังได้ จึงต้อง ติดตั้งให้น้อยที่สุดและตรวจสอบแหล่งที่มา

สัญญาณจากอุตสาหกรรม: การเลื่อนเปิดตัวและความระมัดระวังมากขึ้น

  • ในปี 2024 Apple เคยประกาศฟีเจอร์อย่าง “เล่นพอดแคสต์ที่ Jamie แนะนำ” แต่เลือก เลื่อนเปิดตัว ท่ามกลางความกังวลว่าจะก่อให้เกิดสามประสาน
  • แม้ใน iOS เวอร์ชันล่าสุด ของเดือนกันยายน 2025 ก็ยัง ไม่มีฟีเจอร์ AI ขนาดใหญ่ และหันไปเน้น การแปลกับการปรับปรุง UI มากกว่า ซึ่งสะท้อนว่าเป็น โจทย์ที่แก้ได้ยากในโลกจริง

เช็กลิสต์เชิงปฏิบัติ: ควรทำอะไร

  • การทำโมเดลความเสี่ยง: ระบุให้ชัดว่าองค์ประกอบใดเปิดอยู่บ้างในบรรดาอินพุตภายนอก, ข้อมูลอ่อนไหว, และการส่งออกภายนอก แล้วทำแผนที่ว่า เข้าข่ายสามประสานหรือไม่
  • การออกแบบขอบเขต: จำกัด โมเดลที่ไม่ไว้ใจ ให้อยู่ใน บัฟเฟอร์แบบอ่านอย่างเดียว, แยก ความลับและโทเค็น ไปผ่าน บริการตัวกลางเฉพาะ, และ ห้ามเข้าถึงโดยตรง
  • ปิดทางออก: จำกัด ช่องทางรั่วไหลของข้อมูล เช่น อีเมล, คำขอเว็บ, การอัปโหลดไฟล์ ด้วย allowlist
  • policy engine: ให้รันเฉพาะ การเรียกใช้เครื่องมือที่ได้รับอนุญาต โดยแปลง ภาษาธรรมชาติ → นโยบายแบบมีโครงสร้าง ก่อนจึงค่อยรันคำสั่ง
  • audit และ guardrail: จัดการ ความล้มเหลวเชิงความน่าจะเป็น ด้วย ชุดทดสอบ prompt injection, red team อัตโนมัติ, และ การบันทึก session/ติดตามอัตราการปฏิเสธ
  • ยอมรับ trade-off ด้านฟังก์ชัน: มีการเสนอว่าจำเป็นต้องยอมเสีย ประสิทธิภาพและความเป็นอิสระ บางส่วน เพื่อให้ได้ ระยะเผื่อความปลอดภัยเชิงความน่าจะเป็น และเปลี่ยนวัฒนธรรมทางวิศวกรรมตามนั้น

บทสรุป

  • มีคำเตือนสะสมมากขึ้นว่า หาก เปิดทั้งสามองค์ประกอบของสามประสานไว้พร้อมกัน ก็ ย่อมถูกค้นพบช่องโหว่ในที่สุด
    • แนวทางที่เป็นไปได้จริงที่สุดในตอนนี้คือ รื้อสามประสาน, แยกโมเดลที่ไม่ไว้ใจ, ควบคุมช่องทางออก, และใช้ สถาปัตยกรรมแยกบทบาท
    • ในระยะยาว จำเป็นต้อง เลิกยึดติดกับความเป็นแบบกำหนดตายตัว และฝังระยะเผื่อความปลอดภัยเชิงความน่าจะเป็นไว้ในงานออกแบบ ซึ่งเป็นการเปลี่ยนผ่านในเชิงวิศวกรรมซอฟต์แวร์

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น