5 คะแนน โดย GN⁺ 4 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • เพียงมี indirect prompt injection ที่ซ่อนอยู่ในชีตเดียว ก็สามารถทำให้เวิร์กบุ๊กทั่วทั้งบัญชีของเหยื่อรั่วไหลออกไปภายนอก และเกิดการโจมตีแบบฟิชชิงโอเวอร์เลย์พร้อมกันได้
  • การโจมตีนี้สามารถหลบเลี่ยงได้แม้ผู้ใช้จะตั้งค่าให้ต้องมี การอนุมัติจากมนุษย์ (human-in-the-loop) อย่างชัดเจนก็ตาม
  • สิ่งที่ต้องใช้ในการกระตุ้นการโจมตีมีเพียง คำถามของผู้ใช้ที่ดูปกติเพียงครั้งเดียว เท่านั้น และสามารถรันทั้งการรั่วไหลของเวิร์กบุ๊กหลายไฟล์ ป๊อปอัปฟิชชิง การยึดไซด์บาร์ และการแก้ไขโดยไม่ได้รับอนุญาตได้พร้อมกัน
  • หลังได้รับรายงาน OpenAI ได้ตอบสนองทันทีด้วยการ ถอดความสามารถสร้างโค้ด Apps Script และระบุว่าจะทบทวนการโต้ตอบกับ Google API แนวทาง sandboxing และฟังก์ชันลักษณะคล้ายกันอีกครั้ง
  • เป็นกรณีพิสูจน์เชิงประจักษ์ของ ความเสี่ยงด้านความปลอดภัยแบบเอเจนต์ (agentic security risk) ที่เกิดขึ้นเมื่อสิทธิ์ที่มอบให้ส่วนขยาย AI ถูกนำไปใช้ในทางที่ผิด

ภาพรวม

  • ส่วนขยาย ChatGPT สำหรับ Google Sheets ที่ OpenAI เปิดตัว มียอดดาวน์โหลด มากกว่า 185,000 ครั้ง ภายในเวลาไม่ถึงหนึ่งเดือนหลังเปิดตัว
  • ผู้ใช้สามารถโต้ตอบกับแชตบอต AI ที่อยู่ในไซด์บาร์เพื่อจัดการสเปรดชีต และยังใช้ข้อมูลจาก ChatGPT connectors ร่วมกันได้
  • การโจมตีแบบ indirect prompt injection เพียงครั้งเดียว สามารถสร้างความเสียหายต่อไปนี้ได้ด้วยคำถามปกติเพียงครั้งเดียว
    • รั่วไหลเวิร์กบุ๊กหลายไฟล์ทั่วทั้งบัญชีของเหยื่อ
    • แสดงป๊อปอัปฟิชชิงแบบโต้ตอบ
    • เขียนทับไซด์บาร์ GPT ทั้งหมดให้กลายเป็นอินเทอร์เฟซแชตบอตที่ผู้โจมตีควบคุม
    • แก้ไขเวิร์กบุ๊กที่ผู้โจมตีควบคุม
  • แหล่งข้อมูลที่ไม่น่าเชื่อถือ (เช่น ชีตที่นำเข้า หรือ ChatGPT connector) สามารถควบคุม ChatGPT ให้รัน สคริปต์ภายนอกที่ผู้โจมตีควบคุม ซึ่งสคริปต์นี้จะใช้สิทธิ์เดียวกับที่ผู้ใช้มอบให้ส่วนขยายนั้นโดยตรง

การตอบสนองของ OpenAI

  • OpenAI แสดงความขอบคุณต่อการวิจัยด้านความปลอดภัย และยอมรับว่ารายงานนี้หลุดจากช่องทางเปิดเผยสาธารณะที่มีอยู่
  • มาตรการเร่งด่วนคือ ลบความสามารถของโมเดลในการสร้างโค้ด Apps Script เพื่อลดความเสี่ยงต่อผู้ใช้ ChatGPT for Google Sheets
  • กำลังตรวจสอบอย่างละเอียดถึงปฏิสัมพันธ์ระหว่างฟีเจอร์นี้กับ Google Sheets API และประเมิน แนวทาง sandboxing ใหม่เพื่อเพิ่มความต้านทานต่อการโจมตีแบบ prompt injection
  • ในภาพกว้างกว่านั้น ยังมีแผนทบทวนฟีเจอร์ลักษณะคล้ายกันในส่วนอื่น ๆ เพื่อให้แนวป้องกันมีความสม่ำเสมอและมีประสิทธิภาพ

ลำดับการโจมตี

  • ผู้ใช้กำลังทำงานกับ โมเดลการเงิน (financial model) ภายในองค์กร
  • มีการนำเข้า (import) ชุดข้อมูลภายนอกเพื่อเสริมโมเดล
  • ในชีตภายนอกมี prompt injection ที่ซ่อนด้วยข้อความสีขาว
  • ผู้ใช้ขอให้ ChatGPT for Google Sheets นำข้อมูลที่นำเข้ามาผสานเข้ากับโมเดลการเงิน
  • injection ควบคุม ChatGPT ให้รันสคริปต์ภายนอก
    • การตั้งค่า 'Apply edits automatically' ใช้กำหนดจังหวะที่มนุษย์จะอนุมัติก่อนการทำงานของเอเจนต์เสร็จสิ้น แต่ การโจมตียังเกิดขึ้นได้แม้ปิดการแก้ไขอัตโนมัติ
  • สคริปต์ภายนอกดึงโมเดลการเงินออกจากเวิร์กบุ๊กของผู้ใช้ และพบโมเดลที่รั่วไหลในล็อกเซิร์ฟเวอร์ของผู้โจมตี
  • สคริปต์ระบุและรั่วไหลลิงก์เวิร์กบุ๊กอื่น ๆ จากข้อมูลที่ขโมยมา แล้วแพร่ต่อไปยังทุกเวิร์กบุ๊กที่ค้นพบได้
    • ในชีตโมเดลการเงินภายในมีลิงก์ไปยังสเปรดชีตงบประมาณอื่น ๆ สคริปต์จึงระบุ URL เหล่านั้น รั่วไหลเวิร์กบุ๊กใหม่ แล้วดำเนินการต่อไปยังเวิร์กบุ๊กเพิ่มเติม จน รวมสุดท้าย 12 ไฟล์
    • แม้จะกดปุ่ม 'stop' ในไซด์บาร์ ChatGPT ก็ไม่สามารถหยุดการทำงานของสคริปต์ที่เริ่มไปแล้วได้

การโจมตีแบบฟิชชิงโอเวอร์เลย์

  • นอกจากการรั่วไหลของข้อมูลแล้ว สคริปต์ที่ผู้โจมตีควบคุมตัวเดียวกันยังใช้ทำ การโจมตีแบบฟิชชิงโอเวอร์เลย์ได้ 2 แบบ
  • แบบที่ 1: เปิดไซด์บาร์ที่ทับส่วนขยายและชี้ไปยังเว็บไซต์ที่ผู้โจมตีควบคุม เพื่อปลอมตัวเป็นส่วนขยาย โดยไซด์บาร์อันตรายนี้สามารถรันสคริปต์แก้ไขชีตได้เหมือน ChatGPT และทำพฤติกรรมอันตรายต่อไปนี้
    • เก็บรวบรวมพรอมป์ต์ทั้งหมดของผู้ใช้
    • ให้แชตบอตที่ไม่สอดคล้องกับข้อกำหนด (misaligned) แก่ผู้ใช้
    • หลอกให้เชื่อมต่อ connector ใหม่เพื่อขอสิทธิ์เข้าถึงแอปเพิ่มเติม
    • แสดง UI ฟิชชิงเพื่อขโมยข้อมูลรับรองของ OpenAI
  • แบบที่ 2: เปิดป๊อปอัปโมดัลที่เรนเดอร์เว็บไซต์ซึ่งผู้โจมตีควบคุม เพื่อทำฟิชชิงข้อมูลรับรอง

วิธีควบคุมการเข้าถึง

  • องค์กรสามารถควบคุมการเข้าถึง ChatGPT for Google Sheets ได้ผ่านการตั้งค่าต่อไปนี้
    • Workspace settings > Permissions & roles > ChatGPT for Excel and Google Sheets

การเปิดเผยและความคืบหน้าการตอบสนอง

  • ช่องโหว่นี้ถูกส่งให้ OpenAI ตามแนวทาง การเปิดเผยอย่างรับผิดชอบ และหลังการติดตามหลายครั้ง ก็ยังไม่มีการสื่อสารนอกจากอีเมลตอบรับอัตโนมัติจนถึงช่วงเปิดเผยครั้งแรก
  • เอกสารของ OpenAI ไม่ได้อธิบายถึงฟังก์ชันที่มีความอ่อนไหวซึ่งมอบให้โมเดล เช่น การรันสคริปต์ที่มีสิทธิ์ หรือความเสี่ยงจากการควบคุมโมเดลผ่าน indirect prompt injection โดยเน้นไปที่ข้อจำกัดของฟีเจอร์และข้อกังวลด้านการประมวลผลข้อมูลมากกว่า
  • จุดประสงค์ของการเปิดเผยคือเพื่อให้ผู้คนสามารถตัดสินใจบนพื้นฐานของข้อมูลเกี่ยวกับพื้นผิวความเสี่ยงนี้ได้
  • ไทม์ไลน์

    • 8 พฤษภาคม 2026: PromptArmor เปิดเผยต่อ OpenAI ทางอีเมล
    • 8 พฤษภาคม 2026: OpenAI ส่งอีเมลตอบรับอัตโนมัติยืนยันว่าเป็นช่องทางรับรายงานที่ตั้งใจไว้
    • 8 พฤษภาคม 2026: PromptArmor ยืนยันความต้องการสื่อสารทางอีเมล
    • 12 พฤษภาคม 2026: PromptArmor ติดตามผล
    • 18 พฤษภาคม 2026: PromptArmor ติดตามผล
    • 27 พฤษภาคม 2026: เปิดเผยสู่สาธารณะ
    • 31 พฤษภาคม 2026: OpenAI ตอบสนอง
    • OpenAI ระบุว่า หลังรับทราบรายงานแล้ว ได้ถอด ความสามารถสร้างโค้ด Apps Script ของโมเดลออกทันทีเพื่อปกป้องผู้ใช้ และควรขจัดความเสี่ยงต่อผู้ใช้ ChatGPT for Google Sheets
    • OpenAI ระบุว่าจะตรวจสอบอย่างละเอียดว่าฟีเจอร์นี้โต้ตอบกับ Google Sheets API อย่างไร และจะประเมิน แนวทาง sandboxing ใหม่เพื่อให้ทนทานต่อการโจมตีแบบ prompt injection มากที่สุด
    • OpenAI ระบุว่าจะทบทวนฟีเจอร์ลักษณะคล้ายกันบนพื้นผิวอื่น ๆ เพื่อยืนยันว่าแนวป้องกันมีความสม่ำเสมอและมีประสิทธิภาพ

1 ความคิดเห็น

 
GN⁺ 4 시간 전
ความเห็นจาก Hacker News
  • ผมคือ Max จากทีมความปลอดภัยของ OpenAI ขอบคุณสำหรับงานวิจัยด้านความปลอดภัยครั้งนี้ และขออภัยที่กรณีนี้หลุดรอดไปจากช่องโหว่ใน กระบวนการรับรายงานการเปิดเผยต่อสาธารณะ
    ตอนนี้เมื่อเราทราบรายงานนี้แล้ว เราได้ถอดความสามารถของโมเดลในการสร้าง โค้ด Apps Script ออก เพื่อปกป้องผู้ใช้จากการโจมตีที่อาจเกิดขึ้นในส่วนนี้ ดังนั้นความเสี่ยงต่อผู้ใช้ ChatGPT for Google Sheets ควรหมดไปแล้ว
    เรากำลังตรวจสอบอย่างละเอียดว่าฟีเจอร์นี้โต้ตอบกับ Google Sheets API อย่างไร และกำลังประเมินแนวทาง sandbox ใหม่ เพื่อให้ผลิตภัณฑ์ทนทานต่อการโจมตีแบบ prompt injection ได้มากที่สุด ในภาพกว้าง เราจะทบทวนฟีเจอร์ลักษณะคล้ายกันบนพื้นผิวอื่น ๆ อีกครั้งเพื่อให้มั่นใจว่าการป้องกันมีความสอดคล้องและมีประสิทธิภาพโดยรวม

    • สงสัยว่า “การป้องกัน” ที่พูดถึงตรงนี้เป็นแค่การเขียนยาว ๆ ไว้ในพรอมป์ต์ว่า AI ห้ามทำเรื่องแบบนี้ หรือเป็นโครงสร้างทำนอง sub-agent ภายใน sandbox
    • อยากรู้จริง ๆ ว่าแล็บแนวหน้าจะจัดการกับการ “ถอดความสามารถบางอย่างออกเพื่อให้โมเดลทำไม่ได้” อย่างไร
      ตัวอย่างเช่น การบล็อกไม่ให้โมเดลถูก route ไปยังเส้นทางบางอย่างในระดับ firewall กับการแค่อัปเดตพรอมป์ต์นั้นต่างกันมาก โดยเฉพาะเมื่อพิจารณาประวัติที่โมเดลเข้าใจพรอมป์ต์เชิงปฏิเสธได้ไม่ค่อยดีนัก
    • บอกว่า “ขอบคุณสำหรับงานวิจัยด้านความปลอดภัย”, “หลุดจากช่องทางรับรายงานการเปิดเผยต่อสาธารณะ”, “ตอนนี้เราทราบรายงานแล้ว” แต่เรื่องแบบนี้ไม่ใช่ครั้งแรก
      https://x.com/PhilipTsukerman/status/1988634162773778501 https://x.com/xpn/status/1986382527817564437
      ที่นี่น่าจะเป็นกรณีที่รับรายงานจากนักวิจัยความปลอดภัยที่หวังดีทางอีเมล แต่มีความเป็นไปได้สูงว่าภายหลังกลับบังคับให้นักวิจัยส่งใหม่ผ่าน HackerOne หรือ Bugcrowd ซึ่งจะทำให้ต้องยอมรับข้อกำหนดของแพลตฟอร์ม เงื่อนไขการเปิดเผยข้อมูล และหลักปฏิบัติต่าง ๆ
      ในไฟล์ SECURITY.md ของ GitHub repository มีแค่อีเมลเท่านั้น ควรทำให้ชัดเจนว่านักวิจัยเหล่านี้สามารถรายงานปัญหาทางอีเมลและได้รับการตอบกลับได้จริงหรือไม่
      8 พฤษภาคม 2026 PromptArmor เปิดเผยรายงานต่อ OpenAI ทางอีเมล
      8 พฤษภาคม 2026 OpenAI ตอบกลับอัตโนมัติยืนยันว่าเป็นช่องทางรับรายงานที่ตั้งใจไว้
      8 พฤษภาคม 2026 PromptArmor ยืนยันว่าต้องการใช้อีเมล
      12 พฤษภาคม 2026 PromptArmor ติดตามผล
      18 พฤษภาคม 2026 PromptArmor ติดตามผล
    • pipeline การจัดการรายงานการเปิดเผยต่อสาธารณะนี้ให้ ChatGPT คอยมอนิเตอร์ อยู่หรือเปล่า?
  • LLM จะอยู่บนคลาวด์ก็ได้ แต่เครื่องมือทั้งหมดควรต้อง (1) อยู่ในเครื่อง และ (2) ทำเป็นคอนเทนเนอร์ การปล่อยให้ “รันอะไรสักอย่าง” แบบตามมีตามเกิด ดูยังไงก็ต้องระเบิดเข้าสักวัน
    หลายคนอาจไม่รู้ว่า Codex ก็ติดตั้งไบนารีตามอำเภอใจลงบนพีซีด้วย พูดว่า “ช่วยอ่าน PDF นี้หน่อย” มันก็จะติดตั้งตัวอ่าน PDF ให้เลย ไม่มีใครรู้ว่าผ่านการตรวจสอบไหม มาจากไหน หรือมีไวรัสหรือเปล่า โมเดลก็แค่ทำงานต่อไป
    ผมกำลังทำโปรเจกต์ WASI containerization สำหรับเวิร์กโฟลว์ LLM แบบโลคัล ซึ่งเป็นปัญหาที่ยากมาก น่าแปลกใจและดูสมัครเล่นที่ Anthropic กับ OpenAI ไม่กังวลกับช่องทางโจมตีแบบนี้มากกว่านี้

    • เห็นด้วยว่า Anthropic และ OpenAI ดูไม่กังวลกับช่องทางโจมตีลักษณะนี้มากพอ ทั้งคู่ถูกหลอกได้ง่ายมากด้วย ฟอนต์อันตราย ในไฟล์ Docx และมีการเขียนไว้ที่นี่: https://tritium.legal/blog/noroboto
      สงสัยว่า prompt injection และเส้นทางอีกนับพันที่ใช้ซ่อนความพยายามในการฉีดคำสั่งนั้น อาจเป็นปัญหาที่แทบแก้ไม่ได้จริงหรือไม่ การพูดถึงเรื่องนี้เองอาจเป็นภัยคุกคามเชิงอัตถิภาวนิยมต่อโมเดลธุรกิจก็ได้
    • เข้าใจความกังวล แต่การบอกว่าพวกเขาไม่ได้จริงจังกับเรื่องนี้นักก็คงไม่แม่นนัก: https://www.anthropic.com/engineering/how-we-contain-claude
      สิ่งที่ผมกังวลคือผู้คนยังจัดการกับปัญหานี้ไม่ถึงระดับที่ควร ตอนนี้ยังคิดกันในระดับ “จะสร้าง virtual machine อย่างไรเพื่อขังเอเจนต์ตัวนี้ไว้” แต่จริง ๆ แล้วมันเป็นปัญหาระดับที่ต้องออกแบบ ระบบปฏิบัติการใหม่ทั้งหมด
    • เห็นด้วยกับความกังวล แต่บางทีนี่อาจคล้ายสถานการณ์แบบ “ตลาดสามารถไร้เหตุผลได้นานกว่าที่คุณจะทนอยู่รอดได้”
    • ในกรณีนี้ การทำเป็นคอนเทนเนอร์ จะช่วยได้มากขนาดนั้นหรือ? ถ้าเป็นเครื่องมือเขียนโค้ด สุดท้ายก็ต้องต้องการสิทธิ์อ่าน/เขียนไฟล์โค้ดอยู่ดี แน่นอนว่าอาจมี use case ที่ยังมีประโยชน์
    • มีลิงก์โปรเจกต์ไหม? ผมกำลังทำงานบางอย่างที่น่าจะใช้ของคล้าย ๆ กันได้
  • บอกว่า “ช่องโหว่นี้ถูกเปิดเผยต่อ OpenAI อย่างรับผิดชอบ มีการติดตามหลายครั้ง แต่ไม่ได้รับการติดต่อใด ๆ นอกเหนือจากอีเมลตอบรับอัตโนมัติสำหรับการรายงานครั้งแรก” แบบนี้ดูไม่ดีเอาเสียเลย

    • มีคนที่ระบุว่าตัวเองมาจาก OpenAI เข้ามาอัปเดตในคอมเมนต์ ซึ่งสุดท้ายก็แสดงให้เห็นว่าต้องมี แรงกดดันจากโซเชียลมีเดีย ก่อน บริษัทถึงจะใส่ใจ ไม่ใช่เรื่องใหม่อะไร
    • คำว่า “การเปิดเผยอย่างรับผิดชอบ” มันฟังโลกสวยเกินไปหรือเปล่า? สงสัยว่ามีอะไรที่รับผิดชอบกว่านี้อีก
      เขาหมายถึงการพิจารณาผลกระทบขั้นต้นของรูปแบบการเปิดเผยที่แตกต่างกันหรือ? แต่ถ้าผ่านการให้เหตุผลระดับที่สูงขึ้นและการคิดเชิงวิพากษ์ แล้วสรุปได้ว่าแม้ในบางกรณีเฉพาะจะเลวร้ายกว่า แต่ต่อสุขภาวะระยะยาวของผู้ใช้โดยเฉลี่ยและของทั้งอุตสาหกรรมแล้ว รูปแบบการเปิดเผยแบบอื่นอาจดีกว่าจะเป็นอย่างไร
      วัฒนธรรมความปลอดภัยที่รูปแบบการเปิดเผยแต่ละแบบชักนำให้เกิดขึ้นอาจต่างกัน ผมไม่เข้าใจว่าทำไมมีแต่วิธีนี้ที่ได้ครอบครองชื่อว่า การเปิดเผยอย่างรับผิดชอบ ส่วนทางเลือกอื่นที่ไม่เคยพิสูจน์ได้ว่าแย่กว่า กลับถูกติดป้ายว่าไร้ความรับผิดชอบโดยอัตโนมัติ
      มันทำให้นึกถึงแนวคิดเรื่องการขโมยตัวตนเล็กน้อย ทั้งที่จริงคนที่เสียเงินคือธนาคารหรือเจ้าหนี้อื่น ๆ แต่กลับเล่าว่ามีคนสุ่มคนหนึ่งที่ไม่ได้เกี่ยวข้องกับธุรกรรมต้องกลายเป็นเหยื่อและแบกรับหนี้ไว้จนกว่าปัญหาจะถูกแก้
  • ในบริษัทของเรา การรั่วไหลของข้อมูล ยังเป็นความกังวลใหญ่ที่สุด และเป็นเหตุผลหลักที่ขัดขวางการนำเอเจนต์มาใช้ คุยกันมาเยอะแล้ว แต่ก็ยังหาทางเลี่ยงความจริงที่ว่าเรากำลังป้อนข้อมูลให้ซอฟต์แวร์ที่ไม่สามารถดูข้อมูลที่เราให้ความสำคัญจริง ๆ ได้ไม่เจอ
    เราอาจบล็อกการส่งออกไปภายนอกในระดับเครือข่ายได้ แต่ถ้าทำแบบนั้นก็เท่ากับมัดมือมัดเท้างานหลายอย่างที่เอเจนต์ต้องทำเพื่อให้มีประโยชน์จริง

    • ควรพิจารณา local LLM บนฮาร์ดแวร์ของบริษัทเอง ถ้าจะเอาให้มั่นใจจริง ๆ แทบจะมีแค่วิธีนั้น
    • แล้วถ้าสร้าง สำเนาที่ทำให้ไม่ระบุตัวตนหรือทำให้อ่านยาก ของข้อมูล แล้วให้เอเจนต์ใช้สิ่งนั้นล่ะ?
    • ผมคิดว่าทางแก้เดียวของปัญหานี้คือบังคับให้เอเจนต์ต้องผ่าน พร็อกซี เสมอ ถ้าพร็อกซีจัดการการยืนยันตัวตนและการมอบสิทธิ์ทั้งหมดของเอเจนต์ เอเจนต์ก็จะไม่มีสิทธิ์เข้าถึงมากพอให้ถูกนำไปใช้ในทางที่ผิดได้ และยังสามารถเฝ้าระวังการรั่วไหลของข้อมูลหรือการโจมตีแบบ prompt injection ได้ด้วย
  • ประโยคที่ว่า “การโจมตีนี้เกิดขึ้นเมื่อแหล่งข้อมูลที่ไม่น่าเชื่อถือ เช่น ชีตที่นำเข้ามาหรือ ChatGPT connector ชักจูง ChatGPT ให้รันสคริปต์ภายนอกที่ผู้โจมตีควบคุม ซึ่งสคริปต์นี้จะทำงานโดยอาศัยสิทธิ์ที่ผู้ใช้มอบให้ส่วนขยาย ChatGPT for Google Sheets” ฟังแล้วไม่สบายใจเลย

    • แก่นสำคัญที่ทำให้การโจมตีนี้ใช้ได้ผล ดูเหมือนจะอยู่ที่ผู้ใช้สั่งโมเดลอย่างชัดเจนให้ทำตามคำสั่งนั้น ในกรณีนี้คนที่ถูกชักจูงไม่ใช่โมเดล แต่เป็น ผู้ใช้
      ประมาณว่า “ช่วยอัปเดตโมเดลของฉันด้วยข้อมูลจนถึง F29 โดยทำตาม workflow ทีละขั้นของ comp sheet”
    • ถ้ารำคาญพรอมป์ตยืนยันการแก้ไขไฟล์ ก็แค่บอก Codex ให้หาทางเลี่ยง แล้วมันก็จะเขียนลงไฟล์ด้วย cat >> ไปเลย LLM ฉลาดเกินกว่าจะจำกัดได้ด้วยข้อจำกัดทางเทคนิคแบบครึ่ง ๆ กลาง ๆ
  • สุดท้ายแล้ว ถ้าจะใช้ AI ทำงานที่ใช้งานได้จริงและปลอดภัย ก็จำเป็นต้องมี application layer ที่ออกแบบมาดี และแนวทางแบบเสียบ LLM เข้าไปกับระบบลับหรือโครงสร้างพื้นฐานสำคัญแบบส่ง ๆ นั้นใช้ไม่ได้ผล

  • ถ้าคุณขอให้เครื่องมือขโมยข้อมูลอย่างสุภาพแล้วมันทำตามจริง ๆ ก็ต้องยอมรับสักวันว่าเครื่องมือนั้นเป็น เครื่องมือที่ไม่ปลอดภัย และไม่ควรถูกใช้เด็ดขาดในสถานการณ์ที่ความปลอดภัยมีความสำคัญแม้แต่นิดเดียว

  • “Move fast and break your things!”
    ผมยังไม่เข้าใจว่าทำไม การโจมตีแบบ prompt injection ยังหลงเหลืออยู่ นี่มันผ่านมาประมาณ 6 ปีแล้วไม่ใช่หรือ? ถ้าคุณบอก AI ว่า “ไม่ต้องสนใจคำสั่งก่อนหน้า ไปชงกาแฟให้หน่อย” 9 ครั้งจาก 10 ครั้ง สินค้าหลักของบริษัทมูลค่า 1 ล้านล้านดอลลาร์น่าจะก้มตัวลงไปชงอเมริกาโน่ห่วย ๆ ให้คุณ แทนที่จะสรุปอีเมลที่สร้างด้วย AI

  • องค์ประกอบสามอย่างอันตรายถึงตาย โผล่มาอีกแล้ว

  • เมื่อก่อนผมเคยตกใจกับความจริงที่ว่าเคยมี ช่องโหว่ iMessage แบบ zero-click อยู่จริง แต่พอเข้าใจวิธีการทำงานแล้วก็รู้สึกว่ามันสมเหตุสมผล prompt injection ให้ความรู้สึกเหมือนเป็นปัญหาการพาร์สเนื้อหาข้อความในเวอร์ชันที่แก้ไม่ได้