7 คะแนน โดย GN⁺ 2023-09-19 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ทีมวิจัย AI ของ Microsoft เปิดเผยข้อมูลส่วนบุคคลขนาด 38 เทราไบต์โดยไม่ได้ตั้งใจ ขณะเผยแพร่ข้อมูลฝึกโอเพนซอร์สบน GitHub
  • ข้อมูลที่รั่วไหลมีทั้งแบ็กอัปดิสก์เวิร์กสเตชันของพนักงาน 2 คน ความลับ คีย์ส่วนตัว รหัสผ่าน และข้อความภายใน Microsoft Teams มากกว่า 30,000 รายการ
  • ข้อมูลดังกล่าวถูกแชร์ผ่าน SAS token ซึ่งเป็นฟีเจอร์ของ Azure ที่ช่วยให้แชร์ข้อมูลจากบัญชี Azure Storage ได้ อย่างไรก็ตาม ลิงก์ถูกตั้งค่าให้แชร์ทั้งบัญชีสตอเรจ จึงทำให้ข้อมูลถูกเปิดเผย
  • เหตุการณ์นี้ตอกย้ำความเสี่ยงรูปแบบใหม่ที่องค์กรต้องเผชิญเมื่อนำ AI มาใช้ และแสดงให้เห็นว่าจำเป็นต้องมีการตรวจสอบความปลอดภัยและมาตรการป้องกันเพิ่มเติม เมื่อมีวิศวกรมากขึ้นที่ต้องจัดการข้อมูลฝึกขนาดใหญ่
  • ทีมวิจัยของ Wiz พบการรั่วไหลนี้ระหว่างค้นหาคอนเทนเนอร์สตอเรจที่ตั้งค่าผิดบนอินเทอร์เน็ต
  • พวกเขาพบรีโพซิทอรี GitHub ชื่อ robust-models-transfer ภายใต้องค์กร Microsoft ซึ่งถูกสร้างขึ้นเพื่อเผยแพร่โค้ดโอเพนซอร์สและโมเดล AI สำหรับการรู้จำภาพ แต่การตั้งค่าที่ผิดพลาดทำให้ URL สามารถเข้าถึงสิ่งที่มากกว่าโมเดลโอเพนซอร์สได้
  • token ที่ใช้งานยังถูกตั้งค่าผิดให้อนุญาตสิทธิ์แบบ "ควบคุมทั้งหมด" ทำให้ผู้โจมตีสามารถดู ลบ และเขียนทับไฟล์ที่มีอยู่ได้
  • เหตุการณ์นี้ชี้ให้เห็นความเสี่ยงด้านความปลอดภัยของ SAS token ซึ่งให้สิทธิ์เข้าถึงบัญชีสตอเรจในระดับสูง และอาจมีปัญหาเรื่องการหมดอายุ อีกทั้งยังจัดการและเพิกถอนได้ยาก
  • ทีมวิจัยของ Wiz เสนอว่าเพื่อหลีกเลี่ยงปัญหาด้านความปลอดภัยและการกำกับดูแล ควรหลีกเลี่ยงการใช้ Account SAS สำหรับการแชร์ภายนอก และใช้ Stored Access Policy หรือ User Delegation SAS สำหรับการแชร์แบบจำกัดเวลา
  • ทีมยังแนะนำให้สร้างบัญชีสตอเรจเฉพาะสำหรับการแชร์ภายนอก และใช้ CSPM เพื่อติดตามและบังคับใช้นโยบาย
  • เหตุการณ์นี้เป็นเครื่องเตือนใจให้ทีมความปลอดภัยเข้าใจความเสี่ยงที่แฝงอยู่ในแต่ละขั้นตอนของกระบวนการพัฒนา AI รวมถึงความเสี่ยงจากการแชร์ข้อมูลมากเกินไปและการโจมตีซัพพลายเชน
  • หลังจากนั้น Microsoft ได้ทำให้ SAS token ใช้งานไม่ได้และเปลี่ยนใหม่บน GitHub พร้อมเสร็จสิ้นการตรวจสอบภายในเกี่ยวกับผลกระทบที่อาจเกิดขึ้น

1 ความคิดเห็น

 
GN⁺ 2023-09-19
ความเห็นจาก Hacker News
  • บทความเกี่ยวกับเหตุข้อมูลรั่วไหลที่เกิดจากนักวิจัย AI ของ Microsoft แต่ผู้แสดงความคิดเห็นชี้ว่านี่ไม่ได้เกี่ยวข้องกับ AI โดยตรง
  • ประเด็นนี้เกี่ยวกับผู้ให้บริการคลาวด์, โทเค็นความปลอดภัยที่ชวนสับสน และการจัดการการดาวน์โหลดข้อมูลขนาดใหญ่เสียมากกว่า
  • หนึ่งในความเสี่ยงเฉพาะด้าน AI ที่ถูกเน้นคือการใช้ Python object ที่ถูก serialize เพื่อเก็บโมเดล AI ขนาดใหญ่ ซึ่งอาจถูกทำให้อ่านยากและอาจแฝงโค้ดอันตรายได้
  • เหตุการณ์นี้เกิดจากการตั้งค่า storage token ผิดพลาด และเป็นกรณีทั่วไปที่ตอกย้ำความจำเป็นของการทำ penetration test เป็นประจำ
  • มีการวิจารณ์การใช้ไฟล์ Pickle และ SAS token ใน Azure storage พร้อมเสนอให้ใช้ role-based access control (RBAC) แทน
  • เหตุการณ์นี้เผยให้เห็นการขาด defense in depth โดย SAS token ไม่มีวันหมดอายุ, ให้สิทธิ์เข้าถึงในระดับลึก และยังรวมถึง machine backup ที่มีโทเค็นของตัวเองด้วย
  • มีข้อเสนอให้ทำลายความลับและตัวแปรสภาพแวดล้อมทั้งหมด และชี้ว่าระบบส่วนใหญ่สามารถทำงานบนพื้นฐาน role-based ได้
  • เหตุการณ์นี้ดูเหมือนเป็นความล้มเหลวจากการสร้าง security token โดยมนุษย์ และมีข้อเสนอให้องค์กรตั้งค่า OrgPolicy เพื่อป้องกันการแชร์ authentication token/credential แบบเป็นชุด
  • มีความประหลาดใจที่มีคนสามารถส่งออกข้อความ Teams จาก Teams ได้
  • การเปิดเผยข้อมูลดำเนินต่อเนื่องเป็นเวลาสองปี และถูกแก้ไขไปเมื่อสองเดือนก่อน
  • ผู้แสดงความคิดเห็นบางคนไม่ชอบระบบจัดการคีย์ของ Azure และเสนอว่าการมี named key แบบไม่จำกัดสำหรับแต่ละคอนเทนเนอร์น่าจะดีกว่า
  • เหตุการณ์นี้ดูเหมือนเป็นหลักฐานถึงความยากของการรักษาความปลอดภัยบนคลาวด์ เพราะความผิดพลาดเพียงหนึ่งหรือสองอย่างก็อาจทำให้ข้อมูลระดับเทราไบต์ถูกเปิดเผยได้