นักวิจัย AI ของ Microsoft เผลอเปิดเผยข้อมูล 38TB โดยไม่ได้ตั้งใจ

(wiz.io)

7 คะแนน โดย GN⁺ 2023-09-19 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ทีมวิจัย AI ของ Microsoft เปิดเผยข้อมูลส่วนบุคคลขนาด 38 เทราไบต์โดยไม่ได้ตั้งใจ ขณะเผยแพร่ข้อมูลฝึกโอเพนซอร์สบน GitHub
ข้อมูลที่รั่วไหลมีทั้งแบ็กอัปดิสก์เวิร์กสเตชันของพนักงาน 2 คน ความลับ คีย์ส่วนตัว รหัสผ่าน และข้อความภายใน Microsoft Teams มากกว่า 30,000 รายการ
ข้อมูลดังกล่าวถูกแชร์ผ่าน SAS token ซึ่งเป็นฟีเจอร์ของ Azure ที่ช่วยให้แชร์ข้อมูลจากบัญชี Azure Storage ได้ อย่างไรก็ตาม ลิงก์ถูกตั้งค่าให้แชร์ทั้งบัญชีสตอเรจ จึงทำให้ข้อมูลถูกเปิดเผย
เหตุการณ์นี้ตอกย้ำความเสี่ยงรูปแบบใหม่ที่องค์กรต้องเผชิญเมื่อนำ AI มาใช้ และแสดงให้เห็นว่าจำเป็นต้องมีการตรวจสอบความปลอดภัยและมาตรการป้องกันเพิ่มเติม เมื่อมีวิศวกรมากขึ้นที่ต้องจัดการข้อมูลฝึกขนาดใหญ่
ทีมวิจัยของ Wiz พบการรั่วไหลนี้ระหว่างค้นหาคอนเทนเนอร์สตอเรจที่ตั้งค่าผิดบนอินเทอร์เน็ต
พวกเขาพบรีโพซิทอรี GitHub ชื่อ robust-models-transfer ภายใต้องค์กร Microsoft ซึ่งถูกสร้างขึ้นเพื่อเผยแพร่โค้ดโอเพนซอร์สและโมเดล AI สำหรับการรู้จำภาพ แต่การตั้งค่าที่ผิดพลาดทำให้ URL สามารถเข้าถึงสิ่งที่มากกว่าโมเดลโอเพนซอร์สได้
token ที่ใช้งานยังถูกตั้งค่าผิดให้อนุญาตสิทธิ์แบบ "ควบคุมทั้งหมด" ทำให้ผู้โจมตีสามารถดู ลบ และเขียนทับไฟล์ที่มีอยู่ได้
เหตุการณ์นี้ชี้ให้เห็นความเสี่ยงด้านความปลอดภัยของ SAS token ซึ่งให้สิทธิ์เข้าถึงบัญชีสตอเรจในระดับสูง และอาจมีปัญหาเรื่องการหมดอายุ อีกทั้งยังจัดการและเพิกถอนได้ยาก
ทีมวิจัยของ Wiz เสนอว่าเพื่อหลีกเลี่ยงปัญหาด้านความปลอดภัยและการกำกับดูแล ควรหลีกเลี่ยงการใช้ Account SAS สำหรับการแชร์ภายนอก และใช้ Stored Access Policy หรือ User Delegation SAS สำหรับการแชร์แบบจำกัดเวลา
ทีมยังแนะนำให้สร้างบัญชีสตอเรจเฉพาะสำหรับการแชร์ภายนอก และใช้ CSPM เพื่อติดตามและบังคับใช้นโยบาย
เหตุการณ์นี้เป็นเครื่องเตือนใจให้ทีมความปลอดภัยเข้าใจความเสี่ยงที่แฝงอยู่ในแต่ละขั้นตอนของกระบวนการพัฒนา AI รวมถึงความเสี่ยงจากการแชร์ข้อมูลมากเกินไปและการโจมตีซัพพลายเชน
หลังจากนั้น Microsoft ได้ทำให้ SAS token ใช้งานไม่ได้และเปลี่ยนใหม่บน GitHub พร้อมเสร็จสิ้นการตรวจสอบภายในเกี่ยวกับผลกระทบที่อาจเกิดขึ้น

1 ความคิดเห็น

GN⁺ 2023-09-19

ความเห็นจาก Hacker News

บทความเกี่ยวกับเหตุข้อมูลรั่วไหลที่เกิดจากนักวิจัย AI ของ Microsoft แต่ผู้แสดงความคิดเห็นชี้ว่านี่ไม่ได้เกี่ยวข้องกับ AI โดยตรง
ประเด็นนี้เกี่ยวกับผู้ให้บริการคลาวด์, โทเค็นความปลอดภัยที่ชวนสับสน และการจัดการการดาวน์โหลดข้อมูลขนาดใหญ่เสียมากกว่า
หนึ่งในความเสี่ยงเฉพาะด้าน AI ที่ถูกเน้นคือการใช้ Python object ที่ถูก serialize เพื่อเก็บโมเดล AI ขนาดใหญ่ ซึ่งอาจถูกทำให้อ่านยากและอาจแฝงโค้ดอันตรายได้
เหตุการณ์นี้เกิดจากการตั้งค่า storage token ผิดพลาด และเป็นกรณีทั่วไปที่ตอกย้ำความจำเป็นของการทำ penetration test เป็นประจำ
มีการวิจารณ์การใช้ไฟล์ Pickle และ SAS token ใน Azure storage พร้อมเสนอให้ใช้ role-based access control (RBAC) แทน
เหตุการณ์นี้เผยให้เห็นการขาด defense in depth โดย SAS token ไม่มีวันหมดอายุ, ให้สิทธิ์เข้าถึงในระดับลึก และยังรวมถึง machine backup ที่มีโทเค็นของตัวเองด้วย
มีข้อเสนอให้ทำลายความลับและตัวแปรสภาพแวดล้อมทั้งหมด และชี้ว่าระบบส่วนใหญ่สามารถทำงานบนพื้นฐาน role-based ได้
เหตุการณ์นี้ดูเหมือนเป็นความล้มเหลวจากการสร้าง security token โดยมนุษย์ และมีข้อเสนอให้องค์กรตั้งค่า OrgPolicy เพื่อป้องกันการแชร์ authentication token/credential แบบเป็นชุด
มีความประหลาดใจที่มีคนสามารถส่งออกข้อความ Teams จาก Teams ได้
การเปิดเผยข้อมูลดำเนินต่อเนื่องเป็นเวลาสองปี และถูกแก้ไขไปเมื่อสองเดือนก่อน
ผู้แสดงความคิดเห็นบางคนไม่ชอบระบบจัดการคีย์ของ Azure และเสนอว่าการมี named key แบบไม่จำกัดสำหรับแต่ละคอนเทนเนอร์น่าจะดีกว่า
เหตุการณ์นี้ดูเหมือนเป็นหลักฐานถึงความยากของการรักษาความปลอดภัยบนคลาวด์ เพราะความผิดพลาดเพียงหนึ่งหรือสองอย่างก็อาจทำให้ข้อมูลระดับเทราไบต์ถูกเปิดเผยได้

นักวิจัย AI ของ Microsoft เผลอเปิดเผยข้อมูล 38TB โดยไม่ได้ตั้งใจ

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News