Mercor ทำข้อมูลตัวอย่างเสียง 4TB ของผู้รับจ้าง AI 40,000 คนรั่วไหล

(app.oravys.com)

1 คะแนน โดย GN⁺ 2 일 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

เกิดการรั่วไหลครั้งใหญ่ที่ผูก ข้อมูลชีวมิติทางเสียง และ เอกสารยืนยันตัวตนที่รัฐบาลออกให้ ไว้ในข้อมูลบรรทัดเดียวกัน โดยอ้างอิงจากดัชนีตัวอย่างที่รั่วไหล มีผู้รับจ้าง AI มากกว่า 40,000 คนรวมอยู่ด้วย
มีไฟล์บันทึกเสียงที่สะอาดเฉลี่ย 2–5 นาทีต่อคน ซึ่งสูงเกินเกณฑ์ของการ โคลนเสียง ที่ทำได้แม้มีเพียงเสียงอ้างอิงราว 15 วินาที
ข้อมูลที่รั่วไหลให้ทั้งเสียงโคลนและตัวตนที่ผ่านการยืนยัน จึงอาจถูกนำไปใช้เพื่อ หลบเลี่ยงการยืนยันเสียงของธนาคาร, vishing เจาะพนักงานในที่ทำงาน, วิดีโอคอลดีปเฟก, การฉ้อโกงเคลมประกัน, และสายด่วนปลอมเป็นญาติขอความช่วยเหลือ
หากเคยอัปโหลดตัวอย่างเสียงให้ Mercor หรือผู้ให้บริการตัวกลางฝึก AI รายอื่นที่ดำเนินงานจนถึงปี 2025 ควรปฏิบัติต่อสิ่งนี้เหมือน รหัสผ่านที่รั่วไหล และควรลบเสียงสาธารณะ ตั้งรหัสคำพูด และลงทะเบียนหรือปิดการใช้งาน voice print ใหม่
เสียงที่น่าสงสัยควรตรวจด้วย การวิเคราะห์นิติวิทยาศาสตร์ดิจิทัล เพื่อดูความไม่ตรงกันของ codec, รูปแบบการหายใจ, micro-jitter, formant trajectory, ความสม่ำเสมอของอะคูสติกในห้อง, รวมถึงความผิดปกติของท่วงทำนองและความเร็วการพูด ซึ่งสะท้อนให้เห็นช่องโหว่ที่ใหญ่กว่าของการยืนยันตัวตนด้วยเสียงโดยรวม

ภาพรวมของการละเมิดข้อมูล

วันที่ 4 เมษายน 2026 กลุ่ม Lapsus$ โพสต์ Mercor ลงบนเว็บไซต์เผยแพร่ข้อมูลรั่วไหล และมีรายงานว่าขนาดข้อมูลรั่วไหลอยู่ที่ราว 4TB
ในอาร์ไคฟ์ข้อมูลรั่วไหล มีทั้ง ข้อมูลชีวมิติทางเสียง และ เอกสารยืนยันตัวตนที่รัฐบาลออกให้ ของบุคคลเดียวกันถูกรวมเข้าด้วยกัน และจากดัชนีตัวอย่างที่รั่วไหลมีผู้รับจ้างมากกว่า 40,000 คนรวมอยู่ด้วย
ผู้ที่ได้รับผลกระทบคือผู้รับจ้างที่ลงทะเบียนเพื่อทำ data labeling สำหรับการฝึก AI, อัดเสียงอ่านข้อความ, และรับสายยืนยันตัวตน
ภายใน 10 วันหลังการโพสต์ มีการยื่นฟ้องโดยผู้รับจ้าง 5 คดี โดยกล่าวหาว่ามีการเก็บ voice print เป็น "ข้อมูลฝึก" โดยไม่ได้แจ้งอย่างชัดเจนว่านี่คือข้อมูลชีวมิติถาวรที่ใช้ระบุตัวตนได้

เหตุใดการรั่วไหลครั้งนี้จึงต่างออกไป

ตลอด 10 ปีที่ผ่านมา การรั่วไหลของเสียงส่วนใหญ่มักแบ่งเป็นการรั่วไหลของ บันทึกการโทรที่เชื่อมโยงกับตัวตนได้ยาก หรือการรั่วไหลของ บัตรยืนยันตัวตน·เซลฟี ที่ไม่มีไฟล์เสียง
ขั้นตอนการลงทะเบียนของ Mercor รวมการสแกนหนังสือเดินทางหรือใบขับขี่, เซลฟีจากเว็บแคม, และการอัดเสียงอ่านข้อความตามสคริปต์ในสภาพแวดล้อมเงียบ เข้าเป็นข้อมูลบรรทัดเดียวกัน
การรวมกันนี้ตรงกับรูปแบบข้อมูลนำเข้าที่ บริการโคลนเสียงสังเคราะห์ ต้องการพอดี
ตามรายงานของ Wall Street Journal เมื่อเดือนกุมภาพันธ์ 2026 เครื่องมือเชิงพาณิชย์ต้องการเพียงเสียงอ้างอิงที่สะอาดราว 15 วินาทีเพื่อโคลนเสียงคุณภาพสูง
มีรายงานว่าไฟล์เสียงของ Mercor เป็นเสียงระดับสตูดิโอเฉลี่ย 2–5 นาทีต่อคน ซึ่งเกินเกณฑ์การโคลนอย่างมาก
เมื่อรวมกับเอกสารยืนยันตัวตนที่ผ่านการตรวจแล้ว ผู้โจมตีจะได้ทั้ง เสียงโคลน และ ข้อมูลรับรอง สำหรับนำไปใช้โจมตีจริง

การโจมตีที่ทำได้ด้วยข้อมูลเสียงที่ถูกขโมย

หลบเลี่ยงการยืนยันตัวตนของธนาคาร
- ธนาคารหลายแห่งในสหรัฐฯ และสหราชอาณาจักรยังคงใช้การจับคู่ voice print เป็นหนึ่งในสองปัจจัยยืนยันตัวตน
- หากใช้เสียงโคลนของเจ้าของบัญชีอ่านวลีท้าทาย ก็อาจผ่านด่านเสียงได้ และสิ่งที่เหลือก็เป็นเพียงคำถามเชิงความรู้ซึ่งอาจมาจากชุดข้อมูลรั่วไหลเดียวกัน
vishing เจาะพนักงานในที่ทำงาน
- ผู้โจมตีอาจโทรหา HR หรือฝ่ายการเงินโดยปลอมเป็นพนักงาน เพื่อเปลี่ยนบัญชีรับเงินเดือน ขอให้โอนเงิน หรือปลดล็อกเวิร์กสเตชัน
- ในอาร์ไคฟ์ของ Krebs on Security มีกรณีที่ยืนยันได้สะสมมากกว่า 24 กรณีนับตั้งแต่ปี 2023
วิดีโอคอลดีปเฟก
- ในปี 2024 ที่ Arup มีการโอนเงินราว 25 ล้านดอลลาร์หลังจากวิดีโอคอลดีปเฟกหลายบุคคล
- ตอนนั้นเสียงและใบหน้าถูกสร้างจากวิดีโอสาธารณะ แต่ข้อมูลรั่วไหลของ Mercor มีทั้ง เสียงระดับสตูดิโอ และ เอกสารยืนยันตัวตนที่ผ่านการตรวจแล้ว ซึ่งดีกว่าวิดีโอสาธารณะ
การฉ้อโกงเคลมประกัน
- Pindrop ระบุว่าตลอดปี 2025 การโจมตีด้วยเสียงสังเคราะห์ต่อคอลเซ็นเตอร์ประกันเพิ่มขึ้น 475% เมื่อเทียบกับปีก่อนหน้า
- เป้าหมายหลักคือการเคลมรถยนต์ ชีวิต และทุพพลภาพที่ดำเนินการทางโทรศัพท์
สายด่วนปลอมเป็นญาติขอความช่วยเหลือ
- ศูนย์รับแจ้งอาชญากรรมทางอินเทอร์เน็ตของ FBI ประเมินความเสียหายของเหยื่ออายุ 60 ปีขึ้นไปในปี 2026 ไว้ที่ 2.3 พันล้านดอลลาร์
- หมวดที่เติบโตเร็วที่สุดคือสายด่วนปลอมตัวฉุกเฉินที่อ้างว่าญาติกำลังตกอยู่ในอันตราย

การตรวจการนำเสียงไปใช้ในทางที่ผิดและการตอบสนองทันที

หากคุณเคยอัปโหลดตัวอย่างเสียงให้ Mercor หรือผู้ให้บริการตัวกลางฝึก AI รายอื่นที่ดำเนินงานจนถึงปี 2025 ควรปฏิบัติต่อสิ่งนี้เหมือน รหัสผ่านที่รั่วไหล
แม้จะเปลี่ยนเสียงจริงไม่ได้ แต่คุณเปลี่ยน วิธีการยืนยันตัวตน ที่เปิดด้วยเสียงนั้นได้
ตรวจร่องรอยเสียงสาธารณะ
- ควรค้นหาตัวอย่างเสียงที่ถูกจัดทำดัชนีสาธารณะบน YouTube, ไดเรกทอรีพอดแคสต์, และบันทึก Zoom เก่า
- หากมีเสียงสาธารณะที่ถอดออกได้ ก็ควรลบออกให้มากที่สุด
- ยิ่งมีเสียงอ้างอิงสาธารณะน้อย ความแข็งแรงของเสียงโคลนที่ผู้โจมตีสร้างได้ก็ยิ่งลดลง
ตั้งรหัสคำพูดกับครอบครัวและผู้ติดต่อทางการเงิน
- ควรเลือกวลีที่ไม่เคยถูกบันทึกเสียงและไม่เคยพิมพ์ในแชต
- ควรแจ้งล่วงหน้าให้คนที่มีหน้าที่จัดการเงินแทนคุณทราบ
- ในสายที่ขอให้โอนเงิน ควรกำหนดให้การยืนยันด้วยรหัสคำพูดเป็นขั้นตอนบังคับ
ลงทะเบียนใหม่ในบริการที่ใช้ voice print
- Google Voice Match, Amazon Alexa Voice ID, Apple personal voice และการลงทะเบียน voice print กับธนาคาร สามารถลบแล้วแทนที่ได้
- ควรลงทะเบียนใหม่ด้วยการอัดเสียงใน สภาพแวดล้อมทางเสียง ที่ต่างจากตัวอย่างที่รั่วไหล
ปิดการใช้งานการยืนยันด้วย voice print ของธนาคาร
- คุณสามารถร้องขอเป็นลายลักษณ์อักษรให้ถอด voice print ออกจากปัจจัยยืนยันตัวตนได้
- ควรขอใช้ การยืนยันตัวตนหลายปัจจัย ที่ผสาน app token หรือ hardware key กับปัจจัยเชิงความรู้แทน
- หลายธนาคารมีตัวเลือกตัดเสียงออกจากปัจจัยยืนยันหลัก แต่ไม่ได้ประชาสัมพันธ์อย่างกว้างขวาง
ตรวจนิติวิทยาศาสตร์ของไฟล์เสียงที่น่าสงสัย
- หากได้รับไฟล์เสียงหรือข้อความเสียงจากคนที่อ้างว่าเป็นคนรู้จักแล้วขอเงิน สิทธิ์เข้าถึง หรือการตอบสนองฉุกเฉิน อย่าเพิ่งดำเนินการทันที ควรส่งเข้า ตัวตรวจจับดีปเฟก ก่อน
- ORAVYS ให้บริการตรวจฟรีสำหรับ 3 ตัวอย่างแรกที่ส่งโดยผู้เสียหายจากเหตุละเมิดข้อมูลนี้
- Run a forensic check →

เช็กลิสต์การวิเคราะห์นิติวิทยาศาสตร์

การวิเคราะห์นิติวิทยาศาสตร์เริ่มจากการมองหา ข้อผิดพลาดที่พบบ่อยของเสียงสังเคราะห์
ความไม่ตรงกันของ codec จะปรากฏเมื่อ signature เชิงสเปกตรัมของไฟล์เสียงที่อ้างว่าเป็นสายโทรศัพท์ ไม่สอดคล้องกับ codec โทรศัพท์ที่รู้จัก
รูปแบบการหายใจ ของผู้พูดจริงจะสอดคล้องกับความยาวประโยคและความจุปอด ขณะที่เสียงสังเคราะห์มักข้ามจังหวะหายใจหรือใส่ไว้ตรงขอบพยางค์ที่ผิดธรรมชาติ
micro-jitter หมายถึงความไม่สม่ำเสมอเล็กมากของการสั่นสายเสียงตามธรรมชาติ แต่เสียงที่สร้างขึ้นมักสะอาดเกินจริงในระดับมิลลิวินาที
formant trajectory ของเสียงจริงจะตามเส้นทางการเปลี่ยนสระที่เกิดจากอวัยวะออกเสียงของปาก แต่เสียงโคลนอาจกระโดดข้ามระหว่าง formant ในแบบที่เป็นไปไม่ได้ทางกายภาพ
ความสม่ำเสมอของอะคูสติกในห้อง ควรคงที่ตั้งแต่ต้นจนจบไฟล์ แต่เสียงที่สร้างอาจแห้ง ขณะที่บริบทรอบข้างที่นำมาต่อกลับมีเสียงก้อง ทำให้ไม่สอดคล้องกัน
ความเรียบแบนของท่วงทำนอง ปรากฏเมื่อเสียงสังเคราะห์มีช่วงการเปลี่ยนระดับเสียงและพลังงานแคบกว่าผู้พูดจริง
ความคงที่ของความเร็วการพูด สังเกตได้เมื่อเสียงที่สร้างขึ้นรักษาความเร็วสม่ำเสมอเหมือนเมโทรนอมในช่วงยาว ๆ ต่างจากมนุษย์ที่มีการเร่งและผ่อน

วิธีตรวจของ ORAVYS

สำหรับแต่ละตัวอย่างที่ส่งเข้าไป ระบบจะรัน เอนจินนิติวิทยาศาสตร์มากกว่า 3,000 ตัว แบบขนาน ครอบคลุมด้านสัญญาณ, ท่วงทำนอง, การออกเสียง, codec และแหล่งที่มา
การตรวจลายน้ำ AudioSeal สามารถระบุไฟล์ที่สร้างโดยโมเดลเสียงเชิงพาณิชย์หลักได้หากลายน้ำยังคงอยู่ และหากพบลายน้ำจะให้ผลบวกที่ชี้ขาดได้
โมดูล anti-spoofing ถูกฝึกจาก benchmark สาธารณะ ASVspoof และให้คะแนนความเป็นไปได้ที่ตัวอย่างนั้นถูกสังเคราะห์แทนที่จะอัดเสียงจริง
ใช้การประมวลผลข้อมูลชีวมิติที่ สอดคล้องกับ RGPD และจะไม่นำไฟล์เสียงไปใช้ฝึกโมเดลเชิงพาณิชย์หากไม่มีความยินยอมอย่างชัดแจ้ง รวมถึงลบตามกำหนดเวลาการเก็บรักษาที่กำหนดไว้
หากคุณเป็นผู้รับจ้างของ Mercor และอาจมีเสียงของคุณแพร่กระจายอยู่แล้ว ระบบจะวิเคราะห์ตัวอย่างต้องสงสัย 3 ชิ้นแรกให้ฟรี
รายงานฟรีประกอบด้วย การตรวจลายน้ำ, คะแนน anti-spoofing, และเช็กลิสต์อาร์ติแฟกต์ข้างต้น
ระบุว่าไม่ต้องใช้ข้อมูลบัตรและไม่มีข้อจำกัดแบบ paywall

แหล่งที่มาและข้อจำกัด

แหล่งที่มาที่ระบุ ได้แก่ ดัชนีเว็บไซต์ข้อมูลรั่วไหลของ Lapsus$, Wall Street Journal เดือนกุมภาพันธ์ 2026, Pindrop Voice Intelligence Report 2025, FBI IC3 Elder Fraud Report 2026, และอาร์ไคฟ์ของ Krebs on Security
ORAVYS ไม่ได้โฮสต์หรือเผยแพร่ต่อชุดข้อมูลที่รั่วไหล และไม่รับข้อมูลเหล่านั้นเป็นอินพุตด้วย

1 ความคิดเห็น

GN⁺ 2 일 전

ความเห็นจาก Hacker News

มีความ ย้อนแย้ง สูงมาก ถ้าจะลดความเสียหายจากการที่เสียงของตัวเองหลุดไปถึงบริษัท AI กลับต้องส่งเสียงไปให้บริษัท AI อีกแห่งหนึ่ง ฟังดูเหลือเชื่อจริง ๆ
และ Mercor เองก็น่าจะใส่เรื่อง ความยินยอมโดยชัดแจ้ง ไว้ในข้อกำหนดเพื่อเปิดช่องให้ตัวเองหลีกเลี่ยงความรับผิดทางกฎหมายได้ด้วย
- สิ่งที่ขมขื่นยิ่งกว่าข้อเสนอวิเคราะห์ฟรี คือโครงสร้างสัญญาของ Mercor ตั้งแต่แรกก็แทบจะเป็นแพตเทิร์นนั้นอยู่แล้ว
  ต้องส่ง ไฟล์บันทึกเสียงระดับสตูดิโอ และ สแกนบัตรประชาชน/เอกสารยืนยันตัวตน ไปให้ แต่จริง ๆ แล้วงาน data labeling ไม่ได้ต้องใช้ทั้งสองอย่างเลย ขณะที่ความยินยอมก็ถูกซ่อนไว้ลึกในข้อกำหนด และคนจำนวนมากก็จำเป็นต้องกดตกลงเพราะต้องการรายได้
  ตอนนี้คน 40,000 คนได้เรียนรู้แล้วว่า ข้อมูลชีวมิติไม่ใช่รหัสผ่าน และเสียงก็ไม่ใช่สิ่งที่เปลี่ยนใหม่ได้
- คำว่า CYA ดูเหมือนเป็นคำที่ทำให้ความจริงเบาบางเกินไป
  ตามอุดมคติแล้ว กฎหมายควรเป็นช่องทางที่เข้าถึงได้สำหรับการแก้ข้อพิพาทแทนการใช้ความรุนแรง แต่ทุกวันนี้มันกลับถูกใช้บ่อยกว่าในฐานะ ระบบแบบคาฟคา ที่คอยค้ำอำนาจของบริษัทเหนือปัจเจก
  ในทางปฏิบัติมันใกล้เคียงกับการปิดกั้นช่องทางเยียวยาทางกฎหมายแทบทั้งหมด และวิธีรับมืออื่น ๆ ก็มีต้นทุนสูงต่อเนื่อง เช่น ต้องรักษาที่อยู่หลายแห่งหรือจ้างบอดี้การ์ด
  ไม่ได้หมายความว่าสนับสนุนความรุนแรง แค่หมายถึงเราต้องการระบบกฎหมายที่เท่าเทียมและเข้าถึงได้มากกว่านี้
- ถ้าดูจาก บทความ WSJ เมื่อสัปดาห์ก่อน Mercor ดูเหมือนจะอาศัยพื้นที่สีเทาของสัญญา และปัญหาไม่ได้มีแค่เรื่องเสียง
  หลายคนแทบจะ แอบดักฟัง ตัวเองและบริษัทของตัวเองไปพร้อมกัน
  ต่อให้ผู้รับจ้างของ Mercor จะอ้างว่ามีการเก็บข้อมูลเกินขอบเขตผ่าน Insightful แต่จากมุมบริษัทนี่ก็เป็นโครงสร้างที่ฉลาดพอตัว เพราะถ้าร้องเรียนแรงเกินไป พวกเขาไม่เพียงเสี่ยงเสียงานหลัก แต่ยังอาจต้องแบกรับความรับผิดไม่จำกัดจากการกระทำผิดโดยเจตนาด้วย
  https://www.wsj.com/tech/ai/mercor-ai-startup-personal-data-lawsuit-0b5c349b?st=5qmCSK&reflink=desktopwebshare_permalink
- ตอนพยายามลบบัญชี Airbnb เขาขอ สแกนเอกสารยืนยันตัวตนทั้งด้านหน้าและด้านหลัง ก็เลยเลิกทำไปเลย และหลังจากนั้นก็ไม่ใช้บริษัทนั้นอีก
- ฟังดูคล้ายกับสถานการณ์ที่ถ้าจะรับ เงินชดเชยจากการขโมยตัวตน ก็ต้องยืนยันตัวตนตัวเองก่อน
ผู้เขียนเองนะ ผมเขียนโพสต์นี้หลังจากเห็น Mercor archive ที่ Lapsus$ เอาไปลงในเว็บไซต์รั่วไหลเมื่อต้นเดือนนี้
สิ่งที่สะดุดตาเป็นพิเศษคือ การจับคู่กันของตัวอย่างเสียงกับสแกนเอกสารยืนยันตัวตน ปกติการรั่วไหลมักมีแค่อย่างใดอย่างหนึ่ง แต่งานนี้เหมือนยื่นชุดคิทพร้อมใช้สำหรับ deepfake ให้ไปทั้งชุด
ผมพยายามสรุปแบบใช้งานได้จริงว่าผู้โจมตีจะเอาชุดข้อมูลนี้ไปทำอะไรได้บ้าง เช่น หลบเลี่ยงการยืนยันตัวตนด้วยเสียง ของธนาคาร การปลอมตัวในวิดีโอคอลแบบกรณี Arup การฉ้อโกงประกันภัย รวมถึงเช็กลิสต์ 5 ขั้นตอนที่ผู้รับจ้างที่ข้อมูลหลุดควรทำตาม
ฝั่งการตรวจจับเชิงนิติวิทยาศาสตร์ก็คุยต่อได้เหมือนกัน ทั้งลายน้ำ AudioSeal, ระบบ anti-spoofing แบบ AASIST และภูมิทัศน์การตรวจจับจะเปลี่ยนไปอย่างไรเมื่อข้อมูลชีวมิติด้านเสียงเริ่มรั่วไหลในวงกว้าง
- เป็นข้อมูลที่น่าสนใจดี Mercor แทบไม่ได้ออก แถลงการณ์สาธารณะ หลังเกิดเหตุ
  โพสต์บนโซเชียลมีเดียอาจไม่ถือเป็นประกาศทางการ แต่ผมหาตัวอย่าง หนังสือแจ้งเหตุข้อมูลรั่วไหล ที่ยื่นในแคลิฟอร์เนียเจอ
  คงต้องรอดูว่าสมาชิกสภานิติบัญญัติของเราจะเอาจริงกับประเด็นความเป็นส่วนตัวของข้อมูลในครั้งนี้หรือไม่
  https://oag.ca.gov/ecrime/databreach/reports/sb24-621099
- เมื่อหลายปีก่อน HSBC เคยเสนอ การยืนยันตัวตนด้วยเสียง มาให้ ผมปฏิเสธทันที
  บนอุปกรณ์ Apple ผมก็ไม่ใช้ข้อมูลชีวมิติ ใช้แค่ PIN 6 หลัก
  ผมมองว่ามันเป็นไอเดียที่โง่มาตั้งแต่ต้นแล้ว
  รูปแบบเดิม ๆ คือพอมีการแลกความปลอดภัยกับความสะดวก คนที่ไม่เลือกความสะดวกจะถูกมองว่าเป็นพวกหวาดระแวง แล้วพอเกิดปัญหาจริงขึ้นมา คนกลุ่มเดิมก็ยังถูกมองว่าเป็นพวกหวาดระแวงอยู่ดี แค่ด้วยเหตุผลใหม่
มีแต่ ข้อมูลที่ไม่มีอยู่ เท่านั้นที่ไม่ถูกขโมยหรือรั่วไหล เป็นบทเรียนเจ็บ ๆ ทั้งสำหรับผู้ใช้และบริษัท
ในภาษาเยอรมันยังมีคำว่า Datensparsamkeit สำหรับแนวคิดนี้ด้วย ซึ่งใกล้เคียงกับการใช้ข้อมูลอย่างประหยัด
- ที่ภาษาเยอรมันมีคำแบบนี้ก็มีบริบททางประวัติศาสตร์อยู่เหมือนกัน
  ในเยอรมนียุคทศวรรษ 1970 เคยมีการถกเถียงครั้งใหญ่เรื่องความเป็นส่วนตัวและการเก็บข้อมูล และมีการใช้คำอย่าง Datenschatten ด้วย
  ธรรมเนียมความคิดแบบนี้น่าจะมาจากการทบทวนหลังสงครามโลกครั้งที่ 2 และการตั้งคำถามต่อระบบราชการ
- ก่อนยุค LLM เรายังอธิบายได้เต็มปากว่าการเก็บข้อมูลที่ไม่จำเป็นมีแต่เพิ่มภาระรับผิดและความเสี่ยง
  แต่ตอนนี้ทุกคนกลับพยายามเก็บทุกอย่างเพิ่มในฐานะ ข้อมูลสำหรับ AI
- ข้อมูลไม่ใช่วัตถุทางกายภาพ ดังนั้นพูดอย่างเคร่งครัดแล้วมันไม่ได้ ถูกขโมย
  มันอาจถูกคัดลอกหรือถูกลบ และบางครั้งก็เกิดทั้งสองอย่างพร้อมกัน
  จะบอกได้ว่าข้อมูลหายไปจริง ๆ ก็ต่อเมื่อสำเนาสุดท้ายถูกลบไปแล้วเท่านั้น
- แต่บริษัทแทบไม่เรียนรู้บทเรียนนี้เลย
  ในโมเดลภัยคุกคามระดับองค์กรนั้น ผู้ใช้ของตัวเอง ก็ถูกรวมอยู่ด้วย และรูปแบบการดำเนินงานก็คือเก็บสะสมข้อมูลเกี่ยวกับภัยคุกคามนั้นให้มากที่สุดเท่าที่จะทำได้
- ถ้าเป็นข้อมูลที่เปิดเผยสู่สาธารณะอยู่แล้ว แนวคิดเรื่องการรั่วไหลหรือการขโมยก็แทบใช้ไม่ได้
  เช่นชุดข้อมูล Common Voice ของ Mozilla ไม่ใช่ของที่ใครจะมาขโมยไปได้
เมื่อวานผมอยู่ที่ฮิวสตันใกล้ ๆ อดีตคนในเอเจนซีและคนระดับ GS15 หลายคน แล้วได้ยินคำอธิบายว่าฝั่งความมั่นคงไซเบอร์ของอิสราเอลน่าจะเข้าไปแทรกอยู่ที่ไหนสักแห่งใน ซัพพลายเชนระบบวอยซ์เมล ตลอด 20 ปีที่ผ่านมา และดึงข้อความเสียงของทุกคนไปได้
ทุกวันนี้มีวิธีใช้ประโยชน์จาก ข้อมูลเสียง มากมายจริง ๆ จนน่าขนลุก
งั้นต่อไปทุกคนคงต้อง เปลี่ยนเสียง กันแล้วมั้ง
พูดเล่นนะ แต่คนธรรมดาส่วนใหญ่ที่ผมรู้จักยอมให้ข้อมูลชีวมิติกันไปเพราะ มันง่ายกว่า
เราควรติดป้ายให้ข้อมูลชีวมิติเป็นเหมือน รหัสผ่านถาวร เพื่อให้คนเข้าใจว่าจริง ๆ แล้วพวกเขากำลังยกอะไรออกไปบ้าง เวลาใช้เข้าถึงบัญชีธนาคารหรือเข้า Disney World
- ในเชิงหน้าที่ ข้อมูลชีวมิติใกล้เคียงกับ ชื่อผู้ใช้ มากกว่ารหัสผ่าน
  ลายนิ้วมือ DNA ม่านตา หรือรูปแบบการเดิน ล้วนเป็น ตัวระบุถาวร ที่แทบเปลี่ยนไม่ได้ และถูกเปิดเผยสู่โลกภายนอกตลอดเวลาเหมือนอีเมล
  แถมในกฎหมายสหรัฐ ตำรวจสามารถบังคับให้แสดงลายนิ้วมือได้ แต่ รหัสผ่าน ยังได้รับความคุ้มครองตามการแก้ไขรัฐธรรมนูญครั้งที่ 5
- คนที่พูดว่า มันง่ายกว่า มีวิธีคิดต่างออกไปเลย
  พวกเขาอยู่กับความไว้วางใจทางสังคมและ ความสามารถในการปฏิเสธอย่างน่าเชื่อถือ ได้ค่อนข้างดี และมักไม่เดือดร้อนมากนักตราบใดที่มันไม่ใช่ความผิดของตัวเอง
  พวกเขาไม่ได้มองว่าการเปิดรับความเสี่ยงกับการต้องรับผิดชอบเป็นเรื่องเดียวกัน
  ในแง่หนึ่งก็น่าอิจฉาอยู่เหมือนกัน เพราะเป็นการใช้ชีวิตบนสมมติฐานว่าโลกควรจะเป็นแบบนั้น
- ตอนผมทำงานธนาคาร คำว่า forever passwords กลับถูกใช้ในเชิงบวก
  มันสื่อว่าลูกค้าจะไม่ลืมและต้องการการซัพพอร์ตน้อยลง ดังนั้นหลายคนอาจตีความคำนี้ในทางดีด้วยซ้ำ
การที่ Mercor หลอกผู้รับจ้าง 40,000 คน และทำระบบความปลอดภัยข้อมูลได้แย่มากนั้นเลวร้ายจริง ๆ
เรื่องแบบนี้ควรมีความรับผิดที่หนักกว่านี้
- สิ่งที่กำลังเกิดขึ้นตอนนี้คือ CTO ที่ไม่เคยรู้จักบริษัทนี้มาก่อน กำลังได้ยินชื่อมันแล้ว
  เพราะงั้นผลจากความวุ่นวายครั้งนี้อาจกลับกลายเป็น งานเพิ่มให้ Mercor ก็ได้
  ตอน Crowdstrike ก็เห็นอะไรคล้าย ๆ กัน
- อย่างน้อยที่สุด ถ้าจะเก็บ ลายนิ้วมือเสียง ก็ควรมีข้อกำหนดเรื่องความยินยอม การเก็บรักษา และความปลอดภัยที่เข้มกว่าข้อมูลฝึกสอนทั่วไปมาก
ถ้าผู้โจมตีมี เสียงอ่านชัดเจน 30 วินาที ของใครสักคนกับสแกนใบขับขี่ ก็ทำอะไรได้เยอะมาก
อย่างแค่ธนาคารกับโบรกเกอร์ของผมเองก็ใช้ voice ID อยู่แล้ว
จุดประสงค์ของบริษัทนี้เองก็ดูเหมือนจะเป็นการ ดูดข้อมูลแบบนั้นออกมา
- พออ่านนโยบายความเป็นส่วนตัวก็ยิ่งชัด
  เขาเก็บข้อมูลกันมหาศาล ทั้ง วิดีโอ เสียง และอีกสารพัดอย่าง
ถ้าเรื่องนี้เป็นจริง ปัญหาที่ใหญ่กว่าตัวการรั่วไหลเองอาจไม่ใช่การรั่วไหลเสียด้วยซ้ำ
เรากำลังค่อย ๆ เข้าสู่โลกที่ เสียง + เอกสารยืนยันตัวตน เพียงพอสำหรับการสวมรอยเป็นใครสักคนได้อย่างสมบูรณ์ แต่ระบบส่วนใหญ่ยังไม่ได้ถูกออกแบบบนสมมติฐานนั้น
ที่นี่มี ประเด็นแรงงาน ที่ชวนอึดอัดอยู่ด้วย
คนที่คอยติดป้ายกำกับและฝึกระบบเหล่านี้ กลับเป็นคนที่ได้รับการปกป้องน้อยที่สุดเมื่อ data pipeline เองกลายเป็นพื้นผิวการโจมตี

Mercor ทำข้อมูลตัวอย่างเสียง 4TB ของผู้รับจ้าง AI 40,000 คนรั่วไหล

ภาพรวมของการละเมิดข้อมูล

เหตุใดการรั่วไหลครั้งนี้จึงต่างออกไป

การโจมตีที่ทำได้ด้วยข้อมูลเสียงที่ถูกขโมย

หลบเลี่ยงการยืนยันตัวตนของธนาคาร

vishing เจาะพนักงานในที่ทำงาน

วิดีโอคอลดีปเฟก

การฉ้อโกงเคลมประกัน

สายด่วนปลอมเป็นญาติขอความช่วยเหลือ

การตรวจการนำเสียงไปใช้ในทางที่ผิดและการตอบสนองทันที

ตรวจร่องรอยเสียงสาธารณะ

ตั้งรหัสคำพูดกับครอบครัวและผู้ติดต่อทางการเงิน

ลงทะเบียนใหม่ในบริการที่ใช้ voice print

ปิดการใช้งานการยืนยันด้วย voice print ของธนาคาร

ตรวจนิติวิทยาศาสตร์ของไฟล์เสียงที่น่าสงสัย

เช็กลิสต์การวิเคราะห์นิติวิทยาศาสตร์

วิธีตรวจของ ORAVYS

แหล่งที่มาและข้อจำกัด

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News