1 คะแนน โดย GN⁺ 2 일 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • เกิดการรั่วไหลครั้งใหญ่ที่ผูก ข้อมูลชีวมิติทางเสียง และ เอกสารยืนยันตัวตนที่รัฐบาลออกให้ ไว้ในข้อมูลบรรทัดเดียวกัน โดยอ้างอิงจากดัชนีตัวอย่างที่รั่วไหล มีผู้รับจ้าง AI มากกว่า 40,000 คนรวมอยู่ด้วย
  • มีไฟล์บันทึกเสียงที่สะอาดเฉลี่ย 2–5 นาทีต่อคน ซึ่งสูงเกินเกณฑ์ของการ โคลนเสียง ที่ทำได้แม้มีเพียงเสียงอ้างอิงราว 15 วินาที
  • ข้อมูลที่รั่วไหลให้ทั้งเสียงโคลนและตัวตนที่ผ่านการยืนยัน จึงอาจถูกนำไปใช้เพื่อ หลบเลี่ยงการยืนยันเสียงของธนาคาร, vishing เจาะพนักงานในที่ทำงาน, วิดีโอคอลดีปเฟก, การฉ้อโกงเคลมประกัน, และสายด่วนปลอมเป็นญาติขอความช่วยเหลือ
  • หากเคยอัปโหลดตัวอย่างเสียงให้ Mercor หรือผู้ให้บริการตัวกลางฝึก AI รายอื่นที่ดำเนินงานจนถึงปี 2025 ควรปฏิบัติต่อสิ่งนี้เหมือน รหัสผ่านที่รั่วไหล และควรลบเสียงสาธารณะ ตั้งรหัสคำพูด และลงทะเบียนหรือปิดการใช้งาน voice print ใหม่
  • เสียงที่น่าสงสัยควรตรวจด้วย การวิเคราะห์นิติวิทยาศาสตร์ดิจิทัล เพื่อดูความไม่ตรงกันของ codec, รูปแบบการหายใจ, micro-jitter, formant trajectory, ความสม่ำเสมอของอะคูสติกในห้อง, รวมถึงความผิดปกติของท่วงทำนองและความเร็วการพูด ซึ่งสะท้อนให้เห็นช่องโหว่ที่ใหญ่กว่าของการยืนยันตัวตนด้วยเสียงโดยรวม

ภาพรวมของการละเมิดข้อมูล

  • วันที่ 4 เมษายน 2026 กลุ่ม Lapsus$ โพสต์ Mercor ลงบนเว็บไซต์เผยแพร่ข้อมูลรั่วไหล และมีรายงานว่าขนาดข้อมูลรั่วไหลอยู่ที่ราว 4TB
  • ในอาร์ไคฟ์ข้อมูลรั่วไหล มีทั้ง ข้อมูลชีวมิติทางเสียง และ เอกสารยืนยันตัวตนที่รัฐบาลออกให้ ของบุคคลเดียวกันถูกรวมเข้าด้วยกัน และจากดัชนีตัวอย่างที่รั่วไหลมีผู้รับจ้างมากกว่า 40,000 คนรวมอยู่ด้วย
  • ผู้ที่ได้รับผลกระทบคือผู้รับจ้างที่ลงทะเบียนเพื่อทำ data labeling สำหรับการฝึก AI, อัดเสียงอ่านข้อความ, และรับสายยืนยันตัวตน
  • ภายใน 10 วันหลังการโพสต์ มีการยื่นฟ้องโดยผู้รับจ้าง 5 คดี โดยกล่าวหาว่ามีการเก็บ voice print เป็น "ข้อมูลฝึก" โดยไม่ได้แจ้งอย่างชัดเจนว่านี่คือข้อมูลชีวมิติถาวรที่ใช้ระบุตัวตนได้

เหตุใดการรั่วไหลครั้งนี้จึงต่างออกไป

  • ตลอด 10 ปีที่ผ่านมา การรั่วไหลของเสียงส่วนใหญ่มักแบ่งเป็นการรั่วไหลของ บันทึกการโทรที่เชื่อมโยงกับตัวตนได้ยาก หรือการรั่วไหลของ บัตรยืนยันตัวตน·เซลฟี ที่ไม่มีไฟล์เสียง
  • ขั้นตอนการลงทะเบียนของ Mercor รวมการสแกนหนังสือเดินทางหรือใบขับขี่, เซลฟีจากเว็บแคม, และการอัดเสียงอ่านข้อความตามสคริปต์ในสภาพแวดล้อมเงียบ เข้าเป็นข้อมูลบรรทัดเดียวกัน
  • การรวมกันนี้ตรงกับรูปแบบข้อมูลนำเข้าที่ บริการโคลนเสียงสังเคราะห์ ต้องการพอดี
  • ตามรายงานของ Wall Street Journal เมื่อเดือนกุมภาพันธ์ 2026 เครื่องมือเชิงพาณิชย์ต้องการเพียงเสียงอ้างอิงที่สะอาดราว 15 วินาทีเพื่อโคลนเสียงคุณภาพสูง
  • มีรายงานว่าไฟล์เสียงของ Mercor เป็นเสียงระดับสตูดิโอเฉลี่ย 2–5 นาทีต่อคน ซึ่งเกินเกณฑ์การโคลนอย่างมาก
  • เมื่อรวมกับเอกสารยืนยันตัวตนที่ผ่านการตรวจแล้ว ผู้โจมตีจะได้ทั้ง เสียงโคลน และ ข้อมูลรับรอง สำหรับนำไปใช้โจมตีจริง

การโจมตีที่ทำได้ด้วยข้อมูลเสียงที่ถูกขโมย

  • หลบเลี่ยงการยืนยันตัวตนของธนาคาร

    • ธนาคารหลายแห่งในสหรัฐฯ และสหราชอาณาจักรยังคงใช้การจับคู่ voice print เป็นหนึ่งในสองปัจจัยยืนยันตัวตน
    • หากใช้เสียงโคลนของเจ้าของบัญชีอ่านวลีท้าทาย ก็อาจผ่านด่านเสียงได้ และสิ่งที่เหลือก็เป็นเพียงคำถามเชิงความรู้ซึ่งอาจมาจากชุดข้อมูลรั่วไหลเดียวกัน
  • vishing เจาะพนักงานในที่ทำงาน

    • ผู้โจมตีอาจโทรหา HR หรือฝ่ายการเงินโดยปลอมเป็นพนักงาน เพื่อเปลี่ยนบัญชีรับเงินเดือน ขอให้โอนเงิน หรือปลดล็อกเวิร์กสเตชัน
    • ในอาร์ไคฟ์ของ Krebs on Security มีกรณีที่ยืนยันได้สะสมมากกว่า 24 กรณีนับตั้งแต่ปี 2023
  • วิดีโอคอลดีปเฟก

    • ในปี 2024 ที่ Arup มีการโอนเงินราว 25 ล้านดอลลาร์หลังจากวิดีโอคอลดีปเฟกหลายบุคคล
    • ตอนนั้นเสียงและใบหน้าถูกสร้างจากวิดีโอสาธารณะ แต่ข้อมูลรั่วไหลของ Mercor มีทั้ง เสียงระดับสตูดิโอ และ เอกสารยืนยันตัวตนที่ผ่านการตรวจแล้ว ซึ่งดีกว่าวิดีโอสาธารณะ
  • การฉ้อโกงเคลมประกัน

    • Pindrop ระบุว่าตลอดปี 2025 การโจมตีด้วยเสียงสังเคราะห์ต่อคอลเซ็นเตอร์ประกันเพิ่มขึ้น 475% เมื่อเทียบกับปีก่อนหน้า
    • เป้าหมายหลักคือการเคลมรถยนต์ ชีวิต และทุพพลภาพที่ดำเนินการทางโทรศัพท์
  • สายด่วนปลอมเป็นญาติขอความช่วยเหลือ

    • ศูนย์รับแจ้งอาชญากรรมทางอินเทอร์เน็ตของ FBI ประเมินความเสียหายของเหยื่ออายุ 60 ปีขึ้นไปในปี 2026 ไว้ที่ 2.3 พันล้านดอลลาร์
    • หมวดที่เติบโตเร็วที่สุดคือสายด่วนปลอมตัวฉุกเฉินที่อ้างว่าญาติกำลังตกอยู่ในอันตราย

การตรวจการนำเสียงไปใช้ในทางที่ผิดและการตอบสนองทันที

  • หากคุณเคยอัปโหลดตัวอย่างเสียงให้ Mercor หรือผู้ให้บริการตัวกลางฝึก AI รายอื่นที่ดำเนินงานจนถึงปี 2025 ควรปฏิบัติต่อสิ่งนี้เหมือน รหัสผ่านที่รั่วไหล
  • แม้จะเปลี่ยนเสียงจริงไม่ได้ แต่คุณเปลี่ยน วิธีการยืนยันตัวตน ที่เปิดด้วยเสียงนั้นได้
  • ตรวจร่องรอยเสียงสาธารณะ

    • ควรค้นหาตัวอย่างเสียงที่ถูกจัดทำดัชนีสาธารณะบน YouTube, ไดเรกทอรีพอดแคสต์, และบันทึก Zoom เก่า
    • หากมีเสียงสาธารณะที่ถอดออกได้ ก็ควรลบออกให้มากที่สุด
    • ยิ่งมีเสียงอ้างอิงสาธารณะน้อย ความแข็งแรงของเสียงโคลนที่ผู้โจมตีสร้างได้ก็ยิ่งลดลง
  • ตั้งรหัสคำพูดกับครอบครัวและผู้ติดต่อทางการเงิน

    • ควรเลือกวลีที่ไม่เคยถูกบันทึกเสียงและไม่เคยพิมพ์ในแชต
    • ควรแจ้งล่วงหน้าให้คนที่มีหน้าที่จัดการเงินแทนคุณทราบ
    • ในสายที่ขอให้โอนเงิน ควรกำหนดให้การยืนยันด้วยรหัสคำพูดเป็นขั้นตอนบังคับ
  • ลงทะเบียนใหม่ในบริการที่ใช้ voice print

    • Google Voice Match, Amazon Alexa Voice ID, Apple personal voice และการลงทะเบียน voice print กับธนาคาร สามารถลบแล้วแทนที่ได้
    • ควรลงทะเบียนใหม่ด้วยการอัดเสียงใน สภาพแวดล้อมทางเสียง ที่ต่างจากตัวอย่างที่รั่วไหล
  • ปิดการใช้งานการยืนยันด้วย voice print ของธนาคาร

    • คุณสามารถร้องขอเป็นลายลักษณ์อักษรให้ถอด voice print ออกจากปัจจัยยืนยันตัวตนได้
    • ควรขอใช้ การยืนยันตัวตนหลายปัจจัย ที่ผสาน app token หรือ hardware key กับปัจจัยเชิงความรู้แทน
    • หลายธนาคารมีตัวเลือกตัดเสียงออกจากปัจจัยยืนยันหลัก แต่ไม่ได้ประชาสัมพันธ์อย่างกว้างขวาง
  • ตรวจนิติวิทยาศาสตร์ของไฟล์เสียงที่น่าสงสัย

    • หากได้รับไฟล์เสียงหรือข้อความเสียงจากคนที่อ้างว่าเป็นคนรู้จักแล้วขอเงิน สิทธิ์เข้าถึง หรือการตอบสนองฉุกเฉิน อย่าเพิ่งดำเนินการทันที ควรส่งเข้า ตัวตรวจจับดีปเฟก ก่อน
    • ORAVYS ให้บริการตรวจฟรีสำหรับ 3 ตัวอย่างแรกที่ส่งโดยผู้เสียหายจากเหตุละเมิดข้อมูลนี้
    • Run a forensic check →

เช็กลิสต์การวิเคราะห์นิติวิทยาศาสตร์

  • การวิเคราะห์นิติวิทยาศาสตร์เริ่มจากการมองหา ข้อผิดพลาดที่พบบ่อยของเสียงสังเคราะห์
  • ความไม่ตรงกันของ codec จะปรากฏเมื่อ signature เชิงสเปกตรัมของไฟล์เสียงที่อ้างว่าเป็นสายโทรศัพท์ ไม่สอดคล้องกับ codec โทรศัพท์ที่รู้จัก
  • รูปแบบการหายใจ ของผู้พูดจริงจะสอดคล้องกับความยาวประโยคและความจุปอด ขณะที่เสียงสังเคราะห์มักข้ามจังหวะหายใจหรือใส่ไว้ตรงขอบพยางค์ที่ผิดธรรมชาติ
  • micro-jitter หมายถึงความไม่สม่ำเสมอเล็กมากของการสั่นสายเสียงตามธรรมชาติ แต่เสียงที่สร้างขึ้นมักสะอาดเกินจริงในระดับมิลลิวินาที
  • formant trajectory ของเสียงจริงจะตามเส้นทางการเปลี่ยนสระที่เกิดจากอวัยวะออกเสียงของปาก แต่เสียงโคลนอาจกระโดดข้ามระหว่าง formant ในแบบที่เป็นไปไม่ได้ทางกายภาพ
  • ความสม่ำเสมอของอะคูสติกในห้อง ควรคงที่ตั้งแต่ต้นจนจบไฟล์ แต่เสียงที่สร้างอาจแห้ง ขณะที่บริบทรอบข้างที่นำมาต่อกลับมีเสียงก้อง ทำให้ไม่สอดคล้องกัน
  • ความเรียบแบนของท่วงทำนอง ปรากฏเมื่อเสียงสังเคราะห์มีช่วงการเปลี่ยนระดับเสียงและพลังงานแคบกว่าผู้พูดจริง
  • ความคงที่ของความเร็วการพูด สังเกตได้เมื่อเสียงที่สร้างขึ้นรักษาความเร็วสม่ำเสมอเหมือนเมโทรนอมในช่วงยาว ๆ ต่างจากมนุษย์ที่มีการเร่งและผ่อน

วิธีตรวจของ ORAVYS

  • สำหรับแต่ละตัวอย่างที่ส่งเข้าไป ระบบจะรัน เอนจินนิติวิทยาศาสตร์มากกว่า 3,000 ตัว แบบขนาน ครอบคลุมด้านสัญญาณ, ท่วงทำนอง, การออกเสียง, codec และแหล่งที่มา
  • การตรวจลายน้ำ AudioSeal สามารถระบุไฟล์ที่สร้างโดยโมเดลเสียงเชิงพาณิชย์หลักได้หากลายน้ำยังคงอยู่ และหากพบลายน้ำจะให้ผลบวกที่ชี้ขาดได้
  • โมดูล anti-spoofing ถูกฝึกจาก benchmark สาธารณะ ASVspoof และให้คะแนนความเป็นไปได้ที่ตัวอย่างนั้นถูกสังเคราะห์แทนที่จะอัดเสียงจริง
  • ใช้การประมวลผลข้อมูลชีวมิติที่ สอดคล้องกับ RGPD และจะไม่นำไฟล์เสียงไปใช้ฝึกโมเดลเชิงพาณิชย์หากไม่มีความยินยอมอย่างชัดแจ้ง รวมถึงลบตามกำหนดเวลาการเก็บรักษาที่กำหนดไว้
  • หากคุณเป็นผู้รับจ้างของ Mercor และอาจมีเสียงของคุณแพร่กระจายอยู่แล้ว ระบบจะวิเคราะห์ตัวอย่างต้องสงสัย 3 ชิ้นแรกให้ฟรี
  • รายงานฟรีประกอบด้วย การตรวจลายน้ำ, คะแนน anti-spoofing, และเช็กลิสต์อาร์ติแฟกต์ข้างต้น
  • ระบุว่าไม่ต้องใช้ข้อมูลบัตรและไม่มีข้อจำกัดแบบ paywall

แหล่งที่มาและข้อจำกัด

  • แหล่งที่มาที่ระบุ ได้แก่ ดัชนีเว็บไซต์ข้อมูลรั่วไหลของ Lapsus$, Wall Street Journal เดือนกุมภาพันธ์ 2026, Pindrop Voice Intelligence Report 2025, FBI IC3 Elder Fraud Report 2026, และอาร์ไคฟ์ของ Krebs on Security
  • ORAVYS ไม่ได้โฮสต์หรือเผยแพร่ต่อชุดข้อมูลที่รั่วไหล และไม่รับข้อมูลเหล่านั้นเป็นอินพุตด้วย

1 ความคิดเห็น

 
GN⁺ 2 일 전
ความเห็นจาก Hacker News
  • มีความ ย้อนแย้ง สูงมาก ถ้าจะลดความเสียหายจากการที่เสียงของตัวเองหลุดไปถึงบริษัท AI กลับต้องส่งเสียงไปให้บริษัท AI อีกแห่งหนึ่ง ฟังดูเหลือเชื่อจริง ๆ
    และ Mercor เองก็น่าจะใส่เรื่อง ความยินยอมโดยชัดแจ้ง ไว้ในข้อกำหนดเพื่อเปิดช่องให้ตัวเองหลีกเลี่ยงความรับผิดทางกฎหมายได้ด้วย

    • สิ่งที่ขมขื่นยิ่งกว่าข้อเสนอวิเคราะห์ฟรี คือโครงสร้างสัญญาของ Mercor ตั้งแต่แรกก็แทบจะเป็นแพตเทิร์นนั้นอยู่แล้ว
      ต้องส่ง ไฟล์บันทึกเสียงระดับสตูดิโอ และ สแกนบัตรประชาชน/เอกสารยืนยันตัวตน ไปให้ แต่จริง ๆ แล้วงาน data labeling ไม่ได้ต้องใช้ทั้งสองอย่างเลย ขณะที่ความยินยอมก็ถูกซ่อนไว้ลึกในข้อกำหนด และคนจำนวนมากก็จำเป็นต้องกดตกลงเพราะต้องการรายได้
      ตอนนี้คน 40,000 คนได้เรียนรู้แล้วว่า ข้อมูลชีวมิติไม่ใช่รหัสผ่าน และเสียงก็ไม่ใช่สิ่งที่เปลี่ยนใหม่ได้
    • คำว่า CYA ดูเหมือนเป็นคำที่ทำให้ความจริงเบาบางเกินไป
      ตามอุดมคติแล้ว กฎหมายควรเป็นช่องทางที่เข้าถึงได้สำหรับการแก้ข้อพิพาทแทนการใช้ความรุนแรง แต่ทุกวันนี้มันกลับถูกใช้บ่อยกว่าในฐานะ ระบบแบบคาฟคา ที่คอยค้ำอำนาจของบริษัทเหนือปัจเจก
      ในทางปฏิบัติมันใกล้เคียงกับการปิดกั้นช่องทางเยียวยาทางกฎหมายแทบทั้งหมด และวิธีรับมืออื่น ๆ ก็มีต้นทุนสูงต่อเนื่อง เช่น ต้องรักษาที่อยู่หลายแห่งหรือจ้างบอดี้การ์ด
      ไม่ได้หมายความว่าสนับสนุนความรุนแรง แค่หมายถึงเราต้องการระบบกฎหมายที่เท่าเทียมและเข้าถึงได้มากกว่านี้
    • ถ้าดูจาก บทความ WSJ เมื่อสัปดาห์ก่อน Mercor ดูเหมือนจะอาศัยพื้นที่สีเทาของสัญญา และปัญหาไม่ได้มีแค่เรื่องเสียง
      หลายคนแทบจะ แอบดักฟัง ตัวเองและบริษัทของตัวเองไปพร้อมกัน
      ต่อให้ผู้รับจ้างของ Mercor จะอ้างว่ามีการเก็บข้อมูลเกินขอบเขตผ่าน Insightful แต่จากมุมบริษัทนี่ก็เป็นโครงสร้างที่ฉลาดพอตัว เพราะถ้าร้องเรียนแรงเกินไป พวกเขาไม่เพียงเสี่ยงเสียงานหลัก แต่ยังอาจต้องแบกรับความรับผิดไม่จำกัดจากการกระทำผิดโดยเจตนาด้วย
      https://www.wsj.com/tech/ai/mercor-ai-startup-personal-data-lawsuit-0b5c349b?st=5qmCSK&reflink=desktopwebshare_permalink
    • ตอนพยายามลบบัญชี Airbnb เขาขอ สแกนเอกสารยืนยันตัวตนทั้งด้านหน้าและด้านหลัง ก็เลยเลิกทำไปเลย และหลังจากนั้นก็ไม่ใช้บริษัทนั้นอีก
    • ฟังดูคล้ายกับสถานการณ์ที่ถ้าจะรับ เงินชดเชยจากการขโมยตัวตน ก็ต้องยืนยันตัวตนตัวเองก่อน
  • ผู้เขียนเองนะ ผมเขียนโพสต์นี้หลังจากเห็น Mercor archive ที่ Lapsus$ เอาไปลงในเว็บไซต์รั่วไหลเมื่อต้นเดือนนี้
    สิ่งที่สะดุดตาเป็นพิเศษคือ การจับคู่กันของตัวอย่างเสียงกับสแกนเอกสารยืนยันตัวตน ปกติการรั่วไหลมักมีแค่อย่างใดอย่างหนึ่ง แต่งานนี้เหมือนยื่นชุดคิทพร้อมใช้สำหรับ deepfake ให้ไปทั้งชุด
    ผมพยายามสรุปแบบใช้งานได้จริงว่าผู้โจมตีจะเอาชุดข้อมูลนี้ไปทำอะไรได้บ้าง เช่น หลบเลี่ยงการยืนยันตัวตนด้วยเสียง ของธนาคาร การปลอมตัวในวิดีโอคอลแบบกรณี Arup การฉ้อโกงประกันภัย รวมถึงเช็กลิสต์ 5 ขั้นตอนที่ผู้รับจ้างที่ข้อมูลหลุดควรทำตาม
    ฝั่งการตรวจจับเชิงนิติวิทยาศาสตร์ก็คุยต่อได้เหมือนกัน ทั้งลายน้ำ AudioSeal, ระบบ anti-spoofing แบบ AASIST และภูมิทัศน์การตรวจจับจะเปลี่ยนไปอย่างไรเมื่อข้อมูลชีวมิติด้านเสียงเริ่มรั่วไหลในวงกว้าง

    • เป็นข้อมูลที่น่าสนใจดี Mercor แทบไม่ได้ออก แถลงการณ์สาธารณะ หลังเกิดเหตุ
      โพสต์บนโซเชียลมีเดียอาจไม่ถือเป็นประกาศทางการ แต่ผมหาตัวอย่าง หนังสือแจ้งเหตุข้อมูลรั่วไหล ที่ยื่นในแคลิฟอร์เนียเจอ
      คงต้องรอดูว่าสมาชิกสภานิติบัญญัติของเราจะเอาจริงกับประเด็นความเป็นส่วนตัวของข้อมูลในครั้งนี้หรือไม่
      https://oag.ca.gov/ecrime/databreach/reports/sb24-621099
    • เมื่อหลายปีก่อน HSBC เคยเสนอ การยืนยันตัวตนด้วยเสียง มาให้ ผมปฏิเสธทันที
      บนอุปกรณ์ Apple ผมก็ไม่ใช้ข้อมูลชีวมิติ ใช้แค่ PIN 6 หลัก
      ผมมองว่ามันเป็นไอเดียที่โง่มาตั้งแต่ต้นแล้ว
      รูปแบบเดิม ๆ คือพอมีการแลกความปลอดภัยกับความสะดวก คนที่ไม่เลือกความสะดวกจะถูกมองว่าเป็นพวกหวาดระแวง แล้วพอเกิดปัญหาจริงขึ้นมา คนกลุ่มเดิมก็ยังถูกมองว่าเป็นพวกหวาดระแวงอยู่ดี แค่ด้วยเหตุผลใหม่
  • มีแต่ ข้อมูลที่ไม่มีอยู่ เท่านั้นที่ไม่ถูกขโมยหรือรั่วไหล เป็นบทเรียนเจ็บ ๆ ทั้งสำหรับผู้ใช้และบริษัท
    ในภาษาเยอรมันยังมีคำว่า Datensparsamkeit สำหรับแนวคิดนี้ด้วย ซึ่งใกล้เคียงกับการใช้ข้อมูลอย่างประหยัด

    • ที่ภาษาเยอรมันมีคำแบบนี้ก็มีบริบททางประวัติศาสตร์อยู่เหมือนกัน
      ในเยอรมนียุคทศวรรษ 1970 เคยมีการถกเถียงครั้งใหญ่เรื่องความเป็นส่วนตัวและการเก็บข้อมูล และมีการใช้คำอย่าง Datenschatten ด้วย
      ธรรมเนียมความคิดแบบนี้น่าจะมาจากการทบทวนหลังสงครามโลกครั้งที่ 2 และการตั้งคำถามต่อระบบราชการ
    • ก่อนยุค LLM เรายังอธิบายได้เต็มปากว่าการเก็บข้อมูลที่ไม่จำเป็นมีแต่เพิ่มภาระรับผิดและความเสี่ยง
      แต่ตอนนี้ทุกคนกลับพยายามเก็บทุกอย่างเพิ่มในฐานะ ข้อมูลสำหรับ AI
    • ข้อมูลไม่ใช่วัตถุทางกายภาพ ดังนั้นพูดอย่างเคร่งครัดแล้วมันไม่ได้ ถูกขโมย
      มันอาจถูกคัดลอกหรือถูกลบ และบางครั้งก็เกิดทั้งสองอย่างพร้อมกัน
      จะบอกได้ว่าข้อมูลหายไปจริง ๆ ก็ต่อเมื่อสำเนาสุดท้ายถูกลบไปแล้วเท่านั้น
    • แต่บริษัทแทบไม่เรียนรู้บทเรียนนี้เลย
      ในโมเดลภัยคุกคามระดับองค์กรนั้น ผู้ใช้ของตัวเอง ก็ถูกรวมอยู่ด้วย และรูปแบบการดำเนินงานก็คือเก็บสะสมข้อมูลเกี่ยวกับภัยคุกคามนั้นให้มากที่สุดเท่าที่จะทำได้
    • ถ้าเป็นข้อมูลที่เปิดเผยสู่สาธารณะอยู่แล้ว แนวคิดเรื่องการรั่วไหลหรือการขโมยก็แทบใช้ไม่ได้
      เช่นชุดข้อมูล Common Voice ของ Mozilla ไม่ใช่ของที่ใครจะมาขโมยไปได้
  • เมื่อวานผมอยู่ที่ฮิวสตันใกล้ ๆ อดีตคนในเอเจนซีและคนระดับ GS15 หลายคน แล้วได้ยินคำอธิบายว่าฝั่งความมั่นคงไซเบอร์ของอิสราเอลน่าจะเข้าไปแทรกอยู่ที่ไหนสักแห่งใน ซัพพลายเชนระบบวอยซ์เมล ตลอด 20 ปีที่ผ่านมา และดึงข้อความเสียงของทุกคนไปได้
    ทุกวันนี้มีวิธีใช้ประโยชน์จาก ข้อมูลเสียง มากมายจริง ๆ จนน่าขนลุก

  • งั้นต่อไปทุกคนคงต้อง เปลี่ยนเสียง กันแล้วมั้ง
    พูดเล่นนะ แต่คนธรรมดาส่วนใหญ่ที่ผมรู้จักยอมให้ข้อมูลชีวมิติกันไปเพราะ มันง่ายกว่า
    เราควรติดป้ายให้ข้อมูลชีวมิติเป็นเหมือน รหัสผ่านถาวร เพื่อให้คนเข้าใจว่าจริง ๆ แล้วพวกเขากำลังยกอะไรออกไปบ้าง เวลาใช้เข้าถึงบัญชีธนาคารหรือเข้า Disney World

    • ในเชิงหน้าที่ ข้อมูลชีวมิติใกล้เคียงกับ ชื่อผู้ใช้ มากกว่ารหัสผ่าน
      ลายนิ้วมือ DNA ม่านตา หรือรูปแบบการเดิน ล้วนเป็น ตัวระบุถาวร ที่แทบเปลี่ยนไม่ได้ และถูกเปิดเผยสู่โลกภายนอกตลอดเวลาเหมือนอีเมล
      แถมในกฎหมายสหรัฐ ตำรวจสามารถบังคับให้แสดงลายนิ้วมือได้ แต่ รหัสผ่าน ยังได้รับความคุ้มครองตามการแก้ไขรัฐธรรมนูญครั้งที่ 5
    • คนที่พูดว่า มันง่ายกว่า มีวิธีคิดต่างออกไปเลย
      พวกเขาอยู่กับความไว้วางใจทางสังคมและ ความสามารถในการปฏิเสธอย่างน่าเชื่อถือ ได้ค่อนข้างดี และมักไม่เดือดร้อนมากนักตราบใดที่มันไม่ใช่ความผิดของตัวเอง
      พวกเขาไม่ได้มองว่าการเปิดรับความเสี่ยงกับการต้องรับผิดชอบเป็นเรื่องเดียวกัน
      ในแง่หนึ่งก็น่าอิจฉาอยู่เหมือนกัน เพราะเป็นการใช้ชีวิตบนสมมติฐานว่าโลกควรจะเป็นแบบนั้น
    • ตอนผมทำงานธนาคาร คำว่า forever passwords กลับถูกใช้ในเชิงบวก
      มันสื่อว่าลูกค้าจะไม่ลืมและต้องการการซัพพอร์ตน้อยลง ดังนั้นหลายคนอาจตีความคำนี้ในทางดีด้วยซ้ำ
  • การที่ Mercor หลอกผู้รับจ้าง 40,000 คน และทำระบบความปลอดภัยข้อมูลได้แย่มากนั้นเลวร้ายจริง ๆ
    เรื่องแบบนี้ควรมีความรับผิดที่หนักกว่านี้

    • สิ่งที่กำลังเกิดขึ้นตอนนี้คือ CTO ที่ไม่เคยรู้จักบริษัทนี้มาก่อน กำลังได้ยินชื่อมันแล้ว
      เพราะงั้นผลจากความวุ่นวายครั้งนี้อาจกลับกลายเป็น งานเพิ่มให้ Mercor ก็ได้
      ตอน Crowdstrike ก็เห็นอะไรคล้าย ๆ กัน
    • อย่างน้อยที่สุด ถ้าจะเก็บ ลายนิ้วมือเสียง ก็ควรมีข้อกำหนดเรื่องความยินยอม การเก็บรักษา และความปลอดภัยที่เข้มกว่าข้อมูลฝึกสอนทั่วไปมาก
  • ถ้าผู้โจมตีมี เสียงอ่านชัดเจน 30 วินาที ของใครสักคนกับสแกนใบขับขี่ ก็ทำอะไรได้เยอะมาก
    อย่างแค่ธนาคารกับโบรกเกอร์ของผมเองก็ใช้ voice ID อยู่แล้ว

  • จุดประสงค์ของบริษัทนี้เองก็ดูเหมือนจะเป็นการ ดูดข้อมูลแบบนั้นออกมา

    • พออ่านนโยบายความเป็นส่วนตัวก็ยิ่งชัด
      เขาเก็บข้อมูลกันมหาศาล ทั้ง วิดีโอ เสียง และอีกสารพัดอย่าง
  • ถ้าเรื่องนี้เป็นจริง ปัญหาที่ใหญ่กว่าตัวการรั่วไหลเองอาจไม่ใช่การรั่วไหลเสียด้วยซ้ำ
    เรากำลังค่อย ๆ เข้าสู่โลกที่ เสียง + เอกสารยืนยันตัวตน เพียงพอสำหรับการสวมรอยเป็นใครสักคนได้อย่างสมบูรณ์ แต่ระบบส่วนใหญ่ยังไม่ได้ถูกออกแบบบนสมมติฐานนั้น

  • ที่นี่มี ประเด็นแรงงาน ที่ชวนอึดอัดอยู่ด้วย
    คนที่คอยติดป้ายกำกับและฝึกระบบเหล่านี้ กลับเป็นคนที่ได้รับการปกป้องน้อยที่สุดเมื่อ data pipeline เองกลายเป็นพื้นผิวการโจมตี