1 คะแนน โดย GN⁺ 3 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • การฉีดนอยส์ ที่ใช้เมื่อสร้างสถิติสาธารณะจากชุดข้อมูลลับ เป็นเครื่องมือป้องกันการเปิดเผยที่ช่วยซ่อนข้อมูลส่วนบุคคลในข้อมูลต้นฉบับ พร้อมรักษาความมีประโยชน์ของสถิติไว้
  • คำสั่งของกระทรวงพาณิชย์สหรัฐห้ามการฉีดนอยส์ในผลิตภัณฑ์สถิติทั้งหมดของ Census Bureau และ Bureau of Economic Analysis โดยพุ่งเป้าไปที่ differential privacy โดยตรง
  • Census Bureau ใช้วิธีสลับข้อมูลเป็นหลักในการสำมะโนประชากรทุก 10 ปีตั้งแต่ปี 1990 ถึง 2010 แต่หลังจากพบว่าการสร้างบันทึกรายบุคคลกลับขึ้นมาใหม่จากสถิติสาธารณะทำได้ง่าย จึงนำ differential privacy มาใช้กับการสำมะโนปี 2020
  • differential privacy ผสานการจำกัดระดับการมีส่วนร่วมเข้ากับการเพิ่ม นอยส์ ที่ปรับจูนอย่างละเอียด เพื่อให้ได้ ความมีประโยชน์ สูงขึ้นภายใต้ระดับความเป็นส่วนตัวที่ใกล้เคียงกัน
  • หากตัดนอยส์ออกไป การเผยแพร่สถิติในอนาคตอาจมีประโยชน์น้อยลงมากกว่าเดิม หรือกลายเป็นข้อมูลที่ ไม่ปลอดภัยอย่างมาก

พื้นหลัง

  • ผลิตภัณฑ์สถิติคือชุดตัวเลขต่าง ๆ ที่เผยแพร่จากชุดข้อมูลลับ และเมื่อชุดข้อมูลนั้นมีข้อมูลที่เป็นความลับ ตัวเลขที่เผยแพร่ก็ต้องไม่เปิดเผยข้อมูลนั้น
  • U.S. Census เป็นตัวอย่างสำคัญ โดยสถิติถูกเปิดเผยสู่สาธารณะ แต่เนื้อหาในแบบฟอร์มรายบุคคลที่ผู้อยู่อาศัยในสหรัฐกรอกต้องคงไว้เป็นความลับ
  • ในแวดวงสถิติ เทคนิคที่ใช้ปกป้องความเป็นส่วนตัวของข้อมูลต้นฉบับพร้อมกับเผยแพร่สถิติที่ยังใช้งานได้ เรียกว่า การป้องกันการเปิดเผย
  • เทคนิคป้องกันการเปิดเผยมีทั้ง การกดทับข้อมูล ที่ลบข้อมูลซึ่งไม่ผ่านเกณฑ์บางอย่าง การทำให้ข้อมูลทั่วไปขึ้นเพื่อลดความละเอียดของคุณลักษณะ และการสุ่มลบบางระเบียนออกด้วยการสุ่มตัวอย่าง
  • เทคนิคป้องกันการเปิดเผยยังรวมถึงการสลับคุณลักษณะของระเบียนต่าง ๆ แบบสุ่ม การจำกัดอิทธิพลสูงสุดของแต่ละบุคคลหนึ่งคน และการเพิ่มนอยส์ด้วยการบวกตัวเลขสุ่มเข้าไปในสถิติ
  • differential privacy และสำมะโนปี 2020

    • เมื่อนำบางเทคนิคมาผสมกัน ก็สามารถบรรลุ differential privacy ได้ ซึ่งในหมู่นักวิทยาศาสตร์ถือกันอย่างกว้างขวางว่าเป็น gold standard ของการคุ้มครองความเป็นส่วนตัว
    • differential privacy โดยทั่วไปอาศัยการผสมผสานระหว่างการจำกัดระดับการมีส่วนร่วมกับ การเพิ่มนอยส์ ที่ปรับจูนอย่างระมัดระวัง
    • Census Bureau ใช้วิธีสลับข้อมูลเป็นหลักในการสำมะโนทุก 10 ปีตั้งแต่ปี 1990 ถึง 2010
    • ต่อมาจึงตระหนักว่าวิธีสลับข้อมูล ไม่ปลอดภัยอย่างมาก และการสร้างบันทึกรายบุคคลกลับขึ้นมาใหม่จากสถิติสาธารณะเพียงอย่างเดียวทำได้ง่าย
    • เนื่องจากหน่วยงานมีหน้าที่ตามกฎหมายกลางที่จะต้องเก็บบันทึกเหล่านั้นเป็นความลับ จึงได้ทดลองทางเลือกหลายแบบ และเลือก differential privacy สำหรับสำมะโนปี 2020 เพราะเป็นวิธีที่รักษาความมีประโยชน์ของสถิติได้ดีที่สุดพร้อมกับป้องกันการโจมตี
  • ความมีประโยชน์ที่ลดลงและแรงต้าน

    • differential privacy ถูกเลือกไม่ใช่เพราะคณิตศาสตร์ของมันสวยงาม แต่เพราะในบรรดาทางเลือกต่าง ๆ ที่ใช้บรรเทาการโจมตี มันเป็นวิธีที่รักษาความมีประโยชน์ของข้อมูลไว้ได้มากที่สุด
    • แม้แต่พารามิเตอร์ความเป็นส่วนตัวที่ตั้งไว้อย่างเฉพาะเจาะจง ก็ไม่ได้ถูกเลือกเพราะให้หลักประกันเชิงพิสูจน์ที่แข็งแกร่งที่สุด แต่เพื่อให้ไปถึงระดับการคุ้มครองความเป็นส่วนตัวที่ยอมรับได้ พร้อมดึงความมีประโยชน์ของข้อมูลออกมาให้มากที่สุด
    • การบอกว่ามันรักษาความมีประโยชน์ไว้ได้มากที่สุดภายใต้ข้อจำกัดด้านความเป็นส่วนตัวที่เพิ่งถูกค้นพบ ไม่ได้หมายความว่ามันรักษาความมีประโยชน์ไว้ได้เทียบเท่ากับสำมะโนปี 2010
    • ตัวเลขมีความแม่นยำน้อยลง และความไม่แม่นยำนั้นก็โปร่งใสขึ้นมากจนยากจะเพิกเฉย
    • นักประชากรศาสตร์และนักสังคมศาสตร์ไม่อาจเมินเฉยต่อความจริงที่ว่าข้อมูลที่ตนใช้อยู่นั้นเป็นข้อมูลที่มีนอยส์อีกต่อไป และจำเป็นต้องมีการเปลี่ยนผ่านครั้งใหญ่ในวิธีคิดและวิธีจัดการกับข้อมูลนี้
    • ผู้ที่เคยใช้ข้อมูล Census เพื่อสร้างบันทึกรายบุคคลกลับขึ้นมาใหม่จริง ๆ ไม่สามารถทำเช่นนั้นได้อีกต่อไป และนักประชากรศาสตร์ก็ยอมรับว่านี่เคยเป็นแนวปฏิบัติที่พบได้ทั่วไป
    • อีกทั้งยังเป็นความลับที่รู้กันทั่วไปว่าผู้ปฏิบัติงานทางการเมืองทำการสร้างข้อมูลกลับลักษณะนี้เป็นส่วนหนึ่งของความพยายามทำ gerrymandering

เนื้อหาของคำสั่ง

  • ฝ่ายบริหารตัดสินใจว่าการฉีดนอยส์ไม่ใช่เทคนิคป้องกันการเปิดเผยที่ยอมรับได้อีกต่อไป
  • คำสั่งพุ่งเป้าไปที่ differential privacy อย่างชัดเจน แต่ก็ดูเหมือนจะส่งผลต่อเทคนิคอื่น ๆ ที่มีองค์ประกอบของความสุ่มด้วย
  • ตัวบทคำสั่งระบุอย่างชัดเจนว่าต้องให้ความสำคัญกับการทำให้ข้อมูลทั่วไปขึ้นเสมอ และให้ใช้การกดทับข้อมูลเป็น “ทางเลือกสุดท้าย” เท่านั้น
  • ไม่ชัดเจนว่าทำไมคำสั่งจึงลงรายละเอียดเฉพาะเจาะจงเช่นนั้น
  • คำสั่งยังระบุอย่างระมัดระวังว่า “ต้องไม่ตีความว่าเป็นการขัดกับรัฐธรรมนูญ กฎหมาย ระเบียบ หรือบทบัญญัติทางกฎหมายอื่นใด” และภาระหน้าที่ในการรักษาความลับที่ครอบคลุมผลิตภัณฑ์สถิติเหล่านี้ก็ยังคงมีผลต่อไป

ผลกระทบที่แท้จริง

  • ผลลัพธ์อาจร้ายแรงต่อความมีประโยชน์หรือความเป็นส่วนตัว หรือทั้งสองอย่าง
  • การเผยแพร่สถิติในอนาคตอาจมีประโยชน์น้อยกว่าสิ่งที่เคยเผยแพร่ในอดีต หรืออาจไม่ปลอดภัยจนยากจะเชื่อได้
  • การเอาเครื่องมือที่มีประโยชน์ออกจากกล่องเครื่องมือป้องกันการเปิดเผย ทำให้การแลกเปลี่ยนระหว่างความเป็นส่วนตัวกับความมีประโยชน์เจ็บปวดขึ้นเสมอ
  • จุดมุ่งหมายของงานวิจัยสาขานี้คือการทำความเข้าใจและประเมินความเสี่ยงด้านความเป็นส่วนตัวให้ดีขึ้น พร้อมพัฒนาเครื่องมือที่ดีกว่าเพื่อบรรเทาความเสี่ยงโดยยังรักษาความมีประโยชน์ไว้
  • ตำแหน่งของ differential privacy

    • differential privacy เป็นเครื่องมือที่ดีที่สุดที่มีอยู่ในเวลานี้สำหรับการเผยแพร่สถิติ
    • differential privacy มอบวิธีวัดการแลกเปลี่ยนนี้อย่างละเอียดมากขึ้น และดึงความมีประโยชน์ของข้อมูลออกมาได้มากกว่าเทคนิคคู่แข่งภายใต้ระดับความเป็นส่วนตัวที่ใกล้เคียงกัน
    • หากตัด differential privacy ออกไป ก็จะเหลือแต่เทคนิคที่มีความมีประโยชน์ต่ำกว่าที่ระดับความเป็นส่วนตัวใกล้เคียงกัน หรือมีความเป็นส่วนตัวแย่กว่าที่ระดับความมีประโยชน์เท่ากัน
    • เทคนิคคู่แข่งเหล่านั้นก็ยังอาศัยการเพิ่มนอยส์เช่นกัน
  • เทคนิคอื่นก็ใช้ความสุ่มเช่นกัน

    • Cell Key method ที่หน่วยงานสถิติอื่นใช้งานก็เพิ่มนอยส์ให้กับสถิติ
    • วิธีสลับข้อมูลที่ Census ใช้ตั้งแต่ปี 1990 ถึง 2010 ก็ใส่ความสุ่มเข้าไปในกระบวนการเช่นกัน
    • การสุ่มตัวอย่างถูกใช้อย่างแพร่หลายในงานสถิติ
    • การแทนค่า) ก็ถือเป็นการเพิ่มนอยส์ให้ข้อมูลในทางเทคนิคด้วย
  • ข้อจำกัดของการทำให้ข้อมูลทั่วไปขึ้นและการกดทับข้อมูล

    • การทำให้ข้อมูลทั่วไปขึ้นและการกดทับข้อมูลเป็นเครื่องมือที่หยาบมาก
    • ทั้งสองวิธีใช้ได้เฉพาะในสถานการณ์ที่สถิติมีความหยาบอยู่แล้วมาก และจำนวนสถิติที่เผยแพร่มีไม่มาก
    • สำหรับผลิตภัณฑ์ข้อมูลที่ซับซ้อนและมีสถิติจำนวนมากเกี่ยวกับกลุ่มขนาดเล็ก เช่น U.S. Census การทำให้ข้อมูลทั่วไปขึ้นและการกดทับข้อมูลจะลงเอยด้วยการทำลายความมีประโยชน์ของข้อมูลทั้งหมด หรือทำให้ข้อมูลเปราะบางอย่างมากต่อการโจมตีด้านความเป็นส่วนตัว
    • การทำลายความมีประโยชน์นี้เด่นชัดเป็นพิเศษในกลุ่มชนกลุ่มน้อย
  • เหตุใดนอยส์จึงทำให้การโจมตียากขึ้น

    • การโจมตีความเป็นส่วนตัวต่อการเผยแพร่สถิติใกล้เคียงกับ การแก้ระบบสมการ
    • งานนี้จะง่ายกว่ามากเมื่อรู้แน่ชัดว่าสถิติทุกตัวถูกต้องสมบูรณ์แบบ
    • นอยส์ทำให้ผู้โจมตีต้องคำนวณความน่าจะเป็น ประเมินความไม่แน่นอน และพิจารณาค่าฐานอย่างรอบคอบ
    • ความสุ่มมีประโยชน์ต่อการป้องกันการเปิดเผยแม้ไม่มีหลักประกันเชิงทางการ และทำให้การโจมตียากขึ้นมาก
    • เมื่อตัดความสุ่มออกไป การโจมตีก็จะกลายเป็นเรื่องง่ายดาย

ทำไมเรื่องนี้จึงเกิดขึ้น

  • ไม่ทราบแรงจูงใจ
  • ไม่อาจรู้ได้ว่าเป้าหมายคือการบังคับให้ U.S. Census เผยแพร่สถิติที่เอื้อต่อการระบุตัวบุคคลซ้ำจริง เพื่อช่วยความพยายามทำ gerrymandering ในอนาคตหรือไม่
  • ในทางกลับกัน ก็ไม่อาจรู้ได้ว่าเป้าหมายคือการขัดขวางไม่ให้นักวิจัยมองเห็นความเหลื่อมล้ำที่ไม่เป็นธรรมในประชากร ด้วยการหยุดการเผยแพร่ข้อมูลประชากรศาสตร์ที่ยังมีประโยชน์หรือไม่
  • Hanlon's razor เสนอการตีความอีกแบบหนึ่ง
  • การเผยแพร่ข้อมูลสถิติมีการแลกเปลี่ยนพื้นฐานระหว่างความเป็นส่วนตัวกับความมีประโยชน์ และการแลกเปลี่ยนนี้เป็นปัญหาที่น่ารำคาญ
  • หากสามารถเผยแพร่สถิติจำนวนมากได้โดยไม่มีความเสี่ยงด้านความเป็นส่วนตัวสูงตามมาโดยอัตโนมัติ สถานการณ์ก็จะง่ายกว่านี้มาก
  • differential privacy ทำให้การแลกเปลี่ยนนี้ถูกเปิดเผยอย่างชัดเจน และจึงไม่อาจถูกมองข้ามได้
  • การห้าม differential privacy อาจเป็นวิธีทำเหมือนว่าปัญหานี้ไม่มีอยู่ และหวังว่าปัญหาจะหายไปเอง

1 ความคิดเห็น

 
GN⁺ 3 시간 전
ความคิดเห็นจาก Hacker News
  • ตอนการสำมะโนประชากรครั้งก่อน ฉันเคยทำงานเป็นเจ้าหน้าที่สำมะโน ตอนนั้นความเชื่อมั่นของชุมชนก็ต่ำอยู่แล้ว และก็ได้เจอผู้คนที่น่าสนใจมากมาย
    ฉันเก็บข้อมูลที่ค่อนข้างล่วงล้ำด้วยท่าทีเป็นมิตร พร้อมทั้งเชื่ออย่างจริงใจว่าข้อมูลเหล่านั้นจะถูกใช้งานและจัดการอย่างรับผิดชอบ
    แต่ตอนนี้ไฟร์วอลล์ที่เคยป้องกันไม่ให้ข้อมูลอ่อนไหวของภาครัฐถูกทำให้เป็นอาวุธหรือหากำไรได้พังลงแล้ว ก็เลยสงสารทั้งคนที่จะต้องเคาะประตูบ้านทุกหลังในปี 2030 และยิ่งสงสารคนที่จะยอมให้ข้อมูลที่อาจย้อนมาทำร้ายตัวเองโดยสมัครใจ
    ฉันยังรู้สึกแปลกดีด้วยกับปฏิกิริยาแบบ “สำมะโนราคาแพงก็แค่นับหัวคนก็พอ” ข้อมูลที่เก็บมาคือเส้นฐานสำคัญของความเข้าใจร่วมกัน และต่อจากนี้คุณภาพของมันคงได้รับผลเสีย
    อนึ่ง พื้นที่ที่ฉันได้รับมอบหมายส่วนใหญ่เป็นครัวเรือนที่ไม่ตอบแบบสำรวจ ก็เลยพอเห็นได้เองว่าคนในพื้นที่ฉันนั้นไม่ชอบรัฐบาล หรือไม่ก็เพิกเฉยต่อใบปลิวข่มขู่ประหลาด ๆ หรือเพิ่งย้ายเข้ามาใหม่จนไม่รู้ว่าใครอยู่ที่นั่นในช่วงเวลาสำรวจ

    • แม้จะดูแค่ผลิตภัณฑ์ข้อมูลสำมะโนประชากรอย่างเดียวก็ตาม แต่จริง ๆ แล้วข้อมูลประชากรศาสตร์เป็นฐานสำหรับการอนุมานของงานวิจัยแบบสำรวจแทบทั้งหมด
      ตั้งแต่โพลระดับประเทศที่มีผู้ตอบหลายหมื่นคน ไปจนถึงแบบสำรวจชุมชนเล็ก ๆ ต่างก็พึ่งพาสิ่งนี้
      ผลสำมะโนที่ได้การมีส่วนร่วมหลากหลายที่สุดมอบผลตอบแทนแทบไร้ขีดจำกัดให้สหรัฐฯ และเป็นประโยชน์ต่อทุกฝ่ายตั้งแต่หนังสือพิมพ์ระดับประเทศไปจนถึงเคาน์ตีชนบท
      หากชุมชนที่เล็กที่สุดสูญเสียความไว้วางใจที่ยังเหลืออยู่ต่อความเป็นส่วนตัวของสำมะโน พวกเขาก็จะเสียประโยชน์มากที่สุดในทุกด้านเหล่านี้
    • ฉันก็เคยทำงานคล้ายกัน และความรู้สึกนี้สรุปได้ตรงมาก การสร้างความไว้วางใจนั้นขึ้นมาใหม่เป็นเรื่องน่าเศร้าและยากจริง ๆ
      และก็น่าหดหู่ที่ผู้คนยังคงถูกดึงดูดเข้าหาพรรคการเมืองที่พูดอย่างภาคภูมิใจว่าอยากนำข้อมูลนี้ไปใช้ในทางที่ผิด
    • ผมคิดว่าการตกต่ำจริง ๆ เริ่มหลังจาก Edward Snowden และข้อมูลเกี่ยวกับ NSA ทะลักออกมา
      มันจุดชนวนความไม่ไว้วางใจต่อรัฐบาลครั้งใหญ่ และเดิมทีก็ยากอยู่แล้วที่จะทำให้คนยอมตอบแบบสำรวจ
      สำหรับคนทั่วไป จะให้เชื่อได้อย่างไรว่า Census Bureau จะปกป้องข้อมูลของพวกเขาได้จริง
      ไม่ว่ากฎหมายหรือรัฐธรรมนูญจะว่าอย่างไร ถ้าคุณทำงานให้หน่วยงานใดหน่วยงานหนึ่ง สุดท้ายคนก็มองว่าคุณคือรัฐบาล อัตราการตอบกลับก็ลดลงเรื่อย ๆ และตอนนี้ประธานาธิบดียังโจมตีแม้แต่สถิติเศรษฐกิจ
      ถ้ามองแบบประชด ๆ ก็คงจะเดินหน้าลดขนาดหน่วยงานสถิติและทำให้สถิติไร้ประโยชน์ยิ่งขึ้น การเปลี่ยนนโยบายครั้งนี้ก็ไปในทิศทางนั้น และสุดท้ายก็คงพยายามโยนให้ภาคเอกชน
      แต่ภาคเอกชนทำงานภาคสนามแบบที่รัฐบาลทำไม่ได้
    • รัฐทำการสำมะโนประชากรเพื่อจะได้เข้าใจอย่างละเอียดมากว่าผู้คนที่ประกอบกันเป็นประเทศนั้นอยู่ในสภาพแบบใด
      ต้องมีข้อมูลที่แม่นยำจึงจะวางแผนปรับปรุงและทำให้ชีวิตของทุกคนดีขึ้นได้
      ท่าทีแบบ “แค่นับหัวก็พอ” สะท้อนวิธีคิดของผู้คนจำนวนมากในทุกวันนี้ได้อย่างน่าสนใจ
      ดูเหมือนพวกเขาไม่อยากทำให้ชีวิตดีขึ้น หรือไม่ก็จินตนาการไม่ออกด้วยซ้ำว่าต้องทำอย่างไร เป็นเรื่องที่เศร้ามาก
  • สัปดาห์นี้ที่การประชุมใหญ่พรรครีพับลิกันแห่งรัฐเท็กซัส มีการเสนอให้เพิ่มข้อความคัดค้าน differential privacy เข้าไปในร่างนโยบายพรรค
    มีคนยกตัวอย่างจากผู้ที่อ้างว่าเคยเกี่ยวข้องกับการสำมะโน โดยบอกว่าคนไร้บ้าน 1 คนใต้สะพานอาจกลายเป็น 5 คนเพราะ differential privacy ซึ่งฟังดูไร้สาระในเชิงสามัญสำนึก และใช้เรื่องนี้มาเป็นเหตุผลสนับสนุน
    ไม่รู้ว่าผ่านหรือไม่ แต่แรงกดดันระดับรากหญ้าที่ผลักดันเรื่องแบบนี้ก็มักมีหน้าตาเช่นนี้แหละ

    • คุณรู้ได้อย่างไรว่านั่นเป็นแรงกดดันจากรากหญ้า?
  • ผมมองว่าน่าเศร้าพอสมควร ในอุดมคติแล้ว รัฐควรจะมองเห็นองค์ประกอบของผู้คนที่มีอยู่จริงในปัจจุบันได้ เพื่อที่เราจะได้ตัดสินใจที่ดีเกี่ยวกับองค์กรที่เราบริหารร่วมกัน
    การทำลายโครงสร้างพื้นฐานด้านการเก็บข้อมูลโดยเจตนาเป็นความผิดพลาดที่ภายหลังเราจะต้องเสียใจ
    ผมคิดว่าส่วนสำคัญของความสำเร็จของอเมริกามาจากสถาบันที่ดีในการจัดการข้อมูลละเอียด เพราะทำให้สามารถปรับนโยบายให้สอดคล้องกับผลลัพธ์ได้รวดเร็วกว่า
    ผมเข้าใจว่าทำไมผู้คนถึงอยากลดทอนศักยภาพของรัฐทุกด้าน เพราะพวกเขารู้สึกว่ารัฐบาลเต็มไปด้วยฝ่ายตรงข้ามของตน และศักยภาพนั้นจะถูกใช้เล่นงานตน
    แต่ยิ่งอำนาจสัมพัทธ์อ่อนลง ความสามารถในการเอาชนะแรงเฉื่อยเหล่านี้ก็ยิ่งลดลง รัฐบาลก็จะยิ่งไร้ความสามารถ และท้ายที่สุดคุณภาพชีวิตก็จะเริ่มแย่ลง
    ข้อมูลระดับหน่วยที่อยู่อาศัยอาจไม่จำเป็นต้องใช้ทันที แต่บางกรณีเช่นการจัดวาง census block ลงในเขตเลือกตั้งที่เหมาะสมอาจเป็นข้อยกเว้น ถึงอย่างนั้น ตั้งแต่ระดับหน่วยข้อมูลรวมขึ้นไปก็ควรใช้ข้อมูลที่ดีที่สุดเท่าที่จะเป็นไปได้

    • การพังโครงสร้างพื้นฐานโดยเจตนาเป็นธีมซ้ำ ๆ ของรัฐบาลชุดนี้
    • นี่ไม่ได้ทำให้อำนาจรัฐอ่อนแอลง
      มันแค่ทำให้รัฐบาลโง่ลง จนต่อให้ภายหลังอยากทำสิ่งที่ถูกต้อง ก็ไม่มีข้อมูลที่จะใช้ตัดสินใจอย่างมีประสิทธิภาพ
    • ผมสนใจแนวทางที่ส่งรายละเอียดให้รัฐบาลมลรัฐ แล้วให้มลรัฐเป็นผู้ดำเนินโครงการเองมากกว่า
      ส่วนรัฐบาลกลางเอาแค่ข้อมูลแบบสรุปรวมก็พอ
    • ถ้าเกินกว่านั้น มันก็ไม่ต่างจากการเอื้อให้เกิดการฆ่าล้างเผ่าพันธุ์ อย่างตอนที่รัฐบาลสหรัฐฯ ละเมิดความลับของข้อมูลสำมะโนแล้วส่งชาวญี่ปุ่นเชื้อสายญี่ปุ่นเข้าค่ายกักกันตามเชื้อชาติ
      ปัญหาไม่ได้อยู่ที่ศักยภาพของรัฐ “ทุกอย่าง” แต่คือรัฐควรมีศักยภาพขั้นต่ำที่สุดเท่าที่จำเป็นต่อการทำสิ่งจำเป็น
      เช่น การเก็บข้อมูลเรื่องเชื้อชาติไม่ใช่สิ่งที่จำเป็นอย่างยิ่ง จึงไม่ควรทำ
      เพราะในอนาคตรัฐบาลอาจเต็มไปด้วยฝ่ายตรงข้ามของเราได้ ยิ่งไปกว่านั้น ความเสียหายที่ร้ายแรงที่สุดจากผู้กระทำการของรัฐมักไม่ได้มาจากเจตนาร้ายโดยตรง แต่มาจากความพยายามที่จะ “ช่วยเหลือ” อย่างสม่ำเสมอ
    • บทความนี้พูดถึงการตัดสินใจที่จะทำให้การสำมะโนเสียหายน้อยลง
      ถ้าคุณเห็นว่าการสำมะโนที่แม่นยำมีความสำคัญ คุณควรยินดีด้วยซ้ำ
  • ไม่ว่าจะทำอะไร การสำมะโนก็ต้องตั้งอยู่บนความไว้วางใจในระดับหนึ่ง
    คือความไว้วางใจว่าข้อมูลนี้จะไม่ถูกระบุตัวตนเพื่อนำไปใช้กับการฉ้อโกง การหลอกลวงทางการเงิน หรือการใช้ในทางที่ผิดแบบอื่น
    แต่ในนิวยอร์ก บันทึกการซื้อขายที่อยู่อาศัยเป็นข้อมูลสาธารณะ และผลข้างเคียงอย่างหนึ่งคือบริษัทจำนองจำนวนมากส่งเอกสารปลอมเป็นใบเรียกเก็บเงินมา
    Differential privacy เป็นสิ่งจำเป็นอย่างยิ่ง และการที่นักสังคมศาสตร์ไม่สามารถสร้างข้อมูลกลับคืนในระดับบุคคลได้นั้นก็เป็นผลลัพธ์ที่ตั้งใจไว้
    สำหรับวัตถุประสงค์ส่วนใหญ่ คำอธิบายในระดับมหภาคก็เพียงพอแล้ว และการเรียกร้องมากไปกว่านั้นก็แทบไม่ต่างจากการเรียกร้องรัฐสอดแนม

    • พูดตรง ๆ นั่นดูจะเป็นความล้มเหลวในการบังคับใช้และความล้มเหลวในการออกแบบระบบการเงินมากกว่า
      ในเยอรมนี การที่สินเชื่อจำนองหรือธนาคารเจ้าของสินเชื่อนั้นถูกส่งต่อไปราวกับเป็นมันร้อนให้เหยื่อรายต่อไปไม่ใช่เรื่องปกติ ดังนั้นถ้ามีจดหมายแบบนั้นมาถึง ก็จะถูกมองว่าน่าสงสัยทันที
  • ห้ามในระดับชุดข้อมูล แล้วค่อยใส่ในขั้นตอนการวิเคราะห์ก็ได้ โดยสามารถเลือกสัญญาณรบกวนในแบบที่ต้องการได้
    ผมไม่แน่ใจนัยทางการเมืองตรงนี้นัก แต่ในระดับหนึ่งก็จำเป็นต้องมีค่ามาตรฐานจริง รวมถึงข้อมูลว่า “บุคคล/ครัวเรือนนี้ปฏิเสธจะตอบ”
    แต่การเปิดเผยข้อมูลดิบดูเหมือนเป็นการทำร้ายผลประโยชน์ของตัวเองในมุมความมั่นคงแห่งชาติ และยังมีเหตุผลอีกมากที่ไม่ควรทำ

    • ผมไม่แน่ใจว่าข้อเสนอที่แท้จริงคืออะไร แต่ถ้าเพิ่มสัญญาณรบกวนอย่างอิสระให้แต่ละคน ก็อาจลดมันลงได้ด้วยการซื้อหลายชุดสำเนามาเฉลี่ยกัน
      มีวิธีทำเรื่องนี้ผิดพลาดได้มากมาย และนั่นจึงเป็นเหตุผลที่differential privacyต้องมีการวิเคราะห์กันมากขนาดนั้น
    • สัญญาณรบกวนถูกใส่ในข้อมูลที่เผยแพร่ ไม่ใช่ในข้อมูลที่ไม่เปิดเผย
  • อาจไม่ได้หมายความว่า differential privacy ทำให้ความขัดแย้งแลกเปลี่ยนนี้ชัดเจนจนมองข้ามไม่ได้ แต่เป็นการบอกว่าในสองเป้าหมายนี้ ไม่มีเป้าหมายใดควรถูกสละเพียงเพราะอีกเป้าหมายหนึ่งถูกมองว่ามีค่ามากกว่า

  • ปฏิกิริยาแบบ “ต้องเปิดเผยทั้งหมด” ที่เห็นที่นี่น่าประหลาดใจ เพราะเป็นความคิดแบบมิติเดียวในความหมายแย่ ๆ
    การสำมะโนประชากรก็แค่การตั้งคำถาม
    ถ้าคุณเริ่มเปิดเผยข้อมูลและทำให้เป็นอาวุธต่อผู้คนที่มีคุณลักษณะหลากหลาย ผู้คนก็จะเริ่มโกหกหรือไม่ตอบไปเลย
    แบบนั้นข้อมูลที่เหลือจะเลวร้ายยิ่งกว่าไม่มีข้อมูลเลย เพราะผู้คนจะพยายามตัดสินใจโดยอิงจากข้อมูลแย่ ๆ นั้น

    • ตอนแรกก็เก็บข้อมูลไว้ในช่วงที่ผู้คนยังไม่รู้หรือไม่ใส่ใจ แล้วค่อยนำไปใช้เป็นอาวุธทีหลังก็ได้
      เรื่องแบบนี้เกิดขึ้นมาแล้วอย่างน้อยหนึ่งครั้งในอีกประเทศหนึ่งเมื่อไม่นานมานี้ ดังนั้นผมไม่คิดว่าความกังวลนี้จะเป็นการตื่นตูมเกินเหตุ
    • ผู้ที่ทำให้ข้อมูลเป็นอาวุธก็คือรัฐบาลสหรัฐฯเอง
      ตัวอย่างที่ชัดที่สุดคือช่วงสงครามโลกครั้งที่สองที่ Census Bureau จัดทำรายชื่อชาวเชื้อสายญี่ปุ่นเพื่อนำไปใช้กักกัน
      ตอนนี้ผมมองว่าแรงผลักดันที่แท้จริงคือการสร้างรายชื่อเพื่อเพิกถอนสิทธิเลือกตั้งของผู้คน
    • ทางแก้ง่าย ๆ คือจำกัดความละเอียดและขอบเขตของข้อมูลให้เหลือเท่าที่จำเป็นอย่างแท้จริง
      การสำมะโนมีไว้เพื่อให้ข้อมูลสำหรับการตัดสินเรื่องการเป็นตัวแทนทางการเมือง ส่วนที่เหลือเป็นเพียงฟังก์ชันเสริม
      คุณอาจมีข้อมูลในระดับเคาน์ตีหรือเขตเลือกตั้งได้ แต่ยิ่งความละเอียดสูงขึ้นก็ควรตัดข้อมูลออก จนในระดับย่านหรือบล็อกเหลือเพียงจำนวนประชากร
      การรู้เชื้อชาติ ชาติพันธุ์ หรือภูมิหลังทางเศรษฐกิจสังคมของผู้อยู่อาศัยในหนึ่งบล็อกนั้นมีประโยชน์ก็แค่สำหรับการเลือกปฏิบัติต่อพวกเขา
    • คำถามจริง ๆ คือทำไมแต่แรกผู้คนถึงยอมตอบคำถามแบบนี้
      ผมรอให้เจ้าหน้าที่สำมะโนมาถึงแล้วบอกแค่ว่ามีกี่คนอาศัยอยู่ในที่พักของผม
      แค่นั้นจำเป็นสำหรับการเป็นตัวแทนในการเลือกตั้งที่เหมาะสม และอย่างอื่นไม่จำเป็นเลย
    • รัฐบาลชุดนี้ไม่ได้สนใจข้อเท็จจริงเลย
  • เรื่องพวกนี้มันยากเกินไปที่จะทำให้สอดคล้องกัน
    เขาบอกว่าในการสำมะโนปี 2020 มีการใช้ differential privacy และหากเอาตัวกรองนี้ออกเพียงตัวเดียว ก็จะเกิด “ผลลัพธ์ที่เลวร้าย” ต่อประโยชน์ใช้สอยหรือความเป็นส่วนตัว หรือทั้งสองอย่าง
    แต่เราทำสำมะโนกันมาหลายร้อยปีและก็ไม่เห็นมีปัญหา และเพิ่งเพิ่มองค์ประกอบด้านความเป็นส่วนตัวเข้าไปในการสำมะโนครั้งล่าสุด
    ถ้าการเอาอย่างใดอย่างหนึ่งออกทำให้สถานการณ์เลวร้ายลงทันที มันก็ดูแปลก เพราะก่อนหน้านี้ก็ไม่มีฟีเจอร์คุ้มครองความเป็นส่วนตัวแบบนี้อยู่แล้ว ดังนั้นตามจริงแล้วเราน่าจะอยู่ในสภาพที่ดีกว่าเมื่อหลายร้อยปีก่อนมากไม่ใช่หรือ
    เลยรู้สึกเหมือนเป็นปัญหาที่ถูกพูดเกินจริงทางอารมณ์

    • จะเชื่อหรือไม่ก็ตาม ตลอดหลายร้อยปีที่ผ่านมาเทคนิคทางคณิตศาสตร์และความสามารถในการประมวลผลเพิ่มขึ้น และทุกอย่างก็กลายเป็นดิจิทัลด้วย
      การโจมตีความเป็นส่วนตัวที่เมื่อก่อนทำไม่ได้เพราะต้นทุน ทุกวันนี้ทำได้ด้วยเงินไม่กี่บาท
      และอย่างที่มีคนชี้ไว้แล้ว ผู้คนก็ใช้ข้อมูลสำมะโนเพื่อบิดเบือนเขตเลือกตั้งกันมานานแล้ว ดังนั้นการโจมตีแบบนี้เป็นเรื่องจริงและเกิดขึ้นมานานมาก
    • สิ่งสำคัญอย่างหนึ่งที่เมื่อ 100 ปีก่อนไม่มี แต่ตอนนี้มี คือคอมพิวเตอร์
      ในอดีตอาจพอพูดได้ว่าการสร้างบันทึกส่วนบุคคลขึ้นใหม่ อย่างน้อยในระดับใหญ่ ไม่ใช่เรื่องที่ทำได้จริง แต่ตอนนี้พูดแบบนั้นไม่ได้แล้ว
      รหัสผ่าน 4 หลักอาจปลอดภัยมาหลายร้อยปี แต่ทุกวันนี้ด้วยเหตุผลเดียวกันมันกลายเป็นความประมาทด้านความปลอดภัย
    • ความกังวลแบบนี้ก็เหมือนความกังวลเรื่องความเป็นส่วนตัวส่วนใหญ่ คือดูเหมือนอาการหวาดระแวงเกินจริงที่มโนขึ้นมา จนกระทั่งวันหนึ่งมันไม่ใช่อีกต่อไป
    • ความก้าวหน้าของคอมพิวเตอร์และวิทยาศาสตร์ข้อมูล/การเรียนรู้ของเครื่องอธิบายเรื่องนี้ได้แทบทั้งหมด
      เทคนิคจำนวนมากที่ใช้ระบุตัวตนซ้ำจากข้อมูลในปัจจุบัน ต้องอาศัยกำลังประมวลผลที่เมื่อก่อนไม่มี
      ต่อให้เป็นไปได้ ทรัพยากรก็เคยเป็นข้อจำกัดด้านขนาด นี่พูดในฐานะคนที่จบสถิติมา
      และยังมีเรื่องการเชื่อมโยงด้วย อินเทอร์เน็ต โซเชียลมีเดีย การติดตามบนเว็บ และการแฮ็ก ทำให้มีแหล่งข้อมูลสำหรับเทียบเคียงมากขึ้นมหาศาล
      ย้อนกลับไปแค่ทศวรรษ 1970–80 ร่องรอยบันทึกของชาวอเมริกันยังน้อยกว่าตอนนี้อย่างมาก
    • อย่างที่ระบุไว้ชัดในบทความ ฟีเจอร์คุ้มครองความเป็นส่วนตัวมีอยู่ในการสำมะโนมาตั้งแต่ปี 1990
      เพียงแต่ฟีเจอร์ก่อนหน้านี้ไม่แข็งแรงและสามารถถูกเจาะได้ จึงถูกแทนที่ด้วยฟีเจอร์ที่แข็งแรงกว่า
      ปี 1990 เป็นช่วงที่คอมพิวเตอร์ส่วนบุคคลแพร่หลายและกำลังประมวลผลที่คนทั่วไปเข้าถึงได้เพิ่มขึ้นอย่างก้าวกระโดด และนับจากตอนนั้นก็เริ่มเป็นไปได้ที่จะดึงข้อมูลส่วนบุคคลออกจากข้อมูลที่การสำมะโนเผยแพร่
      นั่นจึงเป็นช่วงที่ปัญหาเกิดขึ้น มันไม่ใช่ปัญหาที่ถูกพูดเกินจริง
  • จากมุมมองของคนที่มาจากบางประเทศในยุโรป คุณไม่มีทางรู้ได้เลยว่าคำตอบข้อไหนในการสำมะโนจะก่อปัญหา
    คำถามอย่าง “คุณนับถือศาสนาอะไร” ดูเหมือนไม่มีพิษภัยเลย แต่เมื่อผู้ยึดครองจากต่างชาติในทศวรรษ 1940 สามารถเชื่อมคำตอบนั้นเข้ากับตัวบุคคลได้ มันก็กลายเป็นคำตอบที่อันตรายถึงชีวิตในภายหลัง

    • ถ้าเป็นผู้ยึดครองจากต่างชาติแบบนั้น เขาก็คงแค่เรียกเอาข้อมูลดิบที่ไม่ถูกแก้ไขไปเลยไม่ใช่หรือ?
    • ในการสำมะโนของสหรัฐฯ ไม่มีการถามเรื่องศาสนา
      คำถามในปี 2020 คือ ณ วันที่ 1 เมษายน มีคนกี่คนอาศัยหรือพักอยู่ในบ้าน/อพาร์ตเมนต์/บ้านเคลื่อนที่นี้ มีบุคคลเพิ่มเติมที่ตกหล่นหรือไม่ ที่อยู่อาศัยประเภทใด หมายเลขโทรศัพท์ ชื่อของบุคคลหมายเลข 1 เพศ อายุและวันเดือนปีเกิด เป็นเชื้อสายฮิสแปนิก/ละติน/สเปนหรือไม่ และเชื้อชาติ
      ก็ไม่ได้มีอะไรป้องกันการโกหกเป็นพิเศษด้วย
    • ในสหรัฐฯ การถามเรื่องศาสนาในการสำมะโนถือว่าขัดต่อกฎหมาย
      ไม่มีใครควรถูกบังคับให้เปิดเผยข้อมูลเกี่ยวกับความเชื่อทางศาสนาหรือการเป็นสมาชิกขององค์กรทางศาสนา
      https://www.congress.gov/94/statute/STATUTE-90/STATUTE-90-Pg...
    • ฝรั่งเศสเคยทำรายชื่อไว้เยอะมาก พวกเขาชอบรายชื่อ และคิดว่ารายชื่อเป็นสิ่งที่ดี
      พวกเขาทำรายชื่อชาวยิวไว้ด้วย เพราะอาจมีประโยชน์สักวันหนึ่ง และชาวเยอรมันก็ยินดีมากเมื่อพบมัน
      ความหมกมุ่นของสหรัฐฯ ที่ถามผู้คนถึงภูมิหลังต้นกำเนิดที่ถูกรับรู้ เช่น AAPI, AA, Latino ฯลฯ นั้นเลยระดับแปลกไปจนเป็นอันตรายอย่างเปิดเผย
      ไม่ควรถามคำถามแบบนี้ และไม่ควรบันทึกไว้คู่กับชื่อเด็ดขาด
      โชคดีสำหรับพวกเขา ทุกวันนี้แค่ซื้อจาก data broker แล้วให้ Palantir ใช้ทำการกำหนดเป้าหมายก็ง่ายกว่าเดิมอีก
    • ผมคิดว่าคำถามว่า “คุณนับถือศาสนาอะไร” ไม่มีเหตุผลเลยในการสำมะโน
  • ผมกลับมองว่าการบอกว่า differential privacy ทำให้ความสัมพันธ์แบบแลกเปลี่ยนกันชัดเจนขึ้นนั้น จริง ๆ แล้วอาจตรงกันข้าม
    เทคนิคอย่าง differential privacy สำหรับคนนอกเหนือจากผู้เชี่ยวชาญส่วนน้อยที่คลุกคลีกับเรื่องนี้เป็นเรื่องปกติ กลับยิ่งปิดบังความจริงที่ว่ามีความสัมพันธ์แบบต้องแลกกันอยู่
    ผมไม่ได้รู้มากพอที่จะปกป้องการตัดสินใจนี้ได้ แต่ถ้ามีความสัมพันธ์แบบแลกเปลี่ยนกันจริง เมื่อคนเข้าถึงเทคนิคแบบนี้ไม่ได้ คนที่ไม่ใช่นักสถิติก็น่าจะได้เผชิญหน้ากับความสัมพันธ์แบบนั้นด้วยตัวเอง
    ถ้าข้อมูลเกี่ยวกับสาธารณชนมีความเสี่ยงถึงขั้นต้องอำพรางผลลัพธ์ บางทีอาจเป็นข้อมูลที่ไม่ควรถูกรวบรวมตั้งแต่แรก

  • ข้อมูลที่ไม่เปิดเผยต่อสาธารณะของผู้คนมักถูกเปิดเผยออกมาโดยไม่ตั้งใจอยู่เป็นประจำ ตัวอย่างเด่นคือประวัติการรับชม Netflix และเวชระเบียน
    ผู้คนมักประเมินปริมาณข้อมูลที่รั่วไหลต่ำเกินไปอย่างต่อเนื่อง จึงตัดสินความสัมพันธ์แบบแลกเปลี่ยนกันได้ไม่ดี
    เพราะแบบนั้น แนวทางที่ถูกต้องคือบังคับให้มีข้อมูลรั่วออกไปได้เฉพาะในปริมาณที่ปลอดภัย
    แม้บางกรณีการไม่แบ่งปันหรือไม่เก็บข้อมูลอาจดีกว่า แต่ข้อมูลนี้มีคุณค่าอย่างชัดเจน ดังนั้นปริมาณที่เหมาะสมที่สุดในการเก็บและเปิดเผยจึงไม่ใช่ 0

  • โดยส่วนตัว ผมคิดว่าหนึ่งในเหตุผลใหญ่ที่ data science ในฐานะองค์กรขนาดใหญ่ภายในบริษัทเทคโนโลยีสูญเสียอิทธิพลไป ก็เพราะมีแนวโน้มจะปฏิบัติต่อ ทีม data science เหมือนเป็นผู้เฝ้าประตูของข้อมูล
    เมื่อความรับผิดชอบด้านการคิดเชิงสถิติถูกเอาไปจ้างเหมาภายนอก มันก็ทำให้คน ๆ หนึ่งมีอำนาจประหลาดในการตัดสินความสัมพันธ์แบบแลกเปลี่ยนกันล่วงหน้า ทั้งที่คนรอบข้างไม่จำเป็นต้องเข้าใจมันอย่างถูกต้องด้วยซ้ำ

  • ถ้าตามตรรกะนั้น ก็เท่ากับว่าไม่ว่าเหตุผลใดใครก็ไม่ควรเก็บที่อยู่เลย
    ถ้าในทุกบริบทเราไม่สามารถส่งต่อหรือเก็บ ข้อมูลส่วนบุคคลที่ใช้ระบุตัวตนได้ ได้เลย สังคมจะทำงานอย่างไร?
    การทำข้อมูลให้ไม่ระบุตัวตนและความปลอดภัยเป็นสิ่งสำคัญอย่างยิ่ง และทำให้เกิดความสามารถสำคัญมากมาย
    ในโลกที่ห้ามให้หรือเก็บข้อมูลที่อาจเป็นอันตรายโดยสิ้นเชิง เราจะรับจดหมายกันได้อย่างไร?