ห้ามฉีดนอยส์ในผลิตภัณฑ์สถิติที่ออกโดย Census Bureau
(desfontain.es)- การฉีดนอยส์ ที่ใช้เมื่อสร้างสถิติสาธารณะจากชุดข้อมูลลับ เป็นเครื่องมือป้องกันการเปิดเผยที่ช่วยซ่อนข้อมูลส่วนบุคคลในข้อมูลต้นฉบับ พร้อมรักษาความมีประโยชน์ของสถิติไว้
- คำสั่งของกระทรวงพาณิชย์สหรัฐห้ามการฉีดนอยส์ในผลิตภัณฑ์สถิติทั้งหมดของ Census Bureau และ Bureau of Economic Analysis โดยพุ่งเป้าไปที่ differential privacy โดยตรง
- Census Bureau ใช้วิธีสลับข้อมูลเป็นหลักในการสำมะโนประชากรทุก 10 ปีตั้งแต่ปี 1990 ถึง 2010 แต่หลังจากพบว่าการสร้างบันทึกรายบุคคลกลับขึ้นมาใหม่จากสถิติสาธารณะทำได้ง่าย จึงนำ differential privacy มาใช้กับการสำมะโนปี 2020
- differential privacy ผสานการจำกัดระดับการมีส่วนร่วมเข้ากับการเพิ่ม นอยส์ ที่ปรับจูนอย่างละเอียด เพื่อให้ได้ ความมีประโยชน์ สูงขึ้นภายใต้ระดับความเป็นส่วนตัวที่ใกล้เคียงกัน
- หากตัดนอยส์ออกไป การเผยแพร่สถิติในอนาคตอาจมีประโยชน์น้อยลงมากกว่าเดิม หรือกลายเป็นข้อมูลที่ ไม่ปลอดภัยอย่างมาก
พื้นหลัง
- ผลิตภัณฑ์สถิติคือชุดตัวเลขต่าง ๆ ที่เผยแพร่จากชุดข้อมูลลับ และเมื่อชุดข้อมูลนั้นมีข้อมูลที่เป็นความลับ ตัวเลขที่เผยแพร่ก็ต้องไม่เปิดเผยข้อมูลนั้น
- U.S. Census เป็นตัวอย่างสำคัญ โดยสถิติถูกเปิดเผยสู่สาธารณะ แต่เนื้อหาในแบบฟอร์มรายบุคคลที่ผู้อยู่อาศัยในสหรัฐกรอกต้องคงไว้เป็นความลับ
- ในแวดวงสถิติ เทคนิคที่ใช้ปกป้องความเป็นส่วนตัวของข้อมูลต้นฉบับพร้อมกับเผยแพร่สถิติที่ยังใช้งานได้ เรียกว่า การป้องกันการเปิดเผย
- เทคนิคป้องกันการเปิดเผยมีทั้ง การกดทับข้อมูล ที่ลบข้อมูลซึ่งไม่ผ่านเกณฑ์บางอย่าง การทำให้ข้อมูลทั่วไปขึ้นเพื่อลดความละเอียดของคุณลักษณะ และการสุ่มลบบางระเบียนออกด้วยการสุ่มตัวอย่าง
- เทคนิคป้องกันการเปิดเผยยังรวมถึงการสลับคุณลักษณะของระเบียนต่าง ๆ แบบสุ่ม การจำกัดอิทธิพลสูงสุดของแต่ละบุคคลหนึ่งคน และการเพิ่มนอยส์ด้วยการบวกตัวเลขสุ่มเข้าไปในสถิติ
-
differential privacy และสำมะโนปี 2020
- เมื่อนำบางเทคนิคมาผสมกัน ก็สามารถบรรลุ differential privacy ได้ ซึ่งในหมู่นักวิทยาศาสตร์ถือกันอย่างกว้างขวางว่าเป็น gold standard ของการคุ้มครองความเป็นส่วนตัว
- differential privacy โดยทั่วไปอาศัยการผสมผสานระหว่างการจำกัดระดับการมีส่วนร่วมกับ การเพิ่มนอยส์ ที่ปรับจูนอย่างระมัดระวัง
- Census Bureau ใช้วิธีสลับข้อมูลเป็นหลักในการสำมะโนทุก 10 ปีตั้งแต่ปี 1990 ถึง 2010
- ต่อมาจึงตระหนักว่าวิธีสลับข้อมูล ไม่ปลอดภัยอย่างมาก และการสร้างบันทึกรายบุคคลกลับขึ้นมาใหม่จากสถิติสาธารณะเพียงอย่างเดียวทำได้ง่าย
- เนื่องจากหน่วยงานมีหน้าที่ตามกฎหมายกลางที่จะต้องเก็บบันทึกเหล่านั้นเป็นความลับ จึงได้ทดลองทางเลือกหลายแบบ และเลือก differential privacy สำหรับสำมะโนปี 2020 เพราะเป็นวิธีที่รักษาความมีประโยชน์ของสถิติได้ดีที่สุดพร้อมกับป้องกันการโจมตี
-
ความมีประโยชน์ที่ลดลงและแรงต้าน
- differential privacy ถูกเลือกไม่ใช่เพราะคณิตศาสตร์ของมันสวยงาม แต่เพราะในบรรดาทางเลือกต่าง ๆ ที่ใช้บรรเทาการโจมตี มันเป็นวิธีที่รักษาความมีประโยชน์ของข้อมูลไว้ได้มากที่สุด
- แม้แต่พารามิเตอร์ความเป็นส่วนตัวที่ตั้งไว้อย่างเฉพาะเจาะจง ก็ไม่ได้ถูกเลือกเพราะให้หลักประกันเชิงพิสูจน์ที่แข็งแกร่งที่สุด แต่เพื่อให้ไปถึงระดับการคุ้มครองความเป็นส่วนตัวที่ยอมรับได้ พร้อมดึงความมีประโยชน์ของข้อมูลออกมาให้มากที่สุด
- การบอกว่ามันรักษาความมีประโยชน์ไว้ได้มากที่สุดภายใต้ข้อจำกัดด้านความเป็นส่วนตัวที่เพิ่งถูกค้นพบ ไม่ได้หมายความว่ามันรักษาความมีประโยชน์ไว้ได้เทียบเท่ากับสำมะโนปี 2010
- ตัวเลขมีความแม่นยำน้อยลง และความไม่แม่นยำนั้นก็โปร่งใสขึ้นมากจนยากจะเพิกเฉย
- นักประชากรศาสตร์และนักสังคมศาสตร์ไม่อาจเมินเฉยต่อความจริงที่ว่าข้อมูลที่ตนใช้อยู่นั้นเป็นข้อมูลที่มีนอยส์อีกต่อไป และจำเป็นต้องมีการเปลี่ยนผ่านครั้งใหญ่ในวิธีคิดและวิธีจัดการกับข้อมูลนี้
- ผู้ที่เคยใช้ข้อมูล Census เพื่อสร้างบันทึกรายบุคคลกลับขึ้นมาใหม่จริง ๆ ไม่สามารถทำเช่นนั้นได้อีกต่อไป และนักประชากรศาสตร์ก็ยอมรับว่านี่เคยเป็นแนวปฏิบัติที่พบได้ทั่วไป
- อีกทั้งยังเป็นความลับที่รู้กันทั่วไปว่าผู้ปฏิบัติงานทางการเมืองทำการสร้างข้อมูลกลับลักษณะนี้เป็นส่วนหนึ่งของความพยายามทำ gerrymandering
เนื้อหาของคำสั่ง
- ฝ่ายบริหารตัดสินใจว่าการฉีดนอยส์ไม่ใช่เทคนิคป้องกันการเปิดเผยที่ยอมรับได้อีกต่อไป
- คำสั่งพุ่งเป้าไปที่ differential privacy อย่างชัดเจน แต่ก็ดูเหมือนจะส่งผลต่อเทคนิคอื่น ๆ ที่มีองค์ประกอบของความสุ่มด้วย
- ตัวบทคำสั่งระบุอย่างชัดเจนว่าต้องให้ความสำคัญกับการทำให้ข้อมูลทั่วไปขึ้นเสมอ และให้ใช้การกดทับข้อมูลเป็น “ทางเลือกสุดท้าย” เท่านั้น
- ไม่ชัดเจนว่าทำไมคำสั่งจึงลงรายละเอียดเฉพาะเจาะจงเช่นนั้น
- คำสั่งยังระบุอย่างระมัดระวังว่า “ต้องไม่ตีความว่าเป็นการขัดกับรัฐธรรมนูญ กฎหมาย ระเบียบ หรือบทบัญญัติทางกฎหมายอื่นใด” และภาระหน้าที่ในการรักษาความลับที่ครอบคลุมผลิตภัณฑ์สถิติเหล่านี้ก็ยังคงมีผลต่อไป
ผลกระทบที่แท้จริง
- ผลลัพธ์อาจร้ายแรงต่อความมีประโยชน์หรือความเป็นส่วนตัว หรือทั้งสองอย่าง
- การเผยแพร่สถิติในอนาคตอาจมีประโยชน์น้อยกว่าสิ่งที่เคยเผยแพร่ในอดีต หรืออาจไม่ปลอดภัยจนยากจะเชื่อได้
- การเอาเครื่องมือที่มีประโยชน์ออกจากกล่องเครื่องมือป้องกันการเปิดเผย ทำให้การแลกเปลี่ยนระหว่างความเป็นส่วนตัวกับความมีประโยชน์เจ็บปวดขึ้นเสมอ
- จุดมุ่งหมายของงานวิจัยสาขานี้คือการทำความเข้าใจและประเมินความเสี่ยงด้านความเป็นส่วนตัวให้ดีขึ้น พร้อมพัฒนาเครื่องมือที่ดีกว่าเพื่อบรรเทาความเสี่ยงโดยยังรักษาความมีประโยชน์ไว้
-
ตำแหน่งของ differential privacy
- differential privacy เป็นเครื่องมือที่ดีที่สุดที่มีอยู่ในเวลานี้สำหรับการเผยแพร่สถิติ
- differential privacy มอบวิธีวัดการแลกเปลี่ยนนี้อย่างละเอียดมากขึ้น และดึงความมีประโยชน์ของข้อมูลออกมาได้มากกว่าเทคนิคคู่แข่งภายใต้ระดับความเป็นส่วนตัวที่ใกล้เคียงกัน
- หากตัด differential privacy ออกไป ก็จะเหลือแต่เทคนิคที่มีความมีประโยชน์ต่ำกว่าที่ระดับความเป็นส่วนตัวใกล้เคียงกัน หรือมีความเป็นส่วนตัวแย่กว่าที่ระดับความมีประโยชน์เท่ากัน
- เทคนิคคู่แข่งเหล่านั้นก็ยังอาศัยการเพิ่มนอยส์เช่นกัน
-
เทคนิคอื่นก็ใช้ความสุ่มเช่นกัน
- Cell Key method ที่หน่วยงานสถิติอื่นใช้งานก็เพิ่มนอยส์ให้กับสถิติ
- วิธีสลับข้อมูลที่ Census ใช้ตั้งแต่ปี 1990 ถึง 2010 ก็ใส่ความสุ่มเข้าไปในกระบวนการเช่นกัน
- การสุ่มตัวอย่างถูกใช้อย่างแพร่หลายในงานสถิติ
- การแทนค่า) ก็ถือเป็นการเพิ่มนอยส์ให้ข้อมูลในทางเทคนิคด้วย
-
ข้อจำกัดของการทำให้ข้อมูลทั่วไปขึ้นและการกดทับข้อมูล
- การทำให้ข้อมูลทั่วไปขึ้นและการกดทับข้อมูลเป็นเครื่องมือที่หยาบมาก
- ทั้งสองวิธีใช้ได้เฉพาะในสถานการณ์ที่สถิติมีความหยาบอยู่แล้วมาก และจำนวนสถิติที่เผยแพร่มีไม่มาก
- สำหรับผลิตภัณฑ์ข้อมูลที่ซับซ้อนและมีสถิติจำนวนมากเกี่ยวกับกลุ่มขนาดเล็ก เช่น U.S. Census การทำให้ข้อมูลทั่วไปขึ้นและการกดทับข้อมูลจะลงเอยด้วยการทำลายความมีประโยชน์ของข้อมูลทั้งหมด หรือทำให้ข้อมูลเปราะบางอย่างมากต่อการโจมตีด้านความเป็นส่วนตัว
- การทำลายความมีประโยชน์นี้เด่นชัดเป็นพิเศษในกลุ่มชนกลุ่มน้อย
-
เหตุใดนอยส์จึงทำให้การโจมตียากขึ้น
- การโจมตีความเป็นส่วนตัวต่อการเผยแพร่สถิติใกล้เคียงกับ การแก้ระบบสมการ
- งานนี้จะง่ายกว่ามากเมื่อรู้แน่ชัดว่าสถิติทุกตัวถูกต้องสมบูรณ์แบบ
- นอยส์ทำให้ผู้โจมตีต้องคำนวณความน่าจะเป็น ประเมินความไม่แน่นอน และพิจารณาค่าฐานอย่างรอบคอบ
- ความสุ่มมีประโยชน์ต่อการป้องกันการเปิดเผยแม้ไม่มีหลักประกันเชิงทางการ และทำให้การโจมตียากขึ้นมาก
- เมื่อตัดความสุ่มออกไป การโจมตีก็จะกลายเป็นเรื่องง่ายดาย
ทำไมเรื่องนี้จึงเกิดขึ้น
- ไม่ทราบแรงจูงใจ
- ไม่อาจรู้ได้ว่าเป้าหมายคือการบังคับให้ U.S. Census เผยแพร่สถิติที่เอื้อต่อการระบุตัวบุคคลซ้ำจริง เพื่อช่วยความพยายามทำ gerrymandering ในอนาคตหรือไม่
- ในทางกลับกัน ก็ไม่อาจรู้ได้ว่าเป้าหมายคือการขัดขวางไม่ให้นักวิจัยมองเห็นความเหลื่อมล้ำที่ไม่เป็นธรรมในประชากร ด้วยการหยุดการเผยแพร่ข้อมูลประชากรศาสตร์ที่ยังมีประโยชน์หรือไม่
- Hanlon's razor เสนอการตีความอีกแบบหนึ่ง
- การเผยแพร่ข้อมูลสถิติมีการแลกเปลี่ยนพื้นฐานระหว่างความเป็นส่วนตัวกับความมีประโยชน์ และการแลกเปลี่ยนนี้เป็นปัญหาที่น่ารำคาญ
- หากสามารถเผยแพร่สถิติจำนวนมากได้โดยไม่มีความเสี่ยงด้านความเป็นส่วนตัวสูงตามมาโดยอัตโนมัติ สถานการณ์ก็จะง่ายกว่านี้มาก
- differential privacy ทำให้การแลกเปลี่ยนนี้ถูกเปิดเผยอย่างชัดเจน และจึงไม่อาจถูกมองข้ามได้
- การห้าม differential privacy อาจเป็นวิธีทำเหมือนว่าปัญหานี้ไม่มีอยู่ และหวังว่าปัญหาจะหายไปเอง
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ตอนการสำมะโนประชากรครั้งก่อน ฉันเคยทำงานเป็นเจ้าหน้าที่สำมะโน ตอนนั้นความเชื่อมั่นของชุมชนก็ต่ำอยู่แล้ว และก็ได้เจอผู้คนที่น่าสนใจมากมาย
ฉันเก็บข้อมูลที่ค่อนข้างล่วงล้ำด้วยท่าทีเป็นมิตร พร้อมทั้งเชื่ออย่างจริงใจว่าข้อมูลเหล่านั้นจะถูกใช้งานและจัดการอย่างรับผิดชอบ
แต่ตอนนี้ไฟร์วอลล์ที่เคยป้องกันไม่ให้ข้อมูลอ่อนไหวของภาครัฐถูกทำให้เป็นอาวุธหรือหากำไรได้พังลงแล้ว ก็เลยสงสารทั้งคนที่จะต้องเคาะประตูบ้านทุกหลังในปี 2030 และยิ่งสงสารคนที่จะยอมให้ข้อมูลที่อาจย้อนมาทำร้ายตัวเองโดยสมัครใจ
ฉันยังรู้สึกแปลกดีด้วยกับปฏิกิริยาแบบ “สำมะโนราคาแพงก็แค่นับหัวคนก็พอ” ข้อมูลที่เก็บมาคือเส้นฐานสำคัญของความเข้าใจร่วมกัน และต่อจากนี้คุณภาพของมันคงได้รับผลเสีย
อนึ่ง พื้นที่ที่ฉันได้รับมอบหมายส่วนใหญ่เป็นครัวเรือนที่ไม่ตอบแบบสำรวจ ก็เลยพอเห็นได้เองว่าคนในพื้นที่ฉันนั้นไม่ชอบรัฐบาล หรือไม่ก็เพิกเฉยต่อใบปลิวข่มขู่ประหลาด ๆ หรือเพิ่งย้ายเข้ามาใหม่จนไม่รู้ว่าใครอยู่ที่นั่นในช่วงเวลาสำรวจ
ตั้งแต่โพลระดับประเทศที่มีผู้ตอบหลายหมื่นคน ไปจนถึงแบบสำรวจชุมชนเล็ก ๆ ต่างก็พึ่งพาสิ่งนี้
ผลสำมะโนที่ได้การมีส่วนร่วมหลากหลายที่สุดมอบผลตอบแทนแทบไร้ขีดจำกัดให้สหรัฐฯ และเป็นประโยชน์ต่อทุกฝ่ายตั้งแต่หนังสือพิมพ์ระดับประเทศไปจนถึงเคาน์ตีชนบท
หากชุมชนที่เล็กที่สุดสูญเสียความไว้วางใจที่ยังเหลืออยู่ต่อความเป็นส่วนตัวของสำมะโน พวกเขาก็จะเสียประโยชน์มากที่สุดในทุกด้านเหล่านี้
และก็น่าหดหู่ที่ผู้คนยังคงถูกดึงดูดเข้าหาพรรคการเมืองที่พูดอย่างภาคภูมิใจว่าอยากนำข้อมูลนี้ไปใช้ในทางที่ผิด
มันจุดชนวนความไม่ไว้วางใจต่อรัฐบาลครั้งใหญ่ และเดิมทีก็ยากอยู่แล้วที่จะทำให้คนยอมตอบแบบสำรวจ
สำหรับคนทั่วไป จะให้เชื่อได้อย่างไรว่า Census Bureau จะปกป้องข้อมูลของพวกเขาได้จริง
ไม่ว่ากฎหมายหรือรัฐธรรมนูญจะว่าอย่างไร ถ้าคุณทำงานให้หน่วยงานใดหน่วยงานหนึ่ง สุดท้ายคนก็มองว่าคุณคือรัฐบาล อัตราการตอบกลับก็ลดลงเรื่อย ๆ และตอนนี้ประธานาธิบดียังโจมตีแม้แต่สถิติเศรษฐกิจ
ถ้ามองแบบประชด ๆ ก็คงจะเดินหน้าลดขนาดหน่วยงานสถิติและทำให้สถิติไร้ประโยชน์ยิ่งขึ้น การเปลี่ยนนโยบายครั้งนี้ก็ไปในทิศทางนั้น และสุดท้ายก็คงพยายามโยนให้ภาคเอกชน
แต่ภาคเอกชนทำงานภาคสนามแบบที่รัฐบาลทำไม่ได้
ต้องมีข้อมูลที่แม่นยำจึงจะวางแผนปรับปรุงและทำให้ชีวิตของทุกคนดีขึ้นได้
ท่าทีแบบ “แค่นับหัวก็พอ” สะท้อนวิธีคิดของผู้คนจำนวนมากในทุกวันนี้ได้อย่างน่าสนใจ
ดูเหมือนพวกเขาไม่อยากทำให้ชีวิตดีขึ้น หรือไม่ก็จินตนาการไม่ออกด้วยซ้ำว่าต้องทำอย่างไร เป็นเรื่องที่เศร้ามาก
สัปดาห์นี้ที่การประชุมใหญ่พรรครีพับลิกันแห่งรัฐเท็กซัส มีการเสนอให้เพิ่มข้อความคัดค้าน differential privacy เข้าไปในร่างนโยบายพรรค
มีคนยกตัวอย่างจากผู้ที่อ้างว่าเคยเกี่ยวข้องกับการสำมะโน โดยบอกว่าคนไร้บ้าน 1 คนใต้สะพานอาจกลายเป็น 5 คนเพราะ differential privacy ซึ่งฟังดูไร้สาระในเชิงสามัญสำนึก และใช้เรื่องนี้มาเป็นเหตุผลสนับสนุน
ไม่รู้ว่าผ่านหรือไม่ แต่แรงกดดันระดับรากหญ้าที่ผลักดันเรื่องแบบนี้ก็มักมีหน้าตาเช่นนี้แหละ
ผมมองว่าน่าเศร้าพอสมควร ในอุดมคติแล้ว รัฐควรจะมองเห็นองค์ประกอบของผู้คนที่มีอยู่จริงในปัจจุบันได้ เพื่อที่เราจะได้ตัดสินใจที่ดีเกี่ยวกับองค์กรที่เราบริหารร่วมกัน
การทำลายโครงสร้างพื้นฐานด้านการเก็บข้อมูลโดยเจตนาเป็นความผิดพลาดที่ภายหลังเราจะต้องเสียใจ
ผมคิดว่าส่วนสำคัญของความสำเร็จของอเมริกามาจากสถาบันที่ดีในการจัดการข้อมูลละเอียด เพราะทำให้สามารถปรับนโยบายให้สอดคล้องกับผลลัพธ์ได้รวดเร็วกว่า
ผมเข้าใจว่าทำไมผู้คนถึงอยากลดทอนศักยภาพของรัฐทุกด้าน เพราะพวกเขารู้สึกว่ารัฐบาลเต็มไปด้วยฝ่ายตรงข้ามของตน และศักยภาพนั้นจะถูกใช้เล่นงานตน
แต่ยิ่งอำนาจสัมพัทธ์อ่อนลง ความสามารถในการเอาชนะแรงเฉื่อยเหล่านี้ก็ยิ่งลดลง รัฐบาลก็จะยิ่งไร้ความสามารถ และท้ายที่สุดคุณภาพชีวิตก็จะเริ่มแย่ลง
ข้อมูลระดับหน่วยที่อยู่อาศัยอาจไม่จำเป็นต้องใช้ทันที แต่บางกรณีเช่นการจัดวาง census block ลงในเขตเลือกตั้งที่เหมาะสมอาจเป็นข้อยกเว้น ถึงอย่างนั้น ตั้งแต่ระดับหน่วยข้อมูลรวมขึ้นไปก็ควรใช้ข้อมูลที่ดีที่สุดเท่าที่จะเป็นไปได้
มันแค่ทำให้รัฐบาลโง่ลง จนต่อให้ภายหลังอยากทำสิ่งที่ถูกต้อง ก็ไม่มีข้อมูลที่จะใช้ตัดสินใจอย่างมีประสิทธิภาพ
ส่วนรัฐบาลกลางเอาแค่ข้อมูลแบบสรุปรวมก็พอ
ปัญหาไม่ได้อยู่ที่ศักยภาพของรัฐ “ทุกอย่าง” แต่คือรัฐควรมีศักยภาพขั้นต่ำที่สุดเท่าที่จำเป็นต่อการทำสิ่งจำเป็น
เช่น การเก็บข้อมูลเรื่องเชื้อชาติไม่ใช่สิ่งที่จำเป็นอย่างยิ่ง จึงไม่ควรทำ
เพราะในอนาคตรัฐบาลอาจเต็มไปด้วยฝ่ายตรงข้ามของเราได้ ยิ่งไปกว่านั้น ความเสียหายที่ร้ายแรงที่สุดจากผู้กระทำการของรัฐมักไม่ได้มาจากเจตนาร้ายโดยตรง แต่มาจากความพยายามที่จะ “ช่วยเหลือ” อย่างสม่ำเสมอ
ถ้าคุณเห็นว่าการสำมะโนที่แม่นยำมีความสำคัญ คุณควรยินดีด้วยซ้ำ
ไม่ว่าจะทำอะไร การสำมะโนก็ต้องตั้งอยู่บนความไว้วางใจในระดับหนึ่ง
คือความไว้วางใจว่าข้อมูลนี้จะไม่ถูกระบุตัวตนเพื่อนำไปใช้กับการฉ้อโกง การหลอกลวงทางการเงิน หรือการใช้ในทางที่ผิดแบบอื่น
แต่ในนิวยอร์ก บันทึกการซื้อขายที่อยู่อาศัยเป็นข้อมูลสาธารณะ และผลข้างเคียงอย่างหนึ่งคือบริษัทจำนองจำนวนมากส่งเอกสารปลอมเป็นใบเรียกเก็บเงินมา
Differential privacy เป็นสิ่งจำเป็นอย่างยิ่ง และการที่นักสังคมศาสตร์ไม่สามารถสร้างข้อมูลกลับคืนในระดับบุคคลได้นั้นก็เป็นผลลัพธ์ที่ตั้งใจไว้
สำหรับวัตถุประสงค์ส่วนใหญ่ คำอธิบายในระดับมหภาคก็เพียงพอแล้ว และการเรียกร้องมากไปกว่านั้นก็แทบไม่ต่างจากการเรียกร้องรัฐสอดแนม
ในเยอรมนี การที่สินเชื่อจำนองหรือธนาคารเจ้าของสินเชื่อนั้นถูกส่งต่อไปราวกับเป็นมันร้อนให้เหยื่อรายต่อไปไม่ใช่เรื่องปกติ ดังนั้นถ้ามีจดหมายแบบนั้นมาถึง ก็จะถูกมองว่าน่าสงสัยทันที
ห้ามในระดับชุดข้อมูล แล้วค่อยใส่ในขั้นตอนการวิเคราะห์ก็ได้ โดยสามารถเลือกสัญญาณรบกวนในแบบที่ต้องการได้
ผมไม่แน่ใจนัยทางการเมืองตรงนี้นัก แต่ในระดับหนึ่งก็จำเป็นต้องมีค่ามาตรฐานจริง รวมถึงข้อมูลว่า “บุคคล/ครัวเรือนนี้ปฏิเสธจะตอบ”
แต่การเปิดเผยข้อมูลดิบดูเหมือนเป็นการทำร้ายผลประโยชน์ของตัวเองในมุมความมั่นคงแห่งชาติ และยังมีเหตุผลอีกมากที่ไม่ควรทำ
มีวิธีทำเรื่องนี้ผิดพลาดได้มากมาย และนั่นจึงเป็นเหตุผลที่differential privacyต้องมีการวิเคราะห์กันมากขนาดนั้น
อาจไม่ได้หมายความว่า differential privacy ทำให้ความขัดแย้งแลกเปลี่ยนนี้ชัดเจนจนมองข้ามไม่ได้ แต่เป็นการบอกว่าในสองเป้าหมายนี้ ไม่มีเป้าหมายใดควรถูกสละเพียงเพราะอีกเป้าหมายหนึ่งถูกมองว่ามีค่ามากกว่า
ปฏิกิริยาแบบ “ต้องเปิดเผยทั้งหมด” ที่เห็นที่นี่น่าประหลาดใจ เพราะเป็นความคิดแบบมิติเดียวในความหมายแย่ ๆ
การสำมะโนประชากรก็แค่การตั้งคำถาม
ถ้าคุณเริ่มเปิดเผยข้อมูลและทำให้เป็นอาวุธต่อผู้คนที่มีคุณลักษณะหลากหลาย ผู้คนก็จะเริ่มโกหกหรือไม่ตอบไปเลย
แบบนั้นข้อมูลที่เหลือจะเลวร้ายยิ่งกว่าไม่มีข้อมูลเลย เพราะผู้คนจะพยายามตัดสินใจโดยอิงจากข้อมูลแย่ ๆ นั้น
เรื่องแบบนี้เกิดขึ้นมาแล้วอย่างน้อยหนึ่งครั้งในอีกประเทศหนึ่งเมื่อไม่นานมานี้ ดังนั้นผมไม่คิดว่าความกังวลนี้จะเป็นการตื่นตูมเกินเหตุ
ตัวอย่างที่ชัดที่สุดคือช่วงสงครามโลกครั้งที่สองที่ Census Bureau จัดทำรายชื่อชาวเชื้อสายญี่ปุ่นเพื่อนำไปใช้กักกัน
ตอนนี้ผมมองว่าแรงผลักดันที่แท้จริงคือการสร้างรายชื่อเพื่อเพิกถอนสิทธิเลือกตั้งของผู้คน
การสำมะโนมีไว้เพื่อให้ข้อมูลสำหรับการตัดสินเรื่องการเป็นตัวแทนทางการเมือง ส่วนที่เหลือเป็นเพียงฟังก์ชันเสริม
คุณอาจมีข้อมูลในระดับเคาน์ตีหรือเขตเลือกตั้งได้ แต่ยิ่งความละเอียดสูงขึ้นก็ควรตัดข้อมูลออก จนในระดับย่านหรือบล็อกเหลือเพียงจำนวนประชากร
การรู้เชื้อชาติ ชาติพันธุ์ หรือภูมิหลังทางเศรษฐกิจสังคมของผู้อยู่อาศัยในหนึ่งบล็อกนั้นมีประโยชน์ก็แค่สำหรับการเลือกปฏิบัติต่อพวกเขา
ผมรอให้เจ้าหน้าที่สำมะโนมาถึงแล้วบอกแค่ว่ามีกี่คนอาศัยอยู่ในที่พักของผม
แค่นั้นจำเป็นสำหรับการเป็นตัวแทนในการเลือกตั้งที่เหมาะสม และอย่างอื่นไม่จำเป็นเลย
เรื่องพวกนี้มันยากเกินไปที่จะทำให้สอดคล้องกัน
เขาบอกว่าในการสำมะโนปี 2020 มีการใช้ differential privacy และหากเอาตัวกรองนี้ออกเพียงตัวเดียว ก็จะเกิด “ผลลัพธ์ที่เลวร้าย” ต่อประโยชน์ใช้สอยหรือความเป็นส่วนตัว หรือทั้งสองอย่าง
แต่เราทำสำมะโนกันมาหลายร้อยปีและก็ไม่เห็นมีปัญหา และเพิ่งเพิ่มองค์ประกอบด้านความเป็นส่วนตัวเข้าไปในการสำมะโนครั้งล่าสุด
ถ้าการเอาอย่างใดอย่างหนึ่งออกทำให้สถานการณ์เลวร้ายลงทันที มันก็ดูแปลก เพราะก่อนหน้านี้ก็ไม่มีฟีเจอร์คุ้มครองความเป็นส่วนตัวแบบนี้อยู่แล้ว ดังนั้นตามจริงแล้วเราน่าจะอยู่ในสภาพที่ดีกว่าเมื่อหลายร้อยปีก่อนมากไม่ใช่หรือ
เลยรู้สึกเหมือนเป็นปัญหาที่ถูกพูดเกินจริงทางอารมณ์
การโจมตีความเป็นส่วนตัวที่เมื่อก่อนทำไม่ได้เพราะต้นทุน ทุกวันนี้ทำได้ด้วยเงินไม่กี่บาท
และอย่างที่มีคนชี้ไว้แล้ว ผู้คนก็ใช้ข้อมูลสำมะโนเพื่อบิดเบือนเขตเลือกตั้งกันมานานแล้ว ดังนั้นการโจมตีแบบนี้เป็นเรื่องจริงและเกิดขึ้นมานานมาก
ในอดีตอาจพอพูดได้ว่าการสร้างบันทึกส่วนบุคคลขึ้นใหม่ อย่างน้อยในระดับใหญ่ ไม่ใช่เรื่องที่ทำได้จริง แต่ตอนนี้พูดแบบนั้นไม่ได้แล้ว
รหัสผ่าน 4 หลักอาจปลอดภัยมาหลายร้อยปี แต่ทุกวันนี้ด้วยเหตุผลเดียวกันมันกลายเป็นความประมาทด้านความปลอดภัย
เทคนิคจำนวนมากที่ใช้ระบุตัวตนซ้ำจากข้อมูลในปัจจุบัน ต้องอาศัยกำลังประมวลผลที่เมื่อก่อนไม่มี
ต่อให้เป็นไปได้ ทรัพยากรก็เคยเป็นข้อจำกัดด้านขนาด นี่พูดในฐานะคนที่จบสถิติมา
และยังมีเรื่องการเชื่อมโยงด้วย อินเทอร์เน็ต โซเชียลมีเดีย การติดตามบนเว็บ และการแฮ็ก ทำให้มีแหล่งข้อมูลสำหรับเทียบเคียงมากขึ้นมหาศาล
ย้อนกลับไปแค่ทศวรรษ 1970–80 ร่องรอยบันทึกของชาวอเมริกันยังน้อยกว่าตอนนี้อย่างมาก
เพียงแต่ฟีเจอร์ก่อนหน้านี้ไม่แข็งแรงและสามารถถูกเจาะได้ จึงถูกแทนที่ด้วยฟีเจอร์ที่แข็งแรงกว่า
ปี 1990 เป็นช่วงที่คอมพิวเตอร์ส่วนบุคคลแพร่หลายและกำลังประมวลผลที่คนทั่วไปเข้าถึงได้เพิ่มขึ้นอย่างก้าวกระโดด และนับจากตอนนั้นก็เริ่มเป็นไปได้ที่จะดึงข้อมูลส่วนบุคคลออกจากข้อมูลที่การสำมะโนเผยแพร่
นั่นจึงเป็นช่วงที่ปัญหาเกิดขึ้น มันไม่ใช่ปัญหาที่ถูกพูดเกินจริง
จากมุมมองของคนที่มาจากบางประเทศในยุโรป คุณไม่มีทางรู้ได้เลยว่าคำตอบข้อไหนในการสำมะโนจะก่อปัญหา
คำถามอย่าง “คุณนับถือศาสนาอะไร” ดูเหมือนไม่มีพิษภัยเลย แต่เมื่อผู้ยึดครองจากต่างชาติในทศวรรษ 1940 สามารถเชื่อมคำตอบนั้นเข้ากับตัวบุคคลได้ มันก็กลายเป็นคำตอบที่อันตรายถึงชีวิตในภายหลัง
คำถามในปี 2020 คือ ณ วันที่ 1 เมษายน มีคนกี่คนอาศัยหรือพักอยู่ในบ้าน/อพาร์ตเมนต์/บ้านเคลื่อนที่นี้ มีบุคคลเพิ่มเติมที่ตกหล่นหรือไม่ ที่อยู่อาศัยประเภทใด หมายเลขโทรศัพท์ ชื่อของบุคคลหมายเลข 1 เพศ อายุและวันเดือนปีเกิด เป็นเชื้อสายฮิสแปนิก/ละติน/สเปนหรือไม่ และเชื้อชาติ
ก็ไม่ได้มีอะไรป้องกันการโกหกเป็นพิเศษด้วย
ไม่มีใครควรถูกบังคับให้เปิดเผยข้อมูลเกี่ยวกับความเชื่อทางศาสนาหรือการเป็นสมาชิกขององค์กรทางศาสนา
https://www.congress.gov/94/statute/STATUTE-90/STATUTE-90-Pg...
พวกเขาทำรายชื่อชาวยิวไว้ด้วย เพราะอาจมีประโยชน์สักวันหนึ่ง และชาวเยอรมันก็ยินดีมากเมื่อพบมัน
ความหมกมุ่นของสหรัฐฯ ที่ถามผู้คนถึงภูมิหลังต้นกำเนิดที่ถูกรับรู้ เช่น AAPI, AA, Latino ฯลฯ นั้นเลยระดับแปลกไปจนเป็นอันตรายอย่างเปิดเผย
ไม่ควรถามคำถามแบบนี้ และไม่ควรบันทึกไว้คู่กับชื่อเด็ดขาด
โชคดีสำหรับพวกเขา ทุกวันนี้แค่ซื้อจาก data broker แล้วให้ Palantir ใช้ทำการกำหนดเป้าหมายก็ง่ายกว่าเดิมอีก
ผมกลับมองว่าการบอกว่า differential privacy ทำให้ความสัมพันธ์แบบแลกเปลี่ยนกันชัดเจนขึ้นนั้น จริง ๆ แล้วอาจตรงกันข้าม
เทคนิคอย่าง differential privacy สำหรับคนนอกเหนือจากผู้เชี่ยวชาญส่วนน้อยที่คลุกคลีกับเรื่องนี้เป็นเรื่องปกติ กลับยิ่งปิดบังความจริงที่ว่ามีความสัมพันธ์แบบต้องแลกกันอยู่
ผมไม่ได้รู้มากพอที่จะปกป้องการตัดสินใจนี้ได้ แต่ถ้ามีความสัมพันธ์แบบแลกเปลี่ยนกันจริง เมื่อคนเข้าถึงเทคนิคแบบนี้ไม่ได้ คนที่ไม่ใช่นักสถิติก็น่าจะได้เผชิญหน้ากับความสัมพันธ์แบบนั้นด้วยตัวเอง
ถ้าข้อมูลเกี่ยวกับสาธารณชนมีความเสี่ยงถึงขั้นต้องอำพรางผลลัพธ์ บางทีอาจเป็นข้อมูลที่ไม่ควรถูกรวบรวมตั้งแต่แรก
ข้อมูลที่ไม่เปิดเผยต่อสาธารณะของผู้คนมักถูกเปิดเผยออกมาโดยไม่ตั้งใจอยู่เป็นประจำ ตัวอย่างเด่นคือประวัติการรับชม Netflix และเวชระเบียน
ผู้คนมักประเมินปริมาณข้อมูลที่รั่วไหลต่ำเกินไปอย่างต่อเนื่อง จึงตัดสินความสัมพันธ์แบบแลกเปลี่ยนกันได้ไม่ดี
เพราะแบบนั้น แนวทางที่ถูกต้องคือบังคับให้มีข้อมูลรั่วออกไปได้เฉพาะในปริมาณที่ปลอดภัย
แม้บางกรณีการไม่แบ่งปันหรือไม่เก็บข้อมูลอาจดีกว่า แต่ข้อมูลนี้มีคุณค่าอย่างชัดเจน ดังนั้นปริมาณที่เหมาะสมที่สุดในการเก็บและเปิดเผยจึงไม่ใช่ 0
โดยส่วนตัว ผมคิดว่าหนึ่งในเหตุผลใหญ่ที่ data science ในฐานะองค์กรขนาดใหญ่ภายในบริษัทเทคโนโลยีสูญเสียอิทธิพลไป ก็เพราะมีแนวโน้มจะปฏิบัติต่อ ทีม data science เหมือนเป็นผู้เฝ้าประตูของข้อมูล
เมื่อความรับผิดชอบด้านการคิดเชิงสถิติถูกเอาไปจ้างเหมาภายนอก มันก็ทำให้คน ๆ หนึ่งมีอำนาจประหลาดในการตัดสินความสัมพันธ์แบบแลกเปลี่ยนกันล่วงหน้า ทั้งที่คนรอบข้างไม่จำเป็นต้องเข้าใจมันอย่างถูกต้องด้วยซ้ำ
ถ้าตามตรรกะนั้น ก็เท่ากับว่าไม่ว่าเหตุผลใดใครก็ไม่ควรเก็บที่อยู่เลย
ถ้าในทุกบริบทเราไม่สามารถส่งต่อหรือเก็บ ข้อมูลส่วนบุคคลที่ใช้ระบุตัวตนได้ ได้เลย สังคมจะทำงานอย่างไร?
การทำข้อมูลให้ไม่ระบุตัวตนและความปลอดภัยเป็นสิ่งสำคัญอย่างยิ่ง และทำให้เกิดความสามารถสำคัญมากมาย
ในโลกที่ห้ามให้หรือเก็บข้อมูลที่อาจเป็นอันตรายโดยสิ้นเชิง เราจะรับจดหมายกันได้อย่างไร?