auto-identity-remove - ตัวรันการยกเลิกข้อมูลกับ data broker อัตโนมัติสำหรับ macOS, Linux และ Windows
(github.com/stephenlthorn)- auto-identity-remove เป็นเครื่องมือที่ค้นหาเว็บไซต์ data broker ด้วยชื่อและข้อมูลพื้นที่ แล้วส่งแบบฟอร์ม opt-out อัตโนมัติ เพื่อช่วยลบข้อมูลส่วนบุคคลออกจากเว็บไซต์ค้นหาบุคคลและฐานข้อมูล data broker กว่า 500 แห่งต่อเดือน
- ลำดับการทำงานประกอบด้วยการค้นหาตามโบรกเกอร์, ตรวจพบรายการโปรไฟล์ที่ตรงกัน, ส่งแบบฟอร์ม opt-out, จัดการ CAPTCHA เมื่อจำเป็น, ข้ามรายการที่เพิ่งทำเสร็จ, แจ้งผลลัพธ์ และเปิดเบราว์เซอร์สำหรับเว็บไซต์ที่ต้องจัดการด้วยตนเอง
- การติดตามสถานะ จะบันทึกเวลาสำเร็จล่าสุดและประวัติการทำงานไว้ใน
state.jsonโดยมีรอบตรวจซ้ำเริ่มต้นที่ 90 วัน จึงไม่ส่ง opt-out ของรายการที่เสร็จแล้วซ้ำทุกครั้ง - แบบฟอร์มที่มี CAPTCHA สามารถจัดการผ่าน CapSolver ได้ โดยมีค่าใช้จ่ายประมาณ $0.001 ต่อการแก้หนึ่งครั้ง และหากไม่ตั้งค่า เว็บไซต์นั้นจะถูกย้ายไปยังรายการที่ต้องทำเอง
- ความต้องการระบบคือ Node.js 18+, macOS·Linux·Windows และเบราว์เซอร์ Playwright โดย
setup.jsจะช่วยแนะนำการกรอกข้อมูลส่วนตัว, ชื่อแฝง, คีย์ CapSolver, บัญชีใช้ครั้งเดียว, การแจ้งเตือน และการลงทะเบียนตารางงานรายเดือน - งานรายเดือนจะถูกลงทะเบียนให้ทำงานทุกวันที่ 1 ของเดือน เวลา 9:00 น. และจะตรวจจับแล้วใช้งาน launchd, systemd, crontab, schtasks โดยอัตโนมัติตามแพลตฟอร์ม
- รองรับการรันด้วย Docker เช่นกัน โดยใช้ Playwright image อย่างเป็นทางการซึ่งรวม Chromium และ system dependency ไว้แล้ว และหากต้องการคงประวัติรายการที่ทำเสร็จข้ามคอนเทนเนอร์ ต้อง mount
state.json - การแจ้งเตือนรองรับสรุปผลผ่าน iMessage บน macOS และในสภาพแวดล้อมแบบ headless หรือ Docker สามารถใช้
notify.webhookเพื่อ POST{"text": "<summary>"}ไปยัง ntfy.sh, Slack incoming webhook หรือ Discord webhook ได้ - การรองรับโบรกเกอร์แบ่งเป็น 2 ระดับ โดย explicit broker 42 ราย ที่สรุปไว้ใน STATUS.md จะถูกแมปด้วย selector เฉพาะราย ส่วนอีกราว 490 ราย ใช้วิธี heuristic ที่ลองตามลำดับคือปุ่ม Do Not Sell, OneTrust·TrustArc·Osano, แบบฟอร์มทั่วไป และการค้นหาลิงก์ DSAR
✅ Submittedหมายถึงโบรกเกอร์รับแบบฟอร์มแล้วเท่านั้น ไม่ได้เป็นการรับประกันว่าจะลบข้อมูลจริง และnode watcher.js --verifyจะค้นหารายการที่เคยบันทึกว่าสำเร็จอีกครั้งเพื่อจัดหมวดเป็นVERIFIED CLEAR,STILL LISTED,UNVERIFIABLE- ตัวอย่างเป้าหมายที่รองรับการทำงานอัตโนมัติ ได้แก่ Spokeo, WhitePages, FastPeopleSearch, TruePeopleSearch, BeenVerified, Radaris, Acxiom, LexisNexis, ZoomInfo, Clearbit เป็นต้น ส่วน Google Results About You และ Google Outdated Content จะถูกเปิดให้จัดการแบบ manual
- ผู้ใช้นอกสหรัฐฯ รองรับ country code, Province/Region, Postal code, การเก็บหมายเลขโทรศัพท์ต้นฉบับ และการกรอกช่องเลือกประเทศ แต่โบรกเกอร์แบบ US-only เช่น Spokeo·WhitePages·FastPeopleSearch จะถูกข้ามอัตโนมัติหากประเทศที่ตั้งค่าไว้ไม่ใช่
US --dry-runจะทำเพียงการท่องเว็บไซต์และกรอกแบบฟอร์มโดยไม่ส่งจริง ส่วนฟีเจอร์ทดลอง--pollute Nจะส่งข้อมูลปลอมไปยังโบรกเกอร์บางรายที่ระบุacceptsBogus: trueแต่มีการระบุชัดว่ามีความเสี่ยงต่อการละเมิดข้อกำหนดการใช้งานและกฎหมาย จึงปิดไว้เป็นค่าเริ่มต้นconfig.jsonที่มีข้อมูลส่วนตัว,state.jsonที่เป็นประวัติ opt-out และล็อกการทำงาน ถูกใส่ไว้ใน gitignore และคลังเก็บนี้ใช้ไลเซนส์ MIT
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ส่วนที่ต้องการความช่วยเหลือคือวิธีแบบ heuristic พลาดหลายอย่างมาก เพราะแต่ละเว็บมักมี flow เฉพาะของตัวเองที่จับด้วยกลยุทธ์ทั่วไปแค่สี่แบบไม่ได้
ต้องการคนช่วยตรวจสอบว่าเว็บทั่วไปไหนสำเร็จจริงและเว็บไหนล้มเหลวเงียบ ๆ, เพิ่มคำจำกัดความของ broker แบบ explicit ให้กับเว็บที่มีมูลค่าสูง, ทดสอบบนสภาพแวดล้อมที่ไม่ใช่ macOS และจัดการ flow ยืนยันอีเมล
Repo: https://github.com/stephenlthorn/auto-identity-remove
ใน repository ไม่มีข้อมูลส่วนตัว โดยสคริปต์ตั้งค่าจะรับข้อมูลจากเครื่อง local และใส่ไว้ใน gitignore
เรื่องยืนยันอีเมล ดูเหมือนจะใช้วิธีชั่วคราวแบบ “คลิกลิงก์ยืนยันจากอีเมลของผู้ส่งคนนี้” ก็ได้ การอ่าน inbox จริงอย่างเสถียรข้ามหลายผู้ให้บริการอาจยาก เพราะแทบจะต้องทำตัวเป็น email client เต็มรูปแบบ
แล้วอาจจะนอกประเด็น แต่คอมเมนต์นี้เองก็ดูเหมือนถูก AI สร้างขึ้นมา ถ้าใช่ก็ผิดกฎของเว็บ
ไอเดียดี แต่ถ้าจะให้มีประโยชน์ทั่วไปจริง ๆ ยังต้องเก็บงานอีกเยอะ ดูเหมือนรหัสไปรษณีย์ที่ไม่ใช่ตัวเลขและที่อยู่นอกสหรัฐจะทำให้ระบบอัตโนมัติพังบ่อย
ตอนดูร่วมกับเพื่อนร่วมงานพบว่าฟอร์ม opt-out ต้องการแค่ที่อยู่ เลยเคยคิดว่าจะรวบรวมที่อยู่ที่รู้จักทั่วประเทศแล้วส่งอัตโนมัติเป็นเวลาหลายเดือนเพื่อให้ทุกที่อยู่ opt-out หมด แต่สุดท้ายก็ไม่ได้ทำ และก็ขำเมื่อนึกภาพว่าเว็บดีเวลอปเปอร์ของ Yellow Pages จะเรียกประชุมฉุกเฉินกันตอนเปอร์เซ็นต์ opt-out ขึ้นถึงเท่าไร
สุดท้ายคนส่งจัดการไม่ไหว เลยเริ่มกองสมุดโทรศัพท์ไว้แล้วเผาทิ้ง ไม่มีใครคิดถึงสมุดโทรศัพท์เลย ทำให้ใช้เวลาค่อนข้างนานกว่าจะมีคนจับได้
ผมพยายามอยู่พอสมควรเพื่อหยุดไม่ให้ Uline ส่งแคตตาล็อกกระดาษเล่มใหญ่ไปที่ตู้ ปณ. ปีละสองสามครั้ง มีฟอร์มให้กรอกแต่พวกเขาก็แค่เมินคำขอ
https://www.uline.com/CustomerService/ULINE_FAQ_Ans?FAQ_ID=4...
ไม่ได้แปลว่ามันไม่เกิดขึ้นแล้ว แต่ก็มอบฐานทางกฎหมายให้ใช้ต่อสู้ noyb.eu / Max Schrems และคนอื่น ๆ กำลังทำงานสำคัญและยอดเยี่ยมมากในแนวหน้านี้
reCAPTCHA v3 Enterprise กับ MtCaptcha แพงกว่าถึง 3 เท่า คือ $3 ต่อการแก้ 1000 ครั้ง ดังนั้นพวกนี้เลยดูเป็น CAPTCHA ที่น่าโจมตีมากกว่า
การรองรับ systemd น่าจะทำได้ไม่ยาก ส่วน Windows ใช้อะไรผมไม่ค่อยรู้
แต่ถ้าใช้ Task Scheduler ก็มีหลายวิธีในการตั้งให้รันเดือนละครั้ง
threat model ยังไม่ชัด เพราะเครื่องมืออาจช่วยลดการเปิดเผยข้อมูลก็จริง แต่ selector ที่พังอาจทำให้ข้อมูลส่วนตัวรั่วไปผิดที่ได้
ทางออกที่ดีกว่ามากคือผลักดันกฎหมายแบบ GDPR ในสหรัฐ
สำหรับผู้บริโภคนั้นเปิดให้ใช้แล้ว คุณสมัครได้พร้อมกับเพื่อนบ้านอีก 275,000 คน