1 คะแนน โดย GN⁺ 1 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • auto-identity-remove เป็นเครื่องมือที่ค้นหาเว็บไซต์ data broker ด้วยชื่อและข้อมูลพื้นที่ แล้วส่งแบบฟอร์ม opt-out อัตโนมัติ เพื่อช่วยลบข้อมูลส่วนบุคคลออกจากเว็บไซต์ค้นหาบุคคลและฐานข้อมูล data broker กว่า 500 แห่งต่อเดือน
  • ลำดับการทำงานประกอบด้วยการค้นหาตามโบรกเกอร์, ตรวจพบรายการโปรไฟล์ที่ตรงกัน, ส่งแบบฟอร์ม opt-out, จัดการ CAPTCHA เมื่อจำเป็น, ข้ามรายการที่เพิ่งทำเสร็จ, แจ้งผลลัพธ์ และเปิดเบราว์เซอร์สำหรับเว็บไซต์ที่ต้องจัดการด้วยตนเอง
  • การติดตามสถานะ จะบันทึกเวลาสำเร็จล่าสุดและประวัติการทำงานไว้ใน state.json โดยมีรอบตรวจซ้ำเริ่มต้นที่ 90 วัน จึงไม่ส่ง opt-out ของรายการที่เสร็จแล้วซ้ำทุกครั้ง
  • แบบฟอร์มที่มี CAPTCHA สามารถจัดการผ่าน CapSolver ได้ โดยมีค่าใช้จ่ายประมาณ $0.001 ต่อการแก้หนึ่งครั้ง และหากไม่ตั้งค่า เว็บไซต์นั้นจะถูกย้ายไปยังรายการที่ต้องทำเอง
  • ความต้องการระบบคือ Node.js 18+, macOS·Linux·Windows และเบราว์เซอร์ Playwright โดย setup.js จะช่วยแนะนำการกรอกข้อมูลส่วนตัว, ชื่อแฝง, คีย์ CapSolver, บัญชีใช้ครั้งเดียว, การแจ้งเตือน และการลงทะเบียนตารางงานรายเดือน
  • งานรายเดือนจะถูกลงทะเบียนให้ทำงานทุกวันที่ 1 ของเดือน เวลา 9:00 น. และจะตรวจจับแล้วใช้งาน launchd, systemd, crontab, schtasks โดยอัตโนมัติตามแพลตฟอร์ม
  • รองรับการรันด้วย Docker เช่นกัน โดยใช้ Playwright image อย่างเป็นทางการซึ่งรวม Chromium และ system dependency ไว้แล้ว และหากต้องการคงประวัติรายการที่ทำเสร็จข้ามคอนเทนเนอร์ ต้อง mount state.json
  • การแจ้งเตือนรองรับสรุปผลผ่าน iMessage บน macOS และในสภาพแวดล้อมแบบ headless หรือ Docker สามารถใช้ notify.webhook เพื่อ POST {"text": "<summary>"} ไปยัง ntfy.sh, Slack incoming webhook หรือ Discord webhook ได้
  • การรองรับโบรกเกอร์แบ่งเป็น 2 ระดับ โดย explicit broker 42 ราย ที่สรุปไว้ใน STATUS.md จะถูกแมปด้วย selector เฉพาะราย ส่วนอีกราว 490 ราย ใช้วิธี heuristic ที่ลองตามลำดับคือปุ่ม Do Not Sell, OneTrust·TrustArc·Osano, แบบฟอร์มทั่วไป และการค้นหาลิงก์ DSAR
  • ✅ Submitted หมายถึงโบรกเกอร์รับแบบฟอร์มแล้วเท่านั้น ไม่ได้เป็นการรับประกันว่าจะลบข้อมูลจริง และ node watcher.js --verify จะค้นหารายการที่เคยบันทึกว่าสำเร็จอีกครั้งเพื่อจัดหมวดเป็น VERIFIED CLEAR, STILL LISTED, UNVERIFIABLE
  • ตัวอย่างเป้าหมายที่รองรับการทำงานอัตโนมัติ ได้แก่ Spokeo, WhitePages, FastPeopleSearch, TruePeopleSearch, BeenVerified, Radaris, Acxiom, LexisNexis, ZoomInfo, Clearbit เป็นต้น ส่วน Google Results About You และ Google Outdated Content จะถูกเปิดให้จัดการแบบ manual
  • ผู้ใช้นอกสหรัฐฯ รองรับ country code, Province/Region, Postal code, การเก็บหมายเลขโทรศัพท์ต้นฉบับ และการกรอกช่องเลือกประเทศ แต่โบรกเกอร์แบบ US-only เช่น Spokeo·WhitePages·FastPeopleSearch จะถูกข้ามอัตโนมัติหากประเทศที่ตั้งค่าไว้ไม่ใช่ US
  • --dry-run จะทำเพียงการท่องเว็บไซต์และกรอกแบบฟอร์มโดยไม่ส่งจริง ส่วนฟีเจอร์ทดลอง --pollute N จะส่งข้อมูลปลอมไปยังโบรกเกอร์บางรายที่ระบุ acceptsBogus: true แต่มีการระบุชัดว่ามีความเสี่ยงต่อการละเมิดข้อกำหนดการใช้งานและกฎหมาย จึงปิดไว้เป็นค่าเริ่มต้น
  • config.json ที่มีข้อมูลส่วนตัว, state.json ที่เป็นประวัติ opt-out และล็อกการทำงาน ถูกใส่ไว้ใน gitignore และคลังเก็บนี้ใช้ไลเซนส์ MIT

1 ความคิดเห็น

 
GN⁺ 1 시간 전
ความคิดเห็นจาก Hacker News
  • เบื่อสายสแปมกับข้อความสแปมมาก เลยทำสคริปต์ที่ทำขั้นตอน opt-out จาก โบรกเกอร์ข้อมูลมากกว่า 500 ราย แบบอัตโนมัติทุกเดือน
    ส่วนที่ต้องการความช่วยเหลือคือวิธีแบบ heuristic พลาดหลายอย่างมาก เพราะแต่ละเว็บมักมี flow เฉพาะของตัวเองที่จับด้วยกลยุทธ์ทั่วไปแค่สี่แบบไม่ได้
    ต้องการคนช่วยตรวจสอบว่าเว็บทั่วไปไหนสำเร็จจริงและเว็บไหนล้มเหลวเงียบ ๆ, เพิ่มคำจำกัดความของ broker แบบ explicit ให้กับเว็บที่มีมูลค่าสูง, ทดสอบบนสภาพแวดล้อมที่ไม่ใช่ macOS และจัดการ flow ยืนยันอีเมล
    Repo: https://github.com/stephenlthorn/auto-identity-remove
    ใน repository ไม่มีข้อมูลส่วนตัว โดยสคริปต์ตั้งค่าจะรับข้อมูลจากเครื่อง local และใส่ไว้ใน gitignore
    • อยากรู้ว่าวิธีปัจจุบันสำเร็จกับหลายเว็บแค่ไหน ตัว repository ดูเหมือนถูก vibe coding อย่างชัดเจน หรืออย่างน้อยก็ใช้ AI หนักมาก เลยตามได้ยากว่าตอนนี้ทำอะไรได้แล้วบ้าง และยังขาดอะไรถึงจะใช้งานได้จริง
      เรื่องยืนยันอีเมล ดูเหมือนจะใช้วิธีชั่วคราวแบบ “คลิกลิงก์ยืนยันจากอีเมลของผู้ส่งคนนี้” ก็ได้ การอ่าน inbox จริงอย่างเสถียรข้ามหลายผู้ให้บริการอาจยาก เพราะแทบจะต้องทำตัวเป็น email client เต็มรูปแบบ
      แล้วอาจจะนอกประเด็น แต่คอมเมนต์นี้เองก็ดูเหมือนถูก AI สร้างขึ้นมา ถ้าใช่ก็ผิดกฎของเว็บ

      Don't post generated comments or AI-edited comments. HN is for conversation between humans.
      https://news.ycombinator.com/newsguidelines.html#generated

  • ลองใช้จากแคนาดาแล้ว แต่กลับแนะนำให้สมัครบริการอื่นอย่าง Spokeo, ขอสิทธิ์เข้าถึงอีเมลผ่าน แอป Apple Mail ทั้งที่ไม่ได้ใช้, เจอ 404 เยอะ และหลายเว็บก็ต้องให้คนเข้ามาทำเอง
    ไอเดียดี แต่ถ้าจะให้มีประโยชน์ทั่วไปจริง ๆ ยังต้องเก็บงานอีกเยอะ ดูเหมือนรหัสไปรษณีย์ที่ไม่ใช่ตัวเลขและที่อยู่นอกสหรัฐจะทำให้ระบบอัตโนมัติพังบ่อย
    • ค่อนข้างน่าประหลาดใจที่สมมติว่าคนส่วนใหญ่ใช้ บริการของ Apple เป็นค่าเริ่มต้น
  • ราวปี 2011 Yellow Pages ยังส่งสมุดโทรศัพท์กระดาษไปทุกที่อยู่ทั้งรัฐ เมืองเราถึงกับต้องส่งรถรีไซเคิลชั่วคราวมาเก็บทั้งหมดในวันถัดไป เพราะทุกคนทิ้งหมด
    ตอนดูร่วมกับเพื่อนร่วมงานพบว่าฟอร์ม opt-out ต้องการแค่ที่อยู่ เลยเคยคิดว่าจะรวบรวมที่อยู่ที่รู้จักทั่วประเทศแล้วส่งอัตโนมัติเป็นเวลาหลายเดือนเพื่อให้ทุกที่อยู่ opt-out หมด แต่สุดท้ายก็ไม่ได้ทำ และก็ขำเมื่อนึกภาพว่าเว็บดีเวลอปเปอร์ของ Yellow Pages จะเรียกประชุมฉุกเฉินกันตอนเปอร์เซ็นต์ opt-out ขึ้นถึงเท่าไร
    • ช่วงเวลาใกล้กัน พี่ชายผมเคยปล่อยเช่าหลายห้องในบ้านให้คนที่ทำงานส่งสมุดโทรศัพท์ อยู่กันคนละประเทศ แต่ดูเหมือน Yellow Pages จะมีอยู่ทุกที่
      สุดท้ายคนส่งจัดการไม่ไหว เลยเริ่มกองสมุดโทรศัพท์ไว้แล้วเผาทิ้ง ไม่มีใครคิดถึงสมุดโทรศัพท์เลย ทำให้ใช้เวลาค่อนข้างนานกว่าจะมีคนจับได้
    • ฝั่ง Yellow Pages คงแกล้งทำเป็นไม่ได้รับคำขอ opt-out เหมือนที่ผู้ทำ direct mail และสแปมเมอร์ครึ่งหนึ่งทำกัน
      ผมพยายามอยู่พอสมควรเพื่อหยุดไม่ให้ Uline ส่งแคตตาล็อกกระดาษเล่มใหญ่ไปที่ตู้ ปณ. ปีละสองสามครั้ง มีฟอร์มให้กรอกแต่พวกเขาก็แค่เมินคำขอ
      https://www.uline.com/CustomerService/ULINE_FAQ_Ans?FAQ_ID=4...
    • ตอนคุยเรื่อง data privacy ของโปรเจกต์กับ Australia Post ก็อดแซวไม่ได้ว่า “พวกคุณไม่ได้แจกจ่ายข้อมูลส่วนบุคคลของคนนับล้านเป็นประจำทุกปี และวางข้อมูลไว้หน้าบ้านให้ใครก็เห็นหรอกเหรอ?”
  • สิ่งที่พวกเขาทำไม่ได้ทำให้สังคมดีขึ้นจริง ๆ ดังนั้นถ้าเป็นสังคมที่ดีต่อสุขภาพ ก็ควรจะสามารถทำให้เรื่องแบบนั้น ผิดกฎหมาย ได้ แต่เราไม่ได้ทำ เลยทำไม่ได้
    • ทำให้ผิดกฎหมายได้แน่นอน ภายใต้ GDPR การเก็บและขายข้อมูลส่วนบุคคลในระดับใหญ่ทำให้ถูกกฎหมายได้ยากกว่ามาก
      ไม่ได้แปลว่ามันไม่เกิดขึ้นแล้ว แต่ก็มอบฐานทางกฎหมายให้ใช้ต่อสู้ noyb.eu / Max Schrems และคนอื่น ๆ กำลังทำงานสำคัญและยอดเยี่ยมมากในแนวหน้านี้
  • พอเห็นว่า “ใช้ CapSolver แก้ CAPTCHA (ขับเคลื่อนด้วย AI, ประมาณ $0.001 ต่อครั้ง)” ก็รู้เลยว่าที่สงสัยไว้ไม่ผิด สงสัยไม่ใช่มีแค่ผมคนเดียวที่ยังเจอความลำบากกับ CAPTCHA แบบเดิม ๆ
    • แล้วแต่ชนิดของ CAPTCHA แต่ก็มีเหตุผลที่ Apple, Cloudflare และ Google กำลังขยับไปทาง remote attestation เพื่อพิสูจน์ความเป็นมนุษย์
      reCAPTCHA v3 Enterprise กับ MtCaptcha แพงกว่าถึง 3 เท่า คือ $3 ต่อการแก้ 1000 ครั้ง ดังนั้นพวกนี้เลยดูเป็น CAPTCHA ที่น่าโจมตีมากกว่า
    • ชักอยากซื้อบริการแก้ CAPTCHA แบบเสียเงินมาให้ชีวิตง่ายขึ้น
    • เหมือนจะมีส่วนขยายเบราว์เซอร์ด้วย: https://www.capsolver.com/products/browser-extension
  • ดูเหมือนสิ่งที่ผูกกับ macOS จริง ๆ จะมีแค่ launchd และข้อมูลนี้น่าจะมีประโยชน์ถ้าเพิ่มในเอกสาร ไม่แน่ใจว่าเรียกจาก CLI ตรง ๆ ได้ไหม
    การรองรับ systemd น่าจะทำได้ไม่ยาก ส่วน Windows ใช้อะไรผมไม่ค่อยรู้
    • การทำ Windows service ยากกว่าเล็กน้อย เพราะ Windows ใช้ API จริงสำหรับ service ไม่ได้พึ่งแค่การรัน process และการสคริปต์
      แต่ถ้าใช้ Task Scheduler ก็มีหลายวิธีในการตั้งให้รันเดือนละครั้ง
    • ใช้ sc.exe หรือ tasksched ก็ได้
  • สำหรับผม ส่วนที่น่าสนใจที่สุดคือ การติดตามสถานะ และเส้นทาง fallback แบบ manual ถ้าเป็นเครื่องมือแบบนี้ ก็ควรมีโหมด dry-run/ตรวจสอบที่แสดงก่อนส่งจริงว่าจะมี field ไหนถูกส่งไปให้ broker รายไหนบ้าง
    threat model ยังไม่ชัด เพราะเครื่องมืออาจช่วยลดการเปิดเผยข้อมูลก็จริง แต่ selector ที่พังอาจทำให้ข้อมูลส่วนตัวรั่วไปผิดที่ได้
  • สงสัยว่านี่จะกลายเป็นวิธีอัตโนมัติที่ดีในการส่งข้อมูลของผมไปให้ โบรกเกอร์ข้อมูล 500 ราย แทนหรือเปล่า
    • ผมไม่ได้เช็กว่าขั้นตอนที่ 3 ต้องให้ข้อมูลอะไรบ้าง แต่ถ้าระบบกรอกและส่งฟอร์ม opt-out อัตโนมัติ ก็น่าจะต้องใช้ข้อมูลมากกว่าชื่อกับที่อยู่
      ทางออกที่ดีกว่ามากคือผลักดันกฎหมายแบบ GDPR ในสหรัฐ
  • อย่างน้อยในแคลิฟอร์เนีย แบบฟอร์ม DROP มีกำหนดเปิดออนไลน์ในฤดูใบไม้ร่วงนี้
    • ในฐานะคนทำงานในอุตสาหกรรม วันที่ 1 สิงหาคมกำลังแขวนอยู่เหนือโบรกเกอร์ข้อมูลที่จดทะเบียนในแคลิฟอร์เนียราว 500 รายเหมือน ดาบของดาโมคลีส
      สำหรับผู้บริโภคนั้นเปิดให้ใช้แล้ว คุณสมัครได้พร้อมกับเพื่อนบ้านอีก 275,000 คน
  • น่าสนใจ อยากรู้ว่ามีใครใช้ต่อเนื่องมาสักพักหรือยัง และมันช่วย ลดสแปม ได้จริงไหม