- โปรเจกต์บัญชีดำแบบสาธารณะสำหรับ บล็อกเว็บไซต์ฟาร์มคอนเทนต์ที่สร้างโดย AI ใน uBlock Origin
- เว็บไซต์ที่เขียนโดย generative AI มัก เต็มไปด้วยโฆษณาและลิงก์แนะนำ พร้อมข้อมูลที่ไม่น่าเชื่อถือ
- ผู้ใช้สามารถ ติดตามไฟล์
list.txt หรือเพิ่ม URL ด้วยตนเอง เพื่อใช้งานรายการบล็อกได้
- มีการอธิบาย ลักษณะและเกณฑ์การระบุ เว็บไซต์ที่สร้างโดย AI ไว้อย่างชัดเจน และสามารถขยายรายการได้ผ่าน Pull Request จากผู้ร่วมพัฒนา
- สามารถใช้เป็น เครื่องมือเชิงปฏิบัติในการลดปัญหาผลการค้นหาที่ปนเปื้อนด้วยคอนเทนต์ AI ได้
ภาพรวมโปรเจกต์
- AI uBlock Blacklist ให้บริการ รายการบล็อกคอนเทนต์ที่สร้างโดย AI สำหรับใช้งานกับส่วนขยาย uBlock Origin
- มีการเพิ่มเว็บไซต์ลงในรายการแบบแมนนวลทุกครั้งที่พบระหว่างการท่องเว็บว่าเขียนโดย generative AI
- ระบุชัดว่าไม่ได้ใช้เครื่องมืออัตโนมัติ เพราะ การตัดสินด้วยอัลกอริทึมว่าเนื้อหาถูกสร้างโดย AI หรือไม่นั้นทำได้ยาก
เป้าหมายของโปรเจกต์
- เว็บไซต์ที่เขียนโดย generative AI มัก ขาดข้อมูลที่มีประโยชน์ และมีโครงสร้างที่มุ่งหารายได้จากโฆษณาและลิงก์แนะนำ
- คอนเทนต์ที่เขียนโดย AI อาจ ถูกเผยแพร่จำนวนมากโดยไม่ผ่านการตรวจสอบ และมีข้อมูลอันตรายปะปนอยู่
- ยกตัวอย่างความเป็นไปได้ของ คำแนะนำที่เป็นอันตราย เช่น การทำให้วงจรลัดวงจร การรันคำสั่ง
rm -rf / หรือการผสมสารฟอกขาวกับแอมโมเนีย
- ด้วยเหตุนี้ คอนเทนต์ที่สร้างโดย AI จึงไม่น่าเชื่อถือและควรถูกบล็อก
- ผู้จัดทำเป็นชาวอิตาลี จึงมี เว็บไซต์ภาษาอิตาลีรวมอยู่จำนวนมาก และ ยินดีรับการมีส่วนร่วมเพื่อเพิ่มเว็บไซต์ภาษาอื่น
วิธีเพิ่มเว็บไซต์
- ผู้ใช้ที่ไม่มีความรู้ทางเทคนิคสามารถรายงานเว็บไซต์ต้องสงสัยผ่าน GitHub Issue ได้
- หากเพิ่มเองผ่าน Pull Request ก็สามารถบล็อกได้ทั้งในระดับ โดเมน หรือ พาธของบล็อกเฉพาะส่วน
- ตัวอย่าง:
||example.com/@slopUser^$doc หรือรูปแบบ ||example.com^$doc
- หากองค์กรที่ขายบริการ SEO และ digital marketing ดูแลฟาร์มคอนเทนต์หลายแห่ง ก็แนะนำให้เพิ่มเว็บไซต์ที่เกี่ยวข้องเข้าไปด้วย
เกณฑ์การระบุฟาร์มคอนเทนต์ AI
- บทนำและบทสรุปที่ไม่จำเป็น, หัวข้อเกินจริงอย่าง ‘Comprehensive Guide’, ไม่มีลิงก์ภายนอกหรือแหล่งอ้างอิง, มีลิงก์แนะนำจำนวนมาก
- มีโพสต์นับพันภายในช่วงเวลาสั้น ๆ, ข้อมูลผิดพลาด (hallucination), โพสต์หลังเดือนพฤศจิกายน 2022, ภาพและโลโก้ที่สร้างโดย AI
- ข้อความที่จัดรูปแบบอย่างหยาบ, ไวยากรณ์ Markdown ที่ไม่ถูกเรนเดอร์, ข้อความยาวที่ไม่เกี่ยวกับหัวข้อ, ปรากฏซ้ำในอันดับต้น ๆ ของผลการค้นหา
- ไม่มีข้อมูลติดต่อ, หน้าแนะนำเว็บไซต์ที่คลุมเครือ, คอนเทนต์ที่ยกย่อง AI ก็ถูกยกเป็นลักษณะสำคัญเช่นกัน
การใช้ Google Dorks
- ในกรณีที่มีการคัดลอกประโยคที่ AI สร้างขึ้นมาโพสต์แบบตรงตัว สามารถ ค้นหาหน้า AI ได้ด้วยการค้นหาวลีเฉพาะ
- ตัวอย่าง:
"Sure! Here's an article about" (ภาษาอังกฤษ), "Certo! Ecco un articolo" (ภาษาอิตาลี)
- หน้าที่มีวลีเหล่านี้จะถูก เพิ่มทั้งโดเมนเข้าไปในบัญชีดำ
โปรเจกต์ที่คล้ายกัน
1 ความคิดเห็น
ความเห็นจาก Hacker News
ไอเดียนี้น่าสนใจ และฉันก็คิดจะช่วยเพิ่มรายการด้วย แต่พอเห็นคำว่า “Cry about it” ใน FAQ ก็หยุดเลย
ฉันคิดว่าท่าทีแบบนี้ไม่เหมาะกับการดูแลแบล็กลิสต์แบบสาธารณะ ให้ความรู้สึกราวกับผู้ดูแลเชื่อว่าตัวเอง ไม่มีวันผิดพลาด
ฉันส่งคำขอให้ปลดบล็อกไปแล้วแต่ไม่ได้รับคำตอบ และจนถึงตอนนี้ก็ยังถูกบล็อกอยู่
ในมุมที่ใช้งานได้จริงกว่า มีลิสต์ใหม่ที่บล็อกเฉพาะ คอนเทนต์ฟาร์ม หรือเว็บคุณภาพต่ำ
ดูจะเป็นทางเลือกที่ดีกว่าลิสต์บล็อก AI แบบกว้าง ๆ เดิม
ดูได้ที่ uBlockOrigin-HUGE-AI-Blocklist
บน Reddit ก็มีการถกเถียงที่เกี่ยวข้องอย่างคึกคัก
ฉันแชร์ขั้นตอนการค้นหาและรายการไว้ใน gist
ยิ่งเวลาผ่านไป ปัญหา การตรวจจับผิดพลาด ก็ยิ่งหนักขึ้น โดเมนอาจถูกขาย เว็บอาจเปลี่ยนทิศทาง หรือคอนเทนต์อาจถูกลบไปแล้ว
ถ้ามีท่าทีแบบ “Cry about it” มันก็จะกลายเป็นแค่ หลุมดำแห่งการหมิ่นประมาท อย่างน้อยก็ควรมี กลไกหมดอายุหรือการทบทวนซ้ำ
ใน Ublock Origin มีลิสต์บล็อก “AI widget” อยู่แล้ว ฟีเจอร์นี้เป็นเหตุผลที่ทำให้ฉันยังใช้ Firefox อยู่ ส่วนบน Chromium นั้นแทบไม่มีประโยชน์
ฉันเห็นด้วยกับหลักการ แต่ท่าทีแบบ “เขียนด้วย AI ก็เพราะฝีมือไม่ถึง” นั้น ไม่ยุติธรรมกับผู้ใช้ Grammarly หรือคนที่ไม่ได้ใช้ภาษาอังกฤษเป็นภาษาแม่
ไม่ว่าอย่างไร โปรเจกต์นี้ไม่ได้เล็งไปที่นักเขียนรายบุคคล แต่เล็งไปที่ คอนเทนต์ฟาร์ม ดังนั้นประเด็นจึงต่างกัน
ดูเหมือนว่าผู้จัดทำลิสต์จะเล็งไปที่ ฟาร์มบอต AI
ถึงอย่างนั้น ตอนนี้บนอินเทอร์เน็ตก็ยังไม่มี ไวต์ลิสต์ เกิดขึ้น
มีคนใช้เครื่องมือที่ ตัดสินจาก trope เพื่อดูว่าบทความเขียนโดย AI หรือไม่ และพยายามกู้พรอมป์ต์ต้นฉบับกลับมา
tropes.fyi/aidr
ทิศทางแบบนี้ถือว่าดี อยากให้สามารถ บล็อกตามหมวดหมู่ของเว็บไซต์ ได้หลากหลายกว่านี้
ในสภาพแวดล้อมองค์กร มักใช้บริการจัดอันดับความน่าเชื่อถือของ URL เพื่อจัดหมวดหมู่เว็บและควบคุมการเข้าถึง
ฉันคิดว่าผู้ใช้ทั่วไปก็ควรมีโครงสร้างพื้นฐานแบบนี้ที่รองรับด้วย การระดมทุนจากสาธารณะ
เช่น ถ้ามีกองทุนไม่แสวงหากำไรปีละ 1 พันล้านดอลลาร์ เพื่อสร้างระบบนิเวศที่เชื่อถือได้สำหรับเบราว์เซอร์, VPN, DNS, อีเมล, หน่วยงานรับรอง ฯลฯ ก็คงดี
ยังมีส่วนขยายอย่าง botblock.ai ที่ตรวจจับคำตอบจาก AI บน Twitter ได้ด้วย
ภาพหลักฐาน
ถ้าเว็บไหนมีโฆษณาเยอะเกินไป ฉันก็มักจะปิดเว็บนั้นเลย ถ้าโครงสร้างโฆษณาสมเหตุสมผลก็ยังใช้งานต่อ
ฉันเหนื่อยกับ สงครามแอดบล็อก แล้ว ทุกครั้งก็มีชื่อปลั๊กอินใหม่โผล่มา รู้สึกเหมือนเป็นการแข่งขันที่ไม่มีวันจบ