1 คะแนน โดย GN⁺ 2025-01-19 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • เซิร์ฟเวอร์ Git ของฉันไม่เสถียรเพราะ AI crawler ของ Amazon

  • บล็อกสนับสนุน: หากคุณชอบบล็อกนี้ สามารถสนับสนุน Xe บน Patreon ได้

  • สมัคร Patreon: โฆษณา EthicalAds

  • แก้ไข (2025-01-18 23:50 UTC): ฉันเขียนพร็อกซีที่ทำการตรวจสอบ proof-of-work ก่อนอนุญาตคำขอไปยังเซิร์ฟเวอร์ Gitea ตั้งชื่อมันว่า Anubis และจะเขียนบล็อกโพสต์เกี่ยวกับมันในเร็ว ๆ นี้ ตอนนี้ดูได้ที่ https://git.xeserv.us/ ยังหยาบอยู่บ้าง แต่ใช้งานได้ดีพอ

  • แก้ไข (2025-01-18 19:00 UTC): ยอมแพ้แล้ว ย้ายเซิร์ฟเวอร์ Gitea ไปไว้หลัง VPN กำลังทำ reverse proxy แบบ proof-of-work เพื่อปกป้องเซิร์ฟเวอร์จากบอต จะเปิดกลับมาอีกครั้งในเร็ว ๆ นี้

  • แก้ไข (2025-01-17 17:50 UTC): เพิ่มสไนเป็ตต่อไปนี้ลงในการตั้งค่า ingress:

    nginx.ingress.kubernetes.io/configuration-snippet: |
      if ($http_user_agent ~* "(Amazon)" ){
        return 418;
      }
    

    บอตยังคงโจมตีจาก IP อื่นอยู่ ประมาณ 10% ของคำขอไม่มี user agent ของ amazonbot ฉันไม่รู้ว่าควรทำอะไรต่อไป เกลียดอนาคต

  • คำขอความช่วยเหลือ: ฉันขอให้คนที่ดูแล AmazonBot เพิ่ม git.xeserv.us ลงในรายการโดเมนที่ถูกบล็อก หากคุณรู้จักใครที่ Amazon โปรดช่วยส่งต่อข้อความนี้ หากต้องการ crawl เซิร์ฟเวอร์ Git โปรดติดต่อมาเพื่อจ่ายค่าใช้จ่ายให้สอดคล้องกับการอัปเกรดฮาร์ดแวร์ที่จำเป็น ฉันไม่อยากปิดเซิร์ฟเวอร์ Gitea จากสาธารณะ แต่ถ้าจำเป็นก็จะทำ การบล็อกบอต AI crawler นั้นไร้ความหมาย บอตโกหก เปลี่ยน user agent และใช้ IP ที่อยู่อาศัยเป็นพร็อกซี ฉันหวังว่าคำขอเหล่านี้จะหยุดลง

  • ฉันได้ตั้งค่าไฟล์ robots.txt ให้บล็อกบอตทั้งหมดไว้แล้ว:

    User-agent: *
    Disallow: /
    

    ฉันไม่รู้ว่ายังต้องทำอะไรอีก

1 ความคิดเห็น

 
GN⁺ 2025-01-19
ความคิดเห็นจาก Hacker News
  • อาจลองแก้ปัญหาโดยให้ทนายร่างจดหมาย "cease and desist" ที่ชัดเจนและส่งไปยัง Amazon

    • หาก Amazon ไม่หยุด อาจดึงความสนใจได้ด้วยการแจ้งความดำเนินคดีอาญา
  • มีข้อเสนอให้เพิ่มลิงก์ในเว็บไซต์ที่มนุษย์จะไม่เข้าไปเปิด และระบุห้ามไว้ใน robots.txt เพื่อบล็อก AI crawler

    • หาก IP ใดเข้าชมลิงก์นั้น ให้บล็อกเป็นเวลา 24 ชั่วโมง
  • บอต AI และ SEO แทบไม่ปฏิบัติตาม robots.txt และบล็อกได้ยาก

    • หาก AI crawler ต้องการเข้าถึง ก็ควรทำตามกฎหรือจ่ายค่าใช้จ่าย
  • อาจเป็นไปได้ว่ามีผู้เล่นรายอื่นที่ไม่ใช่ Amazon ปลอมตัวเป็น AI crawler

    • การใช้ IP ที่อยู่อาศัยแบบหมุนเวียนและสตริง user-agent ที่เปลี่ยนไปมาดูน่าสงสัย
  • มีปัญหาการใช้ CPU พุ่งสูงบนเซิร์ฟเวอร์ส่วนตัวเพราะ AI crawler

    • ลดปัญหาได้บ้างด้วย robots.txt และรายการบล็อกตาม user-agent แต่ยังไม่แน่ใจว่าจะได้ผลต่อเนื่องหรือไม่
  • มีความเห็นว่าแทนที่จะบล็อก AI crawler อาจแก้ปัญหาโดยส่งเนื้อหาที่เป็นพิษกลับไป

    • หาก Amazon ตรวจพบ อาจยอมจ่ายต้นทุนเพื่อแก้ปัญหา
  • มีการตั้งข้อสงสัยว่าอาจเป็นการโจมตี DDoS ที่ปลอมตัวเป็น Amazon

    • การที่คำขอมาจาก IP ที่อยู่อาศัยดูน่าสงสัย
  • เว็บไซต์ Pinboard ก็มีทราฟฟิกพุ่งขึ้นอย่างมากจาก AI crawler จนเว็บล่ม

    • ไม่สามารถบล็อกตามช่วง IP ได้ จึงต้องใช้ CAPTCHA
  • มีความเห็นว่าอยากให้ Amazon ชดเชยค่าใช้จ่ายทราฟฟิกส่วนเกินด้วย AWS credits

    • คาดหวังว่าอาจหักลบได้ด้วยรายได้จากโฆษณา
  • ก่อนตั้งค่า Nginx เพื่อบล็อก Bytespider และ Amazonbot กินทราฟฟิกทั้งหมดถึง 80%

    • ClaudeBot ทำให้ Redmine มีทราฟฟิกในเดือนเดียวมากกว่าตลอด 5 ปีที่ผ่านมา