-
เซิร์ฟเวอร์ Git ของฉันไม่เสถียรเพราะ AI crawler ของ Amazon
-
บล็อกสนับสนุน: หากคุณชอบบล็อกนี้ สามารถสนับสนุน Xe บน Patreon ได้
-
สมัคร Patreon: โฆษณา EthicalAds
-
แก้ไข (2025-01-18 23:50 UTC): ฉันเขียนพร็อกซีที่ทำการตรวจสอบ proof-of-work ก่อนอนุญาตคำขอไปยังเซิร์ฟเวอร์ Gitea ตั้งชื่อมันว่า Anubis และจะเขียนบล็อกโพสต์เกี่ยวกับมันในเร็ว ๆ นี้ ตอนนี้ดูได้ที่ https://git.xeserv.us/ ยังหยาบอยู่บ้าง แต่ใช้งานได้ดีพอ
-
แก้ไข (2025-01-18 19:00 UTC): ยอมแพ้แล้ว ย้ายเซิร์ฟเวอร์ Gitea ไปไว้หลัง VPN กำลังทำ reverse proxy แบบ proof-of-work เพื่อปกป้องเซิร์ฟเวอร์จากบอต จะเปิดกลับมาอีกครั้งในเร็ว ๆ นี้
-
แก้ไข (2025-01-17 17:50 UTC): เพิ่มสไนเป็ตต่อไปนี้ลงในการตั้งค่า ingress:
nginx.ingress.kubernetes.io/configuration-snippet: | if ($http_user_agent ~* "(Amazon)" ){ return 418; }บอตยังคงโจมตีจาก IP อื่นอยู่ ประมาณ 10% ของคำขอไม่มี user agent ของ amazonbot ฉันไม่รู้ว่าควรทำอะไรต่อไป เกลียดอนาคต
-
คำขอความช่วยเหลือ: ฉันขอให้คนที่ดูแล AmazonBot เพิ่ม
git.xeserv.usลงในรายการโดเมนที่ถูกบล็อก หากคุณรู้จักใครที่ Amazon โปรดช่วยส่งต่อข้อความนี้ หากต้องการ crawl เซิร์ฟเวอร์ Git โปรดติดต่อมาเพื่อจ่ายค่าใช้จ่ายให้สอดคล้องกับการอัปเกรดฮาร์ดแวร์ที่จำเป็น ฉันไม่อยากปิดเซิร์ฟเวอร์ Gitea จากสาธารณะ แต่ถ้าจำเป็นก็จะทำ การบล็อกบอต AI crawler นั้นไร้ความหมาย บอตโกหก เปลี่ยน user agent และใช้ IP ที่อยู่อาศัยเป็นพร็อกซี ฉันหวังว่าคำขอเหล่านี้จะหยุดลง -
ฉันได้ตั้งค่าไฟล์
robots.txtให้บล็อกบอตทั้งหมดไว้แล้ว:User-agent: * Disallow: /ฉันไม่รู้ว่ายังต้องทำอะไรอีก
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
อาจลองแก้ปัญหาโดยให้ทนายร่างจดหมาย "cease and desist" ที่ชัดเจนและส่งไปยัง Amazon
มีข้อเสนอให้เพิ่มลิงก์ในเว็บไซต์ที่มนุษย์จะไม่เข้าไปเปิด และระบุห้ามไว้ใน
robots.txtเพื่อบล็อก AI crawlerบอต AI และ SEO แทบไม่ปฏิบัติตาม
robots.txtและบล็อกได้ยากอาจเป็นไปได้ว่ามีผู้เล่นรายอื่นที่ไม่ใช่ Amazon ปลอมตัวเป็น AI crawler
มีปัญหาการใช้ CPU พุ่งสูงบนเซิร์ฟเวอร์ส่วนตัวเพราะ AI crawler
robots.txtและรายการบล็อกตาม user-agent แต่ยังไม่แน่ใจว่าจะได้ผลต่อเนื่องหรือไม่มีความเห็นว่าแทนที่จะบล็อก AI crawler อาจแก้ปัญหาโดยส่งเนื้อหาที่เป็นพิษกลับไป
มีการตั้งข้อสงสัยว่าอาจเป็นการโจมตี DDoS ที่ปลอมตัวเป็น Amazon
เว็บไซต์ Pinboard ก็มีทราฟฟิกพุ่งขึ้นอย่างมากจาก AI crawler จนเว็บล่ม
มีความเห็นว่าอยากให้ Amazon ชดเชยค่าใช้จ่ายทราฟฟิกส่วนเกินด้วย AWS credits
ก่อนตั้งค่า Nginx เพื่อบล็อก
BytespiderและAmazonbotกินทราฟฟิกทั้งหมดถึง 80%ClaudeBotทำให้ Redmine มีทราฟฟิกในเดือนเดียวมากกว่าตลอด 5 ปีที่ผ่านมา