เซิร์ฟเวอร์ Git ของฉันไม่เสถียรเพราะ AI crawler ของ Amazon

(xeiaso.net)

1 คะแนน โดย GN⁺ 2025-01-19 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

เซิร์ฟเวอร์ Git ของฉันไม่เสถียรเพราะ AI crawler ของ Amazon
บล็อกสนับสนุน: หากคุณชอบบล็อกนี้ สามารถสนับสนุน Xe บน Patreon ได้
สมัคร Patreon: โฆษณา EthicalAds
แก้ไข (2025-01-18 23:50 UTC): ฉันเขียนพร็อกซีที่ทำการตรวจสอบ proof-of-work ก่อนอนุญาตคำขอไปยังเซิร์ฟเวอร์ Gitea ตั้งชื่อมันว่า Anubis และจะเขียนบล็อกโพสต์เกี่ยวกับมันในเร็ว ๆ นี้ ตอนนี้ดูได้ที่ https://git.xeserv.us/ ยังหยาบอยู่บ้าง แต่ใช้งานได้ดีพอ
แก้ไข (2025-01-18 19:00 UTC): ยอมแพ้แล้ว ย้ายเซิร์ฟเวอร์ Gitea ไปไว้หลัง VPN กำลังทำ reverse proxy แบบ proof-of-work เพื่อปกป้องเซิร์ฟเวอร์จากบอต จะเปิดกลับมาอีกครั้งในเร็ว ๆ นี้
แก้ไข (2025-01-17 17:50 UTC): เพิ่มสไนเป็ตต่อไปนี้ลงในการตั้งค่า ingress:
```
nginx.ingress.kubernetes.io/configuration-snippet: |
  if ($http_user_agent ~* "(Amazon)" ){
    return 418;
  }
```
บอตยังคงโจมตีจาก IP อื่นอยู่ ประมาณ 10% ของคำขอไม่มี user agent ของ amazonbot ฉันไม่รู้ว่าควรทำอะไรต่อไป เกลียดอนาคต
คำขอความช่วยเหลือ: ฉันขอให้คนที่ดูแล AmazonBot เพิ่ม git.xeserv.us ลงในรายการโดเมนที่ถูกบล็อก หากคุณรู้จักใครที่ Amazon โปรดช่วยส่งต่อข้อความนี้ หากต้องการ crawl เซิร์ฟเวอร์ Git โปรดติดต่อมาเพื่อจ่ายค่าใช้จ่ายให้สอดคล้องกับการอัปเกรดฮาร์ดแวร์ที่จำเป็น ฉันไม่อยากปิดเซิร์ฟเวอร์ Gitea จากสาธารณะ แต่ถ้าจำเป็นก็จะทำ การบล็อกบอต AI crawler นั้นไร้ความหมาย บอตโกหก เปลี่ยน user agent และใช้ IP ที่อยู่อาศัยเป็นพร็อกซี ฉันหวังว่าคำขอเหล่านี้จะหยุดลง
ฉันได้ตั้งค่าไฟล์ robots.txt ให้บล็อกบอตทั้งหมดไว้แล้ว:
```
User-agent: *
Disallow: /
```
ฉันไม่รู้ว่ายังต้องทำอะไรอีก

1 ความคิดเห็น

GN⁺ 2025-01-19

ความคิดเห็นจาก Hacker News

อาจลองแก้ปัญหาโดยให้ทนายร่างจดหมาย "cease and desist" ที่ชัดเจนและส่งไปยัง Amazon
- หาก Amazon ไม่หยุด อาจดึงความสนใจได้ด้วยการแจ้งความดำเนินคดีอาญา
มีข้อเสนอให้เพิ่มลิงก์ในเว็บไซต์ที่มนุษย์จะไม่เข้าไปเปิด และระบุห้ามไว้ใน robots.txt เพื่อบล็อก AI crawler
- หาก IP ใดเข้าชมลิงก์นั้น ให้บล็อกเป็นเวลา 24 ชั่วโมง
บอต AI และ SEO แทบไม่ปฏิบัติตาม robots.txt และบล็อกได้ยาก
- หาก AI crawler ต้องการเข้าถึง ก็ควรทำตามกฎหรือจ่ายค่าใช้จ่าย
อาจเป็นไปได้ว่ามีผู้เล่นรายอื่นที่ไม่ใช่ Amazon ปลอมตัวเป็น AI crawler
- การใช้ IP ที่อยู่อาศัยแบบหมุนเวียนและสตริง user-agent ที่เปลี่ยนไปมาดูน่าสงสัย
มีปัญหาการใช้ CPU พุ่งสูงบนเซิร์ฟเวอร์ส่วนตัวเพราะ AI crawler
- ลดปัญหาได้บ้างด้วย robots.txt และรายการบล็อกตาม user-agent แต่ยังไม่แน่ใจว่าจะได้ผลต่อเนื่องหรือไม่
มีความเห็นว่าแทนที่จะบล็อก AI crawler อาจแก้ปัญหาโดยส่งเนื้อหาที่เป็นพิษกลับไป
- หาก Amazon ตรวจพบ อาจยอมจ่ายต้นทุนเพื่อแก้ปัญหา
มีการตั้งข้อสงสัยว่าอาจเป็นการโจมตี DDoS ที่ปลอมตัวเป็น Amazon
- การที่คำขอมาจาก IP ที่อยู่อาศัยดูน่าสงสัย
เว็บไซต์ Pinboard ก็มีทราฟฟิกพุ่งขึ้นอย่างมากจาก AI crawler จนเว็บล่ม
- ไม่สามารถบล็อกตามช่วง IP ได้ จึงต้องใช้ CAPTCHA
มีความเห็นว่าอยากให้ Amazon ชดเชยค่าใช้จ่ายทราฟฟิกส่วนเกินด้วย AWS credits
- คาดหวังว่าอาจหักลบได้ด้วยรายได้จากโฆษณา
ก่อนตั้งค่า Nginx เพื่อบล็อก Bytespider และ Amazonbot กินทราฟฟิกทั้งหมดถึง 80%
- ClaudeBot ทำให้ Redmine มีทราฟฟิกในเดือนเดียวมากกว่าตลอด 5 ปีที่ผ่านมา

เซิร์ฟเวอร์ Git ของฉันไม่เสถียรเพราะ AI crawler ของ Amazon

เซิร์ฟเวอร์ Git ของฉันไม่เสถียรเพราะ AI crawler ของ Amazon

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News