12 คะแนน โดย xguru 2020-12-11 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • เครื่องมือที่ช่วยครอว์ลเว็บไซต์บนเครื่องโลคัลเพื่อวิเคราะห์ SEO

→ ตรวจสอบแท็ก H1, H2 และข้อมูล Meta

→ ดึงข้อมูลของแต่ละหน้าด้วย XPath และ CSS selector

→ ตรวจสอบสถานะด้วยตัวแยกวิเคราะห์ Robots.txt

→ ตรวจสอบลิงก์เสียและรหัสสถานะ (3xx, 4xx, 5xx)

→ สามารถยกเว้น URL ต่าง ๆ ด้วยตัวกรอง

  • มีไฟล์รันสำหรับ Windows/Mac/Linux

  • ส่งออกผลการครอว์ลเป็น CSV (บันทึกลงใน sqlite ภายใน)

  • รันได้แม้บนเครื่องสเปกต่ำ และไม่มีข้อจำกัดด้านขนาด

→ ทดสอบแล้วกับเว็บไซต์ที่มีมากกว่า 4 ล้านหน้า

  • มีให้ทั้งโค้ด Python และแพ็กเกจบน PyPI (pip install greenflare)

1 ความคิดเห็น

 
xguru 2020-12-11

พอลองทดสอบดูแล้ว มันดึงและประมวลผล URL ได้ค่อนข้างเร็ว

ใช้เวลาไม่นานเลยในการอ่าน URL 5000 รายการ

แต่ฝั่งเซิร์ฟเวอร์อาจมีภาระโหลดได้ด้วย กรุณาใช้อย่างเบามือด้วยนะครับ ^^