• Archiver สำหรับ Multi-Page Application (MPA) ที่ครอว์ลเว็บแอปแบบหลายหน้าใส่ลงในไฟล์ Zip และสามารถเสิร์ฟได้ทันที
  • เมื่อรัน mpa http://example.net จะครอว์ลแบบ recursive โดยใช้ Puppeteer แบบ headless (ใช้เธรดจำนวน CPU / 2)
  • ดึง Sitemap มาใช้เป็น seed point
  • ครอว์ลเฉพาะ URL ของไซต์ แต่ก็ fetch ทรัพยากรภายนอกด้วย
  • จัดเก็บทรัพยากรของไซต์ไว้ด้วย
  • สร้าง mpa/sitemap.txt และ mpa/sitemap.xml
  • หากหยุดกลางคันสามารถเริ่มต่อได้ โดยบันทึก checkpoint ทุก ๆ 250 URL
  • ในกรณีของ SPA สามารถใช้ตัวเลือก --spa เพื่อบันทึก HTML ต้นฉบับได้

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น