- Archiver สำหรับ Multi-Page Application (MPA) ที่ครอว์ลเว็บแอปแบบหลายหน้าใส่ลงในไฟล์ Zip และสามารถเสิร์ฟได้ทันที
- เมื่อรัน
mpa http://example.net จะครอว์ลแบบ recursive โดยใช้ Puppeteer แบบ headless (ใช้เธรดจำนวน CPU / 2)
- ดึง Sitemap มาใช้เป็น seed point
- ครอว์ลเฉพาะ URL ของไซต์ แต่ก็
fetch ทรัพยากรภายนอกด้วย
- จัดเก็บทรัพยากรของไซต์ไว้ด้วย
- สร้าง
mpa/sitemap.txt และ mpa/sitemap.xml
- หากหยุดกลางคันสามารถเริ่มต่อได้ โดยบันทึก checkpoint ทุก ๆ 250 URL
- ในกรณีของ SPA สามารถใช้ตัวเลือก
--spa เพื่อบันทึก HTML ต้นฉบับได้
ยังไม่มีความคิดเห็น