ณ ปี 2022 เครื่องมือทำเว็บสแครปที่ดีที่สุดคืออะไร?
(news.ycombinator.com)คำตอบต่อคำถามบน HN
- Playwright : หน้าเว็บจำนวนมากขึ้นต้องการการรัน JS จึงทำให้เครื่องมืออัตโนมัติของเบราว์เซอร์ใช้งานสะดวก
- Beautiful Soup : แพ็กเกจ Python ที่สะดวกสำหรับการสร้างแอปสแครปหลากหลายแบบ
- บนเชลล์ใช้ cURL + pup(มาร์กอัป)/cskit(CSV)/jq(JSON)/psql(DB)
- Browserflow : เครื่องมืออัตโนมัติงานบนเว็บเบราว์เซอร์
- curl-impersonate : เวอร์ชัน fork ที่ดึงเว็บไซต์มาได้เหมือนเบราว์เซอร์
- Helium : Selenium-Python ที่ใช้งานง่ายกว่า
- undetected_chromedriver : Selenium Chromedriver แบบปรับแต่งที่ผ่านการตรวจบอตของ CloudFlare ได้
- estela : elastic web scraping cluster ที่ทำงานบน Kubernetes
6 ความคิดเห็น
ได้ยินมาว่าหลังจากทีม puppeteer ถูกรวมเข้าไปอยู่กับ ms ก็เลยกลายมาเป็น playwright แบบนั้นเลย
ดูเหมือนว่าเครื่องมืออย่าง Playwright และ Scrapy จะดีเพราะฝั่งผู้พัฒนาดูแลบำรุงรักษาได้ดี
ส่วนตัวแล้วผมใช้ปลั๊กอิน
scrapy-playwrightบ่อยมากพอไม่เห็น Peppeteer ก็เลยเดาว่าหลายคนน่าจะย้ายไปใช้ Playwright กันเยอะแล้วสินะ
แม้แต่ในคอมเมนต์ คนที่ได้ลองใช้จริงส่วนใหญ่ก็บอกว่า Playwright ดี
ขอโหวตให้ Playwright
ผมใช้ HTMLRewriter ของ Cloudflare บ่อยครับ