39 คะแนน โดย xguru 2022-08-15 | 6 ความคิดเห็น | แชร์ทาง WhatsApp

คำตอบต่อคำถามบน HN

  • Playwright : หน้าเว็บจำนวนมากขึ้นต้องการการรัน JS จึงทำให้เครื่องมืออัตโนมัติของเบราว์เซอร์ใช้งานสะดวก
  • Beautiful Soup : แพ็กเกจ Python ที่สะดวกสำหรับการสร้างแอปสแครปหลากหลายแบบ
  • บนเชลล์ใช้ cURL + pup(มาร์กอัป)/cskit(CSV)/jq(JSON)/psql(DB)
  • Browserflow : เครื่องมืออัตโนมัติงานบนเว็บเบราว์เซอร์
  • curl-impersonate : เวอร์ชัน fork ที่ดึงเว็บไซต์มาได้เหมือนเบราว์เซอร์
  • Helium : Selenium-Python ที่ใช้งานง่ายกว่า
  • undetected_chromedriver : Selenium Chromedriver แบบปรับแต่งที่ผ่านการตรวจบอตของ CloudFlare ได้
  • estela : elastic web scraping cluster ที่ทำงานบน Kubernetes

6 ความคิดเห็น

 
yangeok 2022-08-24

ได้ยินมาว่าหลังจากทีม puppeteer ถูกรวมเข้าไปอยู่กับ ms ก็เลยกลายมาเป็น playwright แบบนั้นเลย

 
youth 2022-08-15

ดูเหมือนว่าเครื่องมืออย่าง Playwright และ Scrapy จะดีเพราะฝั่งผู้พัฒนาดูแลบำรุงรักษาได้ดี
ส่วนตัวแล้วผมใช้ปลั๊กอิน scrapy-playwright บ่อยมาก

 
vwjdalsgkv 2022-08-15

พอไม่เห็น Peppeteer ก็เลยเดาว่าหลายคนน่าจะย้ายไปใช้ Playwright กันเยอะแล้วสินะ

 
xguru 2022-08-16

แม้แต่ในคอมเมนต์ คนที่ได้ลองใช้จริงส่วนใหญ่ก็บอกว่า Playwright ดี

 
jjpark78 2022-08-15

ขอโหวตให้ Playwright

 
cometkim 2022-08-15

ผมใช้ HTMLRewriter ของ Cloudflare บ่อยครับ