สถานะของการทำ Web Scraping ในปี 2021

(mihaisplace.blog)

26 คะแนน โดย xguru 2021-10-05 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

→ Python : Scrapy, Beautiful Soup, MechanicalSoup

→ JS : Cheerio, Puppeteer, Apify SDK

→ Java : Jaunt, jsoup

→ Ruby : Kimurai

→ PHP : Goutte

→ Scraper API : รองรับการหมุนเวียนพร็อกซี, การแก้ CAPTCHA, การตรวจจับ anti-bot

→ Apify : มีปลั๊กอินหลายพันรายการที่พัฒนาโดยชุมชน

→ Parsehub : เครื่องมือ no-code แบบชี้และคลิกผ่านแอปเดสก์ท็อป

→ Diffbot : รองรับการดึงข้อมูลด้วยบิ๊กดาต้า/แมชชีนเลิร์นนิงจากข้อมูลบริษัท, รีเทล, ข่าว, ฟอรัม, อีเวนต์ ฯลฯ ที่เก็บจากเว็บ

→ Octoparse : แบบชี้และคลิกเหมือน Parsehub รองรับการหมุน IP, การทำความสะอาดข้อมูลด้วยเครื่องมือ regex และการสแครปข้อมูลขนาดใหญ่

→ ScrapingBee : เครื่องมือ no-code ที่มีฟังก์ชันซับซ้อน

→ ใช้การเชื่อมต่อจาก IP เดียวเท่านั้น

→ ควรครอว์ลในช่วงเวลาที่ไม่ใช่พีคไทม์

→ ปฏิบัติตาม ToS ของเว็บไซต์

→ ปฏิบัติตามกฎของ robots.txt

→ หากครอว์ลเพื่อแสดงคอนเทนต์ในรูปแบบอื่น ควรเป็นโซลูชันที่มีเอกลักษณ์ ไม่ใช่การคัดลอกแบบตรงๆ

→ ปฏิบัติตามกฎ GDPR / CCPA

1 ความคิดเห็น

xguru 2021-10-05

โปรดดูบทความ "Web scraping is now legal" ที่อยู่ด้านล่างของโพสต์นี้ด้วย

นี่คือกรณีที่ LinkedIn ขอให้บริษัทวิเคราะห์ข้อมูล HiQ หยุดการครอว์ลิง แต่ศาลสหรัฐฯ ปฏิเสธคำขอดังกล่าว