สถานะของการทำ Web Scraping ในปี 2021
(mihaisplace.blog)-
Web Scraping คืออะไร?
-
เฟรมเวิร์กหลักสำหรับ Web Scraping มีอะไรบ้าง?
→ Python : Scrapy, Beautiful Soup, MechanicalSoup
→ JS : Cheerio, Puppeteer, Apify SDK
→ Java : Jaunt, jsoup
→ Ruby : Kimurai
→ PHP : Goutte
- เฟรมเวิร์ก Web Scraping แบบเสียเงินระดับองค์กร
→ Scraper API : รองรับการหมุนเวียนพร็อกซี, การแก้ CAPTCHA, การตรวจจับ anti-bot
→ Apify : มีปลั๊กอินหลายพันรายการที่พัฒนาโดยชุมชน
→ Parsehub : เครื่องมือ no-code แบบชี้และคลิกผ่านแอปเดสก์ท็อป
→ Diffbot : รองรับการดึงข้อมูลด้วยบิ๊กดาต้า/แมชชีนเลิร์นนิงจากข้อมูลบริษัท, รีเทล, ข่าว, ฟอรัม, อีเวนต์ ฯลฯ ที่เก็บจากเว็บ
→ Octoparse : แบบชี้และคลิกเหมือน Parsehub รองรับการหมุน IP, การทำความสะอาดข้อมูลด้วยเครื่องมือ regex และการสแครปข้อมูลขนาดใหญ่
→ ScrapingBee : เครื่องมือ no-code ที่มีฟังก์ชันซับซ้อน
-
ตัวอย่าง Web Scraping ด้วย Python : ใช้ Beautiful Soup
-
ตัวอย่าง JavaScript (Node.js) : ค้นหา Google ด้วย Puppeteer
-
สิ่งที่ควรทำและไม่ควรทำในการทำ Web Scraping
→ ใช้การเชื่อมต่อจาก IP เดียวเท่านั้น
→ ควรครอว์ลในช่วงเวลาที่ไม่ใช่พีคไทม์
→ ปฏิบัติตาม ToS ของเว็บไซต์
→ ปฏิบัติตามกฎของ robots.txt
→ หากครอว์ลเพื่อแสดงคอนเทนต์ในรูปแบบอื่น ควรเป็นโซลูชันที่มีเอกลักษณ์ ไม่ใช่การคัดลอกแบบตรงๆ
→ ปฏิบัติตามกฎ GDPR / CCPA
1 ความคิดเห็น
โปรดดูบทความ "Web scraping is now legal" ที่อยู่ด้านล่างของโพสต์นี้ด้วย
นี่คือกรณีที่ LinkedIn ขอให้บริษัทวิเคราะห์ข้อมูล HiQ หยุดการครอว์ลิง แต่ศาลสหรัฐฯ ปฏิเสธคำขอดังกล่าว
https://medium.com/@tjwaterman99/…