26 คะแนน โดย xguru 2021-10-05 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Web Scraping คืออะไร?

  • เฟรมเวิร์กหลักสำหรับ Web Scraping มีอะไรบ้าง?

→ Python : Scrapy, Beautiful Soup, MechanicalSoup

→ JS : Cheerio, Puppeteer, Apify SDK

→ Java : Jaunt, jsoup

→ Ruby : Kimurai

→ PHP : Goutte

  • เฟรมเวิร์ก Web Scraping แบบเสียเงินระดับองค์กร

→ Scraper API : รองรับการหมุนเวียนพร็อกซี, การแก้ CAPTCHA, การตรวจจับ anti-bot

→ Apify : มีปลั๊กอินหลายพันรายการที่พัฒนาโดยชุมชน

→ Parsehub : เครื่องมือ no-code แบบชี้และคลิกผ่านแอปเดสก์ท็อป

→ Diffbot : รองรับการดึงข้อมูลด้วยบิ๊กดาต้า/แมชชีนเลิร์นนิงจากข้อมูลบริษัท, รีเทล, ข่าว, ฟอรัม, อีเวนต์ ฯลฯ ที่เก็บจากเว็บ

→ Octoparse : แบบชี้และคลิกเหมือน Parsehub รองรับการหมุน IP, การทำความสะอาดข้อมูลด้วยเครื่องมือ regex และการสแครปข้อมูลขนาดใหญ่

→ ScrapingBee : เครื่องมือ no-code ที่มีฟังก์ชันซับซ้อน

  • ตัวอย่าง Web Scraping ด้วย Python : ใช้ Beautiful Soup

  • ตัวอย่าง JavaScript (Node.js) : ค้นหา Google ด้วย Puppeteer

  • สิ่งที่ควรทำและไม่ควรทำในการทำ Web Scraping

→ ใช้การเชื่อมต่อจาก IP เดียวเท่านั้น

→ ควรครอว์ลในช่วงเวลาที่ไม่ใช่พีคไทม์

→ ปฏิบัติตาม ToS ของเว็บไซต์

→ ปฏิบัติตามกฎของ robots.txt

→ หากครอว์ลเพื่อแสดงคอนเทนต์ในรูปแบบอื่น ควรเป็นโซลูชันที่มีเอกลักษณ์ ไม่ใช่การคัดลอกแบบตรงๆ

→ ปฏิบัติตามกฎ GDPR / CCPA

1 ความคิดเห็น

 
xguru 2021-10-05

โปรดดูบทความ "Web scraping is now legal" ที่อยู่ด้านล่างของโพสต์นี้ด้วย

นี่คือกรณีที่ LinkedIn ขอให้บริษัทวิเคราะห์ข้อมูล HiQ หยุดการครอว์ลิง แต่ศาลสหรัฐฯ ปฏิเสธคำขอดังกล่าว

https://medium.com/@tjwaterman99/…