Tech News

제목2021년 웹 스크래핑 현황2021-10-06 08:55
작성자 Level 10

https://mihaisplace.blog/2021/10/03/the-state-of-web-scraping-in-2021/ 

- 웹 스크래핑이란 ?

- 웹 스크래핑용 메인 프레임워크는 ?

ㅤ→ 파이썬 : Scrapy, Beautiful Soup, MechanicalSoup

ㅤ→ JS : Cheerio, Puppeteer, Apify SDK

ㅤ→ Java : Jaunt, jsoup

ㅤ→ Ruby : Kimurai

ㅤ→ PHP : Goutte

- 기업용 수준의 유료 웹 스크래핑 프레임워크들

ㅤ→ Scraper API : 프록시 로테이션, 캡차 풀기, 안티 봇 체크 지원

ㅤ→ Apify : 커뮤니티에 의해 개발된 수천개의 플러그인 제공

ㅤ→ Parsehub : 데스크탑 앱을 이용한 포인트 앤 클릭 방식 노코드 도구

ㅤ→ Diffbot : 웹에서 수집한 회사/리테일/뉴스/게시판/이벤트 등의 데이터에서 빅데이터/머신러닝을 통한 데이터 추출 지원

ㅤ→ Octoparse : Parsehub처럼 포인트 앤 클릭 방식. IP로테이션 및 정규식 도구를 이용한 데이터 정제, 대용량 스크래핑등을 지원

ㅤ→ ScrapingBee : 복잡한 기능을 제공하는 노 코딩 도구

- 파이썬 웹 스크래핑 예제 : Beautiful Soup 이용

- 자바스크립트(Node.js) 예제 : Puppeteer로 구글 검색

- Do's and Don'ts of Web Scraping

ㅤ→ 한개의 IP연결만 이용할 것

ㅤ→ 피크타임이 아닌 시간에 크롤링 할 것

ㅤ→ 사이트의 ToS 지킬 것

ㅤ→ robots.txt 의 룰 준수

ㅤ→ 콘텐츠를 다른 방식으로 보여주기 위해 크롤링 하는 것이라면, 단순 카피가 아닌 유니크한 솔루션일 것

ㅤ→ GDPR / CCPA 룰 지킬 것

G
M
T
Y
Text-to-speech function is limited to 200 characters
댓글
자동등록방지
(자동등록방지 숫자를 입력해 주세요)