https://mihaisplace.blog/2021/10/03/the-state-of-web-scraping-in-2021/
- 웹 스크래핑이란 ?
- 웹 스크래핑용 메인 프레임워크는 ?
ㅤ→ 파이썬 : Scrapy, Beautiful Soup, MechanicalSoup
ㅤ→ JS : Cheerio, Puppeteer, Apify SDK
ㅤ→ Java : Jaunt, jsoup
ㅤ→ Ruby : Kimurai
ㅤ→ PHP : Goutte
- 기업용 수준의 유료 웹 스크래핑 프레임워크들
ㅤ→ Scraper API : 프록시 로테이션, 캡차 풀기, 안티 봇 체크 지원
ㅤ→ Apify : 커뮤니티에 의해 개발된 수천개의 플러그인 제공
ㅤ→ Parsehub : 데스크탑 앱을 이용한 포인트 앤 클릭 방식 노코드 도구
ㅤ→ Diffbot : 웹에서 수집한 회사/리테일/뉴스/게시판/이벤트 등의 데이터에서 빅데이터/머신러닝을 통한 데이터 추출 지원
ㅤ→ Octoparse : Parsehub처럼 포인트 앤 클릭 방식. IP로테이션 및 정규식 도구를 이용한 데이터 정제, 대용량 스크래핑등을 지원
ㅤ→ ScrapingBee : 복잡한 기능을 제공하는 노 코딩 도구
- 파이썬 웹 스크래핑 예제 : Beautiful Soup 이용
- 자바스크립트(Node.js) 예제 : Puppeteer로 구글 검색
- Do's and Don'ts of Web Scraping
ㅤ→ 한개의 IP연결만 이용할 것
ㅤ→ 피크타임이 아닌 시간에 크롤링 할 것
ㅤ→ 사이트의 ToS 지킬 것
ㅤ→ robots.txt 의 룰 준수
ㅤ→ 콘텐츠를 다른 방식으로 보여주기 위해 크롤링 하는 것이라면, 단순 카피가 아닌 유니크한 솔루션일 것
ㅤ→ GDPR / CCPA 룰 지킬 것
Detect language Afrikaans Albanian Amharic Arabic Armenian Azerbaijani Basque Belarusian Bengali Bosnian Bulgarian Catalan Cebuano Chichewa Chinese (Simplified) Chinese (Traditional) Corsican Croatian Czech Danish Dutch English Esperanto Estonian Filipino Finnish French Frisian Galician Georgian German Greek Gujarati Haitian Creole Hausa Hawaiian Hebrew Hindi Hmong Hungarian Icelandic Igbo Indonesian Irish Italian Japanese Javanese Kannada Kazakh Khmer Korean Kurdish Kyrgyz Lao Latin Latvian Lithuanian Luxembourgish Macedonian Malagasy Malay Malayalam Maltese Maori Marathi Mongolian Myanmar (Burmese) Nepali Norwegian Pashto Persian Polish Portuguese Punjabi Romanian Russian Samoan Scots Gaelic Serbian Sesotho Shona Sindhi Sinhala Slovak Slovenian Somali Spanish Sundanese Swahili Swedish Tajik Tamil Telugu Thai Turkish Ukrainian Urdu Uzbek Vietnamese Welsh Xhosa Yiddish Yoruba Zulu
Afrikaans Albanian Amharic Arabic Armenian Azerbaijani Basque Belarusian Bengali Bosnian Bulgarian Catalan Cebuano Chichewa Chinese (Simplified) Chinese (Traditional) Corsican Croatian Czech Danish Dutch English Esperanto Estonian Filipino Finnish French Frisian Galician Georgian German Greek Gujarati Haitian Creole Hausa Hawaiian Hebrew Hindi Hmong Hungarian Icelandic Igbo Indonesian Irish Italian Japanese Javanese Kannada Kazakh Khmer Korean Kurdish Kyrgyz Lao Latin Latvian Lithuanian Luxembourgish Macedonian Malagasy Malay Malayalam Maltese Maori Marathi Mongolian Myanmar (Burmese) Nepali Norwegian Pashto Persian Polish Portuguese Punjabi Romanian Russian Samoan Scots Gaelic Serbian Sesotho Shona Sindhi Sinhala Slovak Slovenian Somali Spanish Sundanese Swahili Swedish Tajik Tamil Telugu Thai Turkish Ukrainian Urdu Uzbek Vietnamese Welsh Xhosa Yiddish Yoruba Zulu
Text-to-speech function is limited to 200 characters