[목차] == 개요 == 크롤링(crawling) 혹은 스크레이핑(scraping)은 [[웹 페이지]]를 그대로 가져와서 거기서 데이터를 추출해 내는 행위다. 크롤링하는 소프트웨어는 [[크롤러]](crawler)라고 부른다. [[나무위키]]도 [[리그베다 위키]]를 크롤링해서 시작된 위키며, [[나무위키 미러]] 등은 [[나무위키]]를 크롤링한 곳이다. [[검색 엔진]]에서도 유사한 것을 필수적으로 사용하는데, [[웹]] 상의 다양한 정보를 자동으로 검색하고 색인하기 위해 사용한다. 이 때는 스파이더(spider), 봇(bot), 지능 에이전트라고도 한다. 사람들이 일일이 해당 사이트의 정보를 검색하는 것이 아니라 컴퓨터 프로그램의 미리 입력된 방식에 따라 끊임없이 새로운 웹 페이지를 찾아 종합하고, 찾은 결과를 이용해 또 새로운 정보를 찾아 색인을 추가하는 작업을 반복 수행한다. 방대한 자료를 검색하는 특징은 있으나 로봇의 검색 기능을 역이용하여 순위를 조작하거나 검색을 피할 수 있는 단점도 있다. 네이버, 구글 등도 이런 봇을 이용해 운영된다. == 관련 소프트웨어 == [[Python]]이 이 분야의 선두주자로서, 컴퓨터 프로그래밍이 익숙하지 않은 비전공자들인 인문학이나 통계 분야의 종사자들이 쓰기 쉽도록 라이브러리들이 발달하면서 급격히 발전하고 있다. 대표적인 파이썬 라이브러리의 예로 [[https://www.crummy.com/software/BeautifulSoup/|beautifulsoup]]등이 있다. --예쁜 [[수프]]-- 그외에도 selenium이라는 라이브러리가 인기를 끌고있다. webdriver와 headless 옵션을 함께 이용해서 웹을 자동화 시킬수도 있다. 전문적인 크롤링 소프트웨어는 아니지만, 일반인들이 사용할 만한 툴로는 [[https://www.httrack.com|httrack]]과 [[http://opensourcepack.blogspot.kr/p/wget-and-curl.html|wget-curl]]가 있다. 크롬 확장 프로그램에서 사용할 수 있는 툴로[[https://chrome.google.com/webstore/detail/web-scraper-free-web-scra/jnhgnonknehpejjnehehllkliplmbmhn|Web Scraper]]가 있고 사용법은 [[https://traceback.co.kr/%ec%9b%b9-%ed%81%ac%eb%a1%a4%eb%a7%81-%ec%9e%90%eb%8f%99%ed%99%94-%ec%8b%9c%ec%9e%91%ed%95%98%ea%b8%b0/|웹 크롤링 자동화 시작하기]]를 참고 해 볼 만하다. 또한 인터넷이 느렸던 2000년대 초반에는 WebZip이라는 것이 인기를 모으기도 하였다. == SaaS(Software as a Service) 서비스 == 소프트웨어가 아닌 웹서비스 형태로 운영되는 크롤링 [[SaaS]] 서비스도 있다. 국내에는 [[https://www.hashscraper.com|해시스크래퍼]]가 대표적이며, 해외에는 [[https://www.scrapinghub.com|Scrapinghub]]가 있다. == 합법 == [include(틀:상세 내용, 문서명=미러링, 문단=1.2)] [[분류:검색 엔진]]