문서의 임의 삭제는 제재 대상으로, 문서를 삭제하려면 삭제 토론을 진행해야 합니다. 문서 보기문서 삭제토론 크롤링 (문서 편집) [목차] == 개요 == 크롤링(crawling) 은 [[웹 페이지]]를 그대로 가져와서 거기서 데이터를 추출해 내는 행위다. 크롤링하는 소프트웨어는 [[크롤러]](crawler)라고 부른다. 스크래핑과 햇갈릴 수 있는데, 크롤링은 동적으로 웹페이지를 돌아다니면서 수집하는 것을 말할다. 물론 실생활에서는 구분 없이 쓰는 경우가 많다. [[나무위키]]도 [[리그베다 위키]]를 크롤링해서 시작된 위키며, [[나무위키 미러]] 등은 [[나무위키]]를 크롤링한 곳이다. [[검색 엔진]]에서도 유사한 것을 필수적으로 사용하는데, [[웹]] 상의 다양한 정보를 자동으로 검색하고 색인하기 위해 사용한다. 이때는 스파이더(spider), 봇(bot), 지능 에이전트라고도 한다. 사람들이 일일이 해당 사이트의 정보를 검색하는 것이 아니라 컴퓨터 프로그램의 미리 입력된 방식에 따라 끊임없이 새로운 웹 페이지를 찾아 종합하고, 찾은 결과를 이용해 또 새로운 정보를 찾아 색인을 추가하는 작업을 반복 수행한다. 방대한 자료를 검색하는 특징은 있으나 로봇의 검색 기능을 역이용하여 순위를 조작하거나 검색을 피할 수 있는 단점도 있다. 네이버, 구글 등도 이런 봇을 이용해 운영된다. == 관련 소프트웨어 == 이 분야에서 가장 유명하다고 해도 될 [[https://www.crummy.com/software/BeautifulSoup/|Beautiful Soup]]은 염연히 따지면 크롤링이 아닌 [[스크래핑]] 프로그램이다. 그 외에도 [[Selenium]]이라는 라이브러리가 인기를 끌고 있다. WebDriver[* 코드로 작동되게 할 수 있는 브러우저 창을 띄운다. 물론 브라우저 창이기에 그냥 클릭도 가능하다.]와 headless 옵션을[* webdriver로 창을 띄우지 않고 백그라운드에서 브라우저가 작동되게 한다.] 함께 이용해서 크롤링을 자동화할 수 있다. 그리고 beautifulsoup과 달리 브라우저를 띄우는 방식이기에 beautifulsoup에서 불가능한 작업인 클릭 등 상호작용이 가능하다. [[Java]]에도 [[https://jsoup.org/|jsoup]]이라는 [[HTML]] 파싱 라이브러리가 존재한다. 파이썬의 beautifulsoup처럼 특정 조건을 가진 태그들을 선택하는 것이 가능하며, GET/POST 요청을 보내서 응답을 받아오는 것도 가능하다. 전문적인 크롤링 소프트웨어는 아니지만, 일반인들이 사용할 만한 툴로는 [[https://www.httrack.com|httrack]]과 [[http://opensourcepack.blogspot.kr/p/wget-and-curl.html|wget-curl]] 정도가 있다. 인터넷이 느렸던 2000년대 초반에는 WebZip이라는 것이 인기를 모으기도 하였다. == SaaS(Software as a Service) 서비스 == 소프트웨어가 아닌 웹서비스 형태로 운영되는 크롤링 SaaS 서비스도 있다. 국내에는 [[https://www.hashscraper.com|해시스크래퍼]]와 --[[https://crawlings.co.kr|크롤링즈]]--[* 현재 망한 것으로 보인다.]가 대표적이며, 해외에는 [[https://www.scrapinghub.com|Scrapinghub]]가 있다. == 합법 == [include(틀:상세 내용, 문서명=미러링, 문단=2.2)] [[분류:검색 엔진]]저장 버튼을 클릭하면 당신이 기여한 내용을 CC-BY-NC-SA 2.0 KR으로 배포하고,기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다.이 동의는 철회할 수 없습니다.캡챠저장미리보기