크롤링

덤프버전 :

1. 개요
2. 관련 소프트웨어
3. SaaS(Software as a Service) 서비스
4. 합법



1. 개요[편집]


크롤링(crawling) 은 웹 페이지를 그대로 가져와서 거기서 데이터를 추출해 내는 행위다. 크롤링하는 소프트웨어는 크롤러(crawler)라고 부른다.

스크래핑과 햇갈릴 수 있는데, 크롤링은 동적으로 웹페이지를 돌아다니면서 수집하는 것을 말할다. 물론 실생활에서는 구분 없이 쓰는 경우가 많다.

나무위키리그베다 위키를 크롤링해서 시작된 위키며, 나무위키 미러 등은 나무위키를 크롤링한 곳이다.

검색 엔진에서도 유사한 것을 필수적으로 사용하는데, 상의 다양한 정보를 자동으로 검색하고 색인하기 위해 사용한다. 이때는 스파이더(spider), 봇(bot), 지능 에이전트라고도 한다. 사람들이 일일이 해당 사이트의 정보를 검색하는 것이 아니라 컴퓨터 프로그램의 미리 입력된 방식에 따라 끊임없이 새로운 웹 페이지를 찾아 종합하고, 찾은 결과를 이용해 또 새로운 정보를 찾아 색인을 추가하는 작업을 반복 수행한다. 방대한 자료를 검색하는 특징은 있으나 로봇의 검색 기능을 역이용하여 순위를 조작하거나 검색을 피할 수 있는 단점도 있다. 네이버, 구글 등도 이런 봇을 이용해 운영된다.


2. 관련 소프트웨어[편집]


이 분야에서 가장 유명하다고 해도 될 Beautiful Soup은 염연히 따지면 크롤링이 아닌 스크래핑 프로그램이다.

그 외에도 Selenium이라는 라이브러리가 인기를 끌고 있다. WebDriver[1]와 headless 옵션을[2] 함께 이용해서 크롤링을 자동화할 수 있다. 그리고 beautifulsoup과 달리 브라우저를 띄우는 방식이기에 beautifulsoup에서 불가능한 작업인 클릭 등 상호작용이 가능하다.

Java에도 jsoup이라는 HTML 파싱 라이브러리가 존재한다. 파이썬의 beautifulsoup처럼 특정 조건을 가진 태그들을 선택하는 것이 가능하며, GET/POST 요청을 보내서 응답을 받아오는 것도 가능하다.

전문적인 크롤링 소프트웨어는 아니지만, 일반인들이 사용할 만한 툴로는 httrackwget-curl 정도가 있다. 인터넷이 느렸던 2000년대 초반에는 WebZip이라는 것이 인기를 모으기도 하였다.

3. SaaS(Software as a Service) 서비스[편집]


소프트웨어가 아닌 웹서비스 형태로 운영되는 크롤링 SaaS 서비스도 있다.
국내에는 해시스크래퍼크롤링즈[3]가 대표적이며, 해외에는 Scrapinghub가 있다.


4. 합법[편집]


파일:나무위키상세내용.png   자세한 내용은 미러링 문서를 참고하십시오.


파일:크리에이티브 커먼즈 라이선스__CC.png 이 문서의 내용 중 전체 또는 일부는 2023-12-21 11:57:30에 나무위키 크롤링 문서에서 가져왔습니다.

[1] 코드로 작동되게 할 수 있는 브러우저 창을 띄운다. 물론 브라우저 창이기에 그냥 클릭도 가능하다.[2] webdriver로 창을 띄우지 않고 백그라운드에서 브라우저가 작동되게 한다.[3] 현재 망한 것으로 보인다.