SMALL

 

크롤링

정의

다양한 정보 자원을 자동화된 방법으로 수집해서 분류 및 저장하는 것

 

크롤링은 웹 크롤링 또는 데이터 크롤링으로도 알려져 있습니다. 웹에서 다양한 정보를 자동으로 검색해 데이터로 추출하는 데 사용된다.

크롤러는 크롤링을 수행하는 소프트웨어(SW)로 웹페이지를 돌아다니며 어떤 데이터가 있는지 색인을 만들어 데이터베이스(DB)에 저장한다. HTML 페이지에서 관련 하이퍼링크를 찾고 데이터를 분류하고 저장하는 작업을 반복합니다. 파이썬 1)은 주로 크롤링 필드에 사용된다.

크롤링 기술이 악용돼 정보가 무단으로 복제되면 지적재산권이 침해될 수 있다. 크롤링으로 획득한 콘텐츠의 상업적 이용도 문제가 될 수 있다. 이러한 문제를 방지하기 위해 웹 페이지 운영자는 웹 페이지에 로봇 제외 표준을 사용한다. 또는 메타 태그를 사용하여 크롤러에 의한 검색 인덱스 생성을 차단합니다.

SW를 통해 데이터 소스에서 데이터 자체를 추출해 특정 형태로 저장하는 스크래핑도 비슷한 개념이다. 빅데이터 분석은 크롤링을 통해 데이터가 필요한 곳을 찾고, 수집·저장한 뒤 스크래핑을 통해 분석에 활용하는 등 기술이 결합된다.

크롤링을 사용하면 오프라인 사이트 방문, 사람 만나기, 수요 조사 및 설문 조사와 같은 작업을 생략할 수 있습니다. 최근에는 금융권과 마케팅 기업뿐만 아니라 데이터 사이언스 등 다양한 분야에서 활용되고 있다.

'단어상식모음' 카테고리의 다른 글

대체 불가능 토큰 (NFT)  (0) 2023.02.08
오픈랜 (Open RAN)  (0) 2023.02.08
탈중앙화 자율 조직 (DAO)  (0) 2023.02.08
비대면 기술이란?  (0) 2023.02.08
전자식 매대 표시기?  (0) 2023.02.08
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기