본문 바로가기

이거 알아도 어따쓰지?

크롤링 (Crawling) 은 뭐? 단어도 생소한 IT 세계

728x90
반응형

최근 블로그를 자주 하면서 '크롤링 (crawling)'이란 단어를 자주 보는데, 그 뜻을 모르고 보기만 하다 뜻을 찾아봤어요. 혹시라도 저와 같은 궁금증을 가지신 분들께 도움이 되길 바래요!

크롤링(crawling)이란 인터넷 상에서 데이터를 자동으로 수집하는 과정을 말합니다. 주로 웹 크롤러(web crawler)라는 프로그램이나 스크립트를 사용해서 웹사이트의 페이지를 탐색하고, 그 안의 정보를 추출하거나 저장하는 작업이에요. 예를 들어, 검색 엔진 구글은 웹 크롤러를 이용해서 전 세계의 웹페이지를 돌아다니며 정보를 수집하고, 그걸 기반으로 검색 결과를 제공하죠.

쉽게 말하면, 크롤링은 사람이 일일이 웹사이트를 방문해서 데이터를 복사하는 대신, 컴퓨터가 그 일을 자동으로 해주는 거예요. 보통 HTML 코드를 분석해서 텍스트, 링크, 이미지 같은 특정 데이터를 가져오고, 필요하면 데이터베이스에 저장하기도 합니다. 쉽게 말해준다는데, 전 대체 이해가 안되네요..;; 다른 도움을 받아 두 번째로 다시 간단히 말해, 크롤링은 인터넷의 방대한 정보를 체계적으로 수집해 효율적으로 활용하기 위한 기술로, 현대 디지털 생태계의 핵심 도구 중 하나입니다.

예시를 들자면 쇼핑몰 사이트에서 상품 가격을 비교하려고 크롤링을 사용할 수 있어요. 그리고 뉴스 사이트에서 최신 기사 제목을 모으는 데도 쓰이죠.

크롤링의 작동 원리

 - 시작점 설정: 크롤러는 초기 URL(예: 웹사이트 메인 페이지)에서 출발합니다.
 - 링크 추적: 페이지 내 하이퍼링크를 따라가며 새로운 페이지를 탐색합니다.
 - 데이터 수집: 각 페이지에서 텍스트, 이미지, 메타데이터 등을 추출해 데이터베이스나 파일 시스템에 저장합니다.
 - 색인화: 수집된 데이터는 검색 엔진이나 분석 도구에서 활용할 수 있도록 구조화됩니다. 전 주로 '색인화'에서 크롤링을 자주 보았어요. 

주요 활용 분야

 - 검색 엔진 최적화(SEO): 구글의 'Googlebot'과 같은 크롤러가 웹을 탐색해 검색 결과에 표시할 페이지를 선정합니다.
 - 시장 분석: 중고차 가격 비교, 경쟁사 모니터링, 소비자 트렌드 예측 등에 사용됩니다.
 - 빅데이터 구축: 뉴스 기사, 학술 논문, SNS 콘텐츠 등 대량의 정보를 자동으로 수집해 AI 학습 데이터로 활용합니다.

단, 크롤링을 할 때는 사이트의 이용 약관을 잘 확인해야 해요. 어떤 웹사이트는 크롤링을 금지하거나 제한하기도 합니다.

728x90
반응형