컴퓨터 프로그램 개발 단계 중에 발생하는 시스템의 논리적인 오류나
비정상적 연산(버그)을 찾아내고 수정하는 작업 과정
프로세스 내부에서 실행되는 실행 흐름 단위
장점 : 사용자에 대한 응답성을 향상 시켜야 할 때 / 동시에 동작을 완료시켜야 할 때
전체 웹 사이트의 구조와 링크를 따라가며 데이터를 수집 및 저장하는 작업을 뜻하며,
예를 들어 특정 쇼핑몰의 여러 제품 정보를 수집하거나,
뉴스 사이트의 홈페이지부터 시작해 최신 뉴스 기사들을 수집하고
이를 데이터베이스에 저장하는 작업이 크롤링에 해당합니다.
크롤링은 어떻게 동작하나요?
크롤링은 웹 크롤러(또는 스파이더)라고 불리는 데이터 수집 소프트웨어 및 봇을 활용합니다.
크롤러는 한 페이지에서 시작해 그 페이지에 연결된 모든 링크를 따라가며 데이터를 수집합니다.
크롤링은 어떻게 활용되나요?
크롤링은 구글, 네이버와 같은 검색 엔진이 웹 페이지를 인덱싱(Indexing)하는 데 사용됩니다.
인덱싱은 웹 페이지의 내용을 분석하고 체계적으로 정리하여 데이터베이스에 저장하는 과정을 의미합니다.
특정 웹 페이지에서 필요한 정보만 선택적으로 추출하는 작업을 뜻합니다.
예를 들어 쇼핑몰 내 특정 제품 상세페이지를 분석하여,
해당 제품의 가격, 제품 설명, 이미지 등을 추출하는 작업은 스크래핑에 해당합니다.
스크래핑은 어떻게 동작하나요?
주로 스크래핑은 웹 페이지의 HTML 콘텐츠를 분석하여 필요한 데이터를 선택적으로 추출합니다.
스크래핑은 어떻게 활용되나요?
연결된 링크를 따라가며 웹사이트의 전체 데이터를 수집하는 크롤링과 달리,
스크래핑은 특정 웹 페이지에서 필요한 정보만 추출합니다.
예를 들어 특정 뉴스 기사에서 제목, 작성자, 작성일을 추출하는 작업에 스크래핑을 활용할 수 있습니다.
크롤링은 검색 엔진이 크롤러(또는 스파이더)를 활용해 웹 페이지를 인덱싱할 때 사용되며,
스크래핑은 특정 URL의 HTML 콘텐츠를 분석하여 필요한 정보를 추출합니다.
크롤링이 스크래핑보다 더 범용적이고 포괄적인 용어이다.