[WebCrawling] 웹 크롤링

MINJEE·2023년 12월 7일
0

SMHRD_5_WebCrawling

목록 보기
1/4
post-thumbnail

웹 크롤링

: 웹사이트에 접근하여 원하는 정보만 추출하는 기법
: 자동화된 방식으로 인터넷 상의 웹페이지를 따라가며 데이터를 수집

목차

  1. 크롤링 특징
  2. 유의사항
  3. 수집 데이터의 유형
  4. 클라이언트와 서버
  5. 크롤링의 원리
  6. 웹 크롤러

◉ 특징

  1. 더 쉬운 데이터 수집
    : 웹 크롤링은 인터넷 상의 다양한 웹 페이지에서 데이터를 수집하는 기술이다.
    자신이 필요로 하는 데이터를 더 쉽고 효율적으로 확보할 수 있다.
  2. 자동화⭐️
    : 크롤러를 제작하여 수작업으로 반복적인 작업을 수행할 필요 없이 자동으로 데이터를 수집할 수 있다.
    시간과 노력을 절약하면서 신속하고 정확한 데이터를 확보할 수 있다.
  3. 시장 분석
    : 웹 크롤링을 통해 수집한 데이터는 시장 분석에 활용될 수 있다.
    예를 들어, 경쟁 업체의 제품 가격을 수집하여 시장 동향 파악 등이 가능하고,
    이를 통해, 기업은 경쟁력을 강화하고 전략 수립이 가능하다.
  4. 실시간 모니터링
    : 웹 크롤링을 통해 실시간으로 웹 페이지를 모니터링할 수 있다.
    예로, 특정 이벤트에 대한 실시간 트위터 피드를 수집하여 관련 토론이나 의견을 실시간으로 파악할 수 있다.
    이를 통해, 빠르게 변화하는 환경에서 최신 정보를 파악하고 대응할 수 있다.

◉ 유의사항

  1. 인사이트 파악
    : 웹 크롤링을 통해 수집한 데이터를 분석하여 인사이트를 도출하는 것은 매우 유용하다.
    그러나 이를 사용하여 타인을 비방하거나 불법적인 목적으로 이용하는 것은 삼가해야 한다.
    데이터를 적절하게 분석하고 활용함으로써 사회적 가치를 창출하는 것이 중요하다!
  2. 개인정보 유의
    : 웹 크롤링을 통해 데이터를 수집할 때에는 개인정보 보호에 항상 유의해야 한다.
    다른 사람들의 개인정보를 무단으로 수집하거나 불법적으로 이용하는 행위는 법적인 문제를 야기할 수 있다.
    개인 정보 보호 관련 법률과 윤리에 준수하여 합법적이고 윤리적인 웹 크롤링을 실시해야 한다!
  3. 이용약관 유념(특히 저작권)
    : 웹 사이트는 자체적으로 이용약관을 가지고 있으며, 이를 준수해야 한다.
    특히 웹 사이트에서 제공되는 콘텐츠의 저작권을 존중해야 한다.
    크롤링을 통해 수집한 데이터를 상업적으로 이용하기 전에 웹 사이트의 이용약관을 확인하고 저작권 등 법적인 제약사항을 준수해야 한다.

◉ 수집데이터 유형

  • 정형 데이터 : 구조화된 데이터 (ex. CSV, ORACLE)
    • 구조화 되어 있고, 일정한 형식과 규칙을 가지고 있는 데이터
    • 테이블 형태로 표현 → 쉽게 검색, 분석, 연산 가능
    • 주로 관계형 데이터베이스에서 사용하는 형식
  • 반정형 데이터 : 구조는 어느 정도 있지만 연산 불가능한 데이터 (ex. 지문)
    • 일부는 구조화되어 있지만, 다양한 형식과 규칙을 포함하고 있어 일관된 방식으로 처리하기 어려움
    • 추가적인 처리와 파싱이 필요한 경우가 많음
    • ex. 지문, HTML문서, XML파일, 로그 파일 등
  • 비정형 데이터 : 형태가 없는 데이터 (ex. 소셜 데이터-페이스북,해시태그 등)
    • 형태나 구조가 없는 데이터
    • 일관된 방식으로 처리하기 어려움
    • 주로 텍스트, 이미지, 오디오, 비디오 등 다양한 형태로 존재
    • 자연어 처리, 이미지 분석, 음성 인식 등의 고급 기술을 활용하여 처리하고 분석해야 함
    • ex. 소셜 미디어의 게시글, 트위터 피드, 사진 및 비디오 파일, 음성 녹음 등

◉ Client? Server?

  • Client : 클릭한 페이지를 요청(request)하는 PC
    클라이언트는 서버에게 웹 페이지나 데이터를 요청하고, 요청한 내용에 대한 응답을 받아 사용자에게 보여줌
  • Server : 클릭한 페이지를 제공, 응답(response)하는 PC
    서버는 클라이언트의 요청을 받아 처리하고, 그 결과를 응답으로 전송하여 클라이언트에게 보냄

◉ 크롤링의 원리

  1. 정보를 가져올 사이트를 불러온다.
  2. 원하는 정보와 해당 정보의 위치를 찾는다.
  3. 정보를 가져오게 하는 코드를 작성한다.

◉ 웹 크롤러

: 조직적, 자동화된 방법으로 월드 와이드 웹을 탐색하는 컴퓨터 프로그램
  • 웹 크롤러가 하는 작업 = '웹 크롤링' 혹은 '스파이더링'
  • 검색 엔진과 같은 여러 사이트에서는 데이터의 최신 상태 유지를 위해 웹 크롤링한다.
    (출처) 위키백과
profile
개발, 분석 배운 내용 정리하기!

0개의 댓글