Python 웹크롤링 개념

P4·2023년 5월 21일
0
post-thumbnail

Web Crawing

  • 웹 페이지에서 데이터를 수집하는 방법에 대해서 학습

웹크롤링 방법

웹페이지의 종류

  • 정적인 페이지 : web browser에 화면이 한번 뜨면 이벤트에 의한 화면의 변경이 없는 페이지
  • 동적인 페이지 : web browser에 화면이 뜨고 이벤트가 발생하면 서버에서 데이터를 가져와 화면을 변경하는 페이지

requests 이용

  • 받아오는 문자열에 따라 두가지 방법으로 구분
    • json 문자열로 받아서 파싱하는 방법 : 주로 동적 페이지 크롤링할때 사용
    • html 문자열로 받아서 파싱하는 방법 : 주로 정적 페이지 크롤링할때 사용

selenium 이용

  • browser를 직접 열어서 데이터를 받는 방법

크롤링 방법에 따른 속도

  • requests json > requests html > selenium

Crwaling Naver Stock Datas

  • 네이버 증권 사이트에서 주가 데이터 수집
  • 수집할 데이터 : 일별 kospi, kosdaq 주가, 일별 환율(exchange rate) 데이터
  • 데이터 수집 절차
    • 웹서비스 분석 : url
    • 서버에 데이터 요청 : request(url) > response : json(str)
    • 서버에서 받은 데이터 파싱(데이터 형태를 변경) : json(str) > list, dict > DataFrame

다음글과 이어짐...

profile
지식을 담습니다.

0개의 댓글