Python 웹크롤링 개념

P4·2023년 5월 21일

WebCrawling python 노트필기

0

Web Crawing

웹 페이지에서 데이터를 수집하는 방법에 대해서 학습

웹크롤링 방법

웹페이지의 종류

정적인 페이지 : web browser에 화면이 한번 뜨면 이벤트에 의한 화면의 변경이 없는 페이지
동적인 페이지 : web browser에 화면이 뜨고 이벤트가 발생하면 서버에서 데이터를 가져와 화면을 변경하는 페이지

requests 이용

받아오는 문자열에 따라 두가지 방법으로 구분
- json 문자열로 받아서 파싱하는 방법 : 주로 동적 페이지 크롤링할때 사용
- html 문자열로 받아서 파싱하는 방법 : 주로 정적 페이지 크롤링할때 사용

selenium 이용

browser를 직접 열어서 데이터를 받는 방법

크롤링 방법에 따른 속도

requests json > requests html > selenium

Crwaling Naver Stock Datas

네이버 증권 사이트에서 주가 데이터 수집
수집할 데이터 : 일별 kospi, kosdaq 주가, 일별 환율(exchange rate) 데이터
데이터 수집 절차
- 웹서비스 분석 : url
- 서버에 데이터 요청 : request(url) > response : json(str)
- 서버에서 받은 데이터 파싱(데이터 형태를 변경) : json(str) > list, dict > DataFrame

다음글과 이어짐...

지식을 담습니다.

이전 포스트

Velog 글 백업 GUI Add-on 제작 (2)

다음 포스트

네이버 주가정보 수집

0개의 댓글