[Web Crawling] 1. 파이썬 웹 크롤링

seokwon99·2022년 1월 21일

파이썬을 이용해서 웹 크롤러 만들기!

사전 준비

terminal에서

pip install requests beautifulsoup4

또는

pip3 install requests beautifulsoup4

으로 requests와 beautifulsoup4 패키지를 설치해주세요

NAVER 전체 가져오기

설치한 패키지를 불러옵니다.

from urllib.request import urlopen
from bs4 import BeautifulSoup

urlopen 함수로 웹페이지를 불러옵니다.

html = urlopen("http://www.naver.com")

불러온 웹페이지를 BeautifulSoup 객체로 변환합니다.

bsObject = BeautifulSoup(html, "html.parser")

네이버 웹문서를 파싱하는 것이기 때문에 html.parser 를 인자로 전달합니다.

BeautifulSoup 객체 전체를 출력

print(bsObject)

ssl certificate_verify_failed 오류가 뜰 때 해결방법

import ssl
ssl._create_default_https_context = ssl._create_unverified_context

를 추가해줍니다!

소스코드

from urllib.request import urlopen
from bs4 import BeautifulSoup
import ssl
ssl._create_default_https_context = ssl._create_unverified_context
html = urlopen("http://www.naver.com")
bsObject = BeautifulSoup(html, "html.parser")
print(bsObject)

실행결과

참고한 블로그

https://webnautes.tistory.com/779
https://minimin2.tistory.com/138

seokwon99

이전 포스트

[BOJ] 7579 앱

다음 포스트

[Web Crawling] 1. 파이썬 웹 크롤링

파이썬을 이용해서 웹 크롤러 만들기!

사전 준비

NAVER 전체 가져오기

소스코드

실행결과

참고한 블로그

[BOJ] 7579 앱

[Web Crawling] 2. 필요한 데이터만 가져오기

0개의 댓글