크롤링 기본 라이브러리

하스레·2022년 5월 24일

크롤링 스터디

목록 보기

1/5

HTML 받아오기: requests

http 요청 보낼 때 사용

import requests

res = requests.get("https://www.naver.com/")
htmlCode = res.text

HTML 태그 선택: beautiful soup

requests로 받아온 html 코드는 그냥 문자열이기 때문에 파싱하기가 어려워서 이를 수프로 만들어줘야 한다.

import requests
from bs4 import BeautifulSoup 

res = requests.get("https://www.naver.com/")
htmlCode = res.text

# html parser로 수프를 만든다.
soup = BeautifulSoup(htmlCode, 'html.parser')

# 아이디가 NM_set_home_btn인 태그 선택
w = soup.select_one("#NM_set_home_btn") # select함수로 태그 여개 선택할 수도 있음
print(w)	
# => <a class="link_set" data-clk="top.mkhome" href="https://help.naver.com/support/welcomePage/guide.help" id="NM_set_home_btn">네이버를 시작페이지로</a>
print(w.text)
# => 네이버를 시작페이지로

https://www.inflearn.com/course/%ED%8C%8C%EC%9D%B4%EC%8D%AC-%ED%81%AC%EB%A1%A4%EB%A7%81-%EA%B8%B0%EC%B4%88/lecture/92370?tab=curriculum&volume=1.00&speed=2

하스레

Software Developer

다음 포스트

크롤링 기본 라이브러리

크롤링 스터디

HTML 받아오기: requests

HTML 태그 선택: beautiful soup

뉴스 데이터 수집

0개의 댓글