- requests와 BeautifulSoup을 활용한 게시글 내용 웹 스크래핑
- 게시글 내용 웹 스크래핑
🔹 필요한 라이브러리 불러오기
import requests
from bs4 import BeautifulSoup as bs
import pandas as pd
🔹 url 만들기
page_no = 1
url = "https://www.pa.go.kr/research/contents/speech/index.jsp"
🔹 html 호출하기
requests.get(url) # SSLError
🔹 인증서 오류 해결하기
params = f"spMode=&artid=&catid=&pageIndex={page_no}&searchHistoryCount=0&searchStartDate=&searchEndDate=&pageUnit=20"
response = requests.post(url, params=params, verify=False)
🔹 BeautifulSoup 적용하기
pd.read_html(response.text)[0]
🔹 마지막 페이지 번호 찾기
last_page = html.select("nav.board-paging > ul > li > a")[-1]["href"].split("=")[-1]
To be continued...
📌
📌
📌
수업에 적극적으로 참여하니 집중도 올라가고 수업도 훨씬 재밌었다. 적극적인 자세가 이래서 중요하구나! 아직 수업 내용을 이해하는데 벅차서 응용을 많이 못해보고 있다. 앞으로는 응용력을 더 길러보자.
배운 내용을 확장해서 생각하는 역량. 티스토리, 유튜브 등등 다양한 자료를 접하자.
이번주 과제를 무사히 해내기...!