[230111] 멋쟁이사자처럼 AI SCHOOL 8기 '대통령 연설문 웹스크래핑_박조은강사님' 복습

조세연·2023년 1월 12일

Crawling beautifulsoup pandas python read_html requests web scrapping 데이터분석 데이터수집

멋사 AI SCHOOL 8기

목록 보기

14/35

📝Today I learned

🚀 TIL 목차 🚀

requests와 BeautifulSoup을 활용한 게시글 내용 웹 스크래핑

게시글 내용 웹 스크래핑

requests와 BeautifulSoup을 활용한 게시글 내용 웹 스크래핑

1) 게시글 내용 웹 스크래핑

🔹 필요한 라이브러리 불러오기

import requests
from bs4 import BeautifulSoup as bs
import pandas as pd

🔹 url 만들기

page_no = 1
url = "https://www.pa.go.kr/research/contents/speech/index.jsp"

🔹 html 호출하기

requests.get(url) # SSLError

🔹 인증서 오류 해결하기

params = f"spMode=&artid=&catid=&pageIndex={page_no}&searchHistoryCount=0&searchStartDate=&searchEndDate=&pageUnit=20"
response = requests.post(url, params=params, verify=False)

🔹 BeautifulSoup 적용하기

pd.read_html(response.text)[0]

🔹 마지막 페이지 번호 찾기

last_page = html.select("nav.board-paging > ul > li > a")[-1]["href"].split("=")[-1]

마지막 페이지 번호를 왜 찾나요?
: 사람이 매번 마지막 페이지를 확인하지 않고, 게시글이 업데이트 될 때마다 변경되는 마지막 페이지를 자동으로 적용하기 위해
select를 활용해 찾을 때 어디를 참고해야 하나요?
: 웹페이지 마우스 우클릭(inspect) > 페이징에서 '>>' 아이콘 클릭 > 해당 Element 우클릭 > Copy > Copy Selector

To be continued...

❗이것만은 외우고 자자 Top 3

📌

🌟데일리 피드백

1. 오늘의 칭찬&반성

수업에 적극적으로 참여하니 집중도 올라가고 수업도 훨씬 재밌었다. 적극적인 자세가 이래서 중요하구나! 아직 수업 내용을 이해하는데 벅차서 응용을 많이 못해보고 있다. 앞으로는 응용력을 더 길러보자.

2. 내가 부족한 부분

배운 내용을 확장해서 생각하는 역량. 티스토리, 유튜브 등등 다양한 자료를 접하자.

3. 내일의 목표

이번주 과제를 무사히 해내기...!

조세연

HR Analyst가 되고 싶은

이전 포스트

[230111] 멋쟁이사자처럼 AI SCHOOL 8기 '네이버 금융 일별시세 웹스크래핑_박조은강사님' 복습

다음 포스트