인프런 강의 <파이썬입문과 크롤링기초 부트캠프>을 듣고, 중요한 점을 정리한 글입니다.
from bs4 import BeautifulSoup
html = """
<html>
<body>
<h1 id='title'>[1]크롤링이란?</h1>
<p class='cssstyle'>웹페이지에서 필요한 데이터를 추출하는 것</p>
<p id='body' align='center'>파이썬을 중심으로 다양한 웹크롤링 기술 발달</p>
</body>
</html>
"""
soup = BeautifulSoup(html, "html.parser")
data = soup.find('h1')
print(data.string)
data = soup.find('h1')
-> 결과값: [1]크롤링이란?
- data = soup.find('p', class_='cssstyle')
- data = soup.find('p', 'cssstyle')
- data = soup.find('p', attrs = {'align': 'center'})
- data = soup.find(id='body')
from bs4 import BeautifulSoup
html = """
<html>
<body>
<h1 id='title'>[1]크롤링이란?</h1>
<p class='cssstyle'>웹페이지에서 필요한 데이터를 추출하는 것</p>
<p id='body' align='center'>파이썬을 중심으로 다양한 웹크롤링 기술 발달</p>
</body>
</html>
"""
soup = BeautifulSoup(html, "html.parser")
data = soup.find('p', class_='cssstyle')
print(data.string)
data = soup.find('p', class_='cssstyle')
data = soup.find('p', attrs={'class':'cssstyle'})
-> 결과값: 웹페이지에서 필요한 데이터를 추출하는 것
data = soup.find('p', attrs={'id':'body', 'align':'center'})
data = soup.find('p', attrs={'id':'body'})
-> 결과값: 파이썬을 중심으로 다양한 웹크롤링 기술 발달
find_all() 함수 사용하기
data = soup.find_all('p')
for item in data:
print(item.get_text())
ex.
from bs4 import BeautifulSoup
html = """
<html>
<body>
<h1 id='title'>[1]크롤링이란?</h1>
<p class='cssstyle'>웹페이지에서 필요한 데이터를 추출하는 것</p>
<p id='body' align='center'>파이썬을 중심으로 다양한 웹크롤링 기술 발달</p>
</body>
</html>
"""
soup = BeautifulSoup(html, "html.parser")
data = soup.find_all('p')
for item in data:
print(item.string)
-> 결과값
: 웹페이지에서 필요한 데이터를 추출하는 것
파이썬을 중심으로 다양한 웹크롤링 기술 발달
-> CSS 언어를 이해할 필요가 있다.