[강의정리] 파이썬 모듈 bs4

김재만·2022년 7월 21일
0

bs4(BeautifulSoup4)

HTML 문서에서 원하는 정보를 분류(파싱)해주는 파이썬 라이브러리

bs4)BeautifulSoup

bs4에 내장된 함수이다. 첫 번째 인자로 접근할 문서를 받고, 두 번째 인자로 어떤 해석기로 해석할 것인지 입력할 수 있다.

이미 해석한 데이터값을 문서로 재탐색도 가능하다.

데이터 값을 포함한 객체를 반환하므로 변수로 받아서 활용 가능하다.

soup = BeautifulSoup(a, b)인 경우 soup에 포함된 내장함수

  • soup.find_all(셀렉터) : 셀렉터에 해당하는 모든 태그를 탐색
  • soup.find(셀렉터) : 셀렉터에 해당하는 최상단 태그 하나를 탐색
  • soup.string : 선택 된 태그가 가지고 있는 컨텐츠를 string으로 반환
    셀렉터에는 '태그명', id="id값", 등의 형태로 데이터를 특정할 수 있다.
    *
    두 번째 인자로, 첫 번째 인자 중에서 태그를 특정할 수 있다. ("a", {"속성":"b"})
profile
듣는 것을 좋아하는 개발자입니다

0개의 댓글