인문대생의 데이터 직군 취업로그 27

류지윤·2023년 7월 9일

인문대생의 데이터 직군 취업로그

목록 보기

27/35

[ 오늘의 수업내용 요약 ]

Beautiful Soup 기초와 웹데이터

HTML과 XML 문서들의 구문을 분석하기 위한 파이썬 패키지이다. HTML로부터 데이터를 추출하기 위해 사용할 수 있는 파싱된 페이지의 파스 트리를 만드는데, 이는 웹 스크래핑에 유용하다.
< 파일로 저장된 html 파일을 읽을 때 >

open: 파일명과 함께 읽기(r), 쓰기(w)속성을 지정
html.parser: Beautiful Soup의 html을 읽는 엔진 중 하나(lxml도 많이 사용)
prettify(): html 출력을 이쁘게 만들어주는 기능
find_all(): 지정된 태그를 모두 찾아준다.

html 내에서 속성 id는 딱 한번만 나타난다.
그래서 find_all() 함수는 의미가 없다.
단 검색결과를 list로 받고싶다면 id라도 find_all() 함수를 사용한다.

크롬 개발자 도구 이용하기
< 환율 정보 가져오기 >

네이버 금융에서 시장지표 탭으로 이동하기
USD 환율 체크를 파이썬으로 하고싶은데 HTML을 잘 모를 때 이용하는 도구 : 크롬 개발자 도구
크롬 설정 -> 도구 더보기 -> 개발자 도구(화면 오른쪽부터 선택)
(사진과 같은 곳을 클릭 한 후 ) 필요한 데이터 부분 선택하기
이렇게 한다면 내가 원하는 HTML 태그가 위치한 곳을 찾아 갈 수 있다.
span class =“value” 잘 기억하기

from urllib.request import urlopen
url = “http://info.finance.naver.com/marketindex/” 
page = urlopen(url)
soup = BeautifulSoup(page, “html.asrser”)
print(soup.prettify())

웹주소에 접근할때는 urllib의 request모듈이 필요하다.

=> 기초수학이나 파이썬은 코드 따라적어보느라 정신이없었는데 folium부터는 시각화 자료가 나타나니 수업이 너무 재밌다 :)
얼른 손에 익혀서 코드 안보고 코딩해보고싶다 !

이전 포스트

인문대생의 데이터 직군 취업로그 26

다음 포스트

인문대생의 데이터직군 취업로그 28

0개의 댓글