인문대생의 데이터 직군 취업로그 27

류지윤·2023년 7월 9일
0
post-thumbnail

[ 오늘의 수업내용 요약 ]

  1. Beautiful Soup 기초와 웹데이터
  • HTML과 XML 문서들의 구문을 분석하기 위한 파이썬 패키지이다. HTML로부터 데이터를 추출하기 위해 사용할 수 있는 파싱된 페이지의 파스 트리를 만드는데, 이는 웹 스크래핑에 유용하다.
    < 파일로 저장된 html 파일을 읽을 때 >
  1. open: 파일명과 함께 읽기(r), 쓰기(w)속성을 지정
  2. html.parser: Beautiful Soup의 html을 읽는 엔진 중 하나(lxml도 많이 사용)
  3. prettify(): html 출력을 이쁘게 만들어주는 기능
  4. find_all(): 지정된 태그를 모두 찾아준다.
  • html 내에서 속성 id는 딱 한번만 나타난다.
  • 그래서 find_all() 함수는 의미가 없다.
  • 단 검색결과를 list로 받고싶다면 id라도 find_all() 함수를 사용한다.
  1. 크롬 개발자 도구 이용하기
    < 환율 정보 가져오기 >
  • 네이버 금융에서 시장지표 탭으로 이동하기
  • USD 환율 체크를 파이썬으로 하고싶은데 HTML을 잘 모를 때 이용하는 도구 : 크롬 개발자 도구
  • 크롬 설정 -> 도구 더보기 -> 개발자 도구(화면 오른쪽부터 선택)
  • (사진과 같은 곳을 클릭 한 후 ) 필요한 데이터 부분 선택하기
  • 이렇게 한다면 내가 원하는 HTML 태그가 위치한 곳을 찾아 갈 수 있다.
  • span class =“value” 잘 기억하기
from urllib.request import urlopen
url = “http://info.finance.naver.com/marketindex/” 
page = urlopen(url)
soup = BeautifulSoup(page, “html.asrser”)
print(soup.prettify())
  • 웹주소에 접근할때는 urllib의 request모듈이 필요하다.

=> 기초수학이나 파이썬은 코드 따라적어보느라 정신이없었는데 folium부터는 시각화 자료가 나타나니 수업이 너무 재밌다 :)
얼른 손에 익혀서 코드 안보고 코딩해보고싶다 !

0개의 댓글