인문대생의 데이터 직군 취업로그 29

류지윤·2023년 7월 11일
0
post-thumbnail

유가분석
001. selenium 세팅
< Beautiful Soup 만으로 해결할 수 없는 것 >
1. 접근 할 웹 주소를 알 수 없을 때
2. 자바스크립트를 사용하는 웹페이지의 경우
3. 웹 브라우저로 접근하지 않으면 안될 때
< selenium >

  • 웹 브라우저를 원격 조작하는 도구
  • 자동으로 url을 열고 클릭 등이 가능
  • 스크롤, 문자의 입력, 화면 캡쳐 등이 필요할 때 사용
  • selenium 은 python모듈도 설치하고 크롬 드라이버도 다운 받아야 한다.
  • windows, intel mac : conda install selenium
  • mac(m1) : pip install selenium
  • 크롬 도움말에 들어가 크롬 버전을 확인한다.
  • 그 후 chromedriver에서 자신의 크롬 버전에 맞는 파일을 다운 받는다.

< selenium 접근 코드 >

from selenium import webdriver
driver = webdriver.Chrome(‘./chromedriver’)
driver.get(‘원하는 링크 주소’)
  • 크롬 드라이버 실행
  • webdriver.Chrome 명령으로 크롬 드라이버의 경로 지정
  • get 명령으로 접근하고 싶은 주소 지정

< 스크롤 가능한 높이를 가져오는 코드 >

last_height = driver.execute_script(“return document.body.scrollHeight”)
last_height

< 화면 스크롤 코드 >

driver.execute_script(“window.scrollTo(0, document.body.scrollHeight);”)

< 화면 페이지를 지정하는 지점의 xpath를 찾은 후 그 지점까지 스크롤 하는 코드 >

from selenium.webdriver import ActionChains

some_tag = driver.find_element_by_xpath(‘’‘//*[@id=“paging”]/ul’‘’)
action = ActionChains(driver)
action.move_to_element(some_tag).perform()

0개의 댓글