eda2 - 셀프주유소는 정말 저렴한가?

화이팅·2023년 1월 15일
0

eda

목록 보기
5/29

오류는 나중에 풀이 보고 정리할 예정

beautifulsoup

 beautifulsoup

from bs4 import BeautifulSoup
from urllib.request import urlopen
from tqdm import tqdm_notebook

html=driver.page_source
soup=BeautifulSoup(html,'html.parser')

list=soup.find(id='body1').find_all('tr') #list변수로 모든 정보 읽어오기

처음에 driver로 읽어오고 그 다음에 어떻게 beautifulsoup으로 넘어가는 지 잘 몰랐음
list 변수로 받아서 list[0].find('a')['href'] # 주소

boxplot

plt.figure(figsize=(10,10))
sns.boxplot(x='self',y='gasolin',data=df,palette='Set3')
plt.grid(True)
plt.show()

처음에 boxplot 할 때, 오류남
-> 가솔린 가격이 object로 저장
-> float64 형태로 바꿔줘야함


보완해야할 점

  • 일단 시작이 막막함
    솔직히 구글링에 자료 없었으면 못했음..
  • 가솔린 가격 + 휘발유 가격이 있어야되는데 휘발유 가격을 못불러옴.
  • 앞으로 자주 접해야될 거 같다.. 아직도 어렵다 ㅠㅠ

내가 어려워하는 부분

.get_attribute()

++
정리

  • 리스트 공백 없애는 방법(2가지)
# 1. list[1:]
# 2. [option.get_attribute('value') for option in gu_list if option.get_attribute('value')]
  • 데이터 다 따로 구해서 합치는 방법 말고 세부페이지 정보를 확인하면 한번에 다 구할 수 있음

  • 데이터가 화면에 가려져서 안보일 경우
    get_attribute('innerText') or 'textContent' or 'innerHTML'

    name=driver.find_element_by_id('os_nm').get_attribute('innerText')

  • csv파일 불러올 때 1,234 (object)를 1234(int)로 불러오는 방법

    df_oil=pd.read_csv('./oilstation_oneday_20230126.csv',encoding='utf-8',thousands=',',index_col=0)

profile
하하...하.

0개의 댓글