[제로베이스 데이터 취업스쿨] 23.07.20 스터디 노트_EDA 학습과제1

김준호·2023년 7월 25일
0
post-thumbnail

이디야는 스타벅스 주변에 있을 까?

1. 과정

  1. 스타벅스 서울시 매장의 정보들을 가져온다.
  • selenium을 사용해서 "지역 -> 서울 -> 전체" 을 클릭
  • beautifulsoup을 통해 서울시 전체 스타벅스 매장 정보 가져오기
  1. 이디야 서울시 매장의 정보들 가져오기
  • selenium을 이용해 검색창에 "서울 XX" 식으로 위치를 넣어서 돋보기 클릭
  • beautifulsoup을 통해 서울시 전체 이디야 매장 정보 가져오기
  1. 가져온 정보들로 시각화
  • 각 구 별로 매장 수 차이 barplot사용해서 표현
  • barplot에서 dodge=False 사용하면 겹쳐서 표현 가능
  • 지도에 각 구별로 json폴더 이용해서 경계선 그어주기
  • 스타벅스, 이디야 각각 circle로 지도에 표시

2. 결론

  • 구 별 매장 수 차이를 봤을 때 스타벅스 매장이 주요 도심지에서는 월등히 많다.
  • 이디야 매장은 서울시 전체에 골고루 퍼져있다.
  • 현재 가져온 데이터로는 상세한 분석은 불가 하다.
  • 스타벅스 매장 주변에 이디야 매장이 있다고는 하나 이디야는 서울시 전체에 고루고루 퍼져있을 뿐이다.

3. 나와 다른 점

1) 데이터 가져오기

  • starbucks와 ediya 데이터를 가져오는 .ipynb파일을 따로 만듦
  • selenium을 사용 할 때 "태그안의 태그" 를 불러오는 방법
seoul_list_selenium = driver.find_elements(By.CSS_SELECTOR,"#mCSB_3_container ul li")
  • 매장이름, 위도, 경도 가져오는 방법
title = seoul_list[0]["data-name"]
lat = seoul_list[0]['data-lat']
lng = seoul_list[0]['data-long']
  • 주소 가져오는 방법(주소뒤의 번호를 지우기 위해 슬라이싱 사용)
address = seoul_list[0].select_one('p').text[:-9]
  • 구 컬럼 추가
df["gu"] = df["address"][0].split()[1]

for idx,rows in df.iterrows():
    rows['gu'] = df["address"][idx].split()[1]
profile
취업공부

0개의 댓글