[제로베이스 데이터 취업스쿨] 23.07.20 스터디 노트_EDA 학습과제1

김준호·2023년 7월 25일

beautifulsoup pandas selenium 스타벅스 이디야 매장위치 제로베이스 데이터취업스쿨

0

데이터취업스쿨 학습과제

목록 보기

2/3

이디야는 스타벅스 주변에 있을 까?

1. 과정

스타벅스 서울시 매장의 정보들을 가져온다.

selenium을 사용해서 "지역 -> 서울 -> 전체" 을 클릭
beautifulsoup을 통해 서울시 전체 스타벅스 매장 정보 가져오기

이디야 서울시 매장의 정보들 가져오기

selenium을 이용해 검색창에 "서울 XX" 식으로 위치를 넣어서 돋보기 클릭
beautifulsoup을 통해 서울시 전체 이디야 매장 정보 가져오기

가져온 정보들로 시각화

각 구 별로 매장 수 차이 barplot사용해서 표현
barplot에서 dodge=False 사용하면 겹쳐서 표현 가능
지도에 각 구별로 json폴더 이용해서 경계선 그어주기
스타벅스, 이디야 각각 circle로 지도에 표시

2. 결론

구 별 매장 수 차이를 봤을 때 스타벅스 매장이 주요 도심지에서는 월등히 많다.
이디야 매장은 서울시 전체에 골고루 퍼져있다.
현재 가져온 데이터로는 상세한 분석은 불가 하다.
스타벅스 매장 주변에 이디야 매장이 있다고는 하나 이디야는 서울시 전체에 고루고루 퍼져있을 뿐이다.

3. 나와 다른 점

1) 데이터 가져오기

starbucks와 ediya 데이터를 가져오는 .ipynb파일을 따로 만듦
selenium을 사용 할 때 "태그안의 태그" 를 불러오는 방법

seoul_list_selenium = driver.find_elements(By.CSS_SELECTOR,"#mCSB_3_container ul li")

매장이름, 위도, 경도 가져오는 방법

title = seoul_list[0]["data-name"]
lat = seoul_list[0]['data-lat']
lng = seoul_list[0]['data-long']

주소 가져오는 방법(주소뒤의 번호를 지우기 위해 슬라이싱 사용)

address = seoul_list[0].select_one('p').text[:-9]

구 컬럼 추가

df["gu"] = df["address"][0].split()[1]

for idx,rows in df.iterrows():
    rows['gu'] = df["address"][idx].split()[1]

취업공부

이전 포스트

[제로베이스 데이터 취업스쿨] 23.07.14 스터디 노트

다음 포스트

[제로베이스 데이터 취업스쿨] 23.07.24 스터디 노트_EDA 학습과제2

0개의 댓글