▷ 오늘 학습 계획: EDA 학습과제
주제: 휘발유와 경유 가격이 셀프 주유소에서 정말 저렴할까?
1) 서울시 주유소 정보 가져오기
주유소명, 주소, 브랜드, 휘발유 가격, 경유 가격, 셀프 여부, 세차장 여부, 충전소 여부, 경정비 여부, 편의점 여부, 24시간 운영 여부, 구, 위도, 경도
2) 시각화를 위한 데이터 정리
서울시 구별 주유소 전체 개수
셀프 여부에 따른 구별 주유소 개수
셀프주유소 여부에 따른 구별 휘발유, 경유 평균 가격 비교3) 시각화를 통한 검증
서울시 구별 주유소 개수
서울시 셀프 주유소의 비율
휘발유/경유 가격에 따른 주유소 명단(상/하위 10개)
셀프주유소 여부에 따른 평균 경유 가격 비교
셀프주유소 여부에 따른 평균 휘발유 가격 비교
selenium, beautifulsoup, DataFrame
자치구를 선택한 상태에서 가져올 수 있는 정보가 있고, 주유소를 선택해야 가져올 수 있는 정보가 따로 있었다. 어디서 어떻게 가져올까 고민하는게 제일 어려웠다. 이번 과제에서도 코드가 길어지고 복잡해진 것 같다. 서울시 주유소의 부가정보(세차장, 경정비, 편의점, 24시간)와 셀프여부를 정리하는데 시간이 많이 걸렸다.
시각화를 위한 데이터 정리
결측치가 없었는데 평균 가격을 정리하다 보니까 Nan 값이 나왔다. 알고 보니 셀프주유소 Y/N 코드를 잘못 써서 데이터가 이상했다. 그리고 셀프 주유소 여부에 따라서 변수를 다르게 했더니 변수가 많아져서 헷갈렸다. 시각화까지 가는 과정이 너무 길었고, DataFrame이랑 pivot table 다루는 방법좀 더 공부해야겠다.
시각화를 통한 검증
이것저것 시도하다가 주제랑 상관없는 그래프도 많아져서 몇 개는 지웠다. 셀프주유소 여부에 따라 휘발유와 경유 가격을 비교해야 해서 주유소 위치는 나타내지 않았다.
휘발유/경유 가격에 따라 정렬
휘발유 가격이 높은 10개의 주유소와 경유 가격이 높은 10개의 주유소 모두 셀프 주유소가 아니다.
휘발유 가격이 낮은 10개의 주유소와 경유 가격이 낮은 10개의 주유소 중에 세 곳을 제외하고 모두 셀프 주유소 이다.bar plot
동대문구와 금천구를 제외한 모든 구에서 셀프주유소의 휘발유 가격이 더 저렴한 편이며, 동대문구를 제외한 모든 구에서 셀프주유소의 경유 가격이 더 저렴한 편이다.
box plot
셀프주유소의 경유와 휘발유 평균 가격의 중앙값이 셀프주유소가 아닌곳의 중앙값보다 낮은 것을 알 수 있다.
평균치에서 크게 벗어난 이상치가 셀프주유소가 아닌 곳에서 많은 것으로 보아 셀프주유소가 아닌 곳에서 기름값이 비싼 곳이 많다.
결론
서울에서 셀프주유소가 아닌 곳보다 셀프주유소의 경유 및 휘발유 가격이 대체적으로 저렴하다.
📝 해설 강의 보고 느낀점
데이터를 가져오면서 발생한 문제가 같더라도 고민하고 해결하는 과정은 달랐다. 강의를 보고 내가 작성한 코드를 다시 봤을 때 왜 이렇게 했는지 생각이 드는 부분도 있었다. 원하는 데이터를 가져오기는 했지만 아직 부족한 느낌이 들었다. EDA 수업과정에 대한 개념이 아직 정리가 안된 것 같다. 다음주에 테스트 또 있던데 그 전에 복습좀 해야겠다.
▷ 내일 학습 계획: SQL 강의(기초10~11)