8월 21~23일 총 3일 간 1차 미니프로젝트를 진행하였다.
미니프로젝트를 하기 전에 'python 프로그래밍&라이브러리','데이터 처리','데이터분석 및 의미찾기' 강의를 수강하였는데 이를 통해 데이터를 시각화, 분석하여 정보의 관계와 의미를 찾는 연습을 했었다.
1,2일차는 '서울시 생활정보 기반 대중교통 수요분석'이라는 주제로 버스 노선 추가가 필요한 서울시 내 자치구 선정이라는 미션을 부여받아 데이터분석을 진행하였다.
1차 미니프로젝트는 팀프로젝트로 반별로 8명씩 조를 이루어 진행했다.
처음으로 에이블러분들과 소통할 수 있었던 시간이었다! (❁´◡`❁)
우선 미션을 수행하기 위해 주어진 여러개의 데이터들을 개인적으로 전처리하는 시간을 가졌다.
앞서 배웠던 python문법과 데이터 처리방법을 활용하여 필요한 데이터를 뽑아냈다.
이후 팀별로 줌 미팅시간을 가졌다.
각자 전처리한 방식을 공유하고 이 데이터를 어떻게 분석할지에 대해 토론하며 첫째 날을 마무리지었다.
둘째 날은 분당에 위치한 kt본사 교육장을 이용하여 대면으로 진행했다!
신분증을 맡기고 출입증을 받고 입장~
쾌적하고 넓은 교육장을 쓸 수 있어서 좋은 것 같다. 앞으로 프로젝트 시 많이 이용할 예정이다.
팀원들과 만나서 함께 데이터 분석하는 과정을 진행했고 미션에 대한 결론을 도출하고 이를 PPT에 작성, 정리하는 시간을 가졌다.
데이터 분석 과정
1. 가설 수립
2. 단별량 분석
3. 이변량 분석
4. 관계 정리
5. 솔루션 도출
우리 조는 총 4개의 가설을 수립했다.
H0 : 총 승하차 승객수와 노선의 개수는 연관이 없다.
H1 :총승하차승객수와 노선의 개수는 연관이 있다.
H0 : 평균이동시간과노선의 개수는 연관이 없다.
H1 :평균이동시간과노선의 개수는 연관이 있다.
H0 : 총 종사자수와 노선의 개수는 연관이 없다.
H1 :총 종사자수와 노선의 개수는 연관이 있다.
H0 : 총 인구수와 정류장 수의 개수는 연관이 없다.
H1 :총 인구수와 정류장 수의 개수는 연관이 있다.
이후 위 가설을 바탕으로 단변량, 이변량 분석을 진행했다.
이것은 수업을 들으면서 정리한 나의 필기이다..!🤣
글씨체가 엉망이지만ㅎ 이전 수업에서 배웠던 내용을 활용해서 분석을 진행했다.
"송파구, 강동구, 강서구에 정류장과 노선을 추가해야한다"
라는 솔루션 도출을 마지막으로 1,2일차 프로젝트를 마무리 지었다.
셋째 날은 '서울시 따릉이 수요 분석'이라는 주제로 데이터 분석을 진행하였다.
서울시 공공자전거 이용정보와 해당 시점의 날씨 자료를 활용하여 날씨 데이터와 따릉이 수요간에 관계에 대해 분석하였다.
진행과정은 1,2일차에 진행했던 것과 동일하게 진행되었다.
각자 데이터 전처리 후 팀 줌미팅을 활용해 데이터분석을 팀원들과 함께 진행했다.
우리팀이 세운 가설이다.
H0:강우 여부 별 따릉이 대여량은 차이가 없다
H1:강우 여부 별 따릉이 대여량은 차이가 있다
H0:온도와 따릉이 대여량 간에는 연관성이 없다
H1:온도와 따릉이 대여량 간에는 연관성이 있다
H0:시간과 따릉이 대여량 간에는 연관성이 없다
H1:시간과 따릉이 대여량 간에는 연관성이 있다
위 가설을 바탕으로 단변량, 이변량 분석 진행 했고 데이터들 간의 관계에 대한 결론 도출을 마지막으로 프로젝트를 마무리했다.