[제로베이스] 데이터 사이언스 15기 - (06-09 EDA 스터디노트)

윤태호·2023년 6월 9일
0
post-thumbnail

오늘 수강한 강의 - 인구 분석 (01 ~ 12)

01 ~ 03 인구 소멸 위기 지역

인구 현황 데이터 정리 및 소멸 위기 지역 파악

  • 한글설정
  • 엑셀을 읽어보자
  • 일부 컬럼의 이름도 바꿔주자

  • 소계는 제거

  • 소멸 지역을 조사하기 위한 데이터를 만들어 두자
  • pivot_table
  • 소멸 비율 계산
  • 소멸 위기 지역인지 체크
  • 소멸 위기 지역을 바로 조회해볼수 있다
  • 대부분 "군" 지역

04 ~ 06 인구 현황 데이터에 지도 ID 만들기

인구 현황 데이터에 지도 ID 만들기

  • 전국의 고유한 ID를 만들어야함
  • 만들어야 할 ID 는 아래와 같다
- 서울 중구
- 서울 서초
- 통영
- 남양주
- 포항 북구
- 인천 남동
- 안양 만안
- 안양 동안
- 안산 단원


  • 자치구는 어차피 자료에서 나타나니, 행정구를 가진 지역만 신경쓰면 된다



  • 여기서는 일반 시의 이름과 세종시, 그리고 광역시도의 일반 구를 정리한다
  • 강릉시 -> 강릉
  • 춘천시 -> 춘천 이런 식으로 정리
  • 세종시는 세종특별자치시 -> 세종
  • 중구 -> "광역시도" + 중구
  • 강남구 -> "광역시도" + 강남
  • 행정구에 대해 특별히 다시 계산한다
  • 광역시나 특별시, 자치시가 아닌 경우의 행정구에 대해서만 적용
  • 행정구를 지정한 dict형 자료에 있는 지역인지 검색
  • 분당구 -> 분당, 북구 -> 북구
  • 특별히 너무 긴 이름의 구는 짧게 처리
  • 고성군 -> 강원도 고성(강원) -> 고성(강원)
  • 고성군 -> 경상남도 고성(강원) -> 고성(경남)


  • 인구 소멸 위기 지역 파악이 끝남
  • 지도에 그리기 위한 ID도 생성 완료

07 ~ 12 카르토그램으로 인구현황 시각화하기

카르토그램

  • 엑셀에서 그린 지도 모양을 읽어온다


  • 인덱스로 나타난 좌표를 데이터로 사용하기 위해 reset_index
  • 이름도 바꾸기
  • draw_korea = draw_korea_raw_staked
  • 이 그림을 그려야 한다
  • 경계선 그리기
  • 시도의 이름을 표현하는 함수
  • 경계선과 시도 이름

  • 데이터 검증
  • 결과가 다르다
  • 차집합은 교환법칙이 성립하지 않는다
  • 광역시가 아닌데 행정구를 가지고있던 구들이 pop에 남아있었다
  • 이 데이터는 그냥 지우면 된다
  • 지도를 그리기 위한 데이터와 인구현황 데이터를 합치자
  • 그림을 그리기 위한 데이터를 계산하는 함수
  • 이 함수는 색상을 만들때 최소값을 흰색으로 한다
  • blockedMap은 인구현황이고, targetData는 그리고 싶은 컬럼
  • 그림을 그리기 위한 데이터를 계산하는 함수
  • 이 함수는 색상을 만들때 중간값을 흰색으로 한다
  • blockedMap은 인구현황이고, targetData는 그리고 싶은 컬럼
  • whitelabelmin 적용

  • drawkorea에 인구수 합계를 넣었음
  • 소멸 위기 지역
  • 여성비율
  • 2030 여성비율
  • folium 사용
  • 인구수 합계 그리기

  • 소멸 위기 지역

재미있었던 부분

카르토그램으로 시각화하여 비교하고 한눈에 볼 수 있었던 부분이 가장 기억에 남는다

어려웠던 부분

인구 분석의 전국의 고유한 ID를 만드는 부분이 코드양도 많고 이해하기 어려운 부분이 좀 있었다

느낀점 및 내일 학습 계획

광역시도의 이름을 가공하는 부분에서 조금 헷갈리긴 했지만 나름 잘 이해하고 넘어간 것 같다
다음은 이어서 SQL로 넘어간다

profile
데이터 부트캠프 참여중

0개의 댓글