프로젝트2 : 서울시 범죄현황 분석 1일차(~7)

박영선·2023년 5월 6일
0

데이터 개요 및 읽어오기

구글 서울시 관서별 5대범죄현황 검색 /2016년 자료 기준

pandas로 읽어오기
*천단위 구분(thousnads=',') 이라고 알려주면 콤마 제거 후 숫자형으로 읽어옴

info()로 데이터 개요 확인하기

특정 컬럼(죄종)에서 unique 조사 후 NaN만 추출해보고, NaN이 아닌 데이터 확인하기

Nan값 제외한 데이터를 다시 rawdata로 설정

Pandas의 피벗테이블

pd.read_excel로 엑셀 불러오기(install openpyxl)

설정

인덱스 설정

*인덱스 여러개 할 경우 ["Name","Account"] 처럼 리스트

밸류 설정

컬럼 설정

NaN값 설정 (NaN 대신 0으로 나오게 하기)

인덱스, 밸류 두개 이상 설정

aggfunc 두개 이상 설정

*margins 는 총계 확인용

서울시 범죄현황 데이터 피벗 정리

피벗테이블 작성

다중 칼럼에서 특정 컬럼 제거

현재 인덱스는 경찰서 이름

사건의 합을 기록하기위해 aggfunc 옵션에 sum 사용

컬럼이 멀티로 잡힘(피벗 테이블 적용하면 컬럼이나 인덱스가 다중으로 잡힌다)

멀티 인덱스에 대한 접근과 다중 컬럼에서 특정 컬럼 제거하기

경찰서 이름을 구 별로 변경(현재 인덱스는 경찰서 이름 / 경찰서 이름으로 구 이름 알아야한다)

pip 명령, conda 명령


profile
데이터분석 공부 시작했습니다

0개의 댓글