프로젝트1 : 서울시 CCTV 분석 1일차(~11)

박영선·2023년 5월 5일
0

데이터 확인해보기

CCTV 앞부분,뒷부분 데이터 확인 (head,tail 사용)

오름차, 내림차 순으로 CCTV 갯수 확인 (sort_values 사용)

최근증가율 컬럼 추가, 내림차 순 확인 (column추가, sort_values 사용)

인구 현황과 확인하기

pop_Seoul 불러오기

첫행(합계) 데이터 지우기 (drop 사용)

중복되는 구 있는지 확인 (unique 사용)

외국인, 고령자 비율 만들어두기 (단순 사칙연산 외국인/인구수 * 100)

인구수, 외국인, 고령자 수 기준 정렬 (sort_values 사용)

Pandas 데이터 합치기

두 데이터 합치기
*데이터 만들기

merge를 이용해서 병합하기 / 데이터 병합 빈번히 발생하므로 익혀야함

  • 두 데이터 프레임에서 컬럼이나 인덱스를 기준으로 잡고 병합하는 방법
  • 기준이 되는 컬럼이나 인덱스를 키값이라고한다
  • 기준이 되는 키값은 두 데이터 프레임에 모두 포함되어 있어야한다

pd.merge(left,right, on="key")
left, right의 각 키 컬럼에서 공통으로 가지고 있는 것들만 합친다.

pd.merge(left,right, how= "left" on="key")
left에 있는 키 컬럼의 값은 그대로, right에 키 컬럼 중 left와 공통으로 존재하는것만 합침.
(right에만 있던 K1컬럼은 사라지고 없는 행은 Nan으로 반환)

pd.merge(left,right, how= "outer" on="key")
둘 다 포함(key 컬럼 기준이며, 없는 컬럼은 Nan 으로 반환)

pd.merge(left,right, how= "inner" on="key")
교집합만 포함(기본값임. 즉 pd.merge(left,right, on="key") 이값과 동일)

data_result = pd.merge(CCTV_Seoul, pop_Seoul, on="구별") 로 병합

del,drop 사용하여 안쓰는 컬럼 삭제

set_index로 "구별" 을 index로 설정

인구데이터와 CCTV의 상관관계는 있을까?

상관계수 계산 (연산 할 수 있는 정수,실수만 가능 / 문자열 불가능)
data_result.corr()

데이터의 관계를 찾을때, 최소한의 근거가 있어야 해당데이터를 비교하는 의미가 존재
상관계수를 조사해서 0.2이상의 데이터를 비교하는것이 의미가 있다

CCTV 비율 만들어 비율이 높거나 낮은 구를 찾기

profile
데이터분석 공부 시작했습니다

0개의 댓글