230501_EDA/웹 크롤링/파이썬 - CCTV 1

김지태·2023년 5월 3일
1
post-thumbnail


이 데이터들을 여러 가지 방법으로 읽어보자!

01. Analysis Seoul CCTV

우선 판다스를 import 한다.

" import pandas as pd "

Pandas란?

판다스는 파이썬의 데이터 분석 라이브러리이다.
수치형 테이블, 시계열 데이터 조작, 운영을 하는 데에 용이함.

참고 - https://namu.wiki/w/Pandas

이제 data 폴더에 있는 csv 파일을 주피터 노트북에서 읽어보자.

변수명 = pd.read_파일종류(" 경로 / 파일명.파일종류 ")
CCTV_Seoul = pd.read_csv("../data/01. Seoul_CCTV.csv")

이렇게 CCTV_Seoul 이라는 변수에 csv 파일을 할당한다.

할당을 한 후 파일을 읽어보자

CCTV_Seoul.head()

이는 파일을 위에서부터 읽는 코드이다.
head() --> 이 괄호 안에 숫자를 넣어 몇 줄까지 읽을 것인지 정할 수 있는데, 괄호 안에 숫자를 안 넣으면 5줄 만 읽음. 5가 기본 값임.

CCTV_Seoul.head(7)

head()의 반대: tail()

tail() 을 사용하면 head()와 반대로 밑에서 부터 읽을 수 있다.
그래서 데이터가 얼마나 있는지 확인하는 용도로도 사용 가능하다.


데이터가 24줄까지 있다는 것을 알 수 있다.

컬럼명이 마음에 안든다면, 바꿔보자!: rename()

파일 안 컬럼의 이름을 바꿀 수 있다.
우선 컬럼 명을 확인해보자.

파일이 할당된 변수명에 " .colunms " 를 붙여 컬럼 이름을 조회해보자.
" .colunms " 뒤에 " [ 숫자 ] " 를 안 붙였다면, 모든 컬럼들의 이름이 반환된다.
CCTV_Seoul.columns[0] 이렇게 입력하면 컬럼들 중 가장 앞에 있는 컬럼 명이 나온다.

이제 컬럼 이름을 확인했다. 컬럼 이름은 "기관명" 이라 나와있다.
하지만, "기관명" 보다 "구별"이 더 어울려보인다.
" rename() " 을 이용해서 컬럼명을 다시 지을 수 있다.

CCTV_Seoul.rename(columns = {CCTV_Seoul.colunms[0]: "구별"})

실제 파일을 수정해보자: inplace = True

하지만, 컬럼명을 바꾸었다고 해도 실제 파일에 컬럼명이 바뀌지는 않는다.
" inplace = True " 을 넣어주면 실제 파일에도 수정을 가할 수 있다.

CCTV_Seoul.rename(columns={CCTV_Seoul.columns[0]:"구별"}, inplace = True)

엑셀 파일도 불러보기

csv 파일을 불러오는 것과 똑같다. 파일명, 파일종류 등만 바꿔주면 된다.

pop_Seoul = pd.read_excel("../data/01. Seoul_Population.xls")

보다시피, 엑셀 파일에는 수많은 데이터가 있다. 필요한 데이터들만 읽어볼 수 없을까?

header, usecols 을 써서 필요한 데이터들만 읽어오자

pop_Seoul = pd.read_excel("../data/01. Seoul_Population.xls", header = 2, usecols = "B, D, G, J, N")
pop_Seoul

연습, 컬럼명 바꿔보기: rename()

pop_Seoul.rename(
columns = {
pop_Seoul.columns[0]: "구별",
pop_Seoul.columns[1]: "인구수",
pop_Seoul.columns[2]: "한국인",
pop_Seoul.columns[3]: "외국인",
pop_Seoul.columns[4]: "고령자",
},
inplace = True,
)
pop_Seoul.head()

profile
데이터 분석가

0개의 댓글