프로젝트1 : 서울시 CCTV 분석 1일차(~06)

박영선·2023년 5월 5일

dataframe pandas 제로베이스 판다스

Pandas

pandas 는 통상 pd로 import하고
수치해석적 함수가 많은 numpy(넘파이)는 통상 np로 import한다

pandas의 데이터형을 구성하는 기본은 Series이다.
index 와 value로 구성
한가지 데이터 타입만 가질 수 있다.

기본은 int 형 / 다른 형태 데이터로 dtype을 통해 변경 가능

date = pd.date_range("20130101",periods=6) 같이 사용해서 날짜(시간)이용 가능

pandas에서 가장 많이 사용되는 데이터형은 DateFrame이다.

df.head() = 앞부분 5개 데이터확인

df.values = DataFrame의 value 확인

df.info() = DataFrame의 기본정보 확인 / 컬럼 크기와 데이터형태 확인을 많이함

df.describe() = DataFrame의 통계적 기본정보 확인(최솟값, 편차 등)

df.sort_values(by="B", ascending = False) = B컬럼 기준으로 내림차순으로 정렬해라

*inplace = True 추가하면 정렬된 값 그대로 저장하여 추후에도 적용가능

df["A"] = 특정 컬럼만 읽기 /컬럼명이 문자면 df.A 로도 가능

두개 이상 컬럼 부르기

df[n:m] = n부터 m-1까지 읽기 / 그러나 인덱스나 컬럼 이름으로 slice하는 경우 끝을 포함

df.iloc[3:5, 0:2] = 3번,4번행의 0,1,2번열 선택
df.iloc[[1,2,4],[0,2]] = 1,2,4번행 의 0번 2번 열 선택

df["A"] >0
df[df["A"]>0] = A열에서 0보다 큰 값들
df[df>0] = 전체에서 0보다 큰 값들 / 0보다 작으면 Nan (not a number)

df["E"] = ["one","one","two","three","four","five"]] = E라는 열 만들고 값 삽입
열 길이 일치해야함

기존 컬럼이 있으면 수정됨

df["E"].isin(["two","four"]) = E 안에 two, four 라는 값이 있는가 확인
df[df["E"].isin(["two","four"])] = two랑 four가 있는 컬럼만 보여줌

del df["E"] 열 삭제

df.drop(["D"],axis=1) #axis가 0이면 index값 중 하나를 삭제하겠단 소리

df["A"].apply("sum") # A열 총합 / sum 외에 min최솟값, max최댓값 등 가능
df[["A","D"]].apply("sum") 처럼 2개 이상 열 사용 가능
df["A"].apply(np.sum)

apply 사용하면 함수 적용 가능
ex) 음수와 양수 구분하는 함수 생성 후 A열에 적용

마크다운

주피터 노트북에서 # 누르고 글 작성 후 esc, m버튼 누르면

이렇게 표기 가능

데이터분석 공부 시작했습니다

이전 포스트

프로젝트1 : 서울시 CCTV 분석 1일차(~03)

다음 포스트

프로젝트1 : 서울시 CCTV 분석 1일차(~11)

0개의 댓글