[Pandas]Pandas 개요

민서·2023년 8월 4일

Pandas?

데이터 프레임을 이용해서 데이터를 시각화 및 분석할 수 있도록 해주는 라이브러리

계량 경제학에서 사용하는 패널 데이터에서 따온 이름(Panel Data Sysytem)으로, 패널 데이터는 종단+횡단 성격을 갖는 데이터를 뜻한다.(한 시점 뿐만 아니라 시계열 데이터에도 강한 면모를 갖는다고 해석가능)

패널 데이터 구조를 제공하기 위해 넘파이(Numpy) 위에 구성되도록 개발, 넘파이에서 쉽게 사용가능

대용량 데이터를 다루거나 빠른 연산이 필요한 상황에서 취약하기 때문에 위와 같은 이유로 판다스 코드를 추후에 넘파이로 수정하면 이를 해결 가능하다.

판다스의 대표적인 기능

통합적인 인덱싱 데이터 처리를 위한 데이터프레임 객체

인메모리(In-Memory) 데이터 구조를 가지며, 여러 파일 형식 데이터를 읽고 쓰기 위한 도구

데이터 정렬, 손실 데이터를 통합 처리

데이터 세트를 재형성(Reshaping), 피벗

라벨 기반 슬라이싱, 멀티 인덱싱 및 커다란 데이터 세트를 부분 집합으로 구성(Subsetting)

데이터 구조 열을 삽입하고 지우기

분할-적용-통합(Split-Apply-Combine) 연산이 가능한 엔진으로 데이터 세트를 그룹화

데이터 세트를 합치고(Merging) 붙이기(Joining)

저차원 데이터 구조에서 고차원 데이터를 연산할 수 있도록 멀티 레벨 인덱싱

다양한 시계열(Time Series) 처리 기능

데이터 여과(Filtration)

판다스의 구성 요소

라벨 처리된 배열 데이터 구조 세트인 시리즈(Series)와 데이터프레임(DataFrame)

단순 축 또는 멀티인덱스 축을 인덱싱할 수 있는 인덱스(Index) 객체

데이터 세트를 종합하고 변형하는 엔진

사용자 정의 도수(Frequency)를 가지는 날짜 구간과 날짜 오프셋

입력/출력 도구: 플랫 파일들(CSV, delimiter, 액셀)에서 테이블형 데이터를 읽고, 빠르고 효율적인 PyTables/HDF5 형식에서 판다스 객체들을 저장하고 읽음.

손실 데이터, 고정 값 데이터를 효율적으로 저장하기 위한 메모리의 표준 데이터 구조

이동 윈도우 통계(이동 평균, 이동 표준 편차 등)

판다스로 처리하기에 적합한 데이터

SQL 테이블이나 액셀처럼 여러 형식을 갖는 테이블형 데이터

순서에 따라 정렬되거나 정렬되지 않은 시계열 데이터

행과 열 라벨이 있는 임의의 행렬 데이터

관측/통계 데이터 세트

install pandas

python -m pip install pandas

민서

실패보다 사람을 더 미치게 하는게 후회더라구요 // 공부는 티스토리에, 생각은 벨로그에, 일상은 네이버에 기록합니다

[Pandas]Pandas 개요

Pandas?

판다스의 대표적인 기능

판다스의 구성 요소

판다스로 처리하기에 적합한 데이터

install pandas

2월의 KPT

[Numpy]default_rng, 새로운 난수 생성기

0개의 댓글