- 데이터 프레임을 이용해서 데이터를 시각화 및 분석할 수 있도록 해주는 라이브러리
- 계량 경제학에서 사용하는 패널 데이터에서 따온 이름(Panel Data Sysytem)으로, 패널 데이터는 종단+횡단 성격을 갖는 데이터를 뜻한다.(한 시점 뿐만 아니라 시계열 데이터에도 강한 면모를 갖는다고 해석가능)
- 패널 데이터 구조를 제공하기 위해 넘파이(Numpy) 위에 구성되도록 개발, 넘파이에서 쉽게 사용가능
- 대용량 데이터를 다루거나 빠른 연산이 필요한 상황에서 취약하기 때문에 위와 같은 이유로 판다스 코드를 추후에 넘파이로 수정하면 이를 해결 가능하다.
- 통합적인 인덱싱 데이터 처리를 위한 데이터프레임 객체
- 인메모리(In-Memory) 데이터 구조를 가지며, 여러 파일 형식 데이터를 읽고 쓰기 위한 도구
- 데이터 정렬, 손실 데이터를 통합 처리
- 데이터 세트를 재형성(Reshaping), 피벗
- 라벨 기반 슬라이싱, 멀티 인덱싱 및 커다란 데이터 세트를 부분 집합으로 구성(Subsetting)
- 데이터 구조 열을 삽입하고 지우기
- 분할-적용-통합(Split-Apply-Combine) 연산이 가능한 엔진으로 데이터 세트를 그룹화
- 데이터 세트를 합치고(Merging) 붙이기(Joining)
- 저차원 데이터 구조에서 고차원 데이터를 연산할 수 있도록 멀티 레벨 인덱싱
- 다양한 시계열(Time Series) 처리 기능
- 데이터 여과(Filtration)
- 라벨 처리된 배열 데이터 구조 세트인 시리즈(Series)와 데이터프레임(DataFrame)
- 단순 축 또는 멀티인덱스 축을 인덱싱할 수 있는 인덱스(Index) 객체
- 데이터 세트를 종합하고 변형하는 엔진
- 사용자 정의 도수(Frequency)를 가지는 날짜 구간과 날짜 오프셋
- 입력/출력 도구: 플랫 파일들(CSV, delimiter, 액셀)에서 테이블형 데이터를 읽고, 빠르고 효율적인 PyTables/HDF5 형식에서 판다스 객체들을 저장하고 읽음.
- 손실 데이터, 고정 값 데이터를 효율적으로 저장하기 위한 메모리의 표준 데이터 구조
- 이동 윈도우 통계(이동 평균, 이동 표준 편차 등)
- SQL 테이블이나 액셀처럼 여러 형식을 갖는 테이블형 데이터
- 순서에 따라 정렬되거나 정렬되지 않은 시계열 데이터
- 행과 열 라벨이 있는 임의의 행렬 데이터
- 관측/통계 데이터 세트
python -m pip install pandas