pandas 공식 사이트

Pandas?

  • 데이터 프레임을 이용해서 데이터를 시각화 및 분석할 수 있도록 해주는 라이브러리
  • 계량 경제학에서 사용하는 패널 데이터에서 따온 이름(Panel Data Sysytem)으로, 패널 데이터는 종단+횡단 성격을 갖는 데이터를 뜻한다.(한 시점 뿐만 아니라 시계열 데이터에도 강한 면모를 갖는다고 해석가능)
  • 패널 데이터 구조를 제공하기 위해 넘파이(Numpy) 위에 구성되도록 개발, 넘파이에서 쉽게 사용가능
  • 대용량 데이터를 다루거나 빠른 연산이 필요한 상황에서 취약하기 때문에 위와 같은 이유로 판다스 코드를 추후에 넘파이로 수정하면 이를 해결 가능하다.

판다스의 대표적인 기능

  • 통합적인 인덱싱 데이터 처리를 위한 데이터프레임 객체
  • 인메모리(In-Memory) 데이터 구조를 가지며, 여러 파일 형식 데이터를 읽고 쓰기 위한 도구
  • 데이터 정렬, 손실 데이터를 통합 처리
  • 데이터 세트를 재형성(Reshaping), 피벗
  • 라벨 기반 슬라이싱, 멀티 인덱싱 및 커다란 데이터 세트를 부분 집합으로 구성(Subsetting)
  • 데이터 구조 열을 삽입하고 지우기
  • 분할-적용-통합(Split-Apply-Combine) 연산이 가능한 엔진으로 데이터 세트를 그룹화
  • 데이터 세트를 합치고(Merging) 붙이기(Joining)
  • 저차원 데이터 구조에서 고차원 데이터를 연산할 수 있도록 멀티 레벨 인덱싱
  • 다양한 시계열(Time Series) 처리 기능
  • 데이터 여과(Filtration)

판다스의 구성 요소

  • 라벨 처리된 배열 데이터 구조 세트인 시리즈(Series)와 데이터프레임(DataFrame)
  • 단순 축 또는 멀티인덱스 축을 인덱싱할 수 있는 인덱스(Index) 객체
  • 데이터 세트를 종합하고 변형하는 엔진
  • 사용자 정의 도수(Frequency)를 가지는 날짜 구간과 날짜 오프셋
  • 입력/출력 도구: 플랫 파일들(CSV, delimiter, 액셀)에서 테이블형 데이터를 읽고, 빠르고 효율적인 PyTables/HDF5 형식에서 판다스 객체들을 저장하고 읽음.
  • 손실 데이터, 고정 값 데이터를 효율적으로 저장하기 위한 메모리의 표준 데이터 구조
  • 이동 윈도우 통계(이동 평균, 이동 표준 편차 등)

판다스로 처리하기에 적합한 데이터

  • SQL 테이블이나 액셀처럼 여러 형식을 갖는 테이블형 데이터
  • 순서에 따라 정렬되거나 정렬되지 않은 시계열 데이터
  • 행과 열 라벨이 있는 임의의 행렬 데이터
  • 관측/통계 데이터 세트

install pandas

python -m pip install pandas
profile
실패보다 사람을 더 미치게 하는게 후회더라구요 // 공부는 티스토리에, 생각은 벨로그에, 일상은 네이버에 기록합니다

0개의 댓글

Powered by GraphCDN, the GraphQL CDN