Python Library - Pandas(1)

에이블·2022년 2월 9일
0

파이썬

목록 보기
13/20

본 게시물은 코드프레소의 code.PRESS-UP 체험단 과정을 담은 게시물입니다.

해당 게시물 수강강좌 :

파이썬으로 배우는 데이터 분석 : Pandas

Pandas 라이브러리로 데이터 분석 시작하기

https://www.codepresso.kr/course/56

이전 포스팅들은 Python의 데이터 분석 라이브러리 중 NumPy에 대해서 알아보았습니다.

앞으로의 포스팅은 Python의 데이터 분석 라이브러리 중 Pandas에 대해 포스팅을 할 예정입니다.

코드프레소 강의 로드맵이 NumPy - Pandas로 연계되어 데이터분석에 필요한 라이브러리를 응용할 수 있게 기초를 잡아주는 것이 매우 좋습니다.

Pandas 라이브러리 역시 코드프레소 강의와 함께 진행할 예정입니다.

1. Pandas

파이썬을 통해 데이터 분석을 할 때, Pandas를 빼놓고 이야기할 수 없다.

온전히 통계 분석을 위해 고안된 R 과는 다르게 python은 일반적인 프로그래밍 언어(general purpose programming language) 이다.

따라서 데이터 분석을 하기 위해서는 여러가지 라이브러리를 사용할 수 밖에 없다.

이 패키지들 중 R의 dataframe 데이터 타입을 참고하여 만든 것이 바로 pandas dataframe이다. pandas는 dataframe을 주로 다루기 위한 라이브러리이며, dataframe을 자유롭게 가공하는 것은 데이터 과학자들에게 중요하다.

pandas는 특히 숫자 테이블과 시계열을 조작하기 위한 데이터 구조와 연산을 제공합니다. 즉, 2차원 데이터를 효율적으로 가공 및 처리할 수 있는 강력한 라이브러리입니다.

물론 pandas의 문법을 외우지 않고, 필요할 때마다 책이나 웹에서 찾아가면서 해도 좋지만 자주 사용하는 조작법을 외운다면 안 그래도 귀찮은 데이터 핸들링 작업을 빠르게 할 수 있을 것이다.

1-1. 라이브러리 기능

  • 통합 인덱싱으로 데이터 조작을 위한 DataFrame 개체
  • 메모리 내 데이터 구조 와 다른 파일 형식 간에 데이터를 읽고 쓰는 도구
  • 데이터 정렬 및 누락된 데이터의 통합 처리
  • 데이터 세트의 재구성 및 피벗
  • 레이블 기반 슬라이싱, 멋진 인덱싱 및 대규모 데이터 세트의 하위 집합
  • 데이터 구조 열 삽입 및 삭제
  • 데이터 세트에 대한 분할-적용-결합 작업을 허용하는 엔진별로 그룹화
  • 데이터 세트 병합 및 결합
  • 저차원 데이터 구조에서 고차원 데이터로 작업하기 위한 계층적 축 인덱싱
  • 시계열 기능: 날짜 범위 생성 및 빈도 변환, 이동 창 통계, 이동 창 선형 회귀, 날짜 이동 및 지연
  • 데이터 필터링을 제공

1-2. DataFrame 객체

  • pandas의 기본 자료구조, 2차원 배열 또는 리스트, Data Table 전체를 포함하는 Obejct
  • Row와 Column index가 존재
  • 각 column은 서로 다른 데이터 타입을 가질 수 있음
  • Series를 모아서 만든 data table
  • 기본적으로 .csv 포맷을 지원, 구분자로 column이 구분된 데이터는 모두 지원
  • R언어 data.frame과 비슷함

Pandas는 주식 API에서 떨어지는 대규모 .csv/json/excel과 같은 댜앙한 파일 형식에서 데이터를 가져올 수 있고, 각종 데이터 처리 동작이 손쉽게 가능하고 재구성, 분석이 가능합니다.

또한 주식 API는 대부분 딕셔너리 형태로 구성된 데이터나 JSON 형식이 다양합니다.
이를 활용할 수 있는 pandas 라이브러리는 주식투자 프로그램에 적합한 라이브러리라고 생각됩니다.

이 포스팅 이후 부터 본격적으로 코드프레소 강의와 함께 pandas 라이브러리에 대한 개념과 활용법을 공부하고 작성할 예정입니다.

profile
꺾이지 않는 마음

0개의 댓글