Python | 데이터 분석 도구

kkrree·2022년 3월 12일
0

Python

목록 보기
2/2

데이터 분석을 위해 python을 쓰는 여러 장점 중,
다양한 라이브러리의 지원 이 큰 부분을 차지한다고 생각한다.

데이터 조작 도구 라이브러리와 데이터 시각화 도구를 살펴보자.


1. 데이터 조작

Numpy - 입출력 자료 구조

Pandas - 입력 데이터를 만드는 과정, 데이터 시각화 과정

1-1. Numpy

  • Numpy = numerical python
  • 파이썬 내장 리스트보다 데이터 저장 및 처리에 있어 효율적인 Numpy 배열 제공
  • 선형대수와 관련된 기능 제공
  • Python을 기반으로 한 데이터 과학 도구의 핵심 패키지
  • 데이터 사이언스 영역 대부분의 도구는 Numpy기반이라해도 과언이 아니다.

1-2. Pandas

  • Numpy를 기반으로 개발된 패키지
  • 유연한 인덱스를 가진 1차원 배열 구조의 Series객체와 유연한 행 인덱스와 열 이름을 가진 2차원 개열 구조의 DataFrame객체를 제공
  • 강력한 데이터 연산 기능을 제공
  • DataFrame객체(2차원, Table형식)는 여러 데이터 타입을 사용할 수 있으며, 값의 누락 역시 허용
  • Numpy 패키지의 ndarray 객체는 배열 기반의 데이터에 효율적인 저장소 뿐만 아니라 효율적인 연산을 제공

  • Numpy 배열 객체는 단일 요소에 접근하는 indexing, 하위 배열에 접근하는 slicing, bool 배열을 이용한 masking 연산, index 배열을 이용한 fancy indexing, 이 모든 기능을 결합해 사용하는 복합 인덱스 기능을 제공

  • Pandas 패키지는 유연한 인덱스를 가진 1차원 배열 Series와 유연한 행 인덱스와 열 이름을 가진 2차원 DataFrame 객체를 제공

  • DataFrame은 인덱싱 연산에 loc, iloc 인덱서를 제공하여, 널 값 연산 기능과 조인, 그룹화, 피봇 가능을 지원

실제 분석에서는 Numpy와 Pandas를 함께 사용한다.
Numpy의 수치, 연산, 배열 등의 이점을 Pandas의 테이블 데이터 형식과 결합하여 분석에 활용한다.

2. 데이터 시각화

데이터 시각화는 통계량만으로는 알 수 없는 데이터에 대한 직관을 제공,
머신러닝의 성능을 비교하는데 필수적인 도구로써 역할한다.

2-1. Matplotlib

  • Python으로 기본적인 차트들을 쉽게 그릴 수 있도록하는 데이터 시각화라이브러리
  • plotting작업에 충실
  • 바차트 그리기, 파이차트 그리기, 라인차트 그리기 등

2-2. seaborn

  • matplotlib을 기반으로 만들어져 통계 데이터 시각화에 최적화된 라이브러리
  • 시각화에 탁월하고 차트를 그리기 위한 계산 작업을 자동으로 처리
  • 더 깊은 분석을 목표로 탐색적 분석에사 사용
  • 데이터 분포도 그리기, 히트맵 그리기, 박스 플롯 그리기 등

참고

0개의 댓글