Python | 데이터 분석 도구

kkrree·2022년 3월 12일

DL Data Analytics ML Saeborn data matplotlib pandas python

Python

목록 보기

2/2

데이터 분석을 위해 python을 쓰는 여러 장점 중,
다양한 라이브러리의 지원 이 큰 부분을 차지한다고 생각한다.

데이터 조작 도구 라이브러리와 데이터 시각화 도구를 살펴보자.

1. 데이터 조작

Numpy - 입출력 자료 구조

Pandas - 입력 데이터를 만드는 과정, 데이터 시각화 과정

1-1. Numpy

Numpy = numerical python
파이썬 내장 리스트보다 데이터 저장 및 처리에 있어 효율적인 Numpy 배열 제공
선형대수와 관련된 기능 제공
Python을 기반으로 한 데이터 과학 도구의 핵심 패키지
데이터 사이언스 영역 대부분의 도구는 Numpy기반이라해도 과언이 아니다.

1-2. Pandas

Numpy를 기반으로 개발된 패키지
유연한 인덱스를 가진 1차원 배열 구조의 Series객체와 유연한 행 인덱스와 열 이름을 가진 2차원 개열 구조의 DataFrame객체를 제공
강력한 데이터 연산 기능을 제공
DataFrame객체(2차원, Table형식)는 여러 데이터 타입을 사용할 수 있으며, 값의 누락 역시 허용

Numpy 패키지의 ndarray 객체는 배열 기반의 데이터에 효율적인 저장소 뿐만 아니라 효율적인 연산을 제공

Numpy 배열 객체는 단일 요소에 접근하는 indexing, 하위 배열에 접근하는 slicing, bool 배열을 이용한 masking 연산, index 배열을 이용한 fancy indexing, 이 모든 기능을 결합해 사용하는 복합 인덱스 기능을 제공

Pandas 패키지는 유연한 인덱스를 가진 1차원 배열 Series와 유연한 행 인덱스와 열 이름을 가진 2차원 DataFrame 객체를 제공

DataFrame은 인덱싱 연산에 loc, iloc 인덱서를 제공하여, 널 값 연산 기능과 조인, 그룹화, 피봇 가능을 지원

실제 분석에서는 Numpy와 Pandas를 함께 사용한다.
Numpy의 수치, 연산, 배열 등의 이점을 Pandas의 테이블 데이터 형식과 결합하여 분석에 활용한다.

2. 데이터 시각화

데이터 시각화는 통계량만으로는 알 수 없는 데이터에 대한 직관을 제공,
머신러닝의 성능을 비교하는데 필수적인 도구로써 역할한다.

2-1. Matplotlib

Python으로 기본적인 차트들을 쉽게 그릴 수 있도록하는 데이터 시각화라이브러리
plotting작업에 충실
바차트 그리기, 파이차트 그리기, 라인차트 그리기 등

2-2. seaborn

matplotlib을 기반으로 만들어져 통계 데이터 시각화에 최적화된 라이브러리
시각화에 탁월하고 차트를 그리기 위한 계산 작업을 자동으로 처리
더 깊은 분석을 목표로 탐색적 분석에사 사용
데이터 분포도 그리기, 히트맵 그리기, 박스 플롯 그리기 등

참고

kkrree

이전 포스트