데이터 시각화의 개념 및 필요성
데이터 시각화
: 데이터의 분석 결과를 쉽게 이해하고 판단할 수 있도록 데이터를 시각적으로 표현하여 전달하기 위한 과정
필요성
-
많은 양의 데이터를 한눈에 파악 가능
→ 시각적 요소를 활용해 데이터를 요약
-
데이터 분석에 대한 전문적 지식이 없더라도 누구나 해당 데이터를 인지하고 활용 가능하게 함
- 사람이 감각기관을 통해 획득하는 정보의 80%는 시각에 의한 것
- 시각적인 입력은 다른 어떤 방법보다 빠르고 쉽게 사람이 이해 가능함
- 시각화 형태, 요소, 위치, 색등을 기반으로 패턴이나 다양한 인사이트(의미있는 정보)를 도출 및 표현 가능
-
단순한 데이터 요약, 통계분석 결과보다 정확한 데이터 분석결과를 도출 가능
- 데이터의 패턴이나 추세, 데이터간 비교등 표(Table)로 쉽게 인식 할 수 없는 것들을 시각적으로 쉽게 확인가능
대표적 파이썬 시각화 라이브러리
- matplotlib
- seaborn
- pandas
- plotly
- folium
Matplotlib
- 데이터의 시각화를 위한 파이썬 패키지
- 2차원 그래프를 위한 패키지이나 확장 API들을 이용해 3D 그래프등 다양한 형식의 시각화를 지원
- 파이썬 기반의 다른 시각화 패키지의 기본이 된다.
- Seaborn, Pandas 등이 Matplotlib를 기반으로 사용한다.
- 홈페에지: https://matplotlib.org
장점
- 동작하는 OS를 가리지 않는다.
- MATLAB과 유사한 사용자 인터페이스를 가진다.
- 그래프에 대한 상세한 설정을 할 수 있다.
- 다양한 출력 형식으로 저장할 수 있다.
- matplotlib 그래프 구성 요소

-
figure
-
axes(subplot)
-
axis
- 축 (x축, y축)은 값들을 위치시키는 선을 말한다.
- axis label (x, y) : 축의 레이블(설명)
-
ticks : 축의 값을 알려주는 눈금
-
title : 플롯 제목
-
legend (범례)
- 하나의 axes내에 여러 그래프를 그린 경우 그것에 대한 설명
그래프 그리기
-
matplotlib.pyplot 모듈을 import
- 2차원 그래프(axis가 두개인 그래프)를 그리기위한 함수를 제공하는 모듈
- 별칭(alias) 로 plt를 관례적으로 사용
import matplotlib.pyplot as plt
-
그래프를 그린다.
-
그래프에 필요한 설정을 한다.
-
화면에 그린다.
- 지연 랜더링(Deferred rendering) 메카니즘
- 마지막에
pyplot.show()
호출 시 그래프를 그린다.
- 주피터 노트북 맨 마지막 코드에
;
를 붙이는 것으로 대체가능
그래프를 그리는 두가지 방식
- pyplot 모듈의 함수들을 사용한다.
- Figure와 Axes 객체의 메소드들을 사용한다.