데이터 시각화

Bleu·2023년 10월 10일
0

python

목록 보기
16/22

데이터 시각화의 개념 및 필요성

데이터 시각화

: 데이터의 분석 결과를 쉽게 이해하고 판단할 수 있도록 데이터를 시각적으로 표현하여 전달하기 위한 과정

필요성

  • 많은 양의 데이터를 한눈에 파악 가능
    → 시각적 요소를 활용해 데이터를 요약

  • 데이터 분석에 대한 전문적 지식이 없더라도 누구나 해당 데이터를 인지하고 활용 가능하게 함

    • 사람이 감각기관을 통해 획득하는 정보의 80%는 시각에 의한 것
    • 시각적인 입력은 다른 어떤 방법보다 빠르고 쉽게 사람이 이해 가능함
    • 시각화 형태, 요소, 위치, 색등을 기반으로 패턴이나 다양한 인사이트(의미있는 정보)를 도출 및 표현 가능
  • 단순한 데이터 요약, 통계분석 결과보다 정확한 데이터 분석결과를 도출 가능

    • 데이터의 패턴이나 추세, 데이터간 비교등 표(Table)로 쉽게 인식 할 수 없는 것들을 시각적으로 쉽게 확인가능

대표적 파이썬 시각화 라이브러리

  • matplotlib
  • seaborn
  • pandas
  • plotly
  • folium


Matplotlib

  • 데이터의 시각화를 위한 파이썬 패키지
  • 2차원 그래프를 위한 패키지이나 확장 API들을 이용해 3D 그래프등 다양한 형식의 시각화를 지원
  • 파이썬 기반의 다른 시각화 패키지의 기본이 된다.
    • Seaborn, Pandas 등이 Matplotlib를 기반으로 사용한다.
  • 홈페에지: https://matplotlib.org

장점

  • 동작하는 OS를 가리지 않는다.
  • MATLAB과 유사한 사용자 인터페이스를 가진다.
  • 그래프에 대한 상세한 설정을 할 수 있다.
  • 다양한 출력 형식으로 저장할 수 있다.
  • matplotlib 그래프 구성 요소
  • figure

  • axes(subplot)

  • axis

    • 축 (x축, y축)은 값들을 위치시키는 선을 말한다.
    • axis label (x, y) : 축의 레이블(설명)
  • ticks : 축의 값을 알려주는 눈금

    • Major tick
    • Minor tick
  • title : 플롯 제목

  • legend (범례)

    • 하나의 axes내에 여러 그래프를 그린 경우 그것에 대한 설명

그래프 그리기

  1. matplotlib.pyplot 모듈을 import

    • 2차원 그래프(axis가 두개인 그래프)를 그리기위한 함수를 제공하는 모듈
    • 별칭(alias) 로 plt를 관례적으로 사용
    • import matplotlib.pyplot as plt
  2. 그래프를 그린다.

  3. 그래프에 필요한 설정을 한다.

  4. 화면에 그린다.

    • 지연 랜더링(Deferred rendering) 메카니즘
    • 마지막에 pyplot.show() 호출 시 그래프를 그린다.
      • 주피터 노트북 맨 마지막 코드에 ;를 붙이는 것으로 대체가능

그래프를 그리는 두가지 방식

  • pyplot 모듈의 함수들을 사용한다.
  • Figure와 Axes 객체의 메소드들을 사용한다.

0개의 댓글