[ML] 데이터 시각화-package

9e0na·2023년 6월 23일
1

[머신러닝]

목록 보기
2/5
post-thumbnail

주제: Data Visualization-package

파이썬 머신러닝 완벽 가이드[개정2판] pp.116-126 참고해서 내용 작성하였습니다.


1. 데이터 시각화

  • 데이터분석 결과를 이해하기 쉽도록 시각적으로 전달하는 것
  • 시각화를 통해 데이터의 패턴과 다른 요소들의 연관성 등 다양한 인사이트를 도출하여 의사결정에 도움을 줌.

2. Klib 패키지

  • 실무에서 많이 사용하고 있는 패키지
    -> 데이터분석과 관련된 다양한 Task에서 유용하게 사용가능
  • 파이썬 사용하는 utility 함수들을 모아둔 패키지
  • klib 패키지는 pandas, matplotlib, seaborn 등의 데이터 분석과 시각화 라이브러리를 기반으로 만들어진 utility 패키지임.
  • 2023년 7월 기준 klib 1.1.1 버전임

2. 1. 데이터 탐색 및 전처리

  • corr_mat
    : 데이터프레임의 변수 간 상관 관계를 시각화하는 기능
  • cat_countplot
    : 카테고리 변수의 도수분포를 시각화하는 기능
  • drop_missing
    : 결측값이 많은 행 또는 열을 제거하는 기능
  • missingval_plot
    : 시각화를 통한 결측치 확인

2.2. 데이터 시각화

  • corr_plot: 상관관계 행렬을 시각화
  • dist_plot: 히스토그램과 KDE(kernel density estimate) 그래프를 동시에 시각화
  • pairplot: 데이터프레임의 변수 간 산점도를 시각화
  • cat_plot: 카테고리 변수에 대한 도수분포를 시각화

2.3. 데이터프레임 변형

  • convert_datatype: 데이터프레임의 변수 타입을 변경하는 기능
  • univar_plot: 변수의 분포를 시각화
  • normalize: 데이터프레임의 변수를 정규화
  • reduce_mem_usage: 메모리 사용량을 줄이는 기능

3. pandas plot

  • pandas는 자체 도식기능이 없고 내부적으로 matplotlib함수를 호출해서 도식화 함
    -> matplotlib의 function 이용 가능함
  • matplotlib보다 더 나은 자체 스타일 보유
  • 데이터프레임을 plot() 메소드를 통해 시각화 가능

    pandas plot 종류

    • line(default)
    • bar
    • barh
    • his
    • box
    • density
    • ahexbin
    • scatter
    • pie
    • area
  • 다양한 시각화 출처


4. matplotlib

  • 2002년 John Hunter로부터 시작된 MATLAB의 도식화 기능을 흉내낸 package
  • matplotlib은 가장 많이 사용되는 시각화 패키지로, pyplot 모듈을 통해 간편하게 그래프를 그릴 수 있음.
  • 페이지로딩 할 때 import matplotlib.pyplot as plt

Matplotlib의 그래프 구성

1. Figure

2. Axes

  • Axis
  • xlabel
  • ylabel
  • title
  • legend

matplotlib 사용시 주의사항

  • 한글 폰트를 지원하지 않기 때문에, 그래프에 한글 사용할 때는 폰트 설정을 무조건 해야 함.

  • plt을 통해 그래프를 더 쉽게 꾸밀 수 있음

    변경 가능한 부분


5. seaborn

  • matplotlib을 기반으로 다양한 색상 테마와 통계용 차트 등을 추가함
    -> 내부적으로 matplotlib함수 호출
  • 통계 기능은 statsmodels package에 의존
  • import seaborn as sns
  • 다양한 seaborn 시각화 출처


🎯 Summary

  • 기존 ploty, matpltlib, seaborn 이외에 utility package를 다 모아둔 klib 패키지에 대해서 자세하게 알아봤다. 우리가 굳이 코딩을 하지 않더라도 패키지를 잘만 활용하면 데이터 전처리 & 시각화를 편리하게 할 수 있었다.
  • 하지만 Chat GPT 4.0가 놀라울정도로 발전하고 있어서 그 버전에 데이터를 넣으면 EDA와 modeling도 다 해주다. 지금까지 우리가 배운 전처리이며 시각화는 어떻게 되는 것일까..? 거대한 Language Model을 이길 수는 없겠지만, 인공지능이 할 수 없는 시각화를 하여서 비즈니스 인사이트에 도움 될 수 있는 것을 만드는 것이 매우 중요한 것 같다.

📚 References

  • 권철민(2019),'파이썬 머신러닝 완벽 가이드[개정2판]', 위키북스, pp.62-83.
profile
데이터사이언티스트가 되기 위해 [a-zA-Z]까지 정리하는 거나입니다 😊

0개의 댓글