파이썬 시각화

김치성·2022년 6월 20일
0

학습내용

시각화 그래프의 기본 종류
1. countplot 
데이터의 수를 알아보고 싶을 때 
y축을 따로 설정할 수 없음 

hue를 지정하면 분류가 한 번 더 들어간다

  • hue에 넣으려는 컬럼 value의 종류가 너무 많으면 깔끔한 시각화를 만들 수 없음
  • 3종류 이상 넘어가면 bar가 너무 많아지기 때문에 그래프가 지저분해질 확률이 높다

2) distplot 
평균치를 나타내주는 정규 분포

3) barplot 
x별 y의 평균치를 보여줍니다.

4) boxplot 

  • 박스의 정중앙이 (검정선과 별개로) 평균값(mean)
  • 검정선은 중앙값 (median) 
  • 평균은 말그대로 n분의 1로 평균을 낸 것이고, 중앙값은 숫자를 1~100까지 나열했을 때 중앙에 있는 값.
  • 박스의 정중앙에 검정선이 오지 않는다면 평균과 중앙값이 일치하지 않는다는 말, 즉 아웃라이어가 있거나 데이터가 불균형하다는 말 
  • 다이아몬드는 아웃라이어.
  • ㅗ와 T자는 최소, 최댓값

5) pointplot
대체로 x축이 서로 연관성이 있을 때 사용

  • 연관성이 없을 때는 barplot을 사용 
  • 보통 시간의 흐름에 따른 어떠한 양상을 보고 싶을 때 pointplot을 많이씀

6) scatterplot
x축 y축 이외에 더 많은 조건들을 추가할 수 있음

hue = 해당 컬럼에 따라 색을 지정 
size = 해당 컬럼에 따라 동그라미 크기를 지정
sizes = 동그라미 크기의 사이즈를 지정 

어려웠던점

지난 시간에 배웠던 내용들이 많아 어려운 점은 없었다.

후기

시각화의 종류를 필요에 따라 알맞게 골라 쓰는 것도 데이터 분석의 중요한 능력 중 하나인거 같다.
방법적인 부분은 많이 알고 있어도 데이터에 맞춤형으로 사용하는데 아직 미숙한 부분이 있는거 같다.

profile
디지털백수

0개의 댓글