[네부캠] Week3 - Matplotlib(3) : Scatter Plot

오홍석·2024년 8월 27일
0

네부캠

목록 보기
12/28

학습 정리


Scatter Plot이란?

  • 점을 사용하여 두 Feature간의 관계를 알기 위해서 사용하는 그래프이다.
  • 다른 이름으로는 산점도라는 이름이 있다.
  • Scatter Plot을 통해서 확인할 수 있는 것
    • 상관관계를 확인 가능하다.
    • 어떠한 데이터끼리 뭉쳐있는지 확인 가능하다. (군집)
    • 값 사이의 차이를 확인할 수 있다.
    • outlier(이상치)를 확인할 수 있다.
  • 표시되는 점에 적용할 수 있는 요소
    • 색 (color)
    • 모양 (marker)
    • 크기 (size)
  • 기본적인 사용법으로는 .scatter()를 사용해서 그릴 수 있다.

Scatter Plot 제대로 사용하기

Overplotting

  • 점이 많아질수록 점의 분포를 파악하기 쉽지 않다. 여러 방식으로 완화가능
    • 투명도 조정
    • 지터링 (jittering)
      • 점의 위치를 약간씩 변경하여 표현한다. 하지만 데이터의 직접적인 조작을 하므로 비추천!
    • 2차원 히스토그램 --> 추천
      • 히트맵을 사용하여 깔끔한 시각화 / 사각형 외의 육각형 등도 사용가능하다.
    • Contour Plot --> 추천
      • 분포를 등고선으로 표현한다.

점의 요소와 인지

  • 색 (color)
    • 연속은 gradient, 이산은 개별 색상으로 표현한다.
  • 마커 (marker)
    • 거의 구별하기 힘들고, 크기가 균일하지 않다.
  • 크기 (size)
    • 흔히 버블 차티 (bubble char)라고 부른다.
    • 구별하기에는 용이하지만 오용하기 쉽다. (원의 크기를 비교하기 때문)
    • feature 간의 관계보다는 각 점간 비율에 초점을 두는 것이 좋다.

인과관계와 상관관계

  • 인과 관계와 상관 관계는 다르다.
    • 인과 관계
      • 특정 요인 A가 B에 영향을 준다. --> 영향을 주는 것
    • 상관 관계
      • 특정 요인 A와 B가 연관성이 있다. --> 연관성이 있다는 것
  • Scatter plot으로 확인할 수 있는 것은 두 변수간의 상관 관계를 확인할 수 있다.
  • 인과 관계는 항상 사전 정보와 함께 가정으로 제시하는 것이 중요하다.

추세선

  • 추세선을 사용하면 scatter의 패턴을 유추할 수 있다.
    • 추세선이 2개 이상이 되면 가독성이 떨어질 수 있다.
profile
기동코딩

0개의 댓글