2-3. Scatter Plot

유승우·2022년 5월 11일
0

Scatter Plot


  • 흔히 점을 사용하여 두 feature 간의 관계를 알기 위해 사용하며, 산점도라 불린다.
  • scatter는 기본적으로 2차원적인 데이터를 표현하는데, 색, 모양, 크기를 통해 차원을 늘려 갈 수 있다.
  • 주로 상관관계를 확인하거나 군집, 값 사이의 차이, 이상치 등 데이터의 분포를 확인하는데 사용한다.

정확한 scatter plot

Overplotting


  • 점이 많아질수록 점의 분포를 파악하기 힘든데, 다음의 4가지 경우로 조금 더 파악하기 쉽게 만들 수 있다.
    • 투명도 조정
    • 지터링(jittering) : 점의 위치를 약간씩 변경
    • 2차원 히스토그램 : 히트맵을 사용하여 깔끔하게 시각화
    • Contour plot : 분포를 등고선을 사용하여 표현

점의 요소와 인지


    • 연속은 gardient, 이산은 개별 색상으로 표시
  • 마커
    • 마커는 크기가 고르지 않으며, 마커로만 구별하기는 거의 힘들다
  • 크기
    • 흔히 버블 차트라고 부르는데 구별하기는 쉽지만 실제 크기의 차이와 점의 크기는 차이가 있기 때문에 오용하기 쉽다는 단점이 있다
ax.scatter(x, y, 
           s= s, # 크기
           c='white', # 색
           marker='o', # 모양
           linewidth=1, # 점 테두리 굵기
           edgecolor='black') # 점 테두리 색

인과관계와 상관관계


  • 상관관계와 인과관계는 분명히 다르고, 상관관계가 있다고 하여 반드시 인과관계가 있는 것은 아니기 때문에 분석에 주의해야 한다.
  • 인과 관계는 우리의 추측 또는 도메인 정보와 같은 사전 정보를 가정으로 제시해야 한다.

추세선


  • 추세선을 통해 scatter의 패턴을 유추할 수 있으며, 하나의 그룹의 전체적인 분포를 살필 때만 사용하는 것을 추천
  • 두 개 이상의 그룹이 되면 가독성이 떨어질 수 있다.

ETC


  • Grid
    • 점과 선이 겹치게 되면 정보가 오용될 수 있기 때문에 최소한으로 사용하고, 사용하더라도 무채색으로 사용하는 것을 추천한다
  • 범주형이 포함된 관계에서는 heatmap 또는 bubble chart를 추천

0개의 댓글