[네부캠] Week3 - Matplotlib(3) : Scatter Plot
학습 정리
Scatter Plot이란?
- 점을 사용하여 두 Feature간의 관계를 알기 위해서 사용하는 그래프이다.
- 다른 이름으로는 산점도라는 이름이 있다.
- Scatter Plot을 통해서 확인할 수 있는 것
- 상관관계를 확인 가능하다.
- 어떠한 데이터끼리 뭉쳐있는지 확인 가능하다. (군집)
- 값 사이의 차이를 확인할 수 있다.
- outlier(이상치)를 확인할 수 있다.
- 표시되는 점에 적용할 수 있는 요소
- 색 (color)
- 모양 (marker)
- 크기 (size)
- 기본적인 사용법으로는
.scatter()
를 사용해서 그릴 수 있다.

Scatter Plot 제대로 사용하기
Overplotting
- 점이 많아질수록 점의 분포를 파악하기 쉽지 않다. 여러 방식으로 완화가능
- 투명도 조정
- 지터링 (jittering)
- 점의 위치를 약간씩 변경하여 표현한다. 하지만 데이터의 직접적인 조작을 하므로 비추천!
- 2차원 히스토그램 --> 추천
- 히트맵을 사용하여 깔끔한 시각화 / 사각형 외의 육각형 등도 사용가능하다.
- Contour Plot --> 추천
점의 요소와 인지
- 색 (color)
- 연속은 gradient, 이산은 개별 색상으로 표현한다.
- 마커 (marker)
- 거의 구별하기 힘들고, 크기가 균일하지 않다.
- 크기 (size)
- 흔히 버블 차티 (bubble char)라고 부른다.
- 구별하기에는 용이하지만 오용하기 쉽다. (원의 크기를 비교하기 때문)
- feature 간의 관계보다는 각 점간 비율에 초점을 두는 것이 좋다.
인과관계와 상관관계
- 인과 관계와 상관 관계는 다르다.
- 인과 관계
- 특정 요인 A가 B에 영향을 준다. --> 영향을 주는 것
- 상관 관계
- 특정 요인 A와 B가 연관성이 있다. --> 연관성이 있다는 것
- Scatter plot으로 확인할 수 있는 것은 두 변수간의 상관 관계를 확인할 수 있다.
- 인과 관계는 항상 사전 정보와 함께 가정으로 제시하는 것이 중요하다.
추세선
- 추세선을 사용하면 scatter의 패턴을 유추할 수 있다.
- 추세선이 2개 이상이 되면 가독성이 떨어질 수 있다.
