두 개 이상의 수치형 변수 시각화

매일 공부(ML)·2022년 2월 12일
0

학습 목표

두 개 이상의 수치형 변수에 대한 시각화 방법을 알아봅니다.


핵심 키워드

scatterplot, regplot, residplot

lmplot

relplot : lineplot, scatterplot

신뢰구간


Point

두 개 이상의 수치형 변수에 대한 시각화 방법을 알아볼 겁니다.

seaborn 의 장점은 matplotlib의사용법과 거의 비슷하다는 것입니다. data, x, y. hue 와 같은 비슷한 옵션을 가지며 그래프 명칭만 변경해 주면 해당 그래프 명칭에 맞는 차트를 시각화합니다.

두 개의 수치형 변수를 볼 때는 두 개의 수치 변수에 대한 상관관계 등을 보는데 이를 시각화하기에 적절한 방법은 scatterplot, regplot, residplot 등이 있습니다.

각 용어는 scatterplot은 산점도를, regplot은 회귀선을 시각화하며, residplot은 회귀선과 관측값의 차이를 표현하고 lmplot 을 통해 regplot의 서브플롯을 그려볼 수 있습니다.

regplot, lmplot은 신뢰구간을 표시해주는데 relplot 은 수치데이터의 관계를 서브플롯으로 표현할 때 사용합니다. (기본값은 scatterplot 이며 lineplot 을 그려볼 수도 있습니다.)


Code로 보는 시각화

*scatterplot

# scatterplot 을 통해 2개의 수치변수 비교하기
sns.scatterplot(data=df, x="weight", y="mpg", hue = "origin")

#일본 차는 비교적 무겁고 미국차는 비교적 가볍다

코드를 입력하세요

*회귀 시각화(regplot)

# regplot 으로 회귀선 그리기
sns.regplot(data=df, x="weight", y="mpg")

*잔차 시각화(residplot, lmplot,jointplot)

# 회귀선의 잔차를 시각화 하기
sns.residplot(data=df, x="weight", y = "mpg")

# lmplot 을 통해 범주값에 따라 색상, 서브플롯 그리기
sns.lmplot(data=df, x="weight", y="mpg",hue ="origin", col="origin", truncate=False)

# jointplot 2개의 수치변수 표현하기
sns.jointplot(data=df, x="weight", y="mpg",kind="hex")

*pairplot

# pairplot 은 시간이 오래 걸리기 때문에 일부 샘플을 추출해 그려보고(100개)
# 샘플의 수를 늘려가며 그리는 걸 추천합니다.
# df_sample
df_sample = df.sample(100)
df_sample.shape

# origin 값에 따라 다른 색상으로 그리기
sns.pairplot(data=df_sample, hue="origin")

*lineplot

# lineplot으로 model_year, mpg를 시각화 합니다.
sns.lineplot(data=df, x="model_year", y="mpg",ci=None )#ci:신뢰구간

*relplot

# relplot 으로 수치 변수에 따라 서브플롯을 그립니다.
sns.relplot(data=df, x="model_year", y="mpg",hue = "origin",col="origin")

# relplot 으로 전체 수치 변수에 대한 시각화를 합니다.
sns.relplot(data=df)

# relplot 의  kind 옵션을 통해 선그래프를 그립니다.
sns.relplot(data=df, x="model_year", y="mpg",hue = "origin",col="origin", kind="line", ci=None)

profile
성장을 도울 아카이빙 블로그

0개의 댓글