이변량 분석: 숫자-범주

엔지니어 큐브·2023년 8월 26일
0

항상 기억하도록

  • 숫자-범주형의 경우 수치화 과정은 없다.
  • 시각화는
    1) hue를 이용한 histplot
    2) hue와 common_norm/multiple 을 이용한 kdeplot 방법이 있다.

1-1. 시각화: histplot + hue

  • hue = 'y-columns'
import pandas as pd
import numpy as np
import random as rd

import matplotlib.pyplot as plt
import seaborn as sns

sns.histplot(x='Age', data = titanic, hue = 'Survived')
<출력>

2-1. 시각화: kdeplot() + hue + common_norm

  • kdeplot( , hue = 'Survived, common_norm = False)
  • common_norm이 False면 생존여부 각각 아래 면적의 합이 1인 그래프 생성
  • common_norm이 True면 나이에 따른 생존여부의 비율을 확인할 수 있는 그래프 생성
sns.kdeplot(x='Age', data = titanic, hue ='Survived', common_norm = False)
<출력>

2-2. 시각화: kdeplot() + hue + multiple

  • kdeplot( , hue = 'Survived, multiple = 'fill')
  • common_norm = False는 입력하면 안됨.
sns.kdeplot(x='Age', data = titanic, hue ='Survived', multiple = 'fill')
plt.axhline(titanic['Survived'].mean(), color = 'r')

  • 그래프 해석
    - 약 15세 이하는 생존율이 전체 평균보다 높다.
    - 20~30대는 생존율이 전체 평균보다 낮다.
    - 60~70대는 대부분 사망
profile
큐브가 필요하다...!!!

0개의 댓글