[Python] seaborn_대학원 입학과 스펙의 연관성 #3_수치형 데이터

Andy Oh Sae Ha·2022년 6월 26일
0
post-thumbnail

우리가 흔히 말하는 '스펙' (GRE 점수, Research 여부, TOEFL 시험 성적 등)이 대학원 입학에 미치는 영향과 가장 중요한 역할을 하는 요소에 관한 데이터 분석

#3 에서는 수치형 데이터를 seaborn을 활용하여 시각화 하는 방법에 대하여 이야기 합니다

***해당 분석은 Google Colab를 활용하여 출력한 자료들입니다


환경 세팅하기

import seaborn as sns

seaborn을 import하여 불러옵니다


수치형 데이터 시각화하기

Kernel Density Estimate kdeplot 출력

plt.title('TOEFL Hist')
sns.kdeplot(x = data['TOEFL'])
plt.show()

plt.title() 은 출력될 그래프의 이름을 정해주고
sns.kdeplot() 는 어떤 데이터를 히스토그램으로 출력할 건지 결정하고
plt.show() 는 결과를 출력해주는 역할을 한다

Distribution Plot distplot 출력

sns.displot(data['CGPA'])
plt.show()

sns.displot() 는 어떤 데이터를 히스토그램으로 출력할 건지 결정하고
plt.show() 는 결과를 출력해주는 역할을 한다

***plt.title()의 경우 displot() 출력시 새로운 그래프를 출력하니 유의하자

Linear Regression Model regplot 출력

plt.title('CGPA')
sns.regplot(data['CGPA'], data['Admit'])
plt.xlabel('CGPA')
plt.ylabel('Admit')
plt.show()

plt.title()는 출력될 그래프의 이름을 정해주고
sns.regplot() 는 어떤 데이터를 regplot 그래프로 출력할 건지 결정하고
plt.xlabel() 는 x-axis 데이터의 타이틀을 부여한다
plt.ylabel() 는 y-axis 데이터의 타이틀을 부여한다
plt.show() 는 결과를 출력해주는 역할을 한다

복수 그래프 여러 그래프를 한 이미지에 출력

sns.distplot(data['CGPA'], hist = True, kde = True)
plt.show()

sns.displot() 를 기입 후 추가로 hist와 kde를 boolean값으로 지정할 수 있는데 이는 histogram과 kde를 한 그래프에 출력하는 역할을 한다
plt.show() 는 결과를 출력해주는 역할을 한다

Graph Color 그래프 색깔 출력

sns.distplot(data['CGPA'], hist = True, kde = True, color='r')
plt.show()

color='r 를 기본 구조에 추가하여 그래프에 색상을 입힌 모습이다

Graph Color 가로 그래프 출력

sns.distplot(data['CGPA'], hist = True, kde = True, color='r', vertical=True)
plt.show()

vertical=True 를 위 구조에 추가하여 그래프를 가로로 출력한 형태이다

seaborn 응용 출력

sns.distplot(data['CGPA'], 
             kde_kws={"color": "k", "lw":3, "label":"KDE"},
             hist_kws={"histtype": "step", "linewidth":3, "alpha":1, "color": "g"})
plt.show()

다양하게 많은 것들을 시도해 보길 바란다 (나 자신에게도)

위 hist, kde 외에도 다른 그래프도 추가로 출력 가능하며 해당 자료는 seaborn.pydata.org에서 확인 가능하다

profile
데이터 분석가

0개의 댓글