우리가 흔히 말하는 '스펙' (GRE 점수, Research 여부, TOEFL 시험 성적 등)이 대학원 입학에 미치는 영향과 가장 중요한 역할을 하는 요소에 관한 데이터 분석
#3 에서는 수치형 데이터를 seaborn을 활용하여 시각화 하는 방법에 대하여 이야기 합니다
***해당 분석은 Google Colab를 활용하여 출력한 자료들입니다
import seaborn as sns
seaborn을 import하여 불러옵니다
plt.title('TOEFL Hist')
sns.kdeplot(x = data['TOEFL'])
plt.show()
plt.title()
은 출력될 그래프의 이름을 정해주고
sns.kdeplot()
는 어떤 데이터를 히스토그램으로 출력할 건지 결정하고
plt.show()
는 결과를 출력해주는 역할을 한다
sns.displot(data['CGPA'])
plt.show()
sns.displot()
는 어떤 데이터를 히스토그램으로 출력할 건지 결정하고
plt.show()
는 결과를 출력해주는 역할을 한다
***plt.title()의 경우 displot() 출력시 새로운 그래프를 출력하니 유의하자
plt.title('CGPA')
sns.regplot(data['CGPA'], data['Admit'])
plt.xlabel('CGPA')
plt.ylabel('Admit')
plt.show()
plt.title()
는 출력될 그래프의 이름을 정해주고
sns.regplot()
는 어떤 데이터를 regplot 그래프로 출력할 건지 결정하고
plt.xlabel()
는 x-axis 데이터의 타이틀을 부여한다
plt.ylabel()
는 y-axis 데이터의 타이틀을 부여한다
plt.show()
는 결과를 출력해주는 역할을 한다
sns.distplot(data['CGPA'], hist = True, kde = True)
plt.show()
sns.displot()
를 기입 후 추가로 hist와 kde를 boolean값으로 지정할 수 있는데 이는 histogram과 kde를 한 그래프에 출력하는 역할을 한다
plt.show()
는 결과를 출력해주는 역할을 한다
sns.distplot(data['CGPA'], hist = True, kde = True, color='r')
plt.show()
color='r
를 기본 구조에 추가하여 그래프에 색상을 입힌 모습이다
sns.distplot(data['CGPA'], hist = True, kde = True, color='r', vertical=True)
plt.show()
vertical=True
를 위 구조에 추가하여 그래프를 가로로 출력한 형태이다
sns.distplot(data['CGPA'],
kde_kws={"color": "k", "lw":3, "label":"KDE"},
hist_kws={"histtype": "step", "linewidth":3, "alpha":1, "color": "g"})
plt.show()
다양하게 많은 것들을 시도해 보길 바란다 (나 자신에게도)
위 hist, kde 외에도 다른 그래프도 추가로 출력 가능하며 해당 자료는 seaborn.pydata.org에서 확인 가능하다