단변량 분석은 변수로서 사용해도 괜찮은지를 파악하기 위해서 진행해야 한다. 변수의 형태는 1) 숫자형 2) 범주형으로 구분된다. \- 숫자형/범주형의 경우 곱셈 또는 덧셈과 같은 연산이 가능한지를 확인함으로써 구분할 수 있다.숫자형일 때 사용하는 방법과 범주형일 때
해당 그래프를 통해 Ozone에 가장 강한 관계의 변수는 Temp라는 것을 추측할 수 있다.ex)sns.jointplot()ex)sns.regplot() - sns.regplot(x='Solar.R', y='Ozone', data = air)ex)sns.pairp
해당 방법은 변수 x : 범주형이며 // 변수 y : 숫자형인 경우에 대해서다.barplot \- 그래프를 통해 평균값의 차이와 신뢰구간의 차이를 확인한다.해당 그래프에서 각 범주의 y 값은 평균 값을 나타낸다. 가운데 위에 있는 직선은 각 범주의 신뢰구간(95%)
범주-범주 일때 : 1) 교차표를 작성하고 2) 시각화 : 교차표를 토대로 mosaic 그래프를 만든다. 3) 수치화 : 카이제곱 검정을 사용하며 카이제곱 검정량이 자유도의 2배 보다 크면 차이가 있다고 판단한다.사용하는 라이브러리 :import pandas as pd
숫자-범주형의 경우 수치화 과정은 없다.시각화는 1) hue를 이용한 histplot2) hue와 common_norm/multiple 을 이용한 kdeplot 방법이 있다.hue = 'y 칼럼(target)'kdeplot( , hue = 'Survived, commo