Python 회귀모형의 성능

Jayce_97·2023년 5월 25일

Python 회귀분석

목록 보기

2/3

오늘은 저번시간에 이어서 회귀(regression)에 대해 좀 더 자세히 다루어 보려고합니다.

input

from sklearn.datasets import make_regression
import pandas as pd 
import statsmodels.api as sm 
bias=100
X,y,w=make_regression(n_samples=200, n_features=1, bias=bias, noise=10, coef=True, random_state=1)
dfX=pd.DataFrame(X,columns=['X'])
dfy=pd.DataFrame(y,columns=['Y'])
df=pd.concat([dfX, dfy],axis=1) #x,y를 가로방향으로 연결 
df

output

make_regression함수를 이용하여 가상의 데이터셋을 만들어 줍니다. 추가로 x,y절편으로 나눕니다.

from_formula 사용하기

input

# from_formula() 수식을 이용한 회귀분석 함수
# 종속변수 ~ 독립변수
model=sm.OLS.from_formula('Y ~ X', data=df)
result=model.fit() #학습
result.predict(dfX) # x를 입력하여 출력한 값

output

0 120.009634
1 96.426481
2 147.667192
3 143.549322
4 289.975003
...
195 84.796857
196 -4.498893
197 226.938918
198 198.199938
199 142.855933
Length: 200, dtype: float64

분석값 출력1

input

print('TSS=',result.uncentered_tss) # y의 분산
print('ESS=',result.mse_model) # 예측값의 분산
print('RSS=',result.ssr) #잔차의 분산
print('R squared=',result.rsquared) # rvalue 결정계수 0.0~1.0