: 예측분석의 가장 대표적인 방법, x와 y 관계 찾아내는 것
ex) y=ax+b
실제 데이터(점)와 거리가 최소가 되는 방정식(선)을 찾아내는 것
-> 방정식의 계수 a,b를 잘 정해야 함
원-핫 인코딩 get_dummies()
: 범주형(ex) 과일) 은 연속형(1,0.1..) 피처와 달리 컴퓨터가 계산하지 못하므로 바꿔주ㅓ야 함
-> 벡터로 표현
team_encoding = pd.get_dummies(df['팀명'])
df=df.drop('팀명', axis=1)
df=df.join(team_encoding)
ex)
사과 = 1 0 0
키위 = 0 1 0
포도 = 0 0 1
- 평가
lr=linear_model.LinearRegression()
model=lr.fit(X_train, y_train)
print(model.score(X_train,y_train))
print(model.score(X_test,y_test))
y_predictions=lr.predict(X_train)
print(sqrt(mean_squared_error(y_train, y_predictions)))
print(sqrt(mean_squared_error(y_test, y_predictions)))
X=df[['FIP','WAR',..]]
predict_2018= lr.predict(X)
df['예측연봉']=pd.Series(predict_2018)
출처 : 이것이 데이터분석이다