이것이 데이터분석이다 - 예측분석 1. 회귀분석

화이팅·2023년 2월 28일
0

1. 회귀분석

: 예측분석의 가장 대표적인 방법, x와 y 관계 찾아내는 것
ex) y=ax+b

실제 데이터(점)와 거리가 최소가 되는 방정식(선)을 찾아내는 것
-> 방정식의 계수 a,b를 잘 정해야 함


원-핫 인코딩 get_dummies()

: 범주형(ex) 과일) 은 연속형(1,0.1..) 피처와 달리 컴퓨터가 계산하지 못하므로 바꿔주ㅓ야 함
-> 벡터로 표현

team_encoding = pd.get_dummies(df['팀명'])
df=df.drop('팀명', axis=1)
df=df.join(team_encoding)

ex)
사과 = 1 0 0
키위 = 0 1 0
포도 = 0 0 1


- 평가

  • 학습 점수 > 테스트 점수 : 과적합

    lr=linear_model.LinearRegression()
    model=lr.fit(X_train, y_train)
    print(model.score(X_train,y_train))
    print(model.score(X_test,y_test))

  • RMSE(root mean square error) : 실제값과 예측값 차이 절대적인 수치로 나타냄
    높을수록 예측 부정확

    y_predictions=lr.predict(X_train)
    print(sqrt(mean_squared_error(y_train, y_predictions)))
    print(sqrt(mean_squared_error(y_test, y_predictions)))


  • 예측 연봉

    X=df[['FIP','WAR',..]]
    predict_2018= lr.predict(X)
    df['예측연봉']=pd.Series(predict_2018)

출처 : 이것이 데이터분석이다

profile
하하...하.

0개의 댓글