kaggle에서 제출하는 쪽 코드만 기록해봄
output = my_model_2.predict(X_test)
tt = pd.DataFrame({"Id":X_test.index, "SalePrice" : output})
tt.to_csv("submission.csv", index=None)
"집값 예측" 문제로 설명
https://www.kaggle.com/competitions/home-data-for-ml-course
할 일
- 데이터를 적절히 예측한 결과를 제출하면되는데
- (ID, 예측값) 형태의 csv 파일을 만들어야함
- kaggle 내에서 submission.csv 파일을 만들고 제출을 하면 알아서 잘 됨
값 예측
- 적절히 모델을 잘 만들어서
- 테스트 데이터를 입력했을때 일단 예측값이 배열 형태로 잘 나오게 만듬.
- numpy array일 수도 있고, array 일 수도 있고 모르겠지만
- 라이브러리를 잘(?) 사용하면 "numpy.ndarray" 형식의 객체가 만들어졌음
index??
- 테스트데이터에 인덱스 컬럼이 존재함
- index 컬럼과 예측값을 잘 엮어야함
- 어짜피 모델이 row 하나씩 처리해서 예측값을 만들기 때문에, row당 예측값이 만들어 질 것임
- row에 해당하는 index만 추출하면 됨
pandas 객체로 만들기
- ID 컬럼, SalePrice 컬럼을 만듬
- ID 컬럼에는 테스트 데이터의 인덱스 값들
- SalePrice 컬럼에는 예측 값들을 채워넣는
- pandas 객체를 만듬
- 그리고 csv로 생성. 이때 row마다 순차적으로 index 값도 같이 생성될텐데 "None"로 생성 안하게 함