kaggle 제출 하는 부분 코드

newbieski·2023년 4월 6일
0

머신러닝

목록 보기
11/14

kaggle에서 제출하는 쪽 코드만 기록해봄

output = my_model_2.predict(X_test)
tt = pd.DataFrame({"Id":X_test.index, "SalePrice" : output})
tt.to_csv("submission.csv", index=None)

"집값 예측" 문제로 설명
https://www.kaggle.com/competitions/home-data-for-ml-course

할 일

  • 데이터를 적절히 예측한 결과를 제출하면되는데
  • (ID, 예측값) 형태의 csv 파일을 만들어야함
  • kaggle 내에서 submission.csv 파일을 만들고 제출을 하면 알아서 잘 됨

값 예측

  • 적절히 모델을 잘 만들어서
  • 테스트 데이터를 입력했을때 일단 예측값이 배열 형태로 잘 나오게 만듬.
  • numpy array일 수도 있고, array 일 수도 있고 모르겠지만
  • 라이브러리를 잘(?) 사용하면 "numpy.ndarray" 형식의 객체가 만들어졌음

index??

  • 테스트데이터에 인덱스 컬럼이 존재함
  • index 컬럼과 예측값을 잘 엮어야함
  • 어짜피 모델이 row 하나씩 처리해서 예측값을 만들기 때문에, row당 예측값이 만들어 질 것임
  • row에 해당하는 index만 추출하면 됨

pandas 객체로 만들기

  • ID 컬럼, SalePrice 컬럼을 만듬
  • ID 컬럼에는 테스트 데이터의 인덱스 값들
  • SalePrice 컬럼에는 예측 값들을 채워넣는
  • pandas 객체를 만듬
  • 그리고 csv로 생성. 이때 row마다 순차적으로 index 값도 같이 생성될텐데 "None"로 생성 안하게 함
profile
newbieski

0개의 댓글