kaggle 제출 하는 부분 코드

newbieski·2023년 4월 6일

kaggle python 머신러닝

0

머신러닝, AI

목록 보기

11/14

kaggle에서 제출하는 쪽 코드만 기록해봄

output = my_model_2.predict(X_test)
tt = pd.DataFrame({"Id":X_test.index, "SalePrice" : output})
tt.to_csv("submission.csv", index=None)

"집값 예측" 문제로 설명
https://www.kaggle.com/competitions/home-data-for-ml-course

할 일

데이터를 적절히 예측한 결과를 제출하면되는데
(ID, 예측값) 형태의 csv 파일을 만들어야함
kaggle 내에서 submission.csv 파일을 만들고 제출을 하면 알아서 잘 됨

값 예측

적절히 모델을 잘 만들어서
테스트 데이터를 입력했을때 일단 예측값이 배열 형태로 잘 나오게 만듬.
numpy array일 수도 있고, array 일 수도 있고 모르겠지만
라이브러리를 잘(?) 사용하면 "numpy.ndarray" 형식의 객체가 만들어졌음

index??

테스트데이터에 인덱스 컬럼이 존재함
index 컬럼과 예측값을 잘 엮어야함
어짜피 모델이 row 하나씩 처리해서 예측값을 만들기 때문에, row당 예측값이 만들어 질 것임
row에 해당하는 index만 추출하면 됨

pandas 객체로 만들기

ID 컬럼, SalePrice 컬럼을 만듬
ID 컬럼에는 테스트 데이터의 인덱스 값들
SalePrice 컬럼에는 예측 값들을 채워넣는
pandas 객체를 만듬
그리고 csv로 생성. 이때 row마다 순차적으로 index 값도 같이 생성될텐데 "None"로 생성 안하게 함

newbieski

이전 포스트

타입별 컬럼 처리하는 코드

다음 포스트

pandas iloc으로 column 분리할 때 미묘한 차이

0개의 댓글