안녕하세요..?!
진짜 얼마만의 블로그 포스팅인지...
물론 누군가에게 보여주려고 포스팅하는 블로그가 아니지만서도 꾸준하게 올렸으면 좋았을텐데..
자격증 시험 끝나고 바로 백마축제 준비하느라 매일 저녁에 연습하고..
백마 축제 끝나고는 바로 시험공부를 했는데 시험 공부 정리한거는 노션에 정리하느라 벨로그는 거의 작성할 일이 없었다.
열심히 했다구욧..!
노션에 정리한 것도 내 포폴에 적어야겠지만 아직은 너무 러프(?)한 상태이기 때문에 이것 또한 정리가 필요하겠지..
무울론 시험 끝나고 바로 연구에 들어가긴 했지만..사실 좀 놀았다! (멘탈이 바사삭 했던 일이 있어서..😂)
그치만 일주일이면 충분하다. 난 멋쟁이으른이니까 이런 것 따위에 무너지지 않아! 무너지더라고 할 일은 해야지...견뎌..!
그래서 저번 주 일주일은 거의 만들어진 폼을 좀 더 정리하고 그냥 데이터만 넣는 식으로 진행했다.
지금은 랜덤포레스트로 모델을 만들고 성능을 확인하고 있지만 이 3개년의 검증이 끝나면 내가 지금 수강하고 있는 과목인 '환경인공지능'에서 배웠던 걸로 적용해서 데이터를 활용해볼 예정이다!
강의 시간에 했던 거는 노션에 따로 정리할 것이다.
회포는 여기까지 풀고 하나의 갈래를 마무리 해보려고 한다.
내가 지금 하는 것들이 첫 프로젝트라 많이 부족한 부분이 많았는데 내가 가장 고민을 했던 부분은 깔끔하고 정리된 코드를 구현하는 것이었다.
잘 모르니까..일단 뭐라도 계속 써보고 돌리고 되면 되는건데 그러다보니까 전체적인 코드가 깔끔하지가 않고 당장 앞의 셀에만 치중하고 실행만 되게 하는 경향이 있었다.
그래서 전체적으로 코드를 짜임새(?)있게 정리했고 몇 가지 코드를 추가했다.
몇 가지 이슈도 적어보려 한다.
이거는 인덱스 번호를 맞추지 않아서 생기는 오류인데 보통은 rest_index
해주면 된다.
근데 나는 0으로 해줬는데...
그치만 컴퓨터는 정직하고 틀렸다면 내가 틀린 거지..그래서 다시 코드를 하나씩 짚어보았다.
역시나 내가 잘못했다!
drop하고 컬럼명을 나열해주는데 하나를 중복해서 두 번 썼더라.. 여러 셀을 그렇게 해서 (계속 복붙해서ㅎㅎ..)
그래서 중복되는 컬럼 없이 정리해줬더니 잘 출력됐다!
2020년 12월 15일부터 31일까지의 데이터가 없다..
이렇게 되면 2021년 1월 1일 00시를 채울 수가 없다..
데이터가 다 있다는게 얼마나 중요한지는 잘 모르겠는데 일단 이거는 오빠한테 여쭤봐야될 것 같다.
index_col = 0
데이터를 불러오면 인덱스 번호가 unnamed 컬럼으로 만들어진다.
근데 나는 어쩔 수 없이 생기는 거라 생각해서 매번 drop으로 컬럼을 지워줬는데 저 코드 하나면 인덱스 번호가 컬럼으로 출력되지 않는다.
정말 편한 놈이구만..
2022년보다는 값들이 전체적으로 낮아진 것으로 보인다.
코드는 똑같이 진행했다.
결과값은 2021년도와 비슷하다!
코드는 똑같이 진행했다.
이번에는 아무래도 3개년의 데이터를 다 합쳤기 때문에 236707개의 샘플로 학습했고 시간은 51분정도 걸렸다.
기존과 3배가 많은 데이터임에도 불구하고 21년도와 20년도의 데이터 1개년만 학습했을 때보다 정확도나 test데이터의 값들이 그렇게 차이나지 않았다.
그런데 사실 내가 이렇게 각각의 년도로 학습하고 또 한꺼번에 학습을 해보았는데 이게 어떠한 의미를 가지는지는 정확하게 잘 모르겠다.
이 부분도 오빠한테 물어봐야 할 사항인 것 같다.
우선 한번 내가 만든 모델에 대해서 오빠에게 리뷰를 받아보고 수정하거나 추가할 부분 고쳐봐야겠다.!
끝-