Internship Week 16 : Recap & Plan

Yelim Kim·2023년 11월 24일
0

Internship

목록 보기
17/22

Recap of Accomplishments

2023-11-20

최박사님이 터미널로 데이터를 주셔서 이번에 나도 터미널에서 작업해보기로 함.
간단하게 영암 데이터를 이용해서 모든 머신러닝 모델 돌려봄.

그런데 결과중 예측값이 계단처럼 끊겨서 출력됨.
데이터에 문제가 있다고 판단했음.

2023-11-21

데이터 살펴보니 3군데(영암 포함) 날씨 데이터가 비어있는거 확인, 재 다운로드 받아서 전처리 했음.
계단으로 나오는 결과값 해결하였고 모든 머신러닝 모델 돌려서 MAE확인.
Random Forest : 0.020510363854668128
Gradient Boosting : 0.04209246326215783
AdaBoost : 0.06551941307637829
Extra Trees : 0.017910326212869684
CatBoost : 0.020321122194744065
XGBoost : 0.028188804068385843
NGBoost : 0.02263180883197598
Catboost가 가장 잘 나왔다.
머신러닝 돌린 값을 다시 입력값으로 넣어서 새로운 모델(여기서는 신경망)에 넣는 스태킹 방법을 사용해보자 생각했음.

2023-11-22

스태킹 방법 사용하였을 때 MAE가 0.02032에서 0.02006으로 줄었음.
하지만 그렇게 좋은 방법은 아닌 것 같음.

논문 Introduction 적었음. 11월 안으로 완성할 수 있을까 ;;;

추가적으로 할 수 있는 작업들:

  • 하이퍼파라미터 튜닝
  • 다른 옵티마이저 사용
  • LR 작게해보기
  • 정규화 추가

2023-11-23

선형모델과 비교해보기 위해서 선형모델로 전체 지역 돌려봤고,
기본 Catboost모델 사용해서 다른 지역 학습해봤다.

| 지역 | 선형모델 MAE | CatBoost MAE |
|105| 11.078| 0.035|
|112|10.669| 0.028|
|119| 10.230|0.035|
|121|0.147| 0.139|
|130|0.155|0.148|
|159|11.041|0.028|
|165|10.297|0.020|
|239|8.664|0.057|
|279|0.142|0.133|
|295|0.182|0.170|

퇴근하기 전에 모델을 조금 고쳤더니 영암지역에서 0.020 -> 0.017* (오차율 1.7%) 으로 줄었다.

갑자기 생각난건데
선형모델중에서 너무 이상하게 안좋은 지역들의 Solar Radiation값들이 빠진 것 같다.
저번 데이터에서는 이거 채워넣었었는데, 이번에 데이터가 바뀌면서 값이 그대로 빠져있는 듯.
다음주에 해결해야지.

저번에는 선형모델이 더 좋은 지역이 몇군데 있었는데,
이번에는 모든 지역에서 머신러닝 모델의 예측률이 높다.
모델은 달라지지 않았으니 저번에 사용했던 데이터가 역시 문제였던걸로.
선형모델보다 좋은건 확인되었으니 이제 모델을 제대로 빌드해보자.

2023-11-24

2023 한국인공지능학회 추계학술대회
후기.
세션 정리는 아래부분에 있는데 별로 정리는 아니고 그냥 들으면서 와다다 필기한 내용...

Next Week's Agenda

  • 요즘 GNN을 파고있다. 태양광에 GNN을 사용하여 비교해보려고 한다.!!!!!!
  • 태양광 빠진 값 채워넣기
  • 논문 초안 완성
profile
뜬금없지만 세계여행이 꿈입니다.

0개의 댓글