Internship Week 4 : Recap & Plan

Yelim Kim·2023년 9월 1일
0

Internship

목록 보기
5/22

Recap of Accomplishments

2023-08-28

  • 기존 머신러닝 모델의 문제점 :
    강수량의 데이터가 전체 데이터의 10%이다. 하지만 강수량에 대해 딥러닝 모델이 가중치를 주지 못하고 데이터가 없는 경우(강수량이 없는 경우)와 0(강수는 있지만 0mm)인 경우를 거의 구분하지 못했다.
    -> 해결방법 :
    머신러닝의 부스팅 모델은 이러한 데이터에 영향을 잘 받지 않고 알아서 해석해서 공부한다.
    모델 디자인에 대한 작업의 양이 줄어서 데이터 디자인에 조금 더 신경쓸 수 있을 것이다.

연구 목표

미래기후 시나리오에 적용해서 2050년까지 한반도 (및 전구) 태양광 발전량을 추정하는 것

2023-08-30

모델 개선 방법 + Normalized RMSE

LightGBM 0.1212
LightGBM "Day", "Year", "t2m" 지움 0.1148
LightGBM 'NaN'개수 센 칼럼 추가, optuna로 파라미터 재셋팅 0.0767
XGBoost 0.0755

-발생했던 문제
- lightgbm에서 early_stopping 오류
- 버전이 높아지면서 해당 함수가 사라짐
= 공식문서 참고하여 해결함
- 또 참고했던 일본 사이트

  • GRU와 비교
    - RMSE: 751330.461302125
    - Normalized RMSE: 0.06337132770766911

계획

  • 모델 계속 개선, 앙상블 및 시각화

2023-08-31

  1. 시각화
  • 어떤 칼럼을 뺐을 때 RMSE가 낮아지는지 실험

    의외로 solar radiation을 빼니까 낮아졌다.

    하지만 XGBoost에서는 넣어야 높아졌음.
  1. 여러 칼럼들을 추가하고 빼보는 실험

  2. 교수님과 면담

  • 데이터셋
    - MIP
    • ERA5
    • 영암(현재 훈련용으로 사용중)
    • 김천(훈련용으로 사용예정)
  • 모델
    - 논문에서 사용한 Linear Model
    • GRU
    • ML(boosting)
  • 분석
    - 미래 데이터에 대해 예측해서 error표시하기
  1. 해야할 일
    • 기존 데이터로 RMSE최대한 내리고 월별/계절별/년도별 합계 error확인해보기
    • 정확도 최대한 높이기
    • 전지구적인 미래 데이터에 대해서 미리 받아놓기(ERA5? MIP?)
    • 미래 데이터에 대해서 예측하고 error 표시하기
      - 기존의 선형 모델이랑 비교하여 기존 모델이 얼마나 안좋은지, 기존 모델의 오차는 어느정도인지 표시하여 비교하기

2023-09-01

  1. 아침 수업
  2. 청강 신청 메일 보내기
  3. 부스팅 모델 앙상블
    Normalized RMSE 0.0687
  4. 시각화
    (test dataset에 대한 예측결과 시각화 : 2021년&2022년 데이터)
  • 월별
  • 계절별
  • 년도별

예측값이 실제값보다 조금 높지만 경향은 잘 파악하는 것 같다. 오차를 조금 더 줄일 수 있으면 좋을듯.

Next Week's Agenda

  • 데이터 정규화
    (GRU도 정규화 하니 성능이 확 좋아져서 여기서 정규화하면 더 좋아질 것이라고 예상)
  • 캣부스트 모델
  • GRU와 앙상블해서 결과내기

주말에 할 일

  • 8월 회고
profile
뜬금없지만 세계여행이 꿈입니다.

0개의 댓글