Internship Week 22 : Recap & Plan

Yelim Kim·2024년 1월 13일
0

Internship

목록 보기
20/22

이번 주는 큰 주제로 할 얘기들을 정리하는걸로

Kaggle 역할분담

YL

  • Target 비어있는 행들에 대해 target값 학습해서 train set으로 활용하기
  • 모든 변수에 Normalization
    - 각각 다른, 특히 날씨 (ex. cloud low/mid/high)
    - 여기에서 각 변수와 target과의 regression그려서 관계를 확인해보기
    - clould에 100이 너무 많다.

    그런데 이게 스케일링의 문제인지 아닌지 분포를 봐야함!
  • 지역 정보 or 기상정보 에 기반하여 클러스터링 해서 열 추가하기
    • 지도에 경위도 표시해서 분포 확인해보기

JW

  • Missing Data 직접 처리
  • sin/cos 시간 변환 말고 푸리에 변환으로
    • 개선 있는지 없는지 아직 모름.
  • historical/forecast.csv 관련
    - wind/prec&rain/solar_radiation&diffuse_radiation 등 둘 다 사용할 것인지 아니면 둘중에 하나만 사용할 것인지? 너무 자료가 중복되는 건 아닌지?
    - historical.csv에서 어떤 변수는 1:00에 잰 자료이고 어떤 변수는 1:59에 잰 자료인데 어떻게 취급할 것인지?
    JY
  • Weekend에 대해서 flag찍기
    • if == weekend : 1, else : 0
  • historical/forecast.csv 관련
    • 두개의 데이터 비슷한 컬럼에 대해 분포 or 값 비율 비슷한지 확인
  • price.csv 에서 euros에서 마이너스 값 처리하기
  • target값 분포 확인해보기
  • corr 너무 낮거나 너무 높은 컬럼은 제외하기

나중에

  • 비즈니스와 아닌 시설에 대해 다른 모델 적용
  • 학습 후에 잘 못 맞추는 이유 분석하기

17일 저녁에 모든 결과 가져오기

KIM 모델 서버 관련

  1. 그대로 돌리기
  2. 몇 개의 주요 변수로만 돌리기 (성층권 변수는 0으로 줬을 때 결과에 영향을 많이 주는지 확인)
  • ai서버에 계정 생성 요청 및 전달
  • 동찬오빠한테 데이터(여름) 위치 확인
  • PG, GC 모델 저장
  • 인풋 모양 확인해서 데이터 가공 (누가?)

태양광

시계열 문제인지 아닌지?

1월

주로 예림,

  • input으로 사용할 KIM자료 1년치 받아놓기 (9개 변수)
  • 모델 완성하기 (예측 오차 8%이내)
  • 예측이 되는 걸 보여줄 UI개발
    • 현재 진행도:
      지역(현재는 영암), hourly&daily&monthly 선택, 날짜 혹은 시간까지 입력 하면 모델 돌려서 예측값 출력
      하는 UI만 개발 아직 알맹이는 안집어넣음.
  • 전처리 분석자료 주원에게 공유하기
2월

주로 주원,

  • 데이터 받아서 missing 열 전처리 주로 어떤거 했는지 정리해서 줄 것
  • 예림이 만든 프레임 안에서 돌려보고 디버깅
2월 21일 이후

예림+주원,

  • 최종 버전 만들기
  • 분석자료 + 발표자로 + 모델구조 등
3월

결과 줘야함

4월

발표 희망

S2S 미팅 전

모델 or 전처리?

  • 아이디어 구체화하고 공부하기 (회의 필요)
profile
뜬금없지만 세계여행이 꿈입니다.

0개의 댓글