Internship Week 18~20 : Recap & Plan

Yelim Kim·2024년 1월 7일

Internship

목록 보기

19/22

Recap of Accomplishments

2023-12-05

GCN으로 0.001, 64 학습하고 테스트셋까지 돌린 mae : 0.14244
GAT로 lr 0.0001, batchsize 128 학습하고 테스트셋 0.148366
수정할 수 있는 부분

드롭아웃 비율 조정하기, early stopping기법 적용
모델 구조 조절(레이어 수, 은닉 유닛 수 등)
데이터 정규화
activation function : leaky relu로 변경 했을 때 테스스텟 :
교차검증
손실함수 변경: 회귀 문제에는 MSE, MAE 외에도 Huber Loss 또는 Quantile Loss와 같은 다른 손실 함수가 적합할 수 있습니다.
0.0001/ 128로 했을 때 train: 0.0857 test 0.1625
-드롭아웃 비율때문인 것 같다.

2023-12-06

embedding 32, drop 0.3 early 15 lr 0.0001 batch 128 =>0.087/0.137

em32, drop0.3 early15, lr 0.001, batch64, heads8=>0.084/0.134
베스트 모델로 제대로 하고나서 train 0.011떴는데 test 0.20 ..... ->
배치64로 늘리고 손실함수 다시 mae로 바꿔봄: 0.08/0.13 ->엥 그대로? 그럼 확실히 손실함수때문인지 배치 때문인지 보기 위해서
배치 64로 하고 손실함수만 다시 huber로바꿔봄.: 0.017/0.149
배치 32로 하고 손실함수 huber로 바꿔봄: train 0.011, test 0.156
위와 그대로, 드롭아웃 0.6으로: 0.019, test 0.21
드롭아웃 0.3, embedding 32: 0.0113, test 0.190
=> 배치를 늘리는 게 좋겟다. , 드롭아웃은 낮게, 임베딩 32 ㄱㅊ
배치48로 바꿔봄: 0.011, test 0.1811
배치 128로 해봄: 0.012/ 0.1720
다른 값 고정하고 early_stopping 10으로 바꿈: 0.15/0.31
early_stopping 20: 0.011/0.153
batch size: 128, learning rate: 0.001, embedding size: 32, dropout rate: 0.3, early stopping rounds: 20 => train 0.011/test 0.164
batch size: 128, learning rate*: 0.0001, embedding size: 32, dropout rate: 0.3, early stopping rounds: 20=> 0.0123/0.189
batch size: 128, learning rate: 0.001, embedding size: 32, dropout rate: 0.3, early stopping rounds: 10 => 0.012/0.165

kfold 해봣음
dropout 0.3: fold1 train 0.0113, test 0.21
fold2 train 0.0111 test 0.211
dropout 0.6, embedding 32: fold1 train 0.02 test 0.26
early stopping 15, embedding size를 16, dropout 0.6: fold1 train 0.0144 test 0.242
early stopping 10, embedding 32로 함: 0.0116/0.1929
embedding 32, dropout 0.3, early_stopping 10, lr 0.001, batch size 64로 했을 때
Fold 0 - Best Val Loss: 0.011580062371774995
Fold 0 - Test MAE: 0.192914978160153
Fold 1 - Best Val Loss: 0.011275936631933535
Fold 1 - Test MAE: 0.21667281103158348
Fold 2 - Best Val Loss: 0.011204434116701568
Fold 2 - Test MAE: 0.18303773649327953
Fold 3 - Best Val Loss: 0.011127204566714155
Fold 3 - Test MAE: 0.23261216033357826
Fold 4 - Best Val Loss: 0.010967851881387419
Fold 4 - Test MAE: 0.1931642948643681
=> k fold 안하는게 더 낫나????ㅠㅠ 아근데 여기서 false false 했던 게 있어서.... 하ㄱㄷ
false로 바꿨음!: 0.013/0.111 & 0.012/0.117

모델이 너무 복잡하니까 파라미터를 낮추면됨

TEST SET 목표: 0.0175 !!!!!!

embedding_size = 32
dropout_rate = 0.3
early_stopping_rounds = 20

2023-12-07

출력값으로 음수가 나오는 것 같아서 relu함수 추가했더니 0.03/0.153
아니면 마지막 출력에서 음수값을 다 0으로만 바꿔줌. 0.012/0.118, 0.012/0.118, 0.012/0.141, 0.011/0.133
그림으로 출력해봄
![[Pasted image 20231207183005.png]]
전체적으로 낮게 나오고 & 음수가 나오는 것 같아서 해결중...

2023-12-08

대역 2 수업 / 제안

2023-12-11~2023-12-15(19주)

코드 가독성 개선
과적합 방지
대역2 기말고사 준비

2023-12-17~2023-12-23 (20주)

데이터과학 겨울캠프

첫째날 : 고형석 교수님 파이토치 강연
둘째날 : 첫째날과 이어서 파이토치 강연
셋째날 : 천둥 연구실에서의 쿠다 강연
넷째날 : 인텔 OneAPI 강연

파이토치 실습과정에서 짜여져 있는 코드가 잘 돌아가지 않는 경우가 있었고, 해당 코드를 디버깅하는데 꽤 많은 시간을 소비했다. 교수님께서 코드에 에러가 있는 경우 해결해주지 못하시고 넘어가셨고.. 특히 분류 문제에서 에러가 날 이유가 없는데 에러가 나서 끝나고 확인해보니까 로스펑션에 lr값이 너무 낮아서 학습이 되지 않고 발산하는 것 같았다. 그래도 다양한 문제들을 한 번에 경험할 수 있어서 좋았고 사용가능한 코드들이라 유용했다.
쿠다 강연은 GPU를 이해하는데 도움이 많이 됐다. 실제로 해당 내용으로 캠프가 있다고 하는데 제대로 들어보고 싶었다. 지금은 파이토치를 사용해서 이런 것들을 쉽게 확인할 수 있게 되었는데 만약 서버를 관리하거나 병렬처리를 하면서 효율적으로 사용하고 싶을 때 도움이 많이 될 것 같다.
인텔 강연에서 전무님이 쉽게 설명해주셔서 많은 것들을 이해할 수 있었는데 시간이 부족해서 많은 것들을 많이 얘기하지 못한 것 같아서 아쉬웠다. 인텔 강연을 앞부분으로 배치했다면 더 많은 것을 배웠을 것 같다.
전반적으로 짧은 기간에 많은 내용이 들어가서 한 분야에 집중하기가 조금 힘들었던 것 같다. 그리고 수준이 사람마다 너무 다르다 보니까 모든 인원들을 이끄는 데 시간이 오래 걸렸다. 만약 프로젝트를 만드는 활동을 하거나 팀별 준비하여 발표를 하는 시간이 있었다면 4일을 조금 더 효율적으로 배우고 사용할 수 있었을 것 같다.