[부스트캠프 AI-Tech] 12주차 Day 1

LKM·2022년 4월 23일

KLUE-RE

부스트캠프 AI-Tech P stage

목록 보기

13/45

📊실험 회고

시도했던 것 (주말 포함)

하이퍼 파라미터 search
- huggingface의 optuna 시도
- epoch, learning rate, batch size, wramup-ratio 튜닝

회고

리더보드에 크게 신경은 쓰지 않았지만, 어떤 문제점이 있는지 알려주시기 위해 멘토링 진행, 다음과 같은 문제점 발견
- 실험의 이유가 없이 그저 성능을 올리기 위한 비교 실험 같다.
- 논문을 제대로 읽어보지 않은 느낌이 난다.
- 모델의 특성과 Task를 정확히 이해하지 못한 느낌이다.
- 데이터 특성에 대한 이해가 없이 실험을 하는 것 같다.
멘토님의 피드백을 토대로 지금까지 실험 회고
- 일단 하이퍼파라미터 경시→ 이미지 대회때 하이퍼 파라미터 튜닝만 했을 때 큰 성과가 없어 기본적인 하이퍼 파라미터로도 충분하다 생각 → 너무 안일했다.
- 실험의 이유가 없이 성능만 바라봤다 → TAPT 실험의 경우 왜 잘 안되었는지를 생각해보아야 했다. → 다시 생각해보니 roberta-large의 경우 이미 klue 데이터로 학습이 되어있음, 또 다시 TAPT를 하면 오히려 overfitting이 발생한다고 생각
- 논문을 제대로 읽어보지 않은 느낌이 난다→ 현재 사용하고 있는 roberta-large의 논문인 klue 논문을 훑어보기만 했다.. 해당 논문에 실험에 사용하였던 하이퍼 파라미터도 정확히 써있었는데 자세히 보지 않아 놓쳤다.
회고를 토대로 다시 실험
- klue 논문의 하이퍼 파라미터를 기준으로 다시 실험 시작 → max len, epoch, batch size, learning rate만 튜닝했을뿐인데 리더보드 기준 f1 score 4점이 상승
- max len을 반으로 줄이고, fp16을 적용하여 roberta-large의 학습시간을 18분까지 줄였다.
- fp16을 사용하였을 때 성능이 상승 → 정보의 detail을 줄여 일반화의 도움을 준다고 생각
멘토님의 피드백 덕분에 실험을 돌아볼 수 있었다. 생각보다 많은 부분을 놓치고 있었고, 시간이 많다고 자만하고 있었던 것 같다. 남은 시간이 그다지 많지 않지만, 실험의 방향을 잡았기 때문에 올라갈 일만 남았다고 생각한다.

LKM

함께 자라기

이전 포스트

[부스트캠프 AI-Tech] 11주차 Day 3~5

다음 포스트

[부스트캠프 AI-Tech] 12주차 Day 1

부스트캠프 AI-Tech P stage

📊실험 회고

시도했던 것 (주말 포함)

회고

[부스트캠프 AI-Tech] 11주차 Day 3~5

[부스트캠프 AI-Tech] 12주차 Day 2~3

0개의 댓글