DATA | MODEL | LOSS | Optimization
뭐가 가장 좋을지는 모름
how well the learned model will behave on unseen data
Generalization gap = Training error - test error
k-fold validation
Bagging (Bootstrapping aggregating)
좋은데 lr 설정 어려움
관성을 주자: 이전 step에서 업데이트 방향을 고려
다음 step의 업데이트 방향을 고려
lr이 없음. 많이 활용되지 않음.
Adaptive Moment Estimation (Adam) leverages both past gradients and squared gradients
학습을 방해해서 text dataset에 잘 되도록 하는 것들
It adds smoothness to the function space.
부드러운 함수로 만들면 잘된다..?
데이터셋이 적을 때에는 traditional ML이 더 잘품.
데이터셋을 늘리기 위해 데이터를 조작(이미지를 예를들면 회전시키기)해서 데이터셋을 늘리는 것.
데이터에 노이즈 집어넣는것. 근데 왜 도움이 되는지 증명 안됐고, 실험적으로만 증명됨.
두 라벨을 섞음... 고양이 개가 섞인(Mixup, Cutout, CutMix) 사진. 성능이 많이 놀라간다고 함.
뉴런의 일부 웨이트를 0으로 switch하는...
internal covariance shift. 뉴럴 네트워크내 레이어가....
각각의 레이어를 독립적으로 mean and variance를 계산해서 정규화한다...
파라미터 값을 특정값으로 정규화 하는 것으로 보임.
실험적으로 성능이 올라감.
이 개념을 해석하기 보다는 실험적으로 증명되어 잘 사용됨.