혁펜하임의 AI DEEP DIVE Chapter 7. Batch Normalization 해당하는 내용을 듣고 새롭게 배운 내용들을 정리해보겠습니다.
Note: 정리를 위해 혁펜하임님의 강의 자료를 일부 첨부했습니다.
이미 ReLU로 Vanishing gradient가 해결된 상황 (충분히 성능이 나오는 상황)에서는 Batch Normalization을 적용해도 큰 차이가 없었습니다.
Sigmoid의 경우, Batch Normalization을 적용한 경우와 적용하지 않은 경우 간의 성능 차이가 확연했습니다. 또한, Epoch이 증가하며 사진 속 last layer value
가 -5
에서 0
중심으로 변함을 확인할 수 있었습니다.
Recently, one fundamental cause of the overconfidence issue on OOD data is revealed that using mismatched BatchNorm statistics—that are estimated on ID data yet blindly applied to the OOD data in testing—can trigger abnormally high unit activations and model output accordingly.
자세한 내용은 Out-of-distribution detection 문제와 overconfidence 문제에 대해 이해해야 알 수 있지만, 대략적으로 여기서 말하는 것은 학습 데이터에 대해 학습된 BatchNorm이 학습 데이터와 다른 분포를 가지는 OOD 데이터에 악영향을 줄 수 있다는 것입니다.
Batch Normalization을 통해 Vanishing gradient 문제를 해결할 수 있지만 Open World에 배포되었을 때 uncontrollable 할 수 있다는 문제점도 존재한다는 점이 짚어 볼 만 한 것 같습니다.
Group Normalization이라는 것도 본 적이 있는데, 이 원리는 어떤 방식인지 찾아보고자 합니다.
본 게시글은 패스트캠퍼스 [혁펜하임의 AI DEEP DIVE] 체험단 활동을 위해 작성되었습니다.
강의 링크 : https://bit.ly/3GV73FN