일반적으로 CIFAR10 데이터셋을 학습할 때 Pytorch에서 제공하는 IMAGENET으로 pretrained된 weight에서 학습을 시작한다. 하지만 pretrained된 모델을 사용하지 않고 완전히 처음부터 시작한다면 weight는 어떤 값으로 초기화되어 있을까?
Conv2d와 Linear는 Kaiming He 방식으로 초기화되고 Batchnorm2d에서는 weight는 1, bias는 0으로 초기화된다.