잘 작동하던 Training Code가 작동하지 않았는데, 아래와 같은 에러메시지를 확인했다.
RuntimeError: Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 802: system not yet initialized
환경 설정 문제라고 생각했으나, 본 이슈는 fabricmanager가 작동하지 않고 있는 것이 문제였다.
먼저 아래 코드로 fabricmanager가 작동하는지 확인한다.
systemctl status nvidia-fabricmanager
만약 결과값이 inactive가 나온다면, fabricmanager를 다시 실행시킨다.
systemctl start nvidia-fabricmanager