[Linux] unable to determine the device handle for gpu 0000:1a:00.0: unknown error 오류

es.Seong·2024년 4월 15일
0

GPU를 사용해서 딥러닝 모델을 돌리는 중 학습이 끊기는 현상이 발생했고, GPU 사용량 확인을 위해 nvidia-smi를 해보니 unable to determine the device handle for gpu 0000:1a:00.0: unknown error 오류 메시지가 출력됐고, nvidia-smi -L로 그래픽 카드들을 확인해보니 1개의 그래픽 카드에서 문제가 발생했던 것이었다.

구글링을 통해 찾아보니 주요 원인은 다음과 같았다.

  1. 그래픽 카드 고장
  2. 사용량 과다로 인한 발열 이슈

대부분 서버 재기동을 통해 해결했고, 필자 또한 root 권한을 가진 선생님께 재기동을 부탁드려서 서버를 껐다 켜니 오류가 해결되었다.
서버 재기동 명령어 : sudo reboot

만약 재기동 후에도 동일한 오류가 발생한다면, 그래픽 카드 연결 선 접촉 불량 혹은 그래픽 카드 고장 유무를 확인해보자.

사용했던 명령어
1. nvidia-smi
2. nvidia-smi -i 0 -> gpu 인덱스
3. nvidia-smi -L

profile
Graduate student at Pusan National University, majoring in Artificial Intelligence

0개의 댓글