kubernetes gpu operator 무한 재부팅

Sbae·2024년 3월 6일
0

요구사항

  • k8s cluster를 설치하고 gpu operator를 설치해주세요!

서버 사양

  • cpu : xeon broadwell 10core
  • gpu : nvidia T1000(이게 뭐길래 비싸)

문제사항

  • k8s cluster를 전부 설치하고 gpu operator를 helm chart를 이용하여 설치한 직후 서버 자체가 무한 재부팅에 걸리는 문제가 발생
    • 예상으로는 메인보드가의 gpu 인식과 관련이 있는 듯 하다.
    • 왜 죽는지 로그도 안남고 그냥 뻗어버리는데 어떻게 찾아
  • 현재 상황으로는 서버가 잠깐 켜지는 시간에 kubelet을 정지시키는 명령어를 같이 실행해서 살려놓은 상태이다.

해결방법

  • 그래픽 드라이버를 꼭 설치한 후 gpu operator를 설치해야한다...제발....
profile
끄적이는 일반인

0개의 댓글