kubernetes gpu operator 무한 재부팅
요구사항
- k8s cluster를 설치하고 gpu operator를 설치해주세요!
서버 사양
- cpu : xeon broadwell 10core
- gpu : nvidia T1000(이게 뭐길래 비싸)
문제사항
- k8s cluster를 전부 설치하고 gpu operator를 helm chart를 이용하여 설치한 직후 서버 자체가 무한 재부팅에 걸리는 문제가 발생
- 예상으로는 메인보드가의 gpu 인식과 관련이 있는 듯 하다.
왜 죽는지 로그도 안남고 그냥 뻗어버리는데 어떻게 찾아
- 현재 상황으로는 서버가 잠깐 켜지는 시간에 kubelet을 정지시키는 명령어를 같이 실행해서 살려놓은 상태이다.
해결방법
- 그래픽 드라이버를 꼭 설치한 후 gpu operator를 설치해야한다...제발....