[CKA] 5주차 Day 2

강아람·2023년 3월 14일
0

CKA

목록 보기
19/22
post-thumbnail

Worker Node Failure

워커 노드의 Failure을 해결하는 방법에 대해 알아보자.


Check Node Status

먼저 클러스터 내의 노드 상태가 Ready 상태인지 확인한다.

Not Ready 상태라면 kubectl describe 명령을 이용해 노드에 대한 세부사항을 확인한다.


각 노드는 Status 에 대한 정보를 가지고 있으며, 노드에 왜 에러가 있는지 알 수 있는 방향을 제시할 수 있다.

Status는 True, False, Unknown 중 하나의 값을 가진다.


  • 노드가 사용 가능한 디스크 공간을 초과하여 사용하면 디스크 플래그(OutOfDisk)가 True가 된다.
  • 노드가 사용 가능한 메모리 공간을 초과하여 사용하면 디메모리 압력 플래그(MemoryPressure)가 True가 된다.
  • 디스크 용량이 적으면 디스크 압력 플래그(DiskPressure)가 True가 된다.
  • 프로세스 수가 너무 많으면 PID 압력(PIDPressure) 플래그가 True가 된다.
  • 노드 전체 상태가 정상이면 준비 상태(Ready) 플래그가 True가 된다.

워커 노드가 마스터와 통신을 멈추면 오류가 발생하여 이런 상태가 Unknown이 되어 버린다.



Check Node

최근 HeartBeat 필드를 확인해 노드가 Crashed 된 시간을 확인한다.

이 경우, 노드 자체의 상태를 확인한다.


노드가 고장나면 다시 올린다.

  • 노드의 사용 가능한 CPU, Memory, Disk 공간을 확인한다.

  • kubelet의 상태를 확인한다.

  • kubelet의 Certifications를 확인한다. 만료되지 않았는지, 올바른 클러스터 요소인지, 올바른 CA에서 발급한 인증서인지 확인한다.

0개의 댓글