장애 심각도(Level)
개념
: 장애가 발생하면 기업은 그 심각도(Level)에 따라 대응 방법과 우선순위를 결정함
장애 심각도 분류 기준
1) Critical (P1)
전체 서비스 중단, 즉각 대응 필요
ex) 모든 사용자가 로그인 불가, 결제 기능 동작 안함
대응 시간: 30분 이내 대응 시작
대응 방식: 즉시 대응 (온콜팀, 운영팀 전체 가동)
2) Major (P2)
일부 기능 제한, 신속한 대응 필요
ex) 특정 국가에서 서비스 불가능, 일부 기능 오류 (검색 기능, 장바구니 등)
대응 시간: 1~4시간 내 대응
대응 방식: 핵심 엔지니어 투입
3) Minor (P3)
기능 사용 가능, 보완 필요
ex) 일부 페이지 로딩 속도 저하, 특정 유저 그룹에서 오류 발생
대응 시간: 1~2일 내 대응
대응 방식: 버그 수정 일정 조정
4) Trivial (P4)
영향이 거의 없는 문제
ex) UI 오타 수정 필요, 버튼 스타일 필요
대응 시간: 1~2주 내 수정
대응 방식: 차기 배포 일정에 포함
SLA / SLI / SLO 개념 이해 및 사례 분석
SLA
/ SLI
/ SLO
개념 설명해보기
: SLA는 서비스 제공자와 고객 간의 서비스 품질 보장 약속. 서비스 제공자는 SLA 위반 시 고객에게 어떤 보상을 제공할 건지 정해야 함. 또한, SLA를 지키기 위해 SLO, SLI를 설정해야함.
: SLI는 서비스의 품질을 측정하는 주요 지표로 SLO보다 낮으면 SLA 위반 가능성이 높아짐.
: SLO는 서비스 제공자가 내부적으로 설정하는 서비스 품질 목표임. SLA를 충족하기 위해 SLO는 SLA보다 더 엄격하게 설정됨.
장애 발생 원인 분류
1) 네트워크 장애
서비스 간 통신 실패
ex) 서버 간 패킷 손실, 방화벽 설정 오류
2) 리소스 부족
CPU, 메모리, 디스크 부족
ex) 서버 과부하, 메모리 누수
3) 서비스 간 의존성 문제
API, 마이크로서비스 간 장애
ex) A 서비스 장애가 B 서비스에도 영향을 미침
4) 배포 실패
CI/CD 오류, 코드 문제
ex) 새 버전 배포 후 500 오류 발생
5) DB 장애
쿼리 성능 문제, 데이터 정합성 오류
ex) 인덱스 미사용으로 응답 속도 저하