[장애 발생 대응] 12주차-1일차: 장애 심각도(Level) 정의 및 SLA/SLI/SLO 설계, 장애 발생 원인 분석

limlim·2025년 3월 11일

0

KDT

목록 보기

19/21

장애 심각도(Level)

개념

: 장애가 발생하면 기업은 그 심각도(Level)에 따라 대응 방법과 우선순위를 결정함
장애 심각도 분류 기준

1) Critical (P1)
- 전체 서비스 중단, 즉각 대응 필요
- ex) 모든 사용자가 로그인 불가, 결제 기능 동작 안함
- 대응 시간: 30분 이내 대응 시작
- 대응 방식: 즉시 대응 (온콜팀, 운영팀 전체 가동)
2) Major (P2)
- 일부 기능 제한, 신속한 대응 필요
- ex) 특정 국가에서 서비스 불가능, 일부 기능 오류 (검색 기능, 장바구니 등)
- 대응 시간: 1~4시간 내 대응
- 대응 방식: 핵심 엔지니어 투입
3) Minor (P3)
- 기능 사용 가능, 보완 필요
- ex) 일부 페이지 로딩 속도 저하, 특정 유저 그룹에서 오류 발생
- 대응 시간: 1~2일 내 대응
- 대응 방식: 버그 수정 일정 조정
4) Trivial (P4)
- 영향이 거의 없는 문제
- ex) UI 오타 수정 필요, 버튼 스타일 필요
- 대응 시간: 1~2주 내 수정
- 대응 방식: 차기 배포 일정에 포함

SLA / SLI / SLO 개념 이해 및 사례 분석

SLA / SLI / SLO 개념 설명해보기

: SLA는 서비스 제공자와 고객 간의 서비스 품질 보장 약속. 서비스 제공자는 SLA 위반 시 고객에게 어떤 보상을 제공할 건지 정해야 함. 또한, SLA를 지키기 위해 SLO, SLI를 설정해야함.

: SLI는 서비스의 품질을 측정하는 주요 지표로 SLO보다 낮으면 SLA 위반 가능성이 높아짐.

: SLO는 서비스 제공자가 내부적으로 설정하는 서비스 품질 목표임. SLA를 충족하기 위해 SLO는 SLA보다 더 엄격하게 설정됨.

장애 발생 원인 분류

1) 네트워크 장애

서비스 간 통신 실패
ex) 서버 간 패킷 손실, 방화벽 설정 오류

2) 리소스 부족

CPU, 메모리, 디스크 부족
ex) 서버 과부하, 메모리 누수

3) 서비스 간 의존성 문제

API, 마이크로서비스 간 장애
ex) A 서비스 장애가 B 서비스에도 영향을 미침

4) 배포 실패

CI/CD 오류, 코드 문제
ex) 새 버전 배포 후 500 오류 발생

5) DB 장애

쿼리 성능 문제, 데이터 정합성 오류
ex) 인덱스 미사용으로 응답 속도 저하

不怕慢，只怕站 개발자

이전 포스트

[모니터링 ELK 스택] 11주차-5일차: ELK 스택 기반의 로그 적재 구축 실습

다음 포스트

[장애 발생 대응] 12주차-2-3일차: 장애 발생 원인 분석 및 해결방법 & 장애 대응 프로세스 구축

0개의 댓글