[장애 발생 대응] 12주차-1일차: 장애 심각도(Level) 정의 및 SLA/SLI/SLO 설계, 장애 발생 원인 분석

limlim·2025년 3월 11일
0

KDT

목록 보기
19/21

장애 심각도(Level)

  • 개념

    : 장애가 발생하면 기업은 그 심각도(Level)에 따라 대응 방법과 우선순위를 결정함

  • 장애 심각도 분류 기준

    1) Critical (P1)

    • 전체 서비스 중단, 즉각 대응 필요

    • ex) 모든 사용자가 로그인 불가, 결제 기능 동작 안함

    • 대응 시간: 30분 이내 대응 시작

    • 대응 방식: 즉시 대응 (온콜팀, 운영팀 전체 가동)

    2) Major (P2)

    • 일부 기능 제한, 신속한 대응 필요

    • ex) 특정 국가에서 서비스 불가능, 일부 기능 오류 (검색 기능, 장바구니 등)

    • 대응 시간: 1~4시간 내 대응

    • 대응 방식: 핵심 엔지니어 투입

    3) Minor (P3)

    • 기능 사용 가능, 보완 필요

    • ex) 일부 페이지 로딩 속도 저하, 특정 유저 그룹에서 오류 발생

    • 대응 시간: 1~2일 내 대응

    • 대응 방식: 버그 수정 일정 조정

    4) Trivial (P4)

    • 영향이 거의 없는 문제

    • ex) UI 오타 수정 필요, 버튼 스타일 필요

    • 대응 시간: 1~2주 내 수정

    • 대응 방식: 차기 배포 일정에 포함

SLA / SLI / SLO 개념 이해 및 사례 분석

  • SLA / SLI / SLO 개념 설명해보기

    : SLA는 서비스 제공자와 고객 간의 서비스 품질 보장 약속. 서비스 제공자는 SLA 위반 시 고객에게 어떤 보상을 제공할 건지 정해야 함. 또한, SLA를 지키기 위해 SLO, SLI를 설정해야함.

    : SLI는 서비스의 품질을 측정하는 주요 지표로 SLO보다 낮으면 SLA 위반 가능성이 높아짐.

    : SLO는 서비스 제공자가 내부적으로 설정하는 서비스 품질 목표임. SLA를 충족하기 위해 SLO는 SLA보다 더 엄격하게 설정됨.

장애 발생 원인 분류

1) 네트워크 장애

  • 서비스 간 통신 실패

  • ex) 서버 간 패킷 손실, 방화벽 설정 오류

2) 리소스 부족

  • CPU, 메모리, 디스크 부족

  • ex) 서버 과부하, 메모리 누수

3) 서비스 간 의존성 문제

  • API, 마이크로서비스 간 장애

  • ex) A 서비스 장애가 B 서비스에도 영향을 미침

4) 배포 실패

  • CI/CD 오류, 코드 문제

  • ex) 새 버전 배포 후 500 오류 발생

5) DB 장애

  • 쿼리 성능 문제, 데이터 정합성 오류

  • ex) 인덱스 미사용으로 응답 속도 저하

profile
不怕慢,只怕站 개발자

0개의 댓글