GCP 와 SLA

Harrison Jung·2022년 2월 5일
0

얼마전 회사에서 운영하는 시스템을 관리하다가 시스템이 다운되는 이슈가 있었다.
작은 실수였지만 몇시간동안 시스템이 다운되는 큰 실수였었다.

그렇다면, GCP와 같은 큰 시스템들은 다운이 되는 경우를 어떻게 처리하고 보상할까?

이런경우에 존재하는것을 SLA(Service Level Agreement: 서비스 수준 협약)이라고 한다.
쉽게 말하면, 일정한 시간동안 서비스가 일정수준 동작하는것을 보장한다는 일종의 계약이다.
아직 우리회사는 서비스가 안정궤도에 오르지 않았기 때문에 SLA를 보장하고 있지 않지만, GCP의 경우 많은 서비스들이 SLA를 보장하고 있다.
물론 Preview(미리보기)인 서비스들은 SLA가 보장되지 않지만,GA(General Availablity: 정식 버전)가 되면 SLA가 지원된다.

그렇다면 SLA는 일반적으로 어느정도일까?
내가 사용하는 서비스들을 전반적으로 조사해 보니 월단위로 최소 99%(GCS-Regional Nearline)에서 부터 무려 100%(Cloud DNS)까지 다양하게 있다.
자세한 전체내용은 링크에 있으니, 내가 주로 사용하는 서비스들만 몇개 발췌해서 확인해 본다.
(이하 순서는 보장 비율순)

ServiceSLA
Cloud DNS100%
Google Cloud Load Balancer99.99%
Cloud Armor99.99%
Cloud SQL99.95%
Cloud CDN99.95%
GCS - Standard Storage in Regional99.9%
Cloud NAT99.9%
Dialogflow99.9%
Memorystore99.9%
GKE - Zonal Cluster (Contol Plane)99.5%
Compute99.5%

간단히 위와 같은 수준으로 SLA를 보장해준다.
그렇다면, 보장수준 이하로 내려가면 어떻게 될까?

각각의 %에 따라 다르긴 한데, 일정수준 이하로 내려가면 해당 사용금액의 10%에서 최대 50%까지 할인을 해주며, 각각의 경우 내가 그기간동안 사용한것에 대해 "요청"을 해야 한다. (자동으로 할인해주진 않는듯 하다. 티켓을 끊어야 하는건가?)

자 그럼 여기도 또 중요한거, 100%는 알겠는데.. 나머지 99% 부터는 월단위로 얼마나 되는 시간인가?
이런것도 계산해주는 사이트가 있다.

대략적으로 계산하면 다음과 같다.

SLADowntime
99.99%월 4분 22초
99.95%월 21분 54초
99.9%월 43분 49초
99.5%월 3시간 39분 8초

모두가 다운 없는 서비스 제공하기를 ㅎㅎ/

profile
차세대 생성형 AI 블로그 서비스 "두루미스"를 만들고 있는 개발자

0개의 댓글