장애 시뮬레이션
장애 시뮬레이션이란?
: 운영 환경에서 발생할 수 있는 장애를 미리 실험적으로 재현하여 대비하는 과정임
실제 기업들의 장애 시뮬레이션 사례
Netflix
: Chaos Monkey를 이용해 무작위 장애 시뮬레이션
Amazon AWS
: EC2 인스턴스 장애 복구 자동화 실험
카카오
: 데이터센터 장애 대응 시뮬레이션
Chaos Engineering
이 개념은 처음 들어보는데 시스템의 복원력을 테스트하고 강화하기 위해 고안된 기법이라고 함
즉, 예상치 못한 장애나 오류 상황에서도 시스템이 정상적으로 동작하도록 실제 운영 환경에서 인위적으로 장애를 일으키고, 시스템이 어떻게 반응하는지 확인함
관련 도구: Chaos Monkey, Gremlin, LitmusChaos 등
Python에서 CPU 부하 발생 실습