사이트 신뢰성 엔지니어링(SRE)은 IT 운영에 대한 소프트웨어 엔지니어링 접근 방식입니다. SRE 팀은 소프트웨어를 툴로 활용하여 시스템을 관리하고, 문제를 해결하고, 운영 태스크를 자동화합니다.SRE 팀은 기존에 운영 팀이 수동으로 하는 경우가 많았던 태스크를 받아
워크플로, 우선 순위 및 일상적인 작업의 뉘앙스가 SRE 팀마다 다르지만 모두 지원하는 서비스에 대한 기본 책임 세트를 공유하고 동일한 핵심 원칙을 준수합니다. 일반적으로 SRE 팀은 서비스의 가용성, 대기 시간, 성능, 효율성, 변경 관리, 모니터링, 비상 대응 및
Put simply, SREs run services—a set of related systems, operated for users, who may be internal or external—and are ultimately responsible for the hea
어느 토요일 오전 , 기분좋게 운전을 하며 커피를 사러 가고 있었던 필자에게 한 통의 전화가 왔다. 다급한 목소리로 고객이 전화를 하니 곧바로 모든 마음의 안정과 원래 목적지에서 U턴을 해야했다. 보통 고객들은 ‘서비스가 안 된다’고 말을 하지 ‘웹서버 2번의 로그에서