SRE: 운영팀을 위한 소프트웨어 엔지니어. 이들은 가용성(availability), 응답 시간(latency), 성능(performance), 효율성(efficiency), 변화 관리(change management), 모니터링(monitoring), 위기 대응(emergency response), 수용량 계획(capacity planning)에 대한 책임을 진다.
Key Ideas
가용성(availability)
응답 시간(latency)
성능(performance)
효율성(efficiency)
변화 관리(change management)
제품의 단계적 출시
문제를 빠르고 정확하게 도출하기
문제 발생 시 안전하게 이전 버전으로 되돌리기
모니터링(monitoring)
알림(alerts): 문제가 발생했거나, 발생하려 할 때 사람이 즉각적으로 대응해야 함을 알린다.
티켓(tickets): 사람의 대응이 필요하지만 즉각적인 대응이 필요하지 않은 상황을 의미한다.
로깅(logging): 누군가 이 정보를 반드시 확인해야 할 필요는 없지만 향후 분석이나 조사를 위해 기록되는 내용이다.
위기 대응(emergency response)
MTTF(Mean Time to Failure)
MTTR(Mean Time To Repair)
수용량 계획(capacity planning)
자연적 수요에 대한 정확한 예측. 필요한 수용력을 확보하기까지의 시간에 대한 예측을 이끌어낼 수 있다.
자연적 수요와 인위적 수요를 정확하게 합산하기
원천적인 수용력(서버, 디스크 등)을 바탕으로 서비스의 수용력을 측정하기 위한 통상의 시스템 부하 테스트