SRE by google
architecture
SRE
Ch01. 소개
TL;DR
- SRE: 운영팀을 위한 소프트웨어 엔지니어. 이들은 가용성(availability), 응답 시간(latency), 성능(performance), 효율성(efficiency), 변화 관리(change management), 모니터링(monitoring), 위기 대응(emergency response), 수용량 계획(capacity planning)에 대한 책임을 진다.
Key Ideas
- 가용성(availability)
- 응답 시간(latency)
- 성능(performance)
- 효율성(efficiency)
- 변화 관리(change management)
- 제품의 단계적 출시
- 문제를 빠르고 정확하게 도출하기
- 문제 발생 시 안전하게 이전 버전으로 되돌리기
- 모니터링(monitoring)
- 알림(alerts): 문제가 발생했거나, 발생하려 할 때 사람이 즉각적으로 대응해야 함을 알린다.
- 티켓(tickets): 사람의 대응이 필요하지만 즉각적인 대응이 필요하지 않은 상황을 의미한다.
- 로깅(logging): 누군가 이 정보를 반드시 확인해야 할 필요는 없지만 향후 분석이나 조사를 위해 기록되는 내용이다.
- 위기 대응(emergency response)
- MTTF(Mean Time to Failure)
- MTTR(Mean Time To Repair)
- 수용량 계획(capacity planning)
- 자연적 수요에 대한 정확한 예측. 필요한 수용력을 확보하기까지의 시간에 대한 예측을 이끌어낼 수 있다.
- 자연적 수요와 인위적 수요를 정확하게 합산하기
- 원천적인 수용력(서버, 디스크 등)을 바탕으로 서비스의 수용력을 측정하기 위한 통상의 시스템 부하 테스트