SRE

Ch01. 소개

TL;DR

  • SRE: 운영팀을 위한 소프트웨어 엔지니어. 이들은 가용성(availability), 응답 시간(latency), 성능(performance), 효율성(efficiency), 변화 관리(change management), 모니터링(monitoring), 위기 대응(emergency response), 수용량 계획(capacity planning)에 대한 책임을 진다.

Key Ideas

  • 가용성(availability)
  • 응답 시간(latency)
  • 성능(performance)
  • 효율성(efficiency)
  • 변화 관리(change management)
    • 제품의 단계적 출시
    • 문제를 빠르고 정확하게 도출하기
    • 문제 발생 시 안전하게 이전 버전으로 되돌리기
  • 모니터링(monitoring)
    • 알림(alerts): 문제가 발생했거나, 발생하려 할 때 사람이 즉각적으로 대응해야 함을 알린다.
    • 티켓(tickets): 사람의 대응이 필요하지만 즉각적인 대응이 필요하지 않은 상황을 의미한다.
    • 로깅(logging): 누군가 이 정보를 반드시 확인해야 할 필요는 없지만 향후 분석이나 조사를 위해 기록되는 내용이다.
  • 위기 대응(emergency response)
    • MTTF(Mean Time to Failure)
    • MTTR(Mean Time To Repair)
  • 수용량 계획(capacity planning)
    • 자연적 수요에 대한 정확한 예측. 필요한 수용력을 확보하기까지의 시간에 대한 예측을 이끌어낼 수 있다.
    • 자연적 수요와 인위적 수요를 정확하게 합산하기
    • 원천적인 수용력(서버, 디스크 등)을 바탕으로 서비스의 수용력을 측정하기 위한 통상의 시스템 부하 테스트