카테고리 없음

MTTD·MTTR 완벽 정리 – 장애 대응에서 가장 중요한 두 가지 지표

idea9329 2025. 12. 29. 10:33
728x90
반응형

서비스 운영을 하다 보면 반드시 마주치게 되는 단어가 있다.
바로 MTTD MTTR이다.
이 두 지표는 단순한 숫자가 아니라, 운영 조직의 성숙도와 장애 대응 능력을 그대로 보여준다.


MTTD란 무엇인가?

MTTD (Mean Time To Detect)
👉 평균 장애 인지 시간

장애가 실제로 발생한 시점부터,
운영자나 시스템이 “문제가 발생했다”고 인지하기까지 걸린 평균 시간을 의미한다.

쉽게 이해하면

  • 서비스 장애 발생
  • 모니터링 알람 / 로그 / 지표 이상 감지
  • 운영자가 장애를 인지

이때 장애 발생 → 인지까지의 시간 = MTTD

예시

  • 10:00 장애 발생
  • 10:08 알람 발생
  • 10:09 운영자 인지
     MTTD = 약 9분

MTTD가 길어지는 대표적인 이유

  • 사용자 신고로 장애를 처음 인지
  • 알람 임계치가 너무 느슨함
  • 핵심 지표(에러율, 지연시간) 미수집
  • 모니터링은 있지만 실시간 알람이 없음

MTTR이란 무엇인가?

MTTR (Mean Time To Recover / Repair)
👉 평균 장애 복구 시간

장애를 인지한 이후,
서비스가 정상 상태로 완전히 복구되기까지 걸린 평균 시간이다.

쉽게 이해하면

  • “장애 발생했다” 인지
  • 원인 분석
  • 조치 수행
  • 서비스 정상화

이때 인지 → 정상화까지의 시간 = MTTR

예시

  • 10:09 장애 인지
  • 10:35 서비스 정상화
     MTTR = 26분

MTTR이 길어지는 대표적인 이유

  • 대응 매뉴얼(Runbook) 부재
  • 담당자 의사결정 지연
  • 수동 복구 위주 구조
  • Failover, Rollback 자동화 미흡

MTTD와 MTTR 차이 한눈에 보기

구분의미핵심 질문

MTTD 장애를 알아차리는 속도 얼마나 빨리 알았나?
MTTR 장애를 고치는 속도 얼마나 빨리 복구했나?

실무에서 진짜 중요한 해석 포인트

  • MTTD가 길다
    → 모니터링·알람 체계가 미성숙
  • MTTR이 길다
    → 아키텍처 또는 운영 프로세스 문제
  • MTTD·MTTR 모두 짧다
    → 안정적인 운영 조직
  • 사용자 신고로 인지
    → 사실상 MTTD 실패 사례

장애 대응의 본질은
“얼마나 빨리 알고, 얼마나 빨리 정상으로 돌리느냐”다.


현업에서 자주 쓰는 표현

  • “이번 장애의 MTTD는 12분, MTTR은 38분입니다.”
  • “CS 인지로 시작된 장애라 MTTD가 길었습니다.”
  • “자동 Failover 적용 후 MTTR이 크게 줄었습니다.”

정리하며

MTTD와 MTTR은 단순한 지표가 아니다.
이 숫자 안에는 모니터링 수준, 자동화 정도, 팀의 협업 능력이 모두 담겨 있다.

  • MTTD ↓ → 장애를 빨리 알아차리는 조직
  • MTTR ↓ → 장애를 침착하게 해결하는 조직

두 지표가 함께 줄어들 때,
비로소 “운영이 안정적이다”라고 말할 수 있다.

 

728x90
반응형