카테고리 없음
MTTD·MTTR 완벽 정리 – 장애 대응에서 가장 중요한 두 가지 지표
idea9329
2025. 12. 29. 10:33
728x90
반응형
서비스 운영을 하다 보면 반드시 마주치게 되는 단어가 있다.
바로 MTTD와 MTTR이다.
이 두 지표는 단순한 숫자가 아니라, 운영 조직의 성숙도와 장애 대응 능력을 그대로 보여준다.
MTTD란 무엇인가?
MTTD (Mean Time To Detect)
👉 평균 장애 인지 시간
장애가 실제로 발생한 시점부터,
운영자나 시스템이 “문제가 발생했다”고 인지하기까지 걸린 평균 시간을 의미한다.


쉽게 이해하면
- 서비스 장애 발생
- 모니터링 알람 / 로그 / 지표 이상 감지
- 운영자가 장애를 인지
이때 장애 발생 → 인지까지의 시간 = MTTD
예시
- 10:00 장애 발생
- 10:08 알람 발생
- 10:09 운영자 인지
→ MTTD = 약 9분
MTTD가 길어지는 대표적인 이유
- 사용자 신고로 장애를 처음 인지
- 알람 임계치가 너무 느슨함
- 핵심 지표(에러율, 지연시간) 미수집
- 모니터링은 있지만 실시간 알람이 없음
MTTR이란 무엇인가?
MTTR (Mean Time To Recover / Repair)
👉 평균 장애 복구 시간
장애를 인지한 이후,
서비스가 정상 상태로 완전히 복구되기까지 걸린 평균 시간이다.


쉽게 이해하면
- “장애 발생했다” 인지
- 원인 분석
- 조치 수행
- 서비스 정상화
이때 인지 → 정상화까지의 시간 = MTTR
예시
- 10:09 장애 인지
- 10:35 서비스 정상화
→ MTTR = 26분
MTTR이 길어지는 대표적인 이유
- 대응 매뉴얼(Runbook) 부재
- 담당자 의사결정 지연
- 수동 복구 위주 구조
- Failover, Rollback 자동화 미흡
MTTD와 MTTR 차이 한눈에 보기
구분의미핵심 질문
| MTTD | 장애를 알아차리는 속도 | 얼마나 빨리 알았나? |
| MTTR | 장애를 고치는 속도 | 얼마나 빨리 복구했나? |
실무에서 진짜 중요한 해석 포인트
- MTTD가 길다
→ 모니터링·알람 체계가 미성숙 - MTTR이 길다
→ 아키텍처 또는 운영 프로세스 문제 - MTTD·MTTR 모두 짧다
→ 안정적인 운영 조직 - 사용자 신고로 인지
→ 사실상 MTTD 실패 사례
장애 대응의 본질은
“얼마나 빨리 알고, 얼마나 빨리 정상으로 돌리느냐”다.
현업에서 자주 쓰는 표현
- “이번 장애의 MTTD는 12분, MTTR은 38분입니다.”
- “CS 인지로 시작된 장애라 MTTD가 길었습니다.”
- “자동 Failover 적용 후 MTTR이 크게 줄었습니다.”
정리하며
MTTD와 MTTR은 단순한 지표가 아니다.
이 숫자 안에는 모니터링 수준, 자동화 정도, 팀의 협업 능력이 모두 담겨 있다.
- MTTD ↓ → 장애를 빨리 알아차리는 조직
- MTTR ↓ → 장애를 침착하게 해결하는 조직
두 지표가 함께 줄어들 때,
비로소 “운영이 안정적이다”라고 말할 수 있다.
728x90
반응형