MTTD·MTTR 완벽 정리 – 장애 대응에서 가장 중요한 두 가지 지표

카테고리 없음

idea9329 2025. 12. 29. 10:33

728x90

서비스 운영을 하다 보면 반드시 마주치게 되는 단어가 있다.
바로 MTTD와 MTTR이다.
이 두 지표는 단순한 숫자가 아니라, 운영 조직의 성숙도와 장애 대응 능력을 그대로 보여준다.

MTTD란 무엇인가?

MTTD (Mean Time To Detect)
👉 평균 장애 인지 시간

장애가 실제로 발생한 시점부터,
운영자나 시스템이 “문제가 발생했다”고 인지하기까지 걸린 평균 시간을 의미한다.

이때 장애 발생 → 인지까지의 시간 = MTTD

MTTR (Mean Time To Recover / Repair)
👉 평균 장애 복구 시간

장애를 인지한 이후,
서비스가 정상 상태로 완전히 복구되기까지 걸린 평균 시간이다.

이때 인지 → 정상화까지의 시간 = MTTR

구분의미핵심 질문

MTTD	장애를 알아차리는 속도	얼마나 빨리 알았나?
MTTR	장애를 고치는 속도	얼마나 빨리 복구했나?

장애 대응의 본질은
“얼마나 빨리 알고, 얼마나 빨리 정상으로 돌리느냐”다.

MTTD와 MTTR은 단순한 지표가 아니다.
이 숫자 안에는 모니터링 수준, 자동화 정도, 팀의 협업 능력이 모두 담겨 있다.

두 지표가 함께 줄어들 때,
비로소 “운영이 안정적이다”라고 말할 수 있다.

728x90