카테고리 없음

AWS EC2 및 서버 인프라 모의 장애 훈련 5가지: 필수 시나리오와 대응 방법

idea9329 2024. 9. 26. 10:17
반응형

1. EC2 인스턴스 다운 시 복구 훈련

  • 시나리오: AWS EC2 인스턴스가 갑작스럽게 다운되거나 종료되는 상황을 가정.
  • 목표: 인스턴스 복구를 위한 자동화 스크립트와 수동 복구 절차를 테스트. 백업 인스턴스나 새로운 인스턴스를 빠르게 배포해 서비스 중단을 최소화하는 방법을 학습.
  • 주요 체크포인트:
    • 스냅샷 및 AMI(이미지) 활용 여부
    • Auto Scaling 설정 확인
    • CloudWatch 경고 및 알람 설정

2. 데이터베이스 연결 장애 훈련

  • 시나리오: RDS나 MySQL, PostgreSQL 등 데이터베이스가 네트워크 연결 문제 또는 장애로 인해 접근이 불가능한 상황을 가정.
  • 목표: 장애 발생 시 읽기 전용 복구 또는 백업에서의 데이터 복구를 통해 서비스 재개. DB 복구 및 다중 AZ 설정 검증.
  • 주요 체크포인트:
    • 다중 AZ RDS 설정 확인
    • 데이터 복구 및 DB 장애 전환(failover) 테스트
    • 연결 풀 설정 및 최적화 검토

3. 디스크 공간 부족 문제 대응 훈련

  • 시나리오: 서버의 디스크 공간이 한계에 도달하거나, 로그 및 캐시 파일이 지나치게 쌓여서 디스크 부족 문제가 발생하는 상황을 시뮬레이션.
  • 목표: 자동 알림 설정을 통해 디스크 공간 부족을 사전에 감지하고, 로그 순환 설정 및 디스크 공간 확보 절차를 테스트.
  • 주요 체크포인트:
    • 디스크 공간 모니터링 설정 검토
    • 로그 파일 관리 및 정리 방법
    • 디스크 확장 절차와 스냅샷 관리

4. 로드 밸런서(LB) 장애 및 트래픽 분산 실패 훈련

  • 시나리오: AWS ELB(Elastic Load Balancer) 또는 Nginx 등의 로드 밸런서가 트래픽 분산을 실패하거나 로드 밸런서 자체가 장애를 일으킨 상황.
  • 목표: 로드 밸런서 장애 시 대체 방법을 사용하여 서비스 지속. 트래픽이 특정 서버로 몰리는 것을 방지하고, 재배포 절차를 확인.
  • 주요 체크포인트:
    • 로드 밸런서 헬스 체크 설정 확인
    • Auto Scaling 및 대체 LB 배포 절차 검토
    • 트래픽 분산 실패에 대한 대응책(서브 로드 밸런서 구성)

5. 파일 시스템 장애 및 데이터 손실 복구 훈련

  • 시나리오: 서버의 파일 시스템에 오류가 발생해 데이터 손실이 발생하거나 파일이 손상되는 상황을 가정.
  • 목표: 파일 시스템 복구 또는 EBS 볼륨 복구 절차를 점검하고, 백업에서 데이터 복원. 정기적인 스냅샷과 데이터 백업 전략을 재점검.
  • 주요 체크포인트:
    • EBS 스냅샷 및 복구 절차 확인
    • 파일 시스템 검사 및 복구 명령어 활용(fsck, xfs_repair 등)
    • 백업 주기 및 데이터 보존 정책 검토

결론

이러한 서버 인프라 모의 장애 훈련 주제는 실시간 운영 환경에서 발생할 수 있는 다양한 장애 상황에 대비할 수 있도록 도와줘. 각 훈련 시나리오를 통해 문제를 사전에 인지하고, 신속하게 복구하는 절차를 미리 점검함으로써 장애로 인한 서비스 중단 시간을 최소화할 수 있어.

반응형