"보이지 않는 위험을 데이터로 보고,
통신이 끊겨도 안전은 지킨다."
요즘은 자동화의 시대입니다. 재난 상황에서도 감정이 아닌 데이터로 판단하고 즉각 대응하는 인프라를 만들고 싶었습니다. AWS 서비스들을 조합해 사람의 개입 없이 자동으로 흐르는 구조를 설계하면서, 인프라 자체가 하나의 자동 대응 시스템이 될 수 있다는 것을 직접 증명하고 싶었습니다.
"기술이 골든타임을 지키는
데이터 기반의 초안전 사회 실현"
"네트워크 생존 기술과 IoT 데이터를 결합하여,
어떠한 재난 상황에서도 중단되지 않는
지능형 관제 인프라 구축"
"보이지 않는 위험을 데이터로 보고,
통신이 끊겨도 안전은 지킨다."
재난·혼잡 상황에서도 관제 통신이 절대 끊기지 않도록, Field·Normal·Safety VPC를 완전 분리하고 자동 전환 파이프라인으로 연결했습니다.
IoT/CCTV 가상 디바이스가 10초 주기로 메타데이터를 생성하고, Transit Gateway → Python Collector → SQS → Data Ingest 파이프라인을 통해 실시간 수집·분석합니다.
CloudWatch ALB RequestCount 1분간 3,000건 이상, 5분 연속 → Alarm → EventBridge → Lambda(QoS 전환) → WAF·ALB 룰 변경 → Safety 모드
Analysis(Pandas)에서 RDS의 risklevel = 3이 1분간 지속되면 check_metrics_lambda 트리거 → 동일한 QoS 전환 파이프라인 실행
risklevel 0~1이 5분간 지속되면 복원 시작. Redis로 지속시간 추적 + DynamoDB 중복 방지 플래그 → SAFETY → RECOVERY → NORMAL 순차 전환
위험 상승은 즉시 반영, 위험 하락은 HOLD_SECONDS 유지 후에만 반영 — 오탐에 의한 반복 전환 방지
군중 밀집도와 이동 흐름을 기반으로 사고 발생 이전 단계에서 위험 상황을 감지할 수 있는 구조를 구현함
위험 상황 발생 시 분석 → 판단 → QoS 전환 → 알림까지 자동으로 수행되는 흐름을 구현함
평시·위기·복원 상황을 고려한 단계적 상태 전환 로직 설계. SAFETY → RECOVERY → NORMAL 구조 구현
군중 위험도 판단과 웹트래픽 폭주 감지 로직을 분리 설계. 서로 다른 트리거에 동일한 QoS 전환 로직 재사용 가능
실시간 판단 시 오탐 잦음 / 평균 기반 판단은 대응 지연
10초 수집 + 60초/3분 윈도우 기반 연속 판정 구조 설계. 위험 상승 즉시 반영, 하락은 HOLD_SECONDS 후 반영
실시간 시스템에서는 "빠름"도 중요하지만 "안정적인 판단"도 중요함
트래픽 폭주 시 관제 접근 자체가 불가능해질 위험
WAF와 ALB Listener Rule로 /ops 경로 분리. VPN CIDR 기반 접근 제어로 관제 트래픽 우선 처리
장애 상황에서는 기능보다 "운영 접근성"을 먼저 보장해야 함
EventBridge + Lambda 자동화에서 동일 이벤트 중복 실행 가능성
DynamoDB에 mode 상태 저장. Redis last_trigger_epoch + 플래그로 중복 방지. 전환 전 항상 현재 모드 확인
자동화일수록 idempotency 설계가 필수적임
위험이 잠시 내려갔다 다시 상승하는 경우 시스템 모드가 반복 변경
SAFETY → RECOVERY → NORMAL 3단계 복원 설계. 위험 하락 후 일정 시간 유지 시에만 복원 트리거
복원 로직은 전환 로직보다 더 보수적으로 설계해야 함