옵저버빌리티(Observability)란 시스템의 외부 출력만으로 내부 상태를 추론할 수 있는 능력으로, 제어이론의 칼만 필터 개념에서 유래하였다. 마이크로서비스·컨테이너·서버리스 환경에서 장애 원인이 다중 서비스에 분산되어 기존 모니터링(Monitoring)만으로 근본 원인(RCA) 분석이 불가능해지면서 독립 개념으로 부상하였다.
| 구분 | 모니터링(Monitoring) | 옵저버빌리티(Observability) |
|---|---|---|
| 목적 | 알려진 장애 탐지 | 미지의 장애 원인 추론 |
| 접근 | 사전 정의된 임계값·알림 | 임의 질의(Ad-hoc Query) 기반 탐색 |
| 적합 환경 | 모놀리식, 단순 인프라 | 마이크로서비스, 분산 시스템 |
| 신호 | 정의 | 형태 | 주요 도구 |
|---|---|---|---|
| Metrics (지표) | 시계열 수치 데이터. 집계·집계 연산에 최적 | CPU 사용률, RPS, 오류율 | Prometheus, Datadog |
| Logs (로그) | 타임스탬프 기반 이벤트 기록 | 에러 메시지, 감사 이벤트 | ELK Stack, Loki |
| Traces (추적) | 분산 서비스 간 요청 흐름 추적 | Span·TraceID 기반 DAG | Jaeger, Zipkin, Tempo |
CNCF의 OpenTelemetry(OTel)는 Metrics·Logs·Traces를 단일 API·SDK로 수집·내보내는 벤더 중립 표준이다. OTel Collector가 다양한 백엔드(Prometheus, Jaeger, Grafana 등)로 데이터를 라우팅하여 도구 종속성을 제거하고, W3C TraceContext를 통해 서비스 경계를 넘는 분산 추적 컨텍스트 전파를 표준화한다.
옵저버빌리티는 단순 도구 도입이 아닌 시스템 설계 단계부터 계측(Instrumentation)을 내재화하는 아키텍처 원칙이다. SRE(Site Reliability Engineering) 관점에서 MTTR(평균 복구 시간) 단축과 SLO/SLA 달성을 위한 핵심 역량으로, OpenTelemetry 표준 기반의 벤더 종속 탈피 전략이 장기적으로 유효하다.
요양원 선택 전 반드시 확인해야 할 체크리스트를 공개합니다. 공식 평가 자료 조회법, 방문 시 확인…
공공기관 채용 비리의 실태와 피해 지원자의 대응법을 정리했습니다. 채용 비리 신고 방법, 공익신고자 보호제도, 취준생…
주식 손실을 세금 절약에 활용하는 합법적 방법을 공개합니다. 해외주식 손익통산, ISA 계좌 활용, 연금계좌 절세까지…
배달이 예상 시간보다 크게 늦으면 취소·환불을 요청할 수 있습니다. 배달앱별 지연 취소 방법과 잘못 배달됐을…
통신비 절약의 핵심은 요금제 최적화입니다. 내 데이터 사용량 확인법, 알뜰폰 전환 비교, 위약금 없이 요금제…