I. 개요
MLOps란 ML 모델의 개발(Dev)·운영(Ops)·데이터(Data) 라이프사이클을 자동화·표준화하여 프로덕션 환경에서 안정적으로 ML 시스템을 운영하기 위한 엔지니어링 방법론이다. Google이 2015년 “Machine Learning: The High-Interest Credit Card of Technical Debt” 논문에서 ML 운영의 복잡성을 최초 체계화한 이후 독립 분야로 발전하였다.
II. DevOps와 MLOps 비교
| 구분 | DevOps | MLOps |
|---|---|---|
| 아티팩트 | 소스코드, 바이너리 | 코드 + 데이터 + 모델 |
| 테스트 | 단위·통합·E2E 테스트 | + 데이터 검증, 모델 편향 테스트 |
| 드리프트 | 코드 변경으로만 발생 | 데이터 드리프트·모델 드리프트 동시 발생 |
| 재배포 트리거 | 코드 커밋 | 코드 변경 OR 데이터 변화 OR 성능 저하 |
III. MLOps 성숙도 3단계 (Google 기준)
| 단계 | 특징 | 자동화 수준 |
|---|---|---|
| Level 0 수동 프로세스 |
스크립트 기반, 일회성 실험, 데이터 사이언티스트가 수동 배포 | 없음 |
| Level 1 ML 파이프라인 자동화 |
학습 파이프라인 자동화, CT(Continuous Training) 구현 | 학습 자동화 |
| Level 2 CI/CD 파이프라인 자동화 |
파이프라인 자체를 자동 빌드·테스트·배포, CD4ML 구현 | 전 과정 자동화 |
IV. MLOps 핵심 파이프라인 구성요소
- 데이터 파이프라인: 데이터 수집·검증·변환·버전관리 (Great Expectations, DVC)
- 학습 파이프라인: 실험 추적, 하이퍼파라미터 튜닝, 분산학습 (MLflow, Weights & Biases)
- 모델 레지스트리: 모델 버전 관리, 메타데이터 저장, 승인 워크플로우
- 서빙 파이프라인: 온라인/배치/스트리밍 추론, A/B 테스트, 카나리 배포
- 모니터링: 데이터 드리프트(PSI/KS 검정), 모델 드리프트, 피처 스큐 감지
V. 결론 및 기술사 관점
MLOps는 ML 프로젝트가 PoC를 넘어 프로덕션에서 지속적 가치를 창출하기 위한 필수 엔지니어링 규율이다. 도입 시 조직의 데이터 거버넌스 성숙도·인프라 역량·팀 구성(ML 엔지니어·데이터 엔지니어·플랫폼 엔지니어 협업 체계)을 사전 평가하여 성숙도 단계별 점진적 자동화 전략을 수립하는 것이 핵심이다.
핵심 키워드: MLOps, CT(Continuous Training), CD4ML, 데이터 드리프트, 모델 드리프트, Feature Store, 모델 레지스트리, MLflow, Kubeflow