중앙집중식 데이터 레이크·웨어하우스는 데이터 팀 병목과 도메인 간 의존성 문제를 야기합니다. Zhamak Dehghani가 제안한 데이터 메시는 도메인 주도 분산 데이터 소유권을 통해 이를 해결합니다.
1. 데이터 메시 개념 및 등장 배경
1-1. 모놀리식 데이터 플랫폼의 한계
- 중앙 데이터 팀 병목: 모든 도메인의 데이터 파이프라인을 단일 팀이 처리
- 도메인 지식 단절: 데이터 엔지니어는 비즈니스 맥락을 이해하기 어려움
- 느린 확장성: 새로운 데이터 소스 추가 시 중앙 파이프라인 수정 필요
- Data Swamp화: 품질 관리 부재로 데이터 레이크가 활용 불가 상태로 전락
2. 데이터 메시 4대 원칙
| 원칙 | 내용 | 핵심 역할 |
|---|---|---|
| ① 도메인 소유권 (Domain Ownership) |
비즈니스 도메인이 자신의 데이터를 소유·관리 | 도메인 데이터 오너 |
| ② 데이터 제품화 (Data as a Product) |
데이터를 발견 가능·사용 가능·신뢰할 수 있는 제품으로 제공 | 데이터 프로덕트 오너 |
| ③ 셀프서브 플랫폼 (Self-Serve Platform) |
도메인 팀이 독립적으로 데이터 제품 생성·배포할 수 있는 인프라 | 플랫폼 엔지니어 |
| ④ 연합 거버넌스 (Federated Governance) |
글로벌 표준은 중앙이 정의하고, 도메인은 자율 준수 | 데이터 거버넌스 위원회 |
3. 데이터 제품(Data Product) 특성
3-1. 우수 데이터 제품의 8가지 속성
발견 가능(Discoverable): 데이터 카탈로그 등록, 메타데이터 제공
주소 지정 가능(Addressable): 고유한 글로벌 주소(URI)로 접근
자체 설명(Self-Describing): 스키마·계보·의미 문서 포함
신뢰 가능(Trustworthy): SLO(품질 지표) 선언 및 준수
원시 데이터 접근(Native Access): 여러 접근 방식 지원(API·파일·스트림)
상호 운용 가능(Interoperable): 표준 포맷·프로토콜 사용
안전(Secure): 접근 제어·암호화·개인정보 처리
가치 지향(Valuable): 소비자가 실제로 사용하는 제품
주소 지정 가능(Addressable): 고유한 글로벌 주소(URI)로 접근
자체 설명(Self-Describing): 스키마·계보·의미 문서 포함
신뢰 가능(Trustworthy): SLO(품질 지표) 선언 및 준수
원시 데이터 접근(Native Access): 여러 접근 방식 지원(API·파일·스트림)
상호 운용 가능(Interoperable): 표준 포맷·프로토콜 사용
안전(Secure): 접근 제어·암호화·개인정보 처리
가치 지향(Valuable): 소비자가 실제로 사용하는 제품
4. 데이터 메시 vs 데이터 패브릭(Data Fabric)
| 구분 | 데이터 메시 | 데이터 패브릭 |
|---|---|---|
| 접근 방식 | 조직적·사회적(분산 책임) | 기술적·자동화(중앙 통합) |
| 데이터 소유 | 도메인 팀 | 중앙 데이터 플랫폼 |
| 거버넌스 | 연합 (도메인 자율 + 글로벌 표준) | 중앙 집중 |
| 확장 방식 | 도메인 단위 수평 확장 | 플랫폼 기술 확장 |
| AI/ML 활용 | 도메인별 AI 파이프라인 | AI 기반 자동 데이터 통합 |
| 적합 조직 | 대규모 다도메인 조직 | 중소 기업, 통합 우선 조직 |
5. 데이터 메시 구현 아키텍처
5-1. 셀프서브 플랫폼 구성
- 데이터 제품 SDK: 도메인이 제품 생성·배포하는 표준 도구
- 데이터 카탈로그: DataHub·Apache Atlas·Amundsen으로 발견 가능성 확보
- 스토리지 계층: Delta Lake·Apache Iceberg — 도메인별 독립 저장소
- 메시 게이트웨이: 도메인 간 데이터 접근 제어·과금 측정
5-2. 글로벌 정책 vs 도메인 정책
글로벌 (연합 거버넌스): 데이터 분류 기준, PII 처리 정책, 접근 감사, 데이터 SLO 기준
도메인 자율: 스키마 설계, 파이프라인 구현, 배포 주기, 도메인 내부 품질 관리
도메인 자율: 스키마 설계, 파이프라인 구현, 배포 주기, 도메인 내부 품질 관리
6. 결론
데이터 메시는 ‘데이터 민주화’를 위한 조직·기술 전환입니다. 4대 원칙 중 ‘데이터 제품화’와 ‘연합 거버넌스’를 먼저 정착시키고, 셀프서브 플랫폼으로 도메인 팀의 자율성을 높이는 순서로 단계적 도입이 효과적입니다.