[문제] 빅데이터 분석 환경에서 데이터 레이크와 데이터 웨어하우스의 한계를 극복하기 위한 데이터 레이크하우스가 주목받고 있다. 다음을 설명하시오.
가. 데이터 레이크하우스의 개념과 등장 배경
나. 데이터 레이크하우스 아키텍처 구성요소
다. 기존 데이터 레이크·데이터 웨어하우스와의 비교
라. 주요 구현 기술(Delta Lake, Apache Iceberg) 및 도입 고려사항
I. 개요
기업은 오랫동안 구조화 데이터를 위한 데이터 웨어하우스(DW)와 반·비정형 데이터를 위한 데이터 레이크(DL)를 병행 운영해왔다. 그러나 이 이중 아키텍처는 데이터 중복·불일치·높은 운영 비용이라는 근본적 한계를 낳았다. 데이터 레이크하우스는 두 아키텍처의 장점을 단일 플랫폼에 통합하여 이 문제를 해결하는 차세대 데이터 아키텍처다.
가. 데이터 레이크하우스 개념과 등장 배경
데이터 레이크하우스(Data Lakehouse)란 데이터 레이크의 저비용·유연한 스토리지 위에 데이터 웨어하우스 수준의 데이터 관리(ACID 트랜잭션, 스키마 강제, 쿼리 성능)를 제공하는 통합 데이터 플랫폼이다. 2020년 Databricks가 Delta Lake를 공개하며 본격화되었다.
등장 배경
이중 아키텍처 비용: DW와 DL을 모두 운영하는 데이터 이동·ETL 비용이 전체 데이터 인프라 비용의 40% 이상 차지
데이터 신선도 문제: DW로 데이터가 이동하는 배치 주기 동안 ML 모델이 오래된 데이터로 학습
오픈 파일 포맷 성숙: Parquet, ORC 등이 컬럼형 저장으로 분석 성능 대폭 향상
클라우드 오브젝트 스토리지 저렴화: S3, ADLS, GCS의 비용이 전통 DW 스토리지 대비 10분의 1 수준
AI·ML 워크로드 통합 요구: ML 모델 학습을 위한 원본 데이터 접근과 BI 분석의 공존 필요
나. 데이터 레이크하우스 아키텍처 구성요소
스토리지 레이어: 저비용 클라우드 오브젝트 스토리지에 개방형 파일 포맷(Parquet)으로 원본 데이터 보관. 컴퓨팅과 스토리지를 분리하여 독립적 확장 가능
테이블 포맷 레이어: Delta Lake·Iceberg 등이 메타데이터를 관리하며 ACID 트랜잭션, 시간 여행(Time Travel), 스키마 진화(Schema Evolution) 기능 제공. 이 레이어가 레이크하우스의 핵심 차별점
처리 레이어: Spark·Flink로 배치·스트리밍 처리. dbt를 통한 데이터 변환 자동화
소비 레이어: SQL 엔진(Presto/Trino)으로 BI 툴 연결, ML 프레임워크에서 원본 데이터 직접 학습
다. 기존 아키텍처와의 비교
비교 항목
데이터 웨어하우스
데이터 레이크
데이터 레이크하우스
데이터 유형
정형 데이터
정형·반정형·비정형
모든 유형 ✅
ACID 트랜잭션
✅ 지원
❌ 미지원
✅ 지원
스키마
Schema-on-Write
Schema-on-Read
Schema 강제 + 진화 ✅
ML 학습
❌ 구조적 제약
✅ 원본 데이터 접근
✅ 직접 학습 가능
스토리지 비용
높음
낮음
낮음 ✅
쿼리 성능
높음
보통
높음 (Z-Order·캐싱)
데이터 품질
높음
낮음 (데이터 늪 위험)
높음 ✅
라. 주요 구현 기술 및 도입 고려사항
① Delta Lake (Databricks)
오픈소스 스토리지 레이어. Parquet 파일 + 트랜잭션 로그(_delta_log)로 ACID 구현
시간 여행(Time Travel): VERSION AS OF, TIMESTAMP AS OF로 과거 스냅샷 조회 가능
AUTO OPTIMIZE, Z-ORDER CLUSTERING으로 소형 파일 문제 자동 해결
② Apache Iceberg
Netflix에서 시작, 멀티 엔진 지원(Spark, Flink, Trino, Hive)이 강점
파티션 진화(Partition Evolution): 기존 데이터 재작성 없이 파티션 구조 변경 가능
Row-level Delete·Update 지원, CDC(Change Data Capture) 구현에 적합
도입 시 고려사항
기존 시스템 마이그레이션: 온프레미스 DW에서 점진적 전환 전략 수립, 하이브리드 운영 기간 관리
데이터 거버넌스: Unity Catalog(Databricks), AWS Glue Data Catalog 등으로 메타데이터·접근 통제 체계화
비용 최적화: 컴퓨팅 클러스터 자동 종료, 스토리지 계층화(Hot/Cold/Archive) 정책 수립
역량 확보: Spark, SQL 능숙한 데이터 엔지니어 육성 또는 확보 필수
✅ 핵심 암기 포인트
레이크하우스 = 레이크(저비용·유연성) + 하우스(ACID·성능·거버넌스)
핵심 차별점: 테이블 포맷 레이어(Delta Lake / Iceberg / Hudi)가 ACID·스키마·시간여행 제공
3대 구현체: Delta Lake(Databricks 생태계) · Iceberg(멀티 엔진) · Hudi(우버, CDC 특화)