Categories: 정보관리기술사

[정보관리기술사 137회 3교시 2번] 데이터 레이크하우스(Data Lakehouse) — 차세대 데이터 아키텍처 모범답안

[문제] 빅데이터 분석 환경에서 데이터 레이크와 데이터 웨어하우스의 한계를 극복하기 위한 데이터 레이크하우스가 주목받고 있다. 다음을 설명하시오.
가. 데이터 레이크하우스의 개념과 등장 배경
나. 데이터 레이크하우스 아키텍처 구성요소
다. 기존 데이터 레이크·데이터 웨어하우스와의 비교
라. 주요 구현 기술(Delta Lake, Apache Iceberg) 및 도입 고려사항

I. 개요

기업은 오랫동안 구조화 데이터를 위한 데이터 웨어하우스(DW)와 반·비정형 데이터를 위한 데이터 레이크(DL)를 병행 운영해왔다. 그러나 이 이중 아키텍처는 데이터 중복·불일치·높은 운영 비용이라는 근본적 한계를 낳았다. 데이터 레이크하우스는 두 아키텍처의 장점을 단일 플랫폼에 통합하여 이 문제를 해결하는 차세대 데이터 아키텍처다.

가. 데이터 레이크하우스 개념과 등장 배경

데이터 레이크하우스(Data Lakehouse)란 데이터 레이크의 저비용·유연한 스토리지 위에 데이터 웨어하우스 수준의 데이터 관리(ACID 트랜잭션, 스키마 강제, 쿼리 성능)를 제공하는 통합 데이터 플랫폼이다. 2020년 Databricks가 Delta Lake를 공개하며 본격화되었다.

등장 배경

  • 이중 아키텍처 비용: DW와 DL을 모두 운영하는 데이터 이동·ETL 비용이 전체 데이터 인프라 비용의 40% 이상 차지
  • 데이터 신선도 문제: DW로 데이터가 이동하는 배치 주기 동안 ML 모델이 오래된 데이터로 학습
  • 오픈 파일 포맷 성숙: Parquet, ORC 등이 컬럼형 저장으로 분석 성능 대폭 향상
  • 클라우드 오브젝트 스토리지 저렴화: S3, ADLS, GCS의 비용이 전통 DW 스토리지 대비 10분의 1 수준
  • AI·ML 워크로드 통합 요구: ML 모델 학습을 위한 원본 데이터 접근과 BI 분석의 공존 필요

나. 데이터 레이크하우스 아키텍처 구성요소

소비 레이어 (Consumption Layer) BI 도구 (Tableau·PowerBI) | ML 플랫폼 (MLflow·SageMaker) | SQL 쿼리 (Spark SQL·Presto) 처리 레이어 (Processing Layer) Apache Spark | Flink (스트리밍) | dbt (변환) | Databricks Runtime 메타데이터·거버넌스 레이어 (Table Format Layer) Delta Lake | Apache Iceberg | Apache Hudi — ACID, 시간여행, 스키마 진화 지원 스토리지 레이어 (Storage Layer) 클라우드 오브젝트 스토리지 (AWS S3 · Azure ADLS · GCP GCS) — Parquet·ORC 파일

  • 스토리지 레이어: 저비용 클라우드 오브젝트 스토리지에 개방형 파일 포맷(Parquet)으로 원본 데이터 보관. 컴퓨팅과 스토리지를 분리하여 독립적 확장 가능
  • 테이블 포맷 레이어: Delta Lake·Iceberg 등이 메타데이터를 관리하며 ACID 트랜잭션, 시간 여행(Time Travel), 스키마 진화(Schema Evolution) 기능 제공. 이 레이어가 레이크하우스의 핵심 차별점
  • 처리 레이어: Spark·Flink로 배치·스트리밍 처리. dbt를 통한 데이터 변환 자동화
  • 소비 레이어: SQL 엔진(Presto/Trino)으로 BI 툴 연결, ML 프레임워크에서 원본 데이터 직접 학습

다. 기존 아키텍처와의 비교

비교 항목 데이터 웨어하우스 데이터 레이크 데이터 레이크하우스
데이터 유형 정형 데이터 정형·반정형·비정형 모든 유형 ✅
ACID 트랜잭션 ✅ 지원 ❌ 미지원 ✅ 지원
스키마 Schema-on-Write Schema-on-Read Schema 강제 + 진화 ✅
ML 학습 ❌ 구조적 제약 ✅ 원본 데이터 접근 ✅ 직접 학습 가능
스토리지 비용 높음 낮음 낮음 ✅
쿼리 성능 높음 보통 높음 (Z-Order·캐싱)
데이터 품질 높음 낮음 (데이터 늪 위험) 높음 ✅

라. 주요 구현 기술 및 도입 고려사항

① Delta Lake (Databricks)

  • 오픈소스 스토리지 레이어. Parquet 파일 + 트랜잭션 로그(_delta_log)로 ACID 구현
  • 시간 여행(Time Travel): VERSION AS OF, TIMESTAMP AS OF로 과거 스냅샷 조회 가능
  • AUTO OPTIMIZE, Z-ORDER CLUSTERING으로 소형 파일 문제 자동 해결

② Apache Iceberg

  • Netflix에서 시작, 멀티 엔진 지원(Spark, Flink, Trino, Hive)이 강점
  • 파티션 진화(Partition Evolution): 기존 데이터 재작성 없이 파티션 구조 변경 가능
  • Row-level Delete·Update 지원, CDC(Change Data Capture) 구현에 적합

도입 시 고려사항

  • 기존 시스템 마이그레이션: 온프레미스 DW에서 점진적 전환 전략 수립, 하이브리드 운영 기간 관리
  • 데이터 거버넌스: Unity Catalog(Databricks), AWS Glue Data Catalog 등으로 메타데이터·접근 통제 체계화
  • 비용 최적화: 컴퓨팅 클러스터 자동 종료, 스토리지 계층화(Hot/Cold/Archive) 정책 수립
  • 역량 확보: Spark, SQL 능숙한 데이터 엔지니어 육성 또는 확보 필수
✅ 핵심 암기 포인트

레이크하우스 = 레이크(저비용·유연성) + 하우스(ACID·성능·거버넌스)
핵심 차별점: 테이블 포맷 레이어(Delta Lake / Iceberg / Hudi)가 ACID·스키마·시간여행 제공
3대 구현체: Delta Lake(Databricks 생태계) · Iceberg(멀티 엔진) · Hudi(우버, CDC 특화)

zerg96

Recent Posts

충격! 코스피 8% 폭락에 SK텔레콤 AI 차단까지 – 한국의 AI 도박이 터졌다

코스피 8% 폭락, 서킷브레이커 발동, SK텔레콤 Claude AI 차단까지. 한국의 AI 레버리지 버블이 단 하루…

2주 ago

당신 얼굴이 이미 쓰이고 있다… AI 딥페이크 범죄, 생각보다 훨씬 심각합니다

SNS 사진 1장으로 30초 만에 딥페이크 영상이 완성됩니다. 당신의 얼굴이 이미 범죄에 악용되고 있을 수…

3주 ago

당신 얼굴이 이미 쓰이고 있다 — AI 딥페이크 범죄, 생각보다 훨씬 심각합니다

SNS 사진 1장으로 30초 만에 딥페이크 영상이 완성됩니다. 당신의 얼굴이 이미 범죄에 악용되고 있을 수…

3주 ago

달러·원 환율 급등, 지금 당신이 꼭 알아야 할 것들

달러/원 환율이 급등하는 이유와 실생활 영향을 정리했습니다. 지금 당장 활용할 수 있는 환전·투자 대응 전략까지…

3주 ago

미래에셋·미래에셋벤처투자·미래에셋생명 동반 급등, 스페이스X와 무슨 관계?

미래에셋·미래에셋벤처투자·미래에셋생명이 동반 급등한 이유는 스페이스X 상장 기대감입니다. 세 회사가 스페이스X와 어떻게 연결되어 있는지 상세히 분석했습니다.

3주 ago

스페이스X 상장 D-데이? 일론 머스크가 절대 말 안 하는 진짜 이유

스페이스X 상장이 계속 미뤄지는 진짜 이유를 파헤쳤습니다. 화성 계획, 스타링크 분리, 국방 계약... 머스크가 절대…

3주 ago