[문제] 전통적인 데이터 웨어하우스(DW)와 현대 클라우드 데이터 웨어하우스(Snowflake, BigQuery, Redshift)의 차이점을 설명하고, ELT vs ETL 방식의 비교, 데이터 레이크하우스(Data Lakehouse)가 등장한 배경과 핵심 특성을 서술하시오.
1. 전통 DW vs 클라우드 DW 비교
| 구분 | 전통 DW (Teradata, Netezza) | 클라우드 DW (Snowflake, BigQuery) |
|---|---|---|
| 아키텍처 | 공유 디스크 MPP, 고정 용량 | 스토리지·컴퓨팅 분리, 무제한 확장 |
| 비용 모델 | 고가 라이선스·하드웨어 | 사용량 과금 (쿼리·스토리지) |
| 성능 | 용량 증설 필요 | Virtual Warehouse로 즉시 확장 |
| 관리 | DBA·인프라 팀 필요 | 완전 관리형 서비스 |
2. ETL vs ELT
| 구분 | ETL (Extract-Transform-Load) | ELT (Extract-Load-Transform) |
|---|---|---|
| 변환 위치 | 외부 ETL 서버에서 변환 후 DW 적재 | 원시 데이터 DW에 적재 후 DW 엔진으로 변환 |
| 장점 | DW 부하 낮음, 민감 데이터 마스킹 | 클라우드 DW의 MPP 활용, dbt로 SQL 변환 |
| 주요 도구 | Informatica, Talend, SSIS | Fivetran, Airbyte + dbt |
3. 데이터 레이크하우스 등장 배경
데이터 레이크는 비정형 데이터 저장이 용이하나 쿼리 성능·ACID 미지원. 데이터 웨어하우스는 고성능이나 비용 높고 비정형 데이터 처리 어려움. 레이크하우스는 두 장점을 결합: Delta Lake·Apache Iceberg로 데이터 레이크에 ACID 트랜잭션·스키마 관리·BI 쿼리 성능을 추가한다.
핵심 키워드: 데이터 웨어하우스, Snowflake, BigQuery, ETL, ELT, dbt, 데이터 레이크하우스, Delta Lake, Iceberg
클라우드 DW는 스토리지·컴퓨팅 분리와 사용량 과금으로 전통 DW를 대체하고 있다. ELT+dbt 조합이 현대 데이터 파이프라인의 표준이 되었으며, 레이크하우스는 레이크의 유연성과 DW의 성능을 통합한 차세대 데이터 플랫폼이다.