정보처리기사 기출 핵심 ㉞ 데이터 파이프라인과 빅데이터 처리 아키텍처 완전 정복

Table of Contents

데이터 파이프라인이란?

데이터 파이프라인은 원천 데이터를 수집하여 변환·적재하는 일련의 처리 과정입니다. 정보처리기사 시험에서는 ETL vs ELT 차이, 데이터 레이크·웨어하우스·마트 아키텍처, Apache Airflow, Spark Structured Streaming이 핵심 출제 범위입니다.

ETL vs ELT

ETL(Extract-Transform-Load): 원천에서 추출 → 변환(정제·집계) → DW에 적재. 전통적 방식. 온프레미스 DW 환경에 적합
ELT(Extract-Load-Transform): 원천에서 추출 → 원시 데이터 그대로 적재 → DW/데이터 레이크 내에서 변환. 클라우드 DW(BigQuery, Snowflake)의 강력한 컴퓨팅 파워 활용

현대 데이터 스택(Modern Data Stack)은 ELT를 선호합니다. dbt(data build tool)가 변환 계층을 담당합니다.

데이터 아키텍처 계층

데이터 레이크(Data Lake): 원시 데이터를 구조화/비구조화 관계없이 저장. S3, GCS, ADLS. 스키마 온 리드(Schema-on-Read)
데이터 웨어하우스(DW): 분석 목적으로 정제·구조화된 데이터 저장. Snowflake, BigQuery, Redshift. 스키마 온 라이트(Schema-on-Write)
데이터 레이크하우스(Lakehouse): 데이터 레이크의 유연성 + DW의 ACID 트랜잭션. Delta Lake, Apache Iceberg, Apache Hudi
데이터 마트(Data Mart): 특정 부서·도메인을 위한 DW의 서브셋

Lambda vs Kappa 아키텍처

Lambda 아키텍처: 배치 레이어(정확성) + 스피드 레이어(최신성) + 서빙 레이어. 복잡성이 단점
Kappa 아키텍처: 스트리밍만 사용. 모든 데이터를 이벤트 스트림으로 처리. 단순하지만 재처리 비용 높음

Apache Airflow

Python 기반 워크플로우 관리 플랫폼으로 DAG(Directed Acyclic Graph)로 태스크 의존성을 정의합니다.

DAG: 방향이 있고 순환이 없는 그래프로 파이프라인 구조 표현
Operator: 태스크의 기본 단위(PythonOperator, BashOperator, SqlOperator)
Scheduler: 크론 기반 스케줄링. 태스크 의존성 해결

Spark Structured Streaming

배치 처리와 동일한 API로 스트리밍 데이터를 처리하는 Spark 모듈입니다.

Watermark: 늦게 도착하는 데이터 처리. “10분 지연까지 허용” 정책
출력 모드: Complete(전체), Append(신규), Update(변경)

정보처리기사 기출 핵심 정리

ETL = 변환 후 적재(온프레미스), ELT = 적재 후 변환(클라우드)
데이터 레이크 = Schema-on-Read, DW = Schema-on-Write
Lambda = 배치+스트리밍, Kappa = 스트리밍만
Airflow DAG = 방향성 비순환 그래프
Delta Lake/Iceberg = 레이크하우스(ACID + 레이크)