Categories: 정보처리기사

정보처리기사 기출 핵심 ㉞ 데이터 파이프라인과 빅데이터 처리 아키텍처 완전 정복

데이터 파이프라인이란?

데이터 파이프라인은 원천 데이터를 수집하여 변환·적재하는 일련의 처리 과정입니다. 정보처리기사 시험에서는 ETL vs ELT 차이, 데이터 레이크·웨어하우스·마트 아키텍처, Apache Airflow, Spark Structured Streaming이 핵심 출제 범위입니다.

ETL vs ELT

  • ETL(Extract-Transform-Load): 원천에서 추출 → 변환(정제·집계) → DW에 적재. 전통적 방식. 온프레미스 DW 환경에 적합
  • ELT(Extract-Load-Transform): 원천에서 추출 → 원시 데이터 그대로 적재 → DW/데이터 레이크 내에서 변환. 클라우드 DW(BigQuery, Snowflake)의 강력한 컴퓨팅 파워 활용

현대 데이터 스택(Modern Data Stack)은 ELT를 선호합니다. dbt(data build tool)가 변환 계층을 담당합니다.

데이터 아키텍처 계층

  • 데이터 레이크(Data Lake): 원시 데이터를 구조화/비구조화 관계없이 저장. S3, GCS, ADLS. 스키마 온 리드(Schema-on-Read)
  • 데이터 웨어하우스(DW): 분석 목적으로 정제·구조화된 데이터 저장. Snowflake, BigQuery, Redshift. 스키마 온 라이트(Schema-on-Write)
  • 데이터 레이크하우스(Lakehouse): 데이터 레이크의 유연성 + DW의 ACID 트랜잭션. Delta Lake, Apache Iceberg, Apache Hudi
  • 데이터 마트(Data Mart): 특정 부서·도메인을 위한 DW의 서브셋

Lambda vs Kappa 아키텍처

  • Lambda 아키텍처: 배치 레이어(정확성) + 스피드 레이어(최신성) + 서빙 레이어. 복잡성이 단점
  • Kappa 아키텍처: 스트리밍만 사용. 모든 데이터를 이벤트 스트림으로 처리. 단순하지만 재처리 비용 높음

Apache Airflow

Python 기반 워크플로우 관리 플랫폼으로 DAG(Directed Acyclic Graph)로 태스크 의존성을 정의합니다.

  • DAG: 방향이 있고 순환이 없는 그래프로 파이프라인 구조 표현
  • Operator: 태스크의 기본 단위(PythonOperator, BashOperator, SqlOperator)
  • Scheduler: 크론 기반 스케줄링. 태스크 의존성 해결

Spark Structured Streaming

배치 처리와 동일한 API로 스트리밍 데이터를 처리하는 Spark 모듈입니다.

  • Watermark: 늦게 도착하는 데이터 처리. “10분 지연까지 허용” 정책
  • 출력 모드: Complete(전체), Append(신규), Update(변경)

정보처리기사 기출 핵심 정리

  • ETL = 변환 후 적재(온프레미스), ELT = 적재 후 변환(클라우드)
  • 데이터 레이크 = Schema-on-Read, DW = Schema-on-Write
  • Lambda = 배치+스트리밍, Kappa = 스트리밍만
  • Airflow DAG = 방향성 비순환 그래프
  • Delta Lake/Iceberg = 레이크하우스(ACID + 레이크)

zerg96

Recent Posts

[한방정리] 샘 올트먼 방한 전격 연기: 삼성·카카오·네이버 다 비웠는데 무슨 일

오픈AI 샘 올트먼이 삼성·카카오·네이버와의 연쇄 회동을 앞두고 '개인 사정'을 이유로 방한을 전격 연기했습니다. 카카오톡-챗GPT 연동…

15시간 ago

[한방정리] 잠실 개표소 봉쇄 시위: 3만 명이 몰린 이유, 부정선거냐 과열이냐

6.3 지방선거 투표용지 부족 사태로 시작된 잠실 개표소 봉쇄 시위, 최대 3만 명이 밤샘 농성을…

15시간 ago

[한방정리] 쿠팡 개인정보 과징금 6246억: 3750만 명 털렸는데 당신은 몰랐다

쿠팡이 3750만 명의 개인정보를 유출하고 무단 수집까지 해 역대 최대 과징금 6246억 원을 부과받았습니다. 전직…

15시간 ago

AI가 내 직업을 빼앗는 속도, 당신의 직종은 몇 년 남았나

구글·IBM·삼성이 AI를 이유로 대규모 감원을 시작했습니다. 맥킨지·골드만삭스·옥스퍼드 연구 데이터로 보는 직종별 AI 대체 타임라인과 살아남는…

7일 ago

당신 정보 이미 팔렸다, 2025년 개인정보 유출 실태 충격 공개

SKT 유심 해킹 2,300만 명, 다크웹 개인정보 거래 실태까지. 내 정보 유출 여부 즉시 확인하는…

7일 ago

삼성 vs 애플, 2025년 진짜 승자는 당신이 생각하는 그 회사가 아니다

하드웨어 스펙 경쟁은 끝났습니다. AI 생태계, 프리미엄 수익, 중국 변수까지. 2025년 삼성 vs 애플 진짜…

7일 ago