Categories: 정보처리기사

정보처리기사 기출문제 총정리 ㉔ 빅데이터 처리 – Hadoop·Spark·데이터 파이프라인

빅데이터 개요

빅데이터는 3V(Volume·Velocity·Variety)로 정의되는 대용량·고속·다양한 형태의 데이터입니다. 정보처리기사에서는 빅데이터 처리 기술과 아키텍처가 출제됩니다.

빅데이터 5V

  • Volume(규모): 데이터 양의 방대함
  • Velocity(속도): 빠른 생성·처리 속도
  • Variety(다양성): 정형·반정형·비정형 데이터
  • Veracity(정확성): 데이터 신뢰성·불확실성
  • Value(가치): 데이터에서 비즈니스 가치 창출

Hadoop 생태계

HDFS (Hadoop Distributed File System)

  • 대용량 파일을 여러 서버에 분산 저장하는 파일 시스템
  • NameNode: 파일 메타데이터 관리 (디렉터리 구조, 블록 위치)
  • DataNode: 실제 데이터 블록 저장
  • 기본 블록 크기: 128MB (HDFS 2.x 기준)
  • 복제 계수(Replication Factor): 기본 3 (내결함성)

MapReduce

  • 대용량 데이터를 분산 처리하는 프로그래밍 모델
  • Map 단계: 입력 데이터를 (Key, Value) 쌍으로 변환
  • Shuffle & Sort: 같은 Key를 가진 데이터를 같은 Reducer로 모음
  • Reduce 단계: 같은 Key의 Value를 집계
  • 디스크 기반 처리 → 반복 처리에 느림

Apache Spark

인메모리 분산 데이터 처리 프레임워크. MapReduce보다 10~100배 빠름

핵심 추상화

  • RDD(Resilient Distributed Dataset): 분산 불변 데이터셋. 지연 평가(Lazy Evaluation)
  • DataFrame/Dataset: 구조화된 데이터, SQL 스타일 처리 가능
  • Spark Streaming: 실시간 스트리밍 처리 (마이크로 배치)
  • MLlib: 분산 머신러닝 라이브러리
  • GraphX: 그래프 처리 라이브러리

Spark 실행 모델

  • Driver Program이 SparkContext 생성
  • Cluster Manager(YARN, Kubernetes)가 Executor 할당
  • DAG(Directed Acyclic Graph) 스케줄러가 작업 실행 최적화

데이터 처리 아키텍처

Lambda 아키텍처

  • 배치 레이어: 모든 데이터를 배치로 처리, 정확한 결과 (Hadoop)
  • 스피드 레이어: 최신 데이터 실시간 처리, 빠른 결과 (Spark Streaming)
  • 서빙 레이어: 두 레이어 결과 병합 후 쿼리 서비스

Kappa 아키텍처

스트리밍만 사용하여 Lambda 아키텍처의 복잡성 제거. 재처리 시 스트림 재생

시험 핵심 포인트

  • HDFS NameNode: 메타데이터 관리 / DataNode: 실제 데이터
  • MapReduce: 디스크 기반, Spark: 인메모리 (10-100배 빠름)
  • Spark RDD: 지연 평가 + 불변성 + 장애 시 재연산
  • Lambda 아키텍처: 배치 + 스피드 레이어
  • 빅데이터 3V: Volume, Velocity, Variety

마무리

빅데이터 처리 기술은 정보처리기사 최신 트렌드를 반영한 출제 영역입니다. Hadoop과 Spark의 차이(디스크 vs 인메모리), Lambda 아키텍처 구조를 중심으로 학습하세요.

zerg96

Recent Posts

네트워크관리사 기출 핵심 [55] 클라우드 네트워크 보안과 VPC 설계 완전 정복

클라우드 VPC 보안이란? Virtual Private Cloud(VPC)는 퍼블릭 클라우드 내 격리된 가상 네트워크 환경입니다. 네트워크관리사 시험에서는…

15시간 ago

네트워크관리사 기출 핵심 [54] 네트워크 성능 측정과 벤치마킹 완전 정복

네트워크 성능 측정이란? 네트워크 성능 측정은 SLA 준수 확인, 병목 구간 발견, 용량 계획의 기반입니다.…

15시간 ago

네트워크관리사 기출 핵심 [53] 네트워크 가상화 심화와 오버레이 네트워크 완전 정복

네트워크 가상화와 오버레이 네트워크란? 오버레이 네트워크는 물리 네트워크 위에 논리적 네트워크를 구성해 가상 머신·컨테이너 간…

15시간 ago

네트워크관리사 기출 핵심 [52] 인터넷 교환 지점과 CDN 아키텍처 완전 정복

인터넷 교환 지점(IXP)이란? 인터넷 교환 지점(IXP)은 서로 다른 네트워크(AS)가 트래픽을 교환하는 물리적 인프라입니다. 네트워크관리사 시험에서는…

15시간 ago

네트워크관리사 기출 핵심 [51] 네트워크 슬라이싱과 5G 코어 아키텍처 완전 정복

5G 코어와 네트워크 슬라이싱이란? 5G 코어 네트워크는 클라우드 네이티브 아키텍처로 완전히 재설계되었습니다. 네트워크관리사 시험에서는 5G…

15시간 ago

정보처리기사 기출 핵심 [55] 플랫폼 엔지니어링과 IDP 구축 완전 정복

플랫폼 엔지니어링이란? 플랫폼 엔지니어링은 개발팀에게 셀프 서비스 인프라와 도구를 제공하는 규율입니다. 내부 개발자 플랫폼(IDP)을 통해…

15시간 ago