제134회 정보관리기술사 2교시 4번 — 연합학습(Federated Learning)과 엣지 AI 프라이버시

연합학습(Federated Learning, FL)은 데이터를 중앙 서버로 전송하지 않고, 각 클라이언트(엣지 디바이스·기관)에서 로컬 학습 후 모델 파라미터(가중치)만 공유하는 분산 머신러닝 패러다임입니다.

1. 연합학습 개념 및 등장 배경

1-1. 기존 중앙집중 학습의 문제

  • 개인정보·규제: GDPR·PIPA 등으로 의료·금융 데이터 반출 불가
  • 통신 비용: 대규모 원시 데이터 중앙 전송은 네트워크 부담 과중
  • 데이터 사일로: 기관 간 데이터 공유 불가로 편향된 모델 학습

2. 연합학습 동작 원리

2-1. FedAvg(Federated Averaging) 알고리즘

① 글로벌 모델 배포: 중앙 서버 → 선택된 클라이언트들에게 현재 글로벌 가중치 W(t) 전송
② 로컬 학습: 각 클라이언트 k → 로컬 데이터 D_k로 SGD 수행 → 로컬 업데이트 ΔW_k 계산
③ 파라미터 집계: 중앙 서버 → 가중 평균: W(t+1) = Σ(|D_k|/|D| × ΔW_k)
④ 반복: 수렴할 때까지 ①~③ 반복

2-2. 연합학습 유형

유형 특징 적용 사례
수평 연합학습
(Horizontal FL)
동일 피처 공간, 다른 샘플(클라이언트별 동종 데이터) 스마트폰 키보드 예측(Google Gboard), 의료 영상 분류
수직 연합학습
(Vertical FL)
다른 피처 공간, 동일 샘플(기관 간 이종 데이터) 은행+보험사: 고객 ID 공유, 피처는 분리 학습
연합 전이학습
(Federated Transfer Learning)
샘플·피처 모두 다른 경우, 전이학습 활용 소수 데이터 보유 기관의 AI 협력 학습

3. 프라이버시 강화 기법

3-1. 차분 프라이버시(Differential Privacy)

로컬 업데이트에 Gaussian/Laplace 노이즈 추가 → 개별 데이터 역추적 방지. ε (엡실론) 값으로 프라이버시-정확도 트레이드오프 조절.

3-2. 보안 집계(Secure Aggregation)

비밀 공유(Secret Sharing) 또는 동형 암호(HE)를 사용하여 중앙 서버도 개별 클라이언트 업데이트를 볼 수 없도록 집계합니다.

3-3. 신뢰 실행 환경(TEE)

Intel SGX·ARM TrustZone으로 엔클레이브 내 학습 수행 → 메모리 도청 방지.

4. 엣지 AI와 연합학습 통합

구분 역할 기술
엣지 디바이스 로컬 추론·학습, 원시 데이터 보관 TensorFlow Lite, ONNX Runtime, PyTorch Mobile
엣지 서버(MEC) 지역 집계, 클라우드 트래픽 감소 계층적 FL — 엣지→클라우드 2단계 집계
클라우드 서버 글로벌 모델 집계·배포 Flower, PySyft, TensorFlow Federated

5. 도전 과제 및 해결 방안

도전 과제 해결 방안
Non-IID 데이터 편향 FedProx·SCAFFOLD 알고리즘 — 클라이언트 드리프트 보정
악의적 클라이언트(Byzantine) Byzantine-robust 집계(Krum·Median·Trimmed Mean)
통신 효율 모델 압축(Quantization·Pruning), 희소 업데이트
무임승차 참여자 기여도 측정(Shapley Value) 기반 인센티브 설계

6. 활용 사례

의료: 병원 간 암 진단 모델 협력 학습 — 환자 데이터 반출 없이 정확도 향상
금융: 은행 연합 사기 탐지 모델 — 계좌 정보 공유 없이 공동 학습
스마트폰: Google Gboard 다음 단어 예측 — 기기에서 학습, 서버는 집계만
자율주행: 차량(OTA) 주행 데이터 → 엣지 학습 → 클라우드 집계

7. 결론

연합학습은 ‘데이터는 이동하지 않고, 지식(모델)만 공유’하는 프라이버시 보존 AI 학습 패러다임입니다. 차분 프라이버시·보안 집계·TEE를 결합하고, 엣지-클라우드 계층적 FL 아키텍처로 통신 효율을 높이면, 데이터 규제 환경에서도 강력한 AI 모델을 구축할 수 있습니다.

Leave a Comment