연합학습(Federated Learning, FL)은 데이터를 중앙 서버로 전송하지 않고, 각 클라이언트(엣지 디바이스·기관)에서 로컬 학습 후 모델 파라미터(가중치)만 공유하는 분산 머신러닝 패러다임입니다.
1. 연합학습 개념 및 등장 배경
1-1. 기존 중앙집중 학습의 문제
- 개인정보·규제: GDPR·PIPA 등으로 의료·금융 데이터 반출 불가
- 통신 비용: 대규모 원시 데이터 중앙 전송은 네트워크 부담 과중
- 데이터 사일로: 기관 간 데이터 공유 불가로 편향된 모델 학습
2. 연합학습 동작 원리
2-1. FedAvg(Federated Averaging) 알고리즘
① 글로벌 모델 배포: 중앙 서버 → 선택된 클라이언트들에게 현재 글로벌 가중치 W(t) 전송
② 로컬 학습: 각 클라이언트 k → 로컬 데이터 D_k로 SGD 수행 → 로컬 업데이트 ΔW_k 계산
③ 파라미터 집계: 중앙 서버 → 가중 평균: W(t+1) = Σ(|D_k|/|D| × ΔW_k)
④ 반복: 수렴할 때까지 ①~③ 반복
② 로컬 학습: 각 클라이언트 k → 로컬 데이터 D_k로 SGD 수행 → 로컬 업데이트 ΔW_k 계산
③ 파라미터 집계: 중앙 서버 → 가중 평균: W(t+1) = Σ(|D_k|/|D| × ΔW_k)
④ 반복: 수렴할 때까지 ①~③ 반복
2-2. 연합학습 유형
| 유형 | 특징 | 적용 사례 |
|---|---|---|
| 수평 연합학습 (Horizontal FL) |
동일 피처 공간, 다른 샘플(클라이언트별 동종 데이터) | 스마트폰 키보드 예측(Google Gboard), 의료 영상 분류 |
| 수직 연합학습 (Vertical FL) |
다른 피처 공간, 동일 샘플(기관 간 이종 데이터) | 은행+보험사: 고객 ID 공유, 피처는 분리 학습 |
| 연합 전이학습 (Federated Transfer Learning) |
샘플·피처 모두 다른 경우, 전이학습 활용 | 소수 데이터 보유 기관의 AI 협력 학습 |
3. 프라이버시 강화 기법
3-1. 차분 프라이버시(Differential Privacy)
로컬 업데이트에 Gaussian/Laplace 노이즈 추가 → 개별 데이터 역추적 방지. ε (엡실론) 값으로 프라이버시-정확도 트레이드오프 조절.
3-2. 보안 집계(Secure Aggregation)
비밀 공유(Secret Sharing) 또는 동형 암호(HE)를 사용하여 중앙 서버도 개별 클라이언트 업데이트를 볼 수 없도록 집계합니다.
3-3. 신뢰 실행 환경(TEE)
Intel SGX·ARM TrustZone으로 엔클레이브 내 학습 수행 → 메모리 도청 방지.
4. 엣지 AI와 연합학습 통합
| 구분 | 역할 | 기술 |
|---|---|---|
| 엣지 디바이스 | 로컬 추론·학습, 원시 데이터 보관 | TensorFlow Lite, ONNX Runtime, PyTorch Mobile |
| 엣지 서버(MEC) | 지역 집계, 클라우드 트래픽 감소 | 계층적 FL — 엣지→클라우드 2단계 집계 |
| 클라우드 서버 | 글로벌 모델 집계·배포 | Flower, PySyft, TensorFlow Federated |
5. 도전 과제 및 해결 방안
| 도전 과제 | 해결 방안 |
|---|---|
| Non-IID 데이터 편향 | FedProx·SCAFFOLD 알고리즘 — 클라이언트 드리프트 보정 |
| 악의적 클라이언트(Byzantine) | Byzantine-robust 집계(Krum·Median·Trimmed Mean) |
| 통신 효율 | 모델 압축(Quantization·Pruning), 희소 업데이트 |
| 무임승차 참여자 | 기여도 측정(Shapley Value) 기반 인센티브 설계 |
6. 활용 사례
의료: 병원 간 암 진단 모델 협력 학습 — 환자 데이터 반출 없이 정확도 향상
금융: 은행 연합 사기 탐지 모델 — 계좌 정보 공유 없이 공동 학습
스마트폰: Google Gboard 다음 단어 예측 — 기기에서 학습, 서버는 집계만
자율주행: 차량(OTA) 주행 데이터 → 엣지 학습 → 클라우드 집계
금융: 은행 연합 사기 탐지 모델 — 계좌 정보 공유 없이 공동 학습
스마트폰: Google Gboard 다음 단어 예측 — 기기에서 학습, 서버는 집계만
자율주행: 차량(OTA) 주행 데이터 → 엣지 학습 → 클라우드 집계
7. 결론
연합학습은 ‘데이터는 이동하지 않고, 지식(모델)만 공유’하는 프라이버시 보존 AI 학습 패러다임입니다. 차분 프라이버시·보안 집계·TEE를 결합하고, 엣지-클라우드 계층적 FL 아키텍처로 통신 효율을 높이면, 데이터 규제 환경에서도 강력한 AI 모델을 구축할 수 있습니다.