I. 개요
연합학습(Federated Learning)이란 원시 데이터를 중앙 서버로 전송하지 않고 각 클라이언트(기기·기관)가 로컬에서 모델을 학습한 후 모델 파라미터(gradient)만 공유하여 글로벌 모델을 갱신하는 분산 머신러닝 패러다임이다. Google이 2016년 Android 키보드(Gboard) 개인화에 최초 적용하였으며, GDPR·의료정보보호법 등 데이터 규제가 강화되면서 금융·의료·통신 분야로 확산되고 있다.
II. 연합학습 3가지 유형
| 유형 | 데이터 분포 | 적합 시나리오 | 예시 |
|---|---|---|---|
| 수평 연합학습 (Horizontal FL) |
동일 피처, 다른 샘플 | 동일 업종 다수 기관 | 다수 병원 동일 질병 진단 모델 |
| 수직 연합학습 (Vertical FL) |
다른 피처, 일부 동일 샘플 | 이종 업종 데이터 결합 | 은행(거래이력)+통신사(통화패턴) 신용평가 |
| 연합 전이학습 (Federated TL) |
피처·샘플 모두 다름 | 데이터 희소 기관 | 소규모 의료기관이 대형 기관 모델 활용 |
III. FedAvg 알고리즘과 동작 원리
McMahan et al.(2017)이 제안한 FedAvg는 다음 4단계를 반복한다: ① 중앙 서버가 현재 글로벌 모델 파라미터를 선택된 클라이언트에 배포 → ② 각 클라이언트가 로컬 데이터로 E에폭 SGD 학습 후 로컬 gradient 계산 → ③ 클라이언트가 gradient를 중앙 서버에 전송 → ④ 서버가 가중 평균(데이터 샘플 수 기준)으로 글로벌 모델 파라미터 갱신. 통신 횟수를 최소화하면서 중앙 집중 학습에 준하는 정확도를 달성한다.
IV. 보안 위협과 프라이버시 강화 기술
| 위협/한계 | 설명 | 대응 기술 |
|---|---|---|
| Gradient Inversion | 전송된 gradient에서 원시 데이터 역추론 가능 | 차분 프라이버시(DP), Secure Aggregation |
| Poisoning 공격 | 악성 클라이언트가 오염된 gradient 주입 | Byzantine-robust 집계(Krum, Median), 이상 탐지 |
| Non-IID 문제 | 클라이언트 간 데이터 분포 불균형으로 모델 편향 | FedProx, Scaffold, 데이터 증강 |
V. 결론 및 기술사 관점
연합학습은 데이터 주권 보호와 AI 모델 성능 향상을 동시에 추구하는 Privacy-Preserving ML의 핵심 기술이다. GDPR·개인정보보호법 준수가 강화되는 환경에서 의료·금융 분야 AI 협력의 현실적 대안으로 부상하고 있다. 도입 시 통신 비용·Non-IID 대응·보안 위협에 대한 아키텍처 수준의 설계가 선행되어야 한다.
핵심 키워드: Federated Learning, FedAvg, Horizontal FL, Vertical FL, Gradient Inversion, 차분 프라이버시(Differential Privacy), Secure Aggregation, Non-IID, Byzantine-robust, GDPR