연합학습(Federated Learning)이란 원시 데이터를 중앙 서버로 전송하지 않고 각 클라이언트(기기·기관)가 로컬에서 모델을 학습한 후 모델 파라미터(gradient)만 공유하여 글로벌 모델을 갱신하는 분산 머신러닝 패러다임이다. Google이 2016년 Android 키보드(Gboard) 개인화에 최초 적용하였으며, GDPR·의료정보보호법 등 데이터 규제가 강화되면서 금융·의료·통신 분야로 확산되고 있다.
| 유형 | 데이터 분포 | 적합 시나리오 | 예시 |
|---|---|---|---|
| 수평 연합학습 (Horizontal FL) | 동일 피처, 다른 샘플 | 동일 업종 다수 기관 | 다수 병원 동일 질병 진단 모델 |
| 수직 연합학습 (Vertical FL) | 다른 피처, 일부 동일 샘플 | 이종 업종 데이터 결합 | 은행(거래이력)+통신사(통화패턴) 신용평가 |
| 연합 전이학습 (Federated TL) | 피처·샘플 모두 다름 | 데이터 희소 기관 | 소규모 의료기관이 대형 기관 모델 활용 |
McMahan et al.(2017)이 제안한 FedAvg는 다음 4단계를 반복한다: ① 중앙 서버가 현재 글로벌 모델 파라미터를 선택된 클라이언트에 배포 → ② 각 클라이언트가 로컬 데이터로 E에폭 SGD 학습 후 로컬 gradient 계산 → ③ 클라이언트가 gradient를 중앙 서버에 전송 → ④ 서버가 가중 평균(데이터 샘플 수 기준)으로 글로벌 모델 파라미터 갱신. 통신 횟수를 최소화하면서 중앙 집중 학습에 준하는 정확도를 달성한다.
| 위협/한계 | 설명 | 대응 기술 |
|---|---|---|
| Gradient Inversion | 전송된 gradient에서 원시 데이터 역추론 가능 | 차분 프라이버시(DP), Secure Aggregation |
| Poisoning 공격 | 악성 클라이언트가 오염된 gradient 주입 | Byzantine-robust 집계(Krum, Median), 이상 탐지 |
| Non-IID 문제 | 클라이언트 간 데이터 분포 불균형으로 모델 편향 | FedProx, Scaffold, 데이터 증강 |
연합학습은 데이터 주권 보호와 AI 모델 성능 향상을 동시에 추구하는 Privacy-Preserving ML의 핵심 기술이다. GDPR·개인정보보호법 준수가 강화되는 환경에서 의료·금융 분야 AI 협력의 현실적 대안으로 부상하고 있다. 도입 시 통신 비용·Non-IID 대응·보안 위협에 대한 아키텍처 수준의 설계가 선행되어야 한다.
요양원 선택 전 반드시 확인해야 할 체크리스트를 공개합니다. 공식 평가 자료 조회법, 방문 시 확인…
공공기관 채용 비리의 실태와 피해 지원자의 대응법을 정리했습니다. 채용 비리 신고 방법, 공익신고자 보호제도, 취준생…
주식 손실을 세금 절약에 활용하는 합법적 방법을 공개합니다. 해외주식 손익통산, ISA 계좌 활용, 연금계좌 절세까지…
배달이 예상 시간보다 크게 늦으면 취소·환불을 요청할 수 있습니다. 배달앱별 지연 취소 방법과 잘못 배달됐을…
통신비 절약의 핵심은 요금제 최적화입니다. 내 데이터 사용량 확인법, 알뜰폰 전환 비교, 위약금 없이 요금제…