연합학습(Federated Learning)이란 원시 데이터를 중앙 서버로 전송하지 않고 각 클라이언트(기기·기관)가 로컬에서 모델을 학습한 후 모델 파라미터(gradient)만 공유하여 글로벌 모델을 갱신하는 분산 머신러닝 패러다임이다. Google이 2016년 Android 키보드(Gboard) 개인화에 최초 적용하였으며, GDPR·의료정보보호법 등 데이터 규제가 강화되면서 금융·의료·통신 분야로 확산되고 있다.
| 유형 | 데이터 분포 | 적합 시나리오 | 예시 |
|---|---|---|---|
| 수평 연합학습 (Horizontal FL) | 동일 피처, 다른 샘플 | 동일 업종 다수 기관 | 다수 병원 동일 질병 진단 모델 |
| 수직 연합학습 (Vertical FL) | 다른 피처, 일부 동일 샘플 | 이종 업종 데이터 결합 | 은행(거래이력)+통신사(통화패턴) 신용평가 |
| 연합 전이학습 (Federated TL) | 피처·샘플 모두 다름 | 데이터 희소 기관 | 소규모 의료기관이 대형 기관 모델 활용 |
McMahan et al.(2017)이 제안한 FedAvg는 다음 4단계를 반복한다: ① 중앙 서버가 현재 글로벌 모델 파라미터를 선택된 클라이언트에 배포 → ② 각 클라이언트가 로컬 데이터로 E에폭 SGD 학습 후 로컬 gradient 계산 → ③ 클라이언트가 gradient를 중앙 서버에 전송 → ④ 서버가 가중 평균(데이터 샘플 수 기준)으로 글로벌 모델 파라미터 갱신. 통신 횟수를 최소화하면서 중앙 집중 학습에 준하는 정확도를 달성한다.
| 위협/한계 | 설명 | 대응 기술 |
|---|---|---|
| Gradient Inversion | 전송된 gradient에서 원시 데이터 역추론 가능 | 차분 프라이버시(DP), Secure Aggregation |
| Poisoning 공격 | 악성 클라이언트가 오염된 gradient 주입 | Byzantine-robust 집계(Krum, Median), 이상 탐지 |
| Non-IID 문제 | 클라이언트 간 데이터 분포 불균형으로 모델 편향 | FedProx, Scaffold, 데이터 증강 |
연합학습은 데이터 주권 보호와 AI 모델 성능 향상을 동시에 추구하는 Privacy-Preserving ML의 핵심 기술이다. GDPR·개인정보보호법 준수가 강화되는 환경에서 의료·금융 분야 AI 협력의 현실적 대안으로 부상하고 있다. 도입 시 통신 비용·Non-IID 대응·보안 위협에 대한 아키텍처 수준의 설계가 선행되어야 한다.
코스피 8% 폭락, 서킷브레이커 발동, SK텔레콤 Claude AI 차단까지. 한국의 AI 레버리지 버블이 단 하루…
SNS 사진 1장으로 30초 만에 딥페이크 영상이 완성됩니다. 당신의 얼굴이 이미 범죄에 악용되고 있을 수…
SNS 사진 1장으로 30초 만에 딥페이크 영상이 완성됩니다. 당신의 얼굴이 이미 범죄에 악용되고 있을 수…
달러/원 환율이 급등하는 이유와 실생활 영향을 정리했습니다. 지금 당장 활용할 수 있는 환전·투자 대응 전략까지…
미래에셋·미래에셋벤처투자·미래에셋생명이 동반 급등한 이유는 스페이스X 상장 기대감입니다. 세 회사가 스페이스X와 어떻게 연결되어 있는지 상세히 분석했습니다.
스페이스X 상장이 계속 미뤄지는 진짜 이유를 파헤쳤습니다. 화성 계획, 스타링크 분리, 국방 계약... 머스크가 절대…