[정보관리기술사 137회 1교시 13번] 연합학습(Federated Learning)의 개념과 프라이버시 보호 AI

I. 개요

연합학습(Federated Learning)이란 원시 데이터를 중앙 서버로 전송하지 않고 각 클라이언트(기기·기관)가 로컬에서 모델을 학습한 후 모델 파라미터(gradient)만 공유하여 글로벌 모델을 갱신하는 분산 머신러닝 패러다임이다. Google이 2016년 Android 키보드(Gboard) 개인화에 최초 적용하였으며, GDPR·의료정보보호법 등 데이터 규제가 강화되면서 금융·의료·통신 분야로 확산되고 있다.

II. 연합학습 3가지 유형

유형 데이터 분포 적합 시나리오 예시
수평 연합학습
(Horizontal FL)
동일 피처, 다른 샘플 동일 업종 다수 기관 다수 병원 동일 질병 진단 모델
수직 연합학습
(Vertical FL)
다른 피처, 일부 동일 샘플 이종 업종 데이터 결합 은행(거래이력)+통신사(통화패턴) 신용평가
연합 전이학습
(Federated TL)
피처·샘플 모두 다름 데이터 희소 기관 소규모 의료기관이 대형 기관 모델 활용

III. FedAvg 알고리즘과 동작 원리

McMahan et al.(2017)이 제안한 FedAvg는 다음 4단계를 반복한다: ① 중앙 서버가 현재 글로벌 모델 파라미터를 선택된 클라이언트에 배포 → ② 각 클라이언트가 로컬 데이터로 E에폭 SGD 학습 후 로컬 gradient 계산 → ③ 클라이언트가 gradient를 중앙 서버에 전송 → ④ 서버가 가중 평균(데이터 샘플 수 기준)으로 글로벌 모델 파라미터 갱신. 통신 횟수를 최소화하면서 중앙 집중 학습에 준하는 정확도를 달성한다.

IV. 보안 위협과 프라이버시 강화 기술

위협/한계 설명 대응 기술
Gradient Inversion 전송된 gradient에서 원시 데이터 역추론 가능 차분 프라이버시(DP), Secure Aggregation
Poisoning 공격 악성 클라이언트가 오염된 gradient 주입 Byzantine-robust 집계(Krum, Median), 이상 탐지
Non-IID 문제 클라이언트 간 데이터 분포 불균형으로 모델 편향 FedProx, Scaffold, 데이터 증강

V. 결론 및 기술사 관점

연합학습은 데이터 주권 보호와 AI 모델 성능 향상을 동시에 추구하는 Privacy-Preserving ML의 핵심 기술이다. GDPR·개인정보보호법 준수가 강화되는 환경에서 의료·금융 분야 AI 협력의 현실적 대안으로 부상하고 있다. 도입 시 통신 비용·Non-IID 대응·보안 위협에 대한 아키텍처 수준의 설계가 선행되어야 한다.

핵심 키워드: Federated Learning, FedAvg, Horizontal FL, Vertical FL, Gradient Inversion, 차분 프라이버시(Differential Privacy), Secure Aggregation, Non-IID, Byzantine-robust, GDPR

Leave a Comment