📌 원문 문제
연합학습(Federated Learning)을 설명하시오.
출제 의도 분석
의료·금융 데이터처럼 외부 공유가 불가한 민감 데이터를 활용한 AI 학습 방법으로, 개인정보보호법 강화 흐름과 맞물려 중요도가 높아졌습니다. 수평/수직 분류, 집계 서버 구조, 차분 프라이버시와의 연계까지 아우르면 고득점 답안이 됩니다.
1. 연합학습 개념
연합학습(Federated Learning)이란 원본 데이터를 중앙 서버로 전송하지 않고, 각 참여 기기(클라이언트)에서 로컬로 모델을 학습한 뒤 모델 파라미터(그래디언트)만 중앙 서버에 전송하여 전역 모델을 갱신하는 분산 머신러닝 기법입니다.
2. 유형 비교
| 유형 | 분할 기준 | 예시 |
|---|---|---|
| 수평 연합학습 | 동일 피처, 다른 샘플 (행 분할) | 여러 병원이 같은 검사 항목의 환자 데이터 보유 |
| 수직 연합학습 | 동일 샘플, 다른 피처 (열 분할) | 은행(신용점수)과 쇼핑몰(구매이력)이 같은 고객 보유 |
| 연합 전이학습 | 샘플·피처 모두 다름 | 완전히 다른 도메인 간 지식 전달 |
3. FedAvg 알고리즘
Google이 제안한 대표 집계 알고리즘으로, 각 클라이언트의 데이터 수(n_k)에 비례하여 가중 평균으로 전역 모델을 갱신합니다.
전역모델 W = Σ (n_k / N) × W_k
N: 전체 데이터 수, W_k: k번째 클라이언트 모델 파라미터
N: 전체 데이터 수, W_k: k번째 클라이언트 모델 파라미터
4. 차분 프라이버시 연계와 한계
- 차분 프라이버시(DP): 그래디언트에 노이즈를 추가하여 역추론 공격으로부터 학습 데이터 보호
- 통신 비용: 대용량 모델의 파라미터 전송이 병목 → 모델 압축·양자화 필요
- 이질적 데이터(Non-IID): 클라이언트마다 데이터 분포가 달라 전역 모델 성능 저하 가능
- Free-rider 문제: 학습에 기여하지 않고 전역 모델만 내려받는 클라이언트
✅ 핵심 암기: 연합학습 = 데이터 안 움직이고 모델(파라미터)만 집계 | 수평(행 분할)·수직(열 분할) | FedAvg = 가중 평균 집계