📌 원문 문제
베이즈 정리
출제 의도 분석
베이즈 정리는 머신러닝·확률통계의 근본 개념으로, 정보관리기술사에서 나이브 베이즈 분류기나 스팸 필터링과 연결해 출제됩니다. 수식을 외우는 것보다 사전확률→우도→사후확률의 업데이트 흐름을 직관적으로 설명하는 것이 핵심입니다.
1. 베이즈 정리 개념
베이즈 정리(Bayes’ Theorem)는 새로운 증거(Evidence)를 관찰했을 때, 기존의 믿음(사전 확률)을 업데이트하여 사후 확률을 계산하는 공식입니다.
P(A|B) = P(B|A) × P(A) / P(B)
- P(A): 사전 확률 (Prior) — 증거 B를 보기 전 A의 확률
- P(B|A): 우도 (Likelihood) — A가 참일 때 B가 관찰될 확률
- P(B): 주변 확률 (Marginal) — B가 관찰될 전체 확률
- P(A|B): 사후 확률 (Posterior) — B를 관찰한 후 A의 확률
2. 직관적 예시 — 의료 진단
희귀질환 발병률 0.1%(P(Disease)=0.001), 검사 민감도 99%(P(Pos|Disease)=0.99), 특이도 95%(P(Neg|No Disease)=0.95)일 때:
- 양성 판정 시 실제 환자일 확률: P(Disease|Pos) ≈ 약 1.9%
- 의미: 검사가 양성이어도 실제 환자일 확률이 낮을 수 있음 → 사전 확률의 중요성
3. 나이브 베이즈 분류기
특성(Feature)들이 조건부 독립이라고 가정하여 베이즈 정리를 단순화한 분류 알고리즘입니다.
P(클래스 | 특성들) ∝ P(클래스) × ∏ P(특성_i | 클래스)
스팸 필터링에서 “무료”, “당첨” 등의 단어가 포함된 이메일이 스팸일 확률을 계산하는 데 활용됩니다. 단순하지만 텍스트 분류에서 높은 성능을 보입니다.
4. 베이즈 정리의 활용 분야
| 분야 | 활용 예시 |
|---|---|
| 스팸 필터링 | 단어 빈도 기반 스팸 분류 |
| 의료 진단 | 검사 결과 기반 질병 확률 계산 |
| 추천 시스템 | 사용자 행동 기반 콘텐츠 추천 |
| 이상 탐지 | 네트워크 침입 탐지 시스템 |
| 자연어 처리 | 감성 분석, 문서 분류 |
핵심 정리
베이즈 정리의 핵심은 “증거를 보고 믿음을 업데이트한다”는 것입니다. 사전 확률(Prior)이 결과에 큰 영향을 미치므로, 현실적인 사전 확률 설정이 중요합니다. 머신러닝에서 나이브 베이즈부터 베이지안 신경망까지 폭넓게 응용됩니다.