카이제곱(χ²) 검정은 범주형 데이터(categorical data)에서 기대값과 관측값 간의 차이를 분석하는 통계적 검정 방법입니다. 주로 데이터가 특정 분포를 따르는지, 변수 간의 독립성이 있는지를 확인할 때 사용됩니다.
카이제곱(χ²) 통계량은 다음과 같이 계산됩니다.χ2=∑(O−E)2E\chi^2 = \sum \frac{(O – E)^2}{E}χ2=∑E(O−E)2
이 값이 카이제곱 분포를 따르는지 확인하여 유의 수준(보통 0.05) 이하일 경우 귀무가설을 기각합니다.
예를 들어, 한 쇼핑몰에서 남성과 여성 고객이 선호하는 제품 유형(A, B, C)이 독립적인지 검정한다고 가정하면, 다음과 같은 분할표를 만들 수 있습니다.
| 제품 | 남성 | 여성 | 합계 |
|---|---|---|---|
| A | 40 | 50 | 90 |
| B | 30 | 20 | 50 |
| C | 30 | 30 | 60 |
| 합계 | 100 | 100 | 200 |
이 데이터를 이용해 기대값을 계산하고, 카이제곱 검정을 수행하여 성별과 제품 유형이 독립적인지 확인할 수 있습니다.
import scipy.stats as stats
import numpy as np
# 데이터 입력 (분할표)
obs = np.array([[40, 50], [30, 20], [30, 30]])
# 카이제곱 검정 수행
chi2, p, dof, expected = stats.chi2_contingency(obs)
print(f"카이제곱 통계량: {chi2}")
print(f"p-value: {p}")
print(f"기대값:\n{expected}") p-value < 0.05 → 귀무가설 기각(변수 간 독립성이 없음, 즉 관계가 있음)
카이제곱 검정은 특히 표본 크기가 충분히 클 때 신뢰할 수 있는 결과를 제공합니다.
요양원 선택 전 반드시 확인해야 할 체크리스트를 공개합니다. 공식 평가 자료 조회법, 방문 시 확인…
공공기관 채용 비리의 실태와 피해 지원자의 대응법을 정리했습니다. 채용 비리 신고 방법, 공익신고자 보호제도, 취준생…
주식 손실을 세금 절약에 활용하는 합법적 방법을 공개합니다. 해외주식 손익통산, ISA 계좌 활용, 연금계좌 절세까지…
배달이 예상 시간보다 크게 늦으면 취소·환불을 요청할 수 있습니다. 배달앱별 지연 취소 방법과 잘못 배달됐을…
통신비 절약의 핵심은 요금제 최적화입니다. 내 데이터 사용량 확인법, 알뜰폰 전환 비교, 위약금 없이 요금제…