인공지능 및 빅데이터

IQR(Interquartile Range, 사분위 범위)

IQR(Interquartile Range, 사분위 범위)는 데이터에서 이상치를 탐지하고 변동성을 측정하는 데 사용되는 통계적 지표입니다.

📌 IQR의 정의

IQR은 데이터의 1사분위수(Q1)와 3사분위수(Q3)의 차이를 의미합니다.

  • Q1 (1st Quartile, 25%): 데이터의 하위 25% 지점
  • Q3 (3rd Quartile, 75%): 데이터의 상위 25% 지점
  • IQR 계산식: IQR=Q3−Q1IQR = Q3 – Q1IQR=Q3−Q1

📌 IQR의 활용

  1. 이상치(Outlier) 탐지
    • 이상치는 일반적으로 다음 범위를 벗어난 값으로 정의됩니다. Lower Bound=Q1−1.5×IQR\text{Lower Bound} = Q1 – 1.5 \times IQRLower Bound=Q1−1.5×IQR Upper Bound=Q3+1.5×IQR\text{Upper Bound} = Q3 + 1.5 \times IQRUpper Bound=Q3+1.5×IQR
    • 이 범위를 벗어난 값들은 이상치로 간주될 수 있습니다.
  2. 데이터 변동성 분석
    • IQR이 크면 데이터가 넓게 분포되어 있으며, 작으면 데이터가 좁게 분포되어 있다고 해석할 수 있습니다.
  3. 데이터 정제 및 전처리
    • 이상치를 제거하거나 적절한 값으로 대체할 때 유용합니다.

📌 IQR을 활용한 예시 (Python)

python복사편집import numpy as np

# 예제 데이터
data = [10, 12, 14, 15, 18, 21, 24, 30, 35, 40]

# Q1, Q3 계산
Q1 = np.percentile(data, 25)
Q3 = np.percentile(data, 75)

# IQR 계산
IQR = Q3 - Q1

# 이상치 범위 계산
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

print(f"Q1: {Q1}, Q3: {Q3}, IQR: {IQR}")
print(f"이상치 기준: {lower_bound} ~ {upper_bound}")

👉 IQR을 사용하면 데이터에서 이상치를 효율적으로 제거할 수 있습니다!

zerg96

Recent Posts

요양원 선택 전 반드시 확인해야 할 것들, 부모님 맡기기 전에 보세요

요양원 선택 전 반드시 확인해야 할 체크리스트를 공개합니다. 공식 평가 자료 조회법, 방문 시 확인…

2일 ago

공공기관 채용 비리, 내부에서 터져나온 충격 증언

공공기관 채용 비리의 실태와 피해 지원자의 대응법을 정리했습니다. 채용 비리 신고 방법, 공익신고자 보호제도, 취준생…

2일 ago

주식 손실 났을 때 세금 줄이는 방법, 아는 사람만 씁니다

주식 손실을 세금 절약에 활용하는 합법적 방법을 공개합니다. 해외주식 손익통산, ISA 계좌 활용, 연금계좌 절세까지…

2일 ago

음식 배달 늦으면 소비자가 취소할 수 있다, 몰랐던 권리

배달이 예상 시간보다 크게 늦으면 취소·환불을 요청할 수 있습니다. 배달앱별 지연 취소 방법과 잘못 배달됐을…

2일 ago

휴대폰 요금제 바꾸면 연 수십만원 절약, 지금 내 요금제 확인하세요

통신비 절약의 핵심은 요금제 최적화입니다. 내 데이터 사용량 확인법, 알뜰폰 전환 비교, 위약금 없이 요금제…

2일 ago

퇴직금 못 받았다면, 지금 당장 이렇게 하세요

퇴직 후 퇴직금을 받지 못했다면 즉시 노동부에 신고하세요. 지급 기한, 자격 요건, 신고 방법, 소액체당금…

2일 ago