인공지능 및 빅데이터

IQR(Interquartile Range, 사분위 범위)

IQR(Interquartile Range, 사분위 범위)는 데이터에서 이상치를 탐지하고 변동성을 측정하는 데 사용되는 통계적 지표입니다.

📌 IQR의 정의

IQR은 데이터의 1사분위수(Q1)와 3사분위수(Q3)의 차이를 의미합니다.

  • Q1 (1st Quartile, 25%): 데이터의 하위 25% 지점
  • Q3 (3rd Quartile, 75%): 데이터의 상위 25% 지점
  • IQR 계산식: IQR=Q3−Q1IQR = Q3 – Q1IQR=Q3−Q1

📌 IQR의 활용

  1. 이상치(Outlier) 탐지
    • 이상치는 일반적으로 다음 범위를 벗어난 값으로 정의됩니다. Lower Bound=Q1−1.5×IQR\text{Lower Bound} = Q1 – 1.5 \times IQRLower Bound=Q1−1.5×IQR Upper Bound=Q3+1.5×IQR\text{Upper Bound} = Q3 + 1.5 \times IQRUpper Bound=Q3+1.5×IQR
    • 이 범위를 벗어난 값들은 이상치로 간주될 수 있습니다.
  2. 데이터 변동성 분석
    • IQR이 크면 데이터가 넓게 분포되어 있으며, 작으면 데이터가 좁게 분포되어 있다고 해석할 수 있습니다.
  3. 데이터 정제 및 전처리
    • 이상치를 제거하거나 적절한 값으로 대체할 때 유용합니다.

📌 IQR을 활용한 예시 (Python)

python복사편집import numpy as np

# 예제 데이터
data = [10, 12, 14, 15, 18, 21, 24, 30, 35, 40]

# Q1, Q3 계산
Q1 = np.percentile(data, 25)
Q3 = np.percentile(data, 75)

# IQR 계산
IQR = Q3 - Q1

# 이상치 범위 계산
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

print(f"Q1: {Q1}, Q3: {Q3}, IQR: {IQR}")
print(f"이상치 기준: {lower_bound} ~ {upper_bound}")

👉 IQR을 사용하면 데이터에서 이상치를 효율적으로 제거할 수 있습니다!

zerg96

Recent Posts

노트북(윈도우)에서 아이폰 유선 테더링 하기

윈도우 운영체제의 노트북에서는 iPhone 유선 테더링이 잘 안되는 경우가 많습니다. 보통 iPhone의 드라이버가 설치가 안되있어서인…

3일 ago

오라클 래치(Latch)

오라클 데이터베이스의 성능을 논할 때, 내부적으로 발생하는 경합(Contention)은 피할 수 없는 주제다. 특히 다수의 프로세스가…

7일 ago

사장님도 3표, 나도 3표? ‘3%룰’ 완전 정복!

안녕하세요, 혹시 이런 생각해 본 적 없으신가요? "내가 투자한 회사는 누가 감시하고, 어떻게 운영될까?" 오늘은…

3주 ago

Vector Store(벡터 스토어)

'벡터 스토어' 완벽 가이드: AI 시대, 데이터의 새로운 심장을 만나다 IT 업계는 인공지능(AI)이라는 거대한 패러다임의…

3주 ago

Gemini CLI (재미나이 CLI)

1. Gemini CLI란 무엇인가요? Gemini CLI는 터미널 환경에서 직접 Gemini 모델과 상호작용할 수 있도록 만들어진…

3주 ago

과적합 (overfitting)

과적합은 머신러닝에서 학습용데이터를 과하게 학습하여, 실제데이터를 예측하지 못하는 현상을 말합니다. 인공지능(AI)의 학습 방법은 우리가 시험공부를…

1개월 ago