NumPy

NumPy 라이브러리란? NumPy(넘파이, Numerical Python)는 파이썬에서 과학 계산 및 데이터 분석을 위한 대표적인 라이브러리입니다. 다차원 배열 객체인 ndarray를 제공하며, 수학 연산 및 행렬 연산을 효율적으로 수행할 수 있도록 최적화되어 있습니다. … Read more

비닝과 회귀의 차이

비닝(Binning)과 회귀(Regression)의 차이 비닝(Binning)과 회귀(Regression)은 데이터 분석에서 자주 사용되는 기법이지만, 목적과 활용 방식이 다릅니다. 1. 비닝(Binning) 🔹 개념 비닝(Binning)은 연속형 데이터를 여러 개의 범주(구간, bin)로 나누는 과정입니다.즉, 연속적인 값을 이산적(Discrete) … Read more

68-95-99.7 규칙 (Three Sigma Rule)

68-95-99.7 규칙 (Three Sigma Rule) 68-95-99.7 규칙은 정규분포(Gaussian distribution)에서 평균(μ)과 표준편차(σ)를 기준으로 데이터가 분포하는 비율을 나타내는 경험적인 법칙입니다. 1. 규칙의 의미 정규분포에서 데이터가 평균을 중심으로 특정 시그마(σ) 범위 내에 포함될 … Read more

데이터 전처리 실습

데이터 준비 결측치 처리 결측치 처리: 개수 확인 결측치 처리: 데이터 혹은 컬럼 삭제 결측치 처리: 대체 (imputation) Outlier 탐지 3표준편차 와 IQR 방법 Outlier 처리: QR 이용하는 방법 Outlier … Read more

IQR(Interquartile Range, 사분위 범위)

IQR(Interquartile Range, 사분위 범위)는 데이터에서 이상치를 탐지하고 변동성을 측정하는 데 사용되는 통계적 지표입니다. 📌 IQR의 정의 IQR은 데이터의 1사분위수(Q1)와 3사분위수(Q3)의 차이를 의미합니다. 📌 IQR의 활용 📌 IQR을 활용한 예시 (Python) … Read more

데이터 전처리 개요

데이터 전처리 가장 비용이 많이 소요되는 작업 Data preparation: 80% of the work of data scientists forbes.com https://goo.gl/h2DtR5 “데이터 과학의 80%는 데이터 클리닝에 소비되고, 나머지 20%는 데이터 클리닝하는 시간을 불평하는데 쓰인다.” … Read more

프롬프트 엔지니어링 (Prompt Engineering)

1. 프롬프트 엔지니어링이란? 프롬프트 엔지니어링(Prompt Engineering)은 AI 모델, 특히 대형 언어 모델(LLM)이나 생성형 AI에게 원하는 결과를 얻기 위해 입력(프롬프트)을 최적화하는 기술입니다. 프롬프트의 구조와 방식에 따라 AI의 응답 품질이 크게 달라질 … Read more

VAE(Variational AutoEncoder)

VAE (Variational AutoEncoder)는 딥러닝 기반의 생성 모델로, 입력 데이터를 잠재 변수(latent variable) 공간으로 압축하고, 이 잠재 변수를 기반으로 새로운 데이터를 생성하는 모델입니다. VAE는 Autoencoder 구조에서 확률적 접근 방식을 추가하여 확률적 … Read more