Data preparation: 80% of the work of data scientists
forbes.com https://goo.gl/h2DtR5
“데이터 과학의 80%는 데이터 클리닝에 소비되고, 나머지 20%는 데이터 클리닝하는 시간을 불평하는데 쓰인다.” — kaggle 창립자 Anthony Goldbloom
표 (table) | 데이터셋(dataset), 인스턴스 집합(set of instance) |
---|---|
행 (row) | 관측치(observed value), 레코드(record), 샘플(sample), 개체(instance) |
열 (column) | 특성(feature), 속성(attribute), 변수(variable) |
참고 (머신러닝 에서, 통계에서)
독립변수 | X | feature | 입력 | |
---|---|---|---|---|
종속변수 | y | target | 출력 | 레이블, 정답 |
양적 데이터 (정량적, Quantitative or Numeric)
질적 데이터 (정성적, Qualitative or Categorical)
https://i.imgur.com/tZWaltL.png
관찰된 결과에 특정 값을 할당하기 위해 사용되는 측정 수준
명목척도 nominal scale | 어떤 범주에 속하는가 | 순서나 크기의 의미 없음 | 종교, 인종, 성별, 지지정당 |
서열척도 ordinal scale | 순위 부여 | 등간격 아님, 연산 불가 크기나 순서 간의 차이X | 5점 척도 만족도 |
구간척도 interval scale | 명목, 순서 척도 + 등간격 | 크기비교 의미 있음 크기간의 차이 동일 | 온도, 물가지수, 주가지수 |
비율척도 ratio scale | 구간척도의 특성 + 절대 원점 | 크기비교와 비율도 의미 0을 기준 크기 표시가능 | 키, 몸무게, 시간, 거리 |
출처1: bdataanalytics.biomedcentral.com, 출처2: bdataanalytics.biomedcentral.com
결측값: 값이 존재하지않고 비어있는 상태
결측값의 성격
결측값 처리 방법
결측값을 잘 채워넣는 것이 매우 중요함
결측값 추정
데이터 평활화 기법(smoothing technique)
https://en.wikipedia.org/wiki/DBSCAN
이상치 탐지
이상치 처리
2018-2025 FinanceData.KR
데이터 전처리는 데이터 분석 시 가장 중요하고 시간이 오래 걸리는 작업입니다.
본 내용은 본인이 이승준 교수님(한국금융연수원 겸임교수이자 FinanceData.KR 대표)의 수업을 들으며 정리한 내용입니다.
출처 : FinanceData.KR (https://financedata.notion.site/54690591e5e24213b1b32d6b98bb6c70)
오늘은 AI 생태계에 혁신적인 변화를 가져올 것으로 예상되는 MCP(Model Context Protocol)에 대해 상세히 알아보겠습니다. 2024년…
1. TPM이란? TPM(Trusted Platform Module)은 국제 표준 기반의 보안 하드웨어 칩으로, 컴퓨터나 디지털 장비 내에서…
시즌2, 기대했는데... 실망도 두 배!두뇌싸움을 기대했는데, 전략도 없는 자기들만의 감정에 따른 편가르기, 정치싸움이 되어 버린…
BPF(Berkeley Packet Filter) 도어는 해커가 관리자 몰래 뒷문을 새로 만든 것입니다.해커가 명령을 내려 특정 데이터들을 뒷문을…
1. IPC의 개념과 목적 1.1 IPC란 무엇인가? IPC (Inter-Process Communication)는 운영체제 내의 서로 독립적인 프로세스…