시계열 데이터
- 시간별로 구성된 값 집합으로 추세 또는 예측 모델링을 위해 분석가능
ex) 센서 데이터, 설비 진동 데이터 등
비시계열 데이터(Tabular data, non-time series data)
- 쉽게 테이블 형태의 데이터가 비시계열 데이터(행과 열로 구성됨)
- Tabular data는 산업현장에서 쉽게 볼 수 있는 데이터의 형태
ex) 머신러닝 계열 모델이 주로 활용하는 데이터의 형태
Scaler
min-Max
- 데이터의 값을 0~1 사이로 변화
- 변수가 정규분포가 아니거나 표준편차가 작을 때 사용
- 단, 이상치가 존재하지 않아야 함
Standard
- 기존 변수의 범위를 정규 분포화
- 데이터의 최소/최대값을 모를 때 사용
- 단, 이상치가 존재하지 않아야 함
Log
- X축의 변화량에 따른 y축의 변화량을 고려하여 왜도, 첨도를 감소
- target에 log를 취했을 때 성능이 좋아지는 경우가 많다
Robust
- Median과 IQR(사분위수)를 사용하여 정규화
- 최소/최대값이 정해져 있어 이상치에 영향이 적다
Normalize
- 각 변수의 값을 원점으로부터 1만큼 떨어져 있는 범위 내로 환산
- 다른 스케일러를 사용하기 전 평탄화작업으로 사용
시계열 데이터 전처리
Interpolate
결측치를 앞뒤 값의 평균으로 대체
Feature Engineering - 변동성 변수 생성
각 변수 혹은 여러변수의 변동성을 파악할 수 있는 변수를 생성하는 방법