code_by_hot_pack.log

code_by_hot_pack.log

0411_학습

Amitis·2023년 4월 11일

스케일러 시계열데이터

0

DL_basic

목록 보기

4/4

시계열 데이터

시간별로 구성된 값 집합으로 추세 또는 예측 모델링을 위해 분석가능
ex) 센서 데이터, 설비 진동 데이터 등

비시계열 데이터(Tabular data, non-time series data)

쉽게 테이블 형태의 데이터가 비시계열 데이터(행과 열로 구성됨)
Tabular data는 산업현장에서 쉽게 볼 수 있는 데이터의 형태

ex) 머신러닝 계열 모델이 주로 활용하는 데이터의 형태

Scaler

min-Max

데이터의 값을 0~1 사이로 변화
변수가 정규분포가 아니거나 표준편차가 작을 때 사용
단, 이상치가 존재하지 않아야 함

Standard

기존 변수의 범위를 정규 분포화
데이터의 최소/최대값을 모를 때 사용
단, 이상치가 존재하지 않아야 함

Log

X축의 변화량에 따른 y축의 변화량을 고려하여 왜도, 첨도를 감소
target에 log를 취했을 때 성능이 좋아지는 경우가 많다

Robust

Median과 IQR(사분위수)를 사용하여 정규화
최소/최대값이 정해져 있어 이상치에 영향이 적다

Normalize

각 변수의 값을 원점으로부터 1만큼 떨어져 있는 범위 내로 환산
다른 스케일러를 사용하기 전 평탄화작업으로 사용

시계열 데이터 전처리

Interpolate

결측치를 앞뒤 값의 평균으로 대체

Feature Engineering - 변동성 변수 생성

각 변수 혹은 여러변수의 변동성을 파악할 수 있는 변수를 생성하는 방법

코딩은 핫팩빨

이전 포스트

미니배치 구현해보기

0개의 댓글