0411_학습

Amitis·2023년 4월 11일
0

DL_basic

목록 보기
4/4

시계열 데이터

  • 시간별로 구성된 값 집합으로 추세 또는 예측 모델링을 위해 분석가능
    ex) 센서 데이터, 설비 진동 데이터 등

비시계열 데이터(Tabular data, non-time series data)

  • 쉽게 테이블 형태의 데이터가 비시계열 데이터(행과 열로 구성됨)
  • Tabular data는 산업현장에서 쉽게 볼 수 있는 데이터의 형태

ex) 머신러닝 계열 모델이 주로 활용하는 데이터의 형태

Scaler

min-Max

  • 데이터의 값을 0~1 사이로 변화
  • 변수가 정규분포가 아니거나 표준편차가 작을 때 사용
  • 단, 이상치가 존재하지 않아야 함

Standard

  • 기존 변수의 범위를 정규 분포화
  • 데이터의 최소/최대값을 모를 때 사용
  • 단, 이상치가 존재하지 않아야 함

Log

  • X축의 변화량에 따른 y축의 변화량을 고려하여 왜도, 첨도를 감소
  • target에 log를 취했을 때 성능이 좋아지는 경우가 많다

Robust

  • Median과 IQR(사분위수)를 사용하여 정규화
  • 최소/최대값이 정해져 있어 이상치에 영향이 적다

Normalize

  • 각 변수의 값을 원점으로부터 1만큼 떨어져 있는 범위 내로 환산
  • 다른 스케일러를 사용하기 전 평탄화작업으로 사용

시계열 데이터 전처리

Interpolate

결측치를 앞뒤 값의 평균으로 대체

Feature Engineering - 변동성 변수 생성

각 변수 혹은 여러변수의 변동성을 파악할 수 있는 변수를 생성하는 방법

profile
코딩은 핫팩빨

0개의 댓글