Time Series 전처리

지리산근육곰·2021년 12월 22일
0
post-thumbnail

Time Series 전처리

  • Time series 데이터에서 year-mm-dd 형식의 값을 불러와 처리하는 과정

Import Data

  • Colab 에서 실행시 encoding='cp949'이 필요하다.
train = pd.read_csv("train.csv", encoding='cp949', parse_dates=['date'])
  • train data에서 column명이 date인 year-mm-dd이 있다면 parse_dates=['date']을 통해 해당 column을 time series형식으로 가져온다.

    만약 사용하지 않을 경우 str 형식으로 불러온다.

Year Month Day 전처리

  • date에서 year, month, day를 처리 할 경우 아래의 코드를 실행한다.
# date
train["year"] = train.date.apply(lambda x: x.year)
train["month"] = train.date.apply(lambda x: x.month)
train["day"] = train.date.apply(lambda x: x.day)

Weekday 전처리

  • 만약 요일 정보가 필요하다면 아래의 코드로 값을 구할 수 있다.

    0~6 으로 표시되며 0은 월요일,..., 6은 일요일이다.

# define a function
def weekday(x):
	return x.weekday()
# Weekday
train["weekday"] = train.date.apply(weekday)

0개의 댓글