공기질 샘플 데이터 overview

jkky98·2023년 4월 27일
0

DataScience

목록 보기
24/26

주어진 샘플 데이터의 시간 간격은 일주일이다. 0.5초 간격마다의 데이터로 약 2만개의 데이터 샘플이다. 특정 실험 공간에서 특정 제품으로 테스트된 데이터로 5개의 피처를 가지고 있다.

PM데이터 끼리는 매우 비슷한 개형을 보이고 있었다. 온도와 습도 데이터는 주중에 상승과 하락을 반복하는 특징을 보였으며 주말에는 변동이 거의 없는 모습을 보였다. TVOC의 경우 경향성이 더 잘 보였으며 주중에는 뚜렷한 변화가, 주말에는 변화가 없는 모습이다.

ACF, PACF

ACF의 경우 자기상관성을 측정하는 방법으로, x축은 lag, y축은 상관계수를 나타낸다. lag는 데이터를 시간단위 한 단위만큼 지연시킨 것으로 예시로 lag=10일 경우 acf는 lag=10~현재까지의 데이터 상관성을 측정한다.PACF(Partial Autocorrelation Function)는 ACF와 유사하지만, 이전의 모든 lag의 영향력을 제거한 후에 해당 lag와 현재 lag의 상관성을 측정하는 함수이다. 즉, 현재 lag와 다른 lag들 간에 존재하는 상관성을 측정하는 것이다. 이전의 모든 lag들의 영향력을 제거하여 해당 lag와의 상관성을 측정하므로, PACF는 시계열 데이터에서 어떤 lag가 다른 lag들에 비해 더 큰 영향을 미치는지를 파악하는 데 유용하다.

해당 데이터는 모두 0.5초 간격이기에, 데이터를 1시간 단위로 재구성한 후 다시 자기 상관성 분석을 진행하였다.

자기 상관성의 경우 0.5초 간격에서는 모든 lag에서 매우 높은 상관성을 보였다. lag의 수가 아무리 많아도 절대적인 단위가 작아서 발생하는 현상으로 한 시간으로 늘렸을 때는 각 데이터마다의 흐름을 확인할 수 있다.

profile
a personal blog

0개의 댓글