[Paper Review] Anomaly Detection for IoT Time-Series Data: A Survey

DevJo·2023년 5월 26일
0

paperreview

목록 보기
1/1

Anomaly Detection for IOT Time-Series Data: A Survey

위 링크를 클릭하시면 논문원본을 보실 수 있습니다.

-Introduction

Anomaly Detection은 데이터 내의 예기치 않은 관측치 또는 시퀀스의 식별을 포함하며 현재 사용되는 기법들은 대부분 개별 도메인 지식에 지배적이라고 할 수밖에 없다. 이에 Internet of Things(이하 IOT라 지칭)는 sensor, actuator, computer 등을 통해 관측하며 관리자로 하여금 이상치 또는 정상치 해석을 유도하며 도메인 지식과의 상호작용을 도와주는 이점을 갖고 있어 활발한 개발이 이루어지고 있다.

-Methods for defining anomaly

Hawkins “어떤 메커니즘에 의해 생성된 것으로 의심될 정도로 다른 관측치와 크게 다른 관측치”
Barnett-Lewis “데이터 집합의 나머지 부분과 일치하지 않는 관측치”

A (point anomaly): Hawkins 정의에 가장 유사한 이상치로 몇 개의 관측치만으로 매우 짧은 시간 내에 노이즈를 발생함을 알 수 있다.

B (contextual anomaly): 시계열 내에서 예상 패턴에서 벗어나는 값이 이상치로 판단되나, 해당 값을 단독으로 보면 예상되는 값 범위 내(y축)에 있을 수 있다.

C (collective or pattern anomaly): 짧은 구간의 집합적 이상치 내 개별 관측치는 이상치가 맞을 수도 있고 아닐 수도 있지만 더 넓은 그룹으로 살펴보면 의심이 생길 수밖에 없다.

-Applications for IOT

IoT는 시장에서 개발 중인 장치들의 저렴한 특성으로 인해 다양한 분야에 적용되기에 적합한 환경을 가지고 있다.
이상 탐지 방법은 대규모 발전소의 시스템 건강 모니터링, 작은 생산 공장의 지능형 유지보수 스케줄링, 주거용 난방 환기 및 에어컨 (HVAC) 시스템의 고장 검출, 제조업의 품질 관리 기술 등 다양한 산업 프로세스에 적용되어 왔으며 설치의 규모와 가치가 하락함에 따라 더 일반화되고 자동화된 접근 방식이 필요하다.
예시로는 3MW 풍력 터빈에서 결함의 예측 및 진단을 (SCADA) 시스템으로 진행하며 이는 데이터를 10분 간격으로 수집하며, 작동 중인 터빈의 결함 상태에 대한 레이블이 지정된 데이터로 사용 가능하다고 한다. 이 시스템은 특정 결함을 검출하기 위해 일부 특징을 사용하여 여러 분류기를 훈련시켰으며, 정상적인 부분 시퀀스와 이상한 부분 시퀀스 사이의 불균형으로 인한 어려움이 존재하지만 실제 이상이 발생하기 한 시간 전까지 결함을 예측할 수 있다는 이점이 있다고 한다.
다른 예시로 오디오 스펙트럼은 기계 내부 구성 요소의 작동을 모니터링하는 데 사용한다. 저비용 비침습적 모니터링을 위한 프레임워크를 제공하며, 이를 통해 결함이 발생하기 전에 초기 단계에서 결함을 검출할 수 있고 예기치 않은 다운타임이 감소된다는 이점이 있다고 한다.
모니터링과 센싱을 하기 위해서는 네트워크의 변화가 필요하다. 이에 대한 예시인 Smart meter는 시간별 간격에 따라 전력의 사용을 모니터링하고 자동으로 사용자와 관리자에게 유의미한 정보를 보고하는 역할을 수행한다고 한다. 또한 Smart meter는 2부 알고리즘을 사용하는데 첫 번째는 시간이 지남에 따라 결함의 진화를 검출하고 추적하며, 두 번째는 네트워크 토폴로지에 대한 정보를 사용하여 첫 번째 알고리즘에서 식별한 결함을 지역화 한다.
스마트 시티 맥락에서 IoT 접근 방식은 이상한 도로 상태를 식별하는 데 사용된 경우가 있는데 모바일 장치에서 crowd sourced 데이터를 사용하여 경로 찾기 응용 프로그램 내의 고강도 위치를 식별하고 따라서 소비자에게 대체 경로를 제안합니다. 이는 위치 정보로부터 비정상적인 이동 행동을 검출하고 집계함으로써 가능하다. 또 다른 예시로 smart home 데이터는 개인의 정상적인 활동이 학습되고 중요한 편차가 이상으로 인식되어 간병인이나 응급 서비스의 지원을 요청할 수 있도록 도와주는 데에 사용된다.

-Challenges faced in anomaly detection

1. Contextual information: t_1 ~ t_n까지 시간별로 관측된 관측치는 temporal correlation을 갖고 있다. 여러 센서들을 통해 모니터링을 할 경우 spatial context를 managing하기 어려운데 accelerometer를 예를 들면 현재의 angle을 측정함을 통해 정보를 얻는 것이 가능함을 알 수 있다. 마지막으로 빌딩 내부 온도제어 IOT는 외부의 온도도 알아야 하는데 옥상의 외부센서를 활용하거나 third-party 날씨정보를 활용하는 경우가 있다.

2. Dimensionality: 고 차원 데이터를 연산하는 비용이 저 차원 데이터를 연산하는 비용보다 크다. Univariate(단 변량) 데이터는 하나의 센서로 수집된 관측치이며 key-value 쌍의 데이터라서 key는 timestamp, value는 scalar or nominal, ordinal 변수가 해당한다.

3. Noise: 노이즈는 전체 데이터에서 중요하지 않게 판단되는 변동을 의미하며 이는 IOT 감지센서의 경미한 변화, 센서주변에서 발생하는 전혀 관련 없는 사건 또는 전송기반 오류로 인해 발생 가능하다.

4. Stationarity: 실제 시계열 데이터의 비정상성을 나타내는 방법으로 concept drift, change point 두 방법을 제시하였다. 우선 concept drift는 시간이 지남에 따라 데이터 스트림의 통계분포 변화를 의미하며 샘플링보다 높은 기간의 다양한 척도에서 순환적인 변화가 발생하는 특수성을 계절성이라고 표현하였다. 두번째로 change point는 모니터링되는 시스템의 정상 상태에서 지역적 또는 영구적인 변화를 의미하며 이는 일반적으로 concept drift에서 보는 것보다 갑작스럽게 발생하고 빠른 적용을 보였다.

-Current methods

시계열 및 비시계열 데이터의 다양한 도메인에서 이상 탐지에 대한 기술이 있다. 아래는 그룹별로 나눈 것이다. 아래에서 나오는 용어 설명을 하자면 첫번째 직접 모델링은 사용 가능한 데이터를 기반으로 시스템의 동작을 나타내는 모델을 생성하는 프로세스를 말한다. 시계열 데이터의 맥락에서 이는 과거 데이터를 사용하여 미래의 동작을 예측하거나 이상을 식별하는 데 사용할 수 있는 모델을 생성하는 것을 의미하여 추가 정보나 가정이 사용되어 모델이 생성되는 간접 모델링과 대조된다. 그리고 플래그란 이상하거나 이상한 것으로 간주되는 데이터 포인트 또는 관측치를 식별하고 표시하는 프로세스를 의미한다. 이는 기준이 되는 여러 데이터베이스와 비교하여 수행되며, 예상 범위를 벗어나거나 모델 내에 맞지 않으면 이상으로 판단한다.

Techniques:

1. Statistical and Probabilistic: 과거의 데이터를 사용하여 예상되는 행동을 모델링하고 따라서 새로운 관측치가 수신될 때마다 현재 모델에 비교하여 맞지 않으면 이상으로 판단한다.

2. Pattern Matching: 이 방법은 시계열의 직접 모델링을 사용한다. 각 새로운 관측치들을 레이블이 지정되어 있는 이상치 데이터베이스와 비교하고 가장 유사한 것을 플래그 한다. 만약 이전에 레이블이 지정된 데이터베이스 내부에 이상치가 수적으로 부족한 경우 정상 데이터베이스 내부에서 가장 일반적인 과거 패턴을 학습하고 이와 일치하지 않는 새로운 부분을 이상으로 플래그 할 수 있다.

3. Distance Based: 거리가 유사한 메커니즘에서 발생할 가능성이 높으므로 정상으로 플래그 한다. 반대로 큰 거리 차이가 나는 관측치는 다른 메커니즘에 의해 생성되었음을 의미하며 이상으로 플래그 한다.

4. Clustering: 데이터를 다차원 공간에 투영하고 클러스터의 밀도를 활용한다. 밀집 클러스터 내에 가깝게 나타나는 관측치는 정상으로 플래그 한다, 멀리 떨어져 있거나 밀집 클러스터 내에 속하지 않으면 이상으로 플래그 한다.

5. Predictive: 회귀 모델은 최근 및 장기적인 추세를 기반으로 생성되어 미래 시간의 예측 값을 예측한다. 새로운 관측 값이 수신되면 예측 모델의 값과 비교함으로써 그 예측의 정확성에 대한 평가를 하게 된다. 관측 값과 예측 모델의 값이 크게 다르면 이상으로 플래그 한다.

6. Ensemble: 각 데이터 포인트를 관찰하는 여러 다른 알고리즘을 사용하고 각 방법의 출력에 대한 투표 메커니즘이 사용된다. 앙상블은 예측 모델의 범위와 같은 유사한 검출기 그룹 또는 확률론적, 클러스터링 및 통계 검출기의 조합과 같은 검출기 그룹으로 구성될 수 있다. 앙상블 기법은 증가된 설정 복잡성과 계산 시간의 잠재적 비용을 감수하면서 성공률을 개선할 수 있으나 계산시간이 증가하는 단점은 피할 수 없다.

분류 1(Univariate Time-Series Data):

1. Non-regressive:
Box-plot기법은 프로세서 시간과 메모리 요구 사항 측면에서 계산이 매우 효율적이다. 하지만 이러한 접근법은 대부분의 시계열에 대해서는 작동하지 않는데 데이터의 시간적 측면을 대부분 무시하고 단 변량 데이터에 대한 간단한 분포로 처리하기 때문이다. 따라서 대부분의 문맥적 및 집합적 이상을 감지할 수 없다는 단점이 존재한다.

Autoencoder neural network기법은 입력 계층에 제시된 값을 적은 수의 뉴런이 있는 여러 개의 숨겨진 계층으로 전달한 다음 대칭적으로 출력 계층으로 네트워크를 확장하여 작동한다. 훈련된 Autoencoder가 주어진 입력 벡터를 재구성하는 능력은 입력 벡터가 얼마나 정상인지에 대한 일부 통찰력을 제공하는데 더 높은 재구성 오류는 입력 데이터 내에 네트워크를 훈련하는 데 사용된 데이터가 예상하지 않은 일부 정보가 있음을 나타낸다.

RNN기법은 신경망의 숨겨진 계층 내에서 피드백 루프를 사용하여 특정 뉴런이 이전 시간 단계의 출력에 영향을 받도록 한다. 이를 통해 네트워크는 시간의 경과에 따른 관찰 간의 관계를 포착할 수 있다는 장점이 있다. 초기 RNN은 큰 데이터 세트에서 훈련하는 데 어려움이 있었지만, LSTM(장기 단기 메모리) 및 GRU(게이트 순환 유닛)와 같은 새로운 게이트 배열의 개발으로 이 문제가 완화되었다고 볼 수 있다.

LSTM-neural network기법은 다양한 단 변량 시계열에서 쓰이며, Autoencoder의 재구성 오류가 데이터 내의 이상치 시퀀스를 식별하는 데 사용된다. 이 기법은 정상 데이터로만 훈련되는 반지도 학습 접근법이다.

2. Regressive:
자기회귀 이동 평균(ARMA)은 시계열의 매개변수 모델을 구축하는 기법으로 비정상 데이터 세트, 특히 계절성이나 평균 이동을 나타내는 데이터 세트에서 어려움을 겪는 단점이 있어 자기회귀 통합 이동 평균(ARIMA)가 등장하였고 이 기법은 처리 단계에서 차분 단계를 추가하여 데이터를 더 정상적인 분포로 이동시킴으로써 비정상성을 관리할 수 있게 되었다. SARMA 접근법은 데이터 내의 다른 계절성 수준을 고려하여 다른 계절 시간 지연에 걸쳐 여러 모델을 생성하고 동일한 기술을 적용하는 기법이다.

Malhotra팀은 다양한 단 변량 시스템에서 장기 역학을 포착하기 위해 반복적인 Sigmoid 유닛(RSU)과 LSTM의 층을 쌓은 두 가지 접근법을 제시하였다. 그들의 네트워크는 앞으로 몇 단계의 예상 값들을 예측하고 결과적으로 발생하는 오차들은 그 이후 시간의 관찰이 예상되는 정상 범위 내에 있는지에 대한 확률 점수를 계산하는 데 사용된다. 이 확률 점수에 대한 임계 값이 계산되고 이 수준 아래에 떨어지는 관찰은 이상치로 플래그 한다. 그들은 장기적인 시간 의존성이 있는 시스템에서 LSTM 접근법이 RSU 접근법보다 훨씬 우수하다는 것을 언급하였다.

Bayesian Neural Network기법은 LSTM 기반 Autoencoder를 사용하여 예측을 수행한 다음 MLP를 사용하여 최종 예측 단계를 수행한다. 이 구조는 나중의 값에 대한 예측뿐만 아니라 그 예측에 대한 확신의 정도를 제공한다.

HTM기법은 순차적으로 스트리밍 된 단 변량 데이터에 적용되며 noise 저항성과 지속적인 online learning이 특징점이라고 할 수 있으며. 데이터 분포가 시간이 지남에 따라 변경될 때 광범위한 오프라인 재훈련 없이 조정할 수 있는 장점이 있다.

단순 온라인 회귀 이상 탐지기(SORAD)기법은 평균과 분산 값을 재계산하며 새로운 값에 더 강한 가중치를 부여함으로써 예측 오차를 이상 레이블로 변환하는 내장 접근 방식으로 실행되며, 시리즈 평균과 분산을 계산하는 온라인 방법이 사용되고 이후 임계 값이 적용된다. 따라서 이 기법은 온라인 적응의 중요성을 피력한다.

분류 2(Multivariate Time-Series Data):

1. Dimensionality reduction:

PCA기법은 다 변량 시스템을 독립적인 변수의 축소된 집합으로 분해하여 조사해야 할 전체 시스템의 크기를 줄인다. 하지만 큰 윈도우 크기로 인해 이상의 원점을 정확하게 지정하는 데 어려움이 있고, PCA 모델을 주어진 데이터 분포에 맞게 조정하는 데 어려움이 있으며, 충분히 비정상적인 이상이 PCA 접근법 자체를 오염시킬 기회가 있다는 것은 제한으로 지적되고 있다.

컨볼루션 변이형 오토 인코더 (CNN-VAE)기법보다 추천되는 기법은 압축된 컨볼루션 변이형 오토 인코더 (SCVAE)기법인데 이는 네트워크 내부 edge에 배치하기에 적합하다고 한다.

2. Clustering:

다중 커널 이상 탐지(MKAD)기법은 커널 함수를 사용하여 데이터 스트림 내 변수 간의 유사성 측정을 학습하며, OCSVM이 분류 작업을 수행하는 데 적용된다. 이산 및 연속 스트림에서 탐지 능력의 상당한 향상을 보인다고 한다.

3. Others:

DBN기법은 단 변량 및 다 변량 데이터 모두에 사용 가능하다. 특히 여러 센서 스트림이 모여 결합되어 있을 때 탐지 능력의 상당한 향상을 보인다고 한다.

SOM기법은 다 변량의 시계열 특성을 포착할 수 있다고 한다.

-Research challenges and Conclusions

Real-Time Processing: 이상 탐지 방법은 실시간 또는 거의 실시간으로 작동하는 능력이 중요한데 검출기가 관측치 또는 관측치 집합을 처리하는 데 예상보다 오래 걸리면 결국 검출기에 제공된 계산 자원이 초과되어 실패한 검출기라고 판단할 수 있다.

Window of Incremental Approaches: 생산되는 데이터의 양이 많기 때문에 전체 데이터를 분석 가능한 상태로 유지하는 것은 비용이 많이 들 수밖에 없으며 따라서 슬라이딩 윈도우는 도움이 된다. 이 기법은 윈도우를 시간 축을 따라 슬라이드 하면서 새로운 데이터 포인트를 추가하고 윈도우 밖으로 떨어지는 오래된 데이터 포인트를 삭제하는 과정을 통해 주어진 시간에 저장 및 처리해야 하는 데이터가 제한되어 있는 환경에서 실시간 또는 거의 실시간으로 데이터를 분석할 수 있도록 도와준다.

Online Adaptive Learning: 시계열의 비정상성(Non-Stationarity)는 적응적 접근법이 필요하고 오프라인 방법은 초기 배포에 유용하지만 시간이 지남에 따라 개선하여 적응하기에는 불편하기에 온라인 방법이 도움이 된다.

Semi supervised or Unsupervised: 실제 사용 사례에서는 레이블이 지정된 이상 데이터가 심각하게 부족하며 충분하다고 하여도 이상의 범위를 완전히 대표하지 못할 것으로 판단할 수 있다. 또한 정상 데이터와 이상 데이터 간의 불균형으로 인해 전통적인 다중 클래스 머신 러닝 접근 방식은 데이터 스트림의 성격을 포착하는 데 적합하지 않으므로 이상 탐지 알고리즘을 정상 데이터만으로 훈련하고 관측치가 정상 데이터 밖으로 떨어질 때 보고하는 접근 방식이 현실적으로 더 적합한 모델이라고 생각한다.

profile
알고리즘과 데이터 분석을 공부 중입니다.

0개의 댓글