Unbiased Multiple Instance Learning for Weakly Supervised Video Anomaly Detection

ckck12·2024년 7월 9일
0

논문 리뷰

목록 보기
3/3

Abstract

  1. 문제 정의
    Weakly Supervised Learning을 이용한 비디오 이상탐지(WSVAD)는 비디오 level의 레이블링이 되어있고 프레임 단위의 예측은 매우 challenge함.
  2. WSVAD에서 MIL은 일반적으로 사용되어왔지만, MIL은 상당한 오탐지가 발생함
  3. 본 논문에서 Unbiased MIL 프레임워크를 제안하여 unbias한 이상 특징을 학습하도록 함
  4. 비디오를 짧은 스니펫(세그멘트)로 나누고 탐지 모델을 사용하여 각 스니펫이 정상인지 비정상인지 예측함. 이후 확신 그룹과 애매한 그룹으로 나누고 이 두 그룹간의 차이점과 공통점을 찾아 편향을 제거함.
    이를 통해 확신 그룹에서 잘 예측된 정상 및 비정상 스니펫의 특징을 통해 애매한 그룹의 스니펫을 더 정확히 분류할 수 있음.

Introduction

WSVAD: 약한 지도학습 비디오 이상탐지는 비디오 level 레이블만 존재하는 상황에서 각 스니펫의 이상 여부를 탐지할 수 있는 디텍터를 학습하는 것이 목표임.

  1. 정상비디오는 모든 스니펫이 정상임
  2. 비정상 비디오는 최소하나의 스니펫에 이상이 있으면 이상이 있다고 판단함

WSVAD의 목표
1. 비디오 레벨 clasification
2. 스니펫 레벨 clasification

MIL의 문제점

  1. MIL은 Simplest context에 쉽게 편향될 수 있음. (연기가 나는 굴뚝과 같이 비정상이 아닌 경우에도 오탐지를 발생시킴)
  2. 큰 동작을 통해 차를 훼손하는 사람은 탐지를 잘할 수 있지만 작은 동작을 하는 사람은 탐지를 잘 할 수 없음
  3. MIL은 확신하는 샘플에 의해 주도되는 경향이 있고 이에 따라 모델이 편향되기 쉬움

즉, 연기, 큰 움직임은 정상일 수 있지만 모델은 비정상으로 잘못 예측할 수 있고, Vise versa로 실제로는 비정상이지만 모델은 정상으로 잘못 예측할 수 있음.

주요 기여 요약

UMIL은 WSVAD에서 편향되지 않은 이상 탐지기를 학습하는 새로운 방법
UMIL은 다양한 컨텍스트 편향을 가진 확신 스니펫과 애매한 스니펫 사이의 불변성을 추구하여 편향되지 않은 이상 탐지기를 학습합니다.

UMIL은 특성 미세 조정과 탐지기 학습을 결합한 최초의 WSVAD 방법입니다
UMIL의 편향 없는 목표 덕분에, 특성 미세 조정(feature fine-tuning)과 탐지기 학습(detector learning)을 결합한 종단 간(end-to-end) 훈련 방식이 가능해졌습니다.
이를 통해 비디오 이상 탐지(VAD)에 더 적합한 특성 표현을 학습할 수 있습니다.

UMIL은 미세한 비디오 분할 전략을 채택하여 비디오 스니펫의 미세한 이상 정보도 보존합니다
비디오 스니펫을 세밀하게 분할하여 미세한 이상 정보를 보존합니다.

UMIL은 UCF-Crime 및 TAD 벤치마크에서 현재 최신 방법들보다 개선된 성능을 제공합니다

UMIL은 UCF-Crime 벤치마크에서 1.4% AUC, TAD 벤치마크에서 3.3% AUC의 성능 향상을 달성했습니다.
UMIL은 MIL 기본 모델과 비교하여 두 데이터셋 모두에서 2% 이상의 AUC 성능 향상을 제공하여 UMIL의 효과를 입증합니다

profile
천천히하자

0개의 댓글