EV-Action: Electromyography-Vision Multi-Modal Action Dataset

문재경·2023년 6월 17일
0

스켈레톤

목록 보기
1/1

0. 개요

인간 행동 분석은 다양한 분야에서 적용되며, 목적에 따라 사용 가능한 데이터셋의 유무가 연구의 발전에 영향을 준다. 초창기 행동 데이터셋들은 RGB만으로 구성되었지만, 이후 3D 센서를 통해 깊이에 대한 정보도 포함하였고, 나중에는 스켈레톤 데이터를 도입하게 되었다. 다만, 주로 Kinect 센서로 수집되는 스켈레톤 데이터는 수집 장치의 성능으로 인해 낮은 성능을 낮은 성능을 보여준다.

이에 본 논문에서는 광학 추적 기반의 Vicon 시스템을 이용하여 더 높은 샘플링 속도로 더 높은 정확도를 갖는 스켈레톤 데이터를 수집하였다. 또한, EMG 신호 데이터를 수집하고 전처리하는 과정을 통해 행동 분석을 위한 멀티 모달 데이터셋, EV-Action을 제시한다.

1. 관련 연구

1.1. RGB & Skeleton Datasets

초기에는 10개의 행동 클래스를 갖는 작은 규모의 데이터셋으로 동작 분석을 수행하였다. 딥러닝이 발전함에 따라, 점차 그 규모는 증가하여 RGB에 더해 깊이(Depth)까지 포함한 RGB-D 데이터셋이 공개되었다. 이러한 RGB-D 데이터셋의 대부분은 Kinect 센서(아래 그림)를 이용해 수집한다.

Kinect 센서는 스켈레톤(Skeleton) 데이터를 추출할 수 있지만, 낮은 정확도와 안정성으로 인해 잠재적인 연구를 제한한다고 논문에서는 지적한다.

1.2. Multi-Modal Action Datasets

모달은 데이터의 모드, 유형을 의미하며 여기에는 텍스트, 이미지, 오디오나 신호 등이 있다. 즉, 멀티-모달 데이터셋(Multi-modal dataset)은 동일한 객체에 대해 여러 유형의 데이터가 수집된 데이터셋을 말한다.

본 논문에서는 RGB-D 이상의 모달리티(modalities)를 갖는 데이터셋을 멀티-모달 데이터셋으로 간주한다. 이와 같은 맥락에서 적외선 프레임이나 행동의 순서, 관성 신호를 포함한 데이터셋들이 이전 연구에서 제안되었다.

하지만 모달리티는 수집하는데 있어 일관되지 못한 방법으로 인해 제한적으로 나타난다고 한다. 논문에서는 이에 대해 39개의 마커를 이용하여 높은 프레임 속도로 정확한 위치와 궤적, 가속도 정보를 수집한다고 한다.

1.3. EMG Signal

근전도 검사(Electromyography; EMG)는 골격근에서 생성되는 전기적 활동을 평가하는 전기 진단 기술로, 뇌과학이나 생체역학, 신호 처리 분야에서 흔히 사용된다. 시각적 신호(행동)보다 먼저 활성화되기 때문에, 행위자의 의도나 힘과 같은 시각적으로 인식될 수 없는 정신적 정보와 관련이 있다. 이에 따라, 본 논문에서는 EMG 신호를 인간 행동 분석을 위한 데이터의 모달리티로 보고 데이터셋에 포함시켰다.

2. EV-Action Dataset

데이터 수집에는 Kinect 센서Vicon, EMG 센서가 사용되었다.

  • Kinect 센서: 대상의 RGB깊이(D) 정보 측정 -> 깊이 정보로부터 스켈레톤 정보 추출
  • Vicon: 마커와 카메라를 이용한 광학 추적에 기반하여 대상의 스켈레톤 정보 추출 -> 프레임 단위로 샘플링 후, calibration & labeling
  • EMG 센서: 행동의 주가 되는 전완과 정강이 근육으로부터 근전도(20 ~ 450Hz) 측정

데이터셋은 피실험자의 단독 행동 10개와 다른 물체와의 상호 작용 10개, 총 20개의 행동으로 구성된다. 이를 70명의 피실험자가 5번씩 반복하여 피실험자당 100개의 행동 클립을 생성하여 총 7,000개의 데이터를 생성하였다.

데이터 수집 시에는 의도적인 중단 없이 20개의 동작을 연달아 수행하며 촬영하였다. 그 결과는 아래와 같다.

데이터셋에서 점프했다가 착지하는 부분이다. 자세히 보면, 시각적으로 피실험자가 뛰는 동작을 하기 전부터 두 다리의 EMG 신호의 진폭이 증가하여 뛰는 동작 이후까지 유지되는 것을 확인할 수 있다. 마찬가지로 착지하는 순간에도 착지 동작의 전후로 두 다리의 EMG 신호의 진폭이 커진 것이 나타난다. 이에 따라 본 논문에서는 비시각적인 정보를 포함하는 EMG 신호가 기존의 행동 분석의 보완재로써 기능할 수 있을 것으로 예상한다.

본 논문에서 데이터의 레이블링은 2단계로 진행하였다. 먼저 RGB로 촬영한 영상에서 각 행동의 시작과 끝 프레임을 설정한 다음, 이를 Vicon으로 수집한 스켈레톤 정보와 정렬하였다.

3. Data Analysis

3.1. RGB 영상 데이터

수집한 모든 클립의 길이로 히스토그램과 상자 그림을 나타내었을 때, 행동 별로 피실험자들이 수행하는 시간이 다른 것을 확인할 수 있다. 또한, 동일한 행동에 대해서도 피실험자에 따라 영상의 길이가 달라진다.

3.2. EMG 신호 데이터

양팔과 양다리, 총 4개의 채널이 존재하는 EMG 신호 데이터는 RMS(Root Mean Square)를 이용해 행동에 따른 값으로 나타낼 수 있다. 일반적으로 더 강하고 큰 다리 근육으로부터의 신호가 팔보다 2배 이상 크게 나타난다.

주목할 점은 손목시계를 보는 행동(CheckWatch)에서 왼팔을 들어올리는 동시에 왼다리의 신호도 오른다리보다 높게 나타난다는 것이다. 신체 균형을 유지하기 위함이라든지 모종의 이유로 왼다리가 관여하는 것을 시각적으로는 관측되지 않는 정보가 담겨있다고 추론할 수 있다.

3.3. Vicon 데이터

Vicon 카메라를 통해 스켈레톤 정보를 수집하는 방법은 피실험자의 몸에 부착된 마커를 추적한다. 따라서 여러 각도에서 데이터를 수집하더라도, 행동에 따라 몇몇 마커가 가려지는 경우에서 측정에 방해를 받게 된다.

이러한 문제에 대해, 본 논문에서는 데이터를 두 타입으로 나누는 방법으로 해결을 시도함과 동시에, vicon 카메라로 수집한 정보로 스켈레톤 정보를 만드는데 있어 더 정교한 방법을 향후 연구의 필요성으로 제시한다.

4. Experiments

7,000개의 데이터를 훈련과 평가를 위해 8:2로 분할하고 분류를 수행하였다. 실험은 RGB-D, 스켈레톤, EMG 신호, 스켈레톤+EMG의 4가지 경우로 데이터의 모달리티를 나누어 수행하였다.

4.1. Framework

EMG 신호 데이터만으로 분류를 수행하는 경우, 노이즈가 포함된 raw EMG 신호로부터 feature를 추출하고 차원을 축소하는 전처리 과정이 필요하다. 어떤 방법을 사용하는지가 분류의 성능에 영향을 주기 때문에 선정이 중요하다고 한다. 본 논문에서는 Butterworth 필터에서 시작해 RMS를 거쳐, 노이즈 제거와 feature 추출을 동시에 수행하면서 더 많은 정보를 보존할 수 있는 FFT(Fast Fourier Transform)를 최종 방법으로 선택하였다.

시계열 형태의 EMG 신호를 슬라이딩 윈도우(Sliding window)를 적용하여 나누고, FFT를 이용하여 노이즈가 높은 신호와 낮은 신호로 분리한다. 4개의 채널(양팔과 양다리)에 대해 FFT 결과를 하나의 벡터로 합친 후, 이를 LSTM 신경망에 입력하여 얻은 결과를 최종 분류를 위한 feature representation으로 사용한다.

EMG 신호와 달리, RGB와 깊이, 스켈레톤 데이터에 대해서는 이전 논문들에서 제시되었던 방법론들을 사용하였다.

  • RGB
    : Action Vector of Local Aggregated Descriptor (Action-VLAD),
    Temporal Segment Networks (TSN),
    Long-term Recurrent Convolutional Networks (LRCN)
  • Depth
    : Weighted Depth Motion Maps (WDMM),
    Weighted Hierarchical Depth Motion Maps (WHDMM)
  • Skeleton
    : Temporal Convolutional Networks (TCN),
    Two Stream Recurrent Neural Network (TSRNN),
    Spatial Temporal Graph Convolution Network (STGCN)

스켈레톤과 EMG 신호를 통합하여 구성한 멀티 모달 데이터를 이용하는 실험도 진행하였다. 프레임 단위로 존재하는 스켈레톤 데이터에서 프레임 간격에 EMG 신호 데이터 상의 시간창(Time window)이 일치하도록 정렬시키고, RMS 또는 FFT를 이용하여 전처리를 수행한다. 해당 결과는 스켈레톤 데이터와 합쳐져 TCN에 입력되어 분류를 진행하게 된다.

4.2. Results and Analsis

본 논문이 EMG 신호를 포함하는 멀티 모달 데이터셋을 제시하였다는 측면에서 스켈레톤 데이터만을 이용하였을 때의 성능과 스켈레톤과 EMG 신호를 함께 이용하였을 때의 성능을 비교할 필요가 있다. 스켈레톤 데이터만 사용하였을 때보다 EMG 신호를 추가해서 분류했을 때 정확도가 82.6%에서 84.0%로 1.4% 만큼 향상된 것을 확인할 수 있다.

본 논문에서는 향상이 크지 않은 이유로 EMG 신호 데이터를 단순히 concatenation을 통해 학습에 반영시키는 점을 지적한다. EMG 신호 데이터만을 이용하였을 때 특정 동작에서는 높은 분류 성능을 보여주기 때문에 EMG 신호 데이터가 행동 인식에 있어 유의미하지만, 스켈레톤 데이터와 융합하는 과정에서 EMG 신호가 갖는 정보가 완전히 사용되지 않는다고 추정한다. 따라서 이를 해결하기 위해 더 좋은 방법에 대한 연구의 필요성을 제시한다.

Kinect 센서 외에 Vicon 카메라를 통해 스켈레톤 데이터를 수집하였다는 점도 강조한다. 다만, 이렇게 수집한 스켈레톤은 분류에 있어 상대적으로 그 성능이 떨어진다. 이에 대해서는 vicon 카메라의 특성 상 미싱 포인트의 존재와 기존 Kinect 센서로 수집한 스켈레톤과 다른 방법론의 필요성을 언급한다.

profile
안녕하세요...

0개의 댓글