이 논문에서는 다른 auxiliary network를 사용하지 않고 Mixup에서 Locally Linear Constraint를 완화시키기 위하여 Adversarial Mixing Policy를 제안하였다.
이는 Mixup의 mixing coefficient에 adversarial perturbation을 적용한 최초의 연구라고 한다.
추가적인 실험으로 제안된 method를 분석하였고, AMP가 Mixup variants의 성능을 향상시켰으며 non-linear Mixup보다 error rate면에서 outperform함을 보였다고 한다.
input x와 관련된 label y로 이루어진 training data (x;y)가 주어졌을 때, deep network는 다음과 같이 x로부터 y를 연결하는 mapping function을 학습한다.
network의 linear nature는 input의 작은 변화가 model의 output에도 영향을 미침을 의미한다.
이러한 linearity는 network가 adversarial attack에 취약해지도록 한다.
network의 linear nature를 완화하기 위하여, adversarial training은 network가 다음과 같은 mapping function을 학습하도록 한다.
이러한 training은 network의 linearity를 완화시키고 deep network의 robustness를 향상시킨다.
그렇지만 model의 robustness와 generalization 능력 간에는 trade-off가 존재한다. (adversarial robustness와 standard accuracy 간의 trade-off)
Mixup은 data augmentation에서 많이 사용이 되는 기법 중 하나이다.
Mixup은 다음과 같은 식으로 정의된다.
(λ ∈ [0, 1] : mixing coefficient / m : mixing policy)
이러한 synthetic data로 training을 하면, Mixup은 network의 input space에 Locally Linear Constraint를 부여하게 된다.
linearity는 다음과 같다.
(∇λ : small change of λ)
이러한 setting 하에, λ의 작은 변화는 output에 undesirable한 변화를 야기할 수 있다.
결국에 이러한 strict linear constraint가 model의 regularization effect를 저하시키는 under-fitting을 야기할 수 있다.
Mixup에서의 strict linear constraint를 완화하는 것은 under-fitting을 어느 정도 해결할 수 있고, 그럼으로써 regularization effect를 향상시킬 수 있다고 한다.
이러한 underfitting은 synthetic data가 network에 corrupt하거나 ambiguous할 때 발생한다고 한다. 그러므로 만약 이러한 data들이 network에 compatible해진다면 (soft margin 등을 이용하여), under-fitting 문제가 해결될 수 있을 것이라고 한다.
adversarial training으로부터 영감을 받아, 이 논문에서는 Mixup에 작은 non-linearity를 부여하는 것이 constraint를 완화할 수 있을 것이라고 가정하고 있다.
(∇λ : adversarial perturbation)
이 논문에서 제안하는 method는 λ에 perturbation ∇λ를 project하기 위해 interpolated data에 대하여 loss를 maximize한다. 그리고 이 maximized된 loss를 다시 minimize한다.
adversarial training으로부터 영감을 받아, 이 method를 min-max-rand optimization 문제라고 칭하고 있다.
우선 min-max-rand optimization에서 rand operation부터 살펴보자면, Rand operation은 두 category 간에 random한 interpolated data를 생성하는 것을 목적으로 한다.
특히, 이는 training example 뿐 아니라 label도 linear하게 interpolation 취하여 synthetic data로 사용한다.
model f(x) = fk(gk(x))에서 gk은 input data를 hidden state로 mapping 시키는 부분이고, fk는 hidden state를 output으로 mapping 시키는 부분이라고 가정하자. 그러면 다음과 같이 systhetic data generation을 설명할 수 있다.
다음으로 Max operation에서는 synthetic example과 synthetic label간에 작은 non-linearity를 부여하기 위하여 작은 adversarial perturbation을 부여한다.
이는 곧 생성된 synthetic data가 Locally Linear Constraints를 strict하게 따르지 않게된다는 것을 의미한다.
이를 위해, 이 논문에서는 adversarial training에서 많이 사용이 되는 Fast Gradient Sign Method (FGSM)과 유사하게 λ에 perturbation을 주는 algorithm을 제안하였다. 이 perturbation은 λ의 gradient ascend direction의 gradient이다.
FGSM과 달리 여기서는 input 대신에 λ에 perturbation을 적용한다.
게다가, λ가 scalar값이기 때문에 ∇λ에 대하여 normalization을 취하지 않아도 된다고 한다.
λ'은 λ에 perturbation이 적용된 것을 의미한다. ∇λ는 λ의 clipped gradient이다.
perturbation은 adversarial direction에서의 gradient이고 다음과 같이 얻을 수 있다.
Mixup loss L은 다음과 같이 얻을 수 있다.
여기서 gradient step size ε은 loss가 minimize되는 undesirable한 결과를 야기할 수 있다. 그래서 ε으로부터의 영향을 제거해야한다고 한다.
Min operation은 constraint relaxed synthetic data의 loss를 minimize한다.
Min operation은 앞서 말한 ε의 영향을 없애기 위하여 이전 두 step에서 더 큰 loss를 minimize하는 것을 학습한다.
이러한 방법은 model이 under-fitting될 risk를 줄이는 것에 도움이 된다고 한다.
mask는 다음과 같이 계산된다.
이렇게 함으로써, 제안된 method는 다른 step size setting에 대해서도 steady하게 성능 향상을 보인다고 한다.
여러 setting에서 improvement를 보이고 있다.
다음 시각화를 통하여 기존의 Mixup보다 제안된 method를 사용하였을 때 underfitting이 어느 정도 해소되었음을 보여주고 있다.
Mixup에서의 Locally Linear Constraints를 완화하여 underfitting을 해결하기 위해 이 논문에서는 Adversarial Mixing Policy(AMP)를 제안하고 있다.
min-max-rand method는 synthetic examples와 synthetic labels간에 slightly non-linearity를 부여하여서 network가 몇몇 ambiguous한 data에 compatible해지고 그러므로 under-fitting을 줄일 수 있도록 하였다.
다양한 실험을 통하여 AMP가 vanilla Mixup보다 좋은 performance를 내는 것을 보여주었다.