1.image-text classification을 잘 하기위한, 새로운 feature fusion 방법 제안 2\. weight들은 network에 대해 hierachically 학습 => 각 single modality의 중요성을 반영 + mutual relatio