missing modality : 말 그대로 여러 가지의 modality가 pair 되어 있는 상황에서 특정 modality가 소실 되어 있는 것을 의미한다. 예를 들어 MM-IMDb 데이터셋과 같이 {영화 설명, 포스터, 장르 라벨}로 되어 있는 구성에서 라벨은 존재하지만 영화 설명이라는 텍스트 모달리티 혹은 포스터의 이미지 모달리티가 소실 되어 있는 상황이다.
현재 multimodal learning에 대한 관심이 증가하고 있고, 해당 논문에서는 multimodal learning에서 발생하는 두가지 문제를 해결하고자 한다.
1) Real-word 데이터 상황에서는 test와 train 모두에서 missing modality가 존재한다.
2) heavy transformer 모델을 사용하는 경우 모든 파라미터에 대한 학습을 진행하는 full-finetuning에 컴퓨터 자원이 부족할 수 있다.
이 두가지 문제를 모두 prompt learning을 활용해 해결하는 방안을 제안한다.
Prompt learning
거대 모델을 재학습하는 경우 많은 파라미터에 대한 학습을 필요로 하고 리소스 혹은 시간의 문제로 이를 해결하기 위한 prompt learning 기법이 제안되었다. 말 그대로 해당 상황 혹은 task에 맞게 prompt만을 학습하는 기법으로 거대 모델의 경우 파라미터를 freeze하여 활용하고 prompt에 대한 학습만 이루어지게 된다.
즉 해당 논문은 위 그림 중 아래의 상황 처럼 문제 상황 또한 train에서도 missing modality가 발생하는 것을 전제로 하고 있고 학습 또한 Multimodal Transformer에 경우 freeze하여 활용하고 prompt와 Task Classifier만을 학습하여 학습이 필요한 파라미터의 수도 줄이게 된다.
해당 논문에서는 앞에서 말한 것처럼 prompt learning을 활용하게 된다. 그렇다면 이 모델에서 prompt가 하는 역할은 무엇일까?
위 그림에서 볼 수 있듯 해당 모델에서의 prompt는 missing-aware prompts라고 불리게 된며 어떤 modality가 소실된 상황인지에 대한 정보를 가지고 있는 prompt로 작용하게 된다. 그리고 각각이 다른 학습 과정을 거치게 되는 것으로 보인다.(추가적인 실험을 통해 살펴봐야겠지만, 코드 상으로는 각각이 아예 다른 prompt가 되어 각 상황에 맞는 prompt가 attach되는 식으로 작동하는 것 같다.) 실제로 해당 prompt가 어떤 식의 작동을 하는지에 대한 의문 또한 존재하게 된다. -> 생각할 수 있는 바로는 complete의 경우에는 양 모달리티의 정보를 밸런싱하고 특정 모달리티만 존재하는 경우에는 해당 모달리티의 정보를 강화하는 형식으로 작동할 수도 있겠다고 생각하지만 추각적인 실험에 대한 정보들은 존재하지 않아 아직까지는 파악하기 어렵다.
또한 해당 논문에서는 prompt를 attach하는 위치에 대한 실험 또한 존재한다. 결국 어디에 attach하는지에 큰 영향을 받는 것 같지는 않다고 결론을 내리기는 하지만, 살펴보자면
이 그림과 같이 input level에서 attach하는 경우와 attention level에서 attach하는 경우로 나누어서 실험을 진행하고 큰 차이를 보이지는 않지만 input level에서 attach하는 경우에 미세하게 더 나은 성능을 보이고 있다고 한다.
이전에 지도 학습이 존재하고 데이터 상황에서 라벨이 존재하지 않는 상황, 적은 상황 편향된 상황에서 적용할 수 있는 기법들에 대한 연구들이 진행되었던 만큼 멀티모달에 대한 연구들이 증가하고 있는 요즘 해당 상황에서 발생할 수 있는 missing modality를 가정하고 진행된 연구라는 점에서 매우 흥미롭다. 또한 이를 full-finetuning 혹은 전체적인 architecture의 변환이 아닌 prompt라는 효율적인 기법을 통해 진행하려는 시도라는 점에서도 인상 깊었다. 하지만 연구 상황이 full-finetuning 모델과의 비교가 아니라는 점과 해당 논문에서도 언급했듯 modality가 증가할수록 학습해야 하는 prompt가 증가하며 complexity가 증가할 수 있다는 것과 같이 한계점 또한 존재하고, missing modality가 매우 흥미로운 데이터 상황에 대한 가정인만큼 추가적인 연구에 대한 필요와 기대가 존재한다.