아무것도 모르지만... 그냥 논문들을 보면서 드는 생각...
많은 논문들에서 multi modal에서의 key aspect로 how to feature extract를 말하면서 뭔가 CNN 기반의 모델을 쓰는 것이, "그저 단일 모달에서 좋은 성능을 내기 때문에" 라는 식으로 쓰이고 있다는 생각이 들었다.
모달간의 complementary(보완성)을 어떻게 더 높일까?에 대한 관점과 위의 feature를 어떻게 뽑아내는가? 에 대해 중점을 두고 생각해보니 나오는 의심들이다.
이때, CNN model에도 다양한 종류가 있고, 아직 이에 대해 제대로 찾아본게 아니지만 CNN의 핵심인 Convolution 연산은 데이터의 손실이 일어날수 밖에 없다고 생각한다.
(128x128x3 이미지가 5x5x3 커널을 통하게 되면 output은 124x124x3 차원이 되니까...?)
이러한 CNN의 주요 데이터 포인트를 뽑는 것이 uni modal의 결과에서는 굉장히 좋은 성능을 내지만 문제는 multimodal에서 fusion을 할 때도 좋은 성능을 내게 하는 재료로서 성능이 확실한가? 라는 의구심에서 시작했다.
(정확히는 목소리와 표정의 괴리감 역시 캡쳐하기 위해서는 neutral이라는 표정의 결과와 angry라는 목소리의 결과가 어느 것이 더 중요한가? 라는 것을 어떻게 처리할까? 에 대한 의문에서 생겼다.. -> 사전/사후 처리 방식보다도 모델 자체에서 처리할 수 있었으면 좋겠다는 생각이다.)
(쉽게 생각해보면 떡볶이 맛있고, 햄버거 맛있다고 둘을 섞어 먹으면 맛없으니까... 한쪽은 단일로는 맛없더라도 다른 주요 요리와 합쳐지면 더 조합이 좋게 나올 것이라는 생각..)
최근에는 attention을 기반으로 한 fusion method가 많이 발전하고 있다고 하지만 나는 애초에 fusion이라는 요리에 들어가기 전의 재료 손질(feature extract)부터 좀 더 서로가 서로를 보완해줄 수 있는 재료들로(feature) 구성되어야 하지 않을까 생각했다.
그러기 위해서 한쪽은 주요 정보를 뽑아내는 CNN기반의 모델과 다른 한쪽은 CNN이 아닌 다른 불필요한 정보를 포함한 결과가 있는 feature가 필요하다고 생각했다.
feature extractor로써 양쪽을 모두 CNN 기반이 아닌, audio는 CNN, visual은 다른 방식으로써 추출하는 방법.
-> 여기서는 한가지 가정을 하는데, 목소리가 표정보다 더 감정을 인식하는데 중요한 정보를 포함하고 있다는 것을 가정한다.
(표정은 쉽게 학습되기도 하지만 목소리는 그렇지 못한 경우가 대부분이기 때문이라고 상상하기 때문이다. -> 그냥 근거없는 내 주관적인 상상)
-> 다만 이 땐, 목소리의 부재(silent)한 데이터 처리와 표정에 대한 매칭의 문제가 있음
-> silent한 경우가 표정의 부재(이미지의 부재)보다 훨씬 많을 테니까... 더 많은 정보 손실이 커지지 않을까...
-> 이걸 전처리 단계에서 목소리와 표정이 있는 부분만 살려서 진행할건가...?? 모르겠따...
위와 반대되는 것을 한번 더 진행해서 그 결과를 모두 합쳐 진행하는 방식
ex) {audio CNN, visual transformer} feature
+ {audio transformer, visual CNN} feature
-> fed into fusion method
graph 모델이 방향성을 기반으로 한 dependency가 있다고 한다. 이것도 공부를 해봐야 아는 영역이겠지만 audio와 visual의 dependency를 위한 방법으로써 fusion method로써 고려해볼 수 있는 방법일 것 같다. (이건 진짜 깊게 생각안하고 그냥 드는 생각..)