일반 Object Detector 논문들의 dataset 사용.
즉, object에 대한 annotations(class, bounding box)이 있는 dataset.
이 때, 웬만하면 자율 주행 domain에도 적용될 수 있는 data를 쓰는 편이 좋긴 하다(다만 evaluation을 위해 다른 dataset에도 적용될 수 있는 연구를 하는 게 더 좋을듯).
※ 모두 1개의 image를 대상으로하는 local explanation.
설명 대상 : user
설명 레벨 : Adversarial Explanation, Attention map 등 직관적인 설명
설명 대상 : engineer
설명 레벨 : Bayesian, feature map, VQA 등 추론이 필요한 설명
Faster R-CNN, YOLO 등 detector 모델도 물론 object 외에 background를 분류하긴 한다.
다만, YOLO가 Faster R-CNN에 비해 background detection을 두 배 가량 더 잘 한다고 한다.
이처럼 background를 간단하게나마 고려할 필요가 있을 지?
만약 그래야 할 것 같다면, Motion Representations for Articulated Animation 연구에는 object와 background를 decouple(분리)하는 task 또한 포함되어 있으니, 필요하다면 참고할 만 하다.
또한, 이는 detection을 넘어선 Scene understanding(?) task에 가까울 듯.
감사하게도 아래서 소개할 DETR 모델은 Segmentation까지 다루긴 하니, 참고해보자.
※ 되도록이면 성능 저하가 없는 것이 좋다.
성능 저하가 적거나 없는 모델
1. 모든 post-hoc XAI(LIME, SHAP, Grad-CAM, etc.)
2. XCNN(Interpretable CNN)
성능 저하 심한 모델
1. Adversarial Explanation
Classification-based
Others
Interpretable Object Detection by Latent Structure(RoI 강화 등)
All Bayesian Apporach
Self attention (map)
VQA 관련 아이디어들


다만, 분류 과정은 아래와 같다. RoI를 7x7x512로 projection 할 때 어떤 형태로 진행되는 지 알아야 한다.





self attention map
semantic segmentation
feature map을 생성할 때 CNN-based model을 사용하는 만큼, 공간 정보(positional information..?)를 보존한다면 특정 기법들을 활용할 수는 있을 듯

※ Object Detection 연구를 하는 데 답이 없을 경우.

Towards Interpretable Object Detection by Unfolding Latent Structures
Interpretable Learning for Self-Driving Cars by Visualizing Causal Attention
Building
explainable ai evaluation for autonomous perception 
MAF: Multimodal Alignment Framework for Weakly-Supervised Phrase Grounding (aclweb.org)
Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech
Attention is not not Explanation
On the relationship between self-attention and convolutional layers
즉, self-attention map의 개념에 대해 간단히 정리된 글을 읽을 필요가 있다
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
RelationNet++: Bridging Visual Representations for Object Detection via Transformer Decoder
Image transformer. In: ICML (2018)
Attention augmented convolutional networks. In: ICCV (2019)
positional encodings 관련 개념만 발췌하자.
※ XAI, object detection 관련 후속 연구가 있는 지.
XCNN
DETR
-> https://velog.io/@sjinu/%ED%9B%84%EC%86%8D%EC%97%B0%EA%B5%AC-XCNN-and-DETR
글 잘 읽었습니다!
저도 Object Detection쪽에서 XAI 연구를 해보고 싶은데 혹시 어떻게 연구가 진행되셨나요?