# Multimodal Knowledge Graph

1개의 포스트

Paper Review #5 - MERIOT RESERVE: Neural Script Knowledge through Vision and Language and Sound

Zellers, Rowan, et al. "Merlot reserve: Neural script knowledge through vision and language and sound." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022. MERLOT RESERVE : 멀티모달 환경으로부터의 새로운 학습 목표를 통해 비디오를 표현하는 모델(Multimodal Event Representation Learning Over Time, with RE-entrant SupERVision of Events) Overview 비디오가 주어지면 텍스트 조각과 음성을 Mask token으로 재배치하고, 모델은 정확한 Masked out snippet을 고름으로써 학습 각 modality가 서로를 교육하는 joint representation 학습 modali

2023년 2월 13일
·
0개의 댓글
·