Pixel recontruction(MAE) 방식으로 vanilla ViT를 video data만으로 pretraining한다. Tube masking과 temporal subsampling을 활용한다. backbone에 joint space-time attention