
강화 학습 알고리즘 / behavior cloning 알고리즘을 만들기 위해, 큰 규모의 unlabeled 다양한 순차 데이터(st, at, .. 조합)을 이용해 사전 훈련하는 MaskDP을 제시scalable더 많은 데이터나 복잡성에 대응하여, 성능이 선형적으로 또는 예측 가능한 방식으로 향상됨을 의미generalizable훈련 중에 본 데이터나 상황뿐만 아니라, 새롭고 보지 못한 데이터나 상황에 대해서도 잘 작동함을 의미dynamics에 대한 추가 정보를 학습할 수 있도록 함.처음 마주하는 환경에서도 에이전트가 학습 없이 바로 적용될 수 있는 능력 향상다양한 작업 수행 능력 향상오프라인 강화학습에 효과적으로 적용 가능모델의 크기가 커져도 성능이 전형적으로 향상: scalable데이터 효율적인 fine-tuning: generalizableautoregressive next token prediction 방법을 택했음do not leverage diverse unlabeled data for generalization across various downstream tasks.reward-labeled high quality datasets 이 필요discretizing states and actions이 필요.autoregressive next token prediction 말고, random masking이 더 general하다.single model that can reason about both the forward and inverse dynamics from each sample.a high mask ratio (95%) is necessary to make reconstruction task meaningful. 다양한 마스크 비율을 사용하는 것이 모델의 성능 향상에 중요하다는 점mask loss is not useful in our setting, as our goal is to obtain an scalable decision making model but not only for representation learning.