강화 학습 알고리즘 / behavior cloning 알고리즘
을 만들기 위해, 큰 규모의 unlabeled 다양한 순차 데이터(st, at, .. 조합)을 이용해 사전 훈련하는 MaskDP을 제시scalable
더 많은 데이터나 복잡성에 대응하여, 성능이 선형적으로 또는 예측 가능한 방식으로 향상됨을 의미
generalizable
훈련 중에 본 데이터나 상황뿐만 아니라, 새롭고 보지 못한 데이터나 상황에 대해서도 잘 작동함을 의미
dynamics에 대한 추가 정보를 학습할 수 있도록 함.
처음 마주하는 환경에서도 에이전트가 학습 없이 바로 적용될 수 있는 능력 향상
다양한 작업 수행 능력 향상
오프라인 강화학습에 효과적으로 적용 가능
모델의 크기가 커져도 성능이 전형적으로 향상: scalable
데이터 효율적인 fine-tuning: generalizable
autoregressive next token prediction
방법을 택했음do not leverage diverse unlabeled data
for generalization across various downstream tasks.reward-labeled high quality datasets
이 필요discretizing states and actions
이 필요.autoregressive next token prediction
말고, random masking
이 더 general하다.single model that can reason about both the forward and inverse dynamics from each sample.
a high mask ratio (95%) is necessary to make reconstruction task meaningful.
다양한 마스크 비율을 사용하는 것이 모델의 성능 향상에 중요하다는 점
mask loss is not useful in our setting
, as our goal is to obtain an scalable decision making model but not only for representation learning.