로봇의 다양한 작업 수행 능력을 향상시키기 위해 설계
되었으며, 특히 동적 환경에서의 인식과 조작 기능
을 중점적으로 다룹니다. 로봇의 action 데이터
를 웹에서 학습한 비전-언어 데이터와 함께 공동 fine-tuning 함로봇이 특정 물체를 집어 올리거나
특정 위치에 물체를 놓는 행동
을 텍스트 토큰으로 표현 특정 유효한 액션 토큰만을 출력하도록 제한
연속적인 실수 값으로 표현
x, y, z 위치, 회전 각도, 그리퍼의 개폐 상태
등)은 각각 고유한 텍스트 토큰 시퀀스로 변환됩니다. 유효한 액션 토큰만을 출력할 수 있도록 제약
을 가하여, 이러한 위험을 최소화합니다.