이 논문에서 우리는 실제 환경에서 볼 수 있고, 움직일 수 있는 에이전트에게 시각적 표현을 어떻게 배워야 하는지에 대해 이야기해요.
지금까지는 주로 '백지상태에서 생생하게 배우기' 방식이었어요.
즉, 시각적 표현을 처음부터 배우면서 동시에 움직임을 배우는 건데,
여기에는 두 개의 연속된 관찰 사이에서 취해진 행동을 예측하는 것과 같은 보조 작업이 포함될 수 있어요.
그런데 우리 연구에서는 두 단계 전략(오프라인 시각적 표현 학습(OVRL))이 훨씬 더 효과적이라는 걸 보여줍니다:
(1) 실내 환경의 대규모 사전 렌더링 이미지를 사용한 자기지도 학습(SSL)을 통한 오프라인 시각적 표현 사전 학습,
그리고 (2) `이미지 증강과 함께, 특정 과제에서의 시각-운동 표현 온라인 미세 조정.
우리는 대규모 실험을 진행`
3개의 다른 3D 데이터셋(Gibson, HM3D, MP3D), 2가지 작업(IMAGENAV, OBJECTNAV), 그리고 2가지 정책 학습 알고리즘(RL, IL)을 사용했죠.
그 결과, OVRL 표현은 성능 개선을 이끌어냄.
중요한 점은, 사전 학습 중에 보지 못한 데이터셋에 대해서도 같은 시각적 인코더가 일반화되었다는 거예요.
사전 학습의 이점이 때때로 줄어들거나 완전히 사라지기도 하지만, OVRL의 성능 향상은 에이전트가 20억 프레임의 경험으로 훈련될수록 증가하는 것으로 나타났습니다.
Introduction
이 글에서는 실제로 움직이며 주변 환경의 구조와 의미를 이해할 수 있는 AI 에이전트를 어떻게 가르칠지에 대해 이야기하고 있어요.
이것은 집안일을 도와주는 로봇을 만드는 것과 같은 실용적인 관점뿐만 아니라, 올바른 시각-운동 유도 편향이 무엇인지와 같은 과학적인 관점에서도 굉장히 중요한 일이죠.
그렇다면 우리는 실체 작업을 위한 유용한 시각적 표현을 어떻게 배워야 할까요?
우리는 이 논문에서 오프라인 시각적 표현 학습(OVRL)을 제안합니다.
OVRL은 시각-운동 학습을 두 단계로 나눕니다:
1) 오프라인에서 시각적 표현 사전 학습과
2) 다운스트림 미세 조정
오프라인 표현 학습 단계에서는 자기지도 학습(SSL) 기술을 사용해 Omnidata라고 불리는 실내 환경 이미지의 대규모 사전 렌더링 데이터셋에서 시각 모델을 훈련시키죠.
그리고 다운스트림 미세 조정에서, 이러한 표현을 IMAGENAV와 OBJECTNAV와 같은 개별 작업에서 Habitat 시뮬레이터에서 fine-tuning해요.
사전 훈련된 모델의 성능 향상이 긴 스케줄로 미세 조정될 때 줄어들거나 완전히 사라진다는 것이 알려져 있지만, 놀랍게도 우리는 OVRL 사전 훈련의 이점이 지속되며, 오히려 감소하는 대신 HM3D 데이터셋을 사용해 IMAGENAV에서 20억 프레임의 훈련을 거치면서 증가한다는 걸 발견했어요.
이는 이러한 작업을 위한 '표준' 훈련 일정에 대해 상당한 재고가 필요함을 시사합니다.
마지막으로, OVRL의 다양한 구성 요소에 대한 광범위한 경험적 분석을 수행하고, 이미지 증강을 통한 인코더 미세 조정이 좋은 성능을 달성하는 데 매우 중요하다는 걸 발견했어요.
related work
이전 연구들에서는 자기지도 학습(SSL)이 이미지 증강을 통한 대조적 학습을 보조 손실로 사용하는 것이 RL(강화학습)과 결합될 수 있다고 제안했어요.
하지만 나중에 성능 향상이 이미지 증강 때문이었다는 걸 알게 됐죠.
CPC, CPC|Action, 그리고 ST-Dim 같은 방법들은 시간적 대조 손실의 다양한 변형을 제안했지만, 이 방법들은 복잡성을 추가하고 훈련을 위해 이미지 시퀀스가 필요해요.
ATC는 대표 학습과 RL 목표의 첫 번째 분리를 보여주며, 시간적 대조 목표를 훈련하기 위해 이미지 쌍만을 사용해요.
반면에 우리의 방법은 시간적 목표의 어떤 형태도 요구하지 않고, IID(독립 동일 분포) 이미지 컬렉션에서 표현을 배울 수 있어요.
PBL, SPR, 그리고 SGI는 BYOL과 유사한 비대조적 시간 손실을 사용하지만, 표현이 붕괴되는 것을 방지하기 위한 추가적인 손실 항이 필요한데, 우리의 방법은 그런 것이 필요 없어요.
시각적 탐색에 대해서는, SLAM 기반 방법과 학습 기반 접근 방법이 제안되었어요.
종단 간 학습 방법은 일반적으로 손으로 만든 모듈을 덜 사용하며 더 많은 약속을 보여줬죠.
메모리 증강 RL은 주의 기반 모델을 사용하여 탐색을 배우고 IMAGENAV에서 SOTA 결과를 얻어요.
반면, 우리는 더 단순한 모델 구조를 사용하면서 더 높은 성능을 달성해요.
단일 카메라 설정에서는 목표 시점 보상과 목표 시점 샘플링의 조합을 사용하여 성능을 향상시켜요.
우리는 이 보상과 시점 샘플링을 사용하면 OVRL 모델에 대해서도 추가적인 개선을 이끌어낼 수 있다는 것을 발견했어요.
마찬가지로, OBJECTNAV를 위한 종단 간 RL 방법들도 존재하며, 데이터 증강과 보조 보상을 사용하여 일반화를 향상시켜요.
반대로, 모듈 방식의 방법들은 탐색과 의미 있는 매핑을 분리해요.
최근에는 대규모 데이터셋을 사용하는 경쟁적인 모방 학습 접근 방법이 제안되었고, 우리는 그 위에 구축해요.
우리는 RGB 표현에 집중하는 반면, 다른 연구에서는 의미 구분을 포함하여 시각적 표현을 향상시켜요.
실제 AI에서의 SSL: EmbCLIP은 CLIP 인코더를 사용하면 EAI 작업에 유용한 표현을 제공할 수 있다고 보여줬어요.
CLIP은 4억 개의 이미지-캡션 쌍 데이터셋에서 사전 학습됐어요.
반대로, 우리는 Omnidata Starter Dataset이라고 불리는 훨씬 더 작고 공개된 데이터셋(1450만 이미지)에서 사전 학습을 해요.
CRL은 호기심 기반 탐색 정책으로 수집된 샘플을 사용하여 온라인에서 시각적 표현을 배우는 것을 제안하지만, 우리는 실험에서 CRL의 확장된 버전과 비교하고 OVRL이 그것을 크게 능가한다는 것을 발견해요.
EPC는 환경 수준의 표현을 자기지도 학습으로 배우지만, 이는 위치 정보가 필요해요. 반면 OVRL 사전 훈련은 그렇지 않아요. 마지막으로, POINTNAV와 OBJECTNAV와 같은 작업에서 훈련 중 보조 목표를 사용하는 것이 도움이 될 수 있다는 것을 보여준 Ye 등의 작업이 있어요. OVRL은 보조 손실 없이도 OBJECTNAV에서 이러한 결과를 능가하며, 두 아이디어를 결합함으로써 가능한 미래의 개선을 남겨둬요.