장면의 분할, 각 요소를 식별
공간적인 정보를 검색
어디를 보고 있는지 파악하는 등
공간적인 위치를 어떤 의미가 담긴 벡터로 변환
CLIP-Fields를 이용하면 로봇이 실제 세계에서 주변을 의미 있게 탐색할 수 있다는 걸