
클래스 라벨을 사용하여 질의하거나, 텍스트 프롬프트를 사용하여 질의할 수 있습니다.pixel-aligned open-set features을 전통적인 SLAM 및 다중 뷰 융합 접근법을 통해 3D 맵에 융합할 수 있음을 입증합니다. 대규모 기초 모델이 제공하는 풍부한 개방형 기능과 3D 매핑 시스템에 기대되는 의미적 추론 능력 간의 격차를 해소pixel-level foundation features이 깊이 또는 색상 정보를 3D 맵에 융합하는 것과 동일한 표면 융합 기술을 활용하여 3D 맵에 융합될 수 있음을 입증합니다.pixel-aligned features을 3D 맵에 융합하기 위해, 우리는 밀집 3D 매핑 커뮤니티에서 선구적인 접근법을 활용합니다. pixel-aligned features을 3D 맵에 융합하는 것을 추가하여, 개념적으로 단순하고 계산 효율적인 방법으로 확장합니다. 픽셀(또는 영역) 정렬된 기초 기능(LSeg [24], Detic [41], Sentence-BERT [42])을 압축 신경망에 인코딩합니다[43]. 
다양한 modality 질문(요청)을 할 수 있다!다양한 modality 질문(요청)은 query vectors 로 표현된다.F_mode을 이용해서, query vectors을 구함 

vertex-normal maps (Vt , Nt ) 와 camera pose estimates Pt 를 구함 [30, 54]. semantic context embedding을 계산함. (뒤에 나옴)
global (image-level) context 와 local (region-level) information을 융합한, pixel-aligned feature을 구축
pixel-aligned feature을 구할 때, global feature과 local feature을 적절한 비율로 섞어서 만들고 싶다.유니크할수록, local feature을 더 많이 반영하자는 아이디어!이미지 전체와의 유사도 +다른 물체들과의 유사도를 더한다.유니크하다
pixel-aligned feature은 pixel-aligned feature가 축적될 때마다 normalized 된다.pixel-aligned embedding이 (LSeg [24]와 OpenSeg [18]과 같은 접근법보다 더 잘) 세밀하고 롱테일 개념을 캡처한다는 것을 발견LSeg [24]와 OpenSeg [18]과 같은 접근법들은 

fusing features를 3D 공간에 융합함으로써 얻을 수 있는 기능들3D spatial comparator(3DSC) 모듈을 만들었음RELATION(QUERYa, QUERYb) 형태를 가지며, language queries를 적절한 3DSC 조합으로 parsing하기 위해
language queries는 사전 처리 없이 직접 CLIP 텍스트 인코더에 입력됩니다.Mask2Former [60] 또는 segment anything (SAM) [57] 모델을 사용이미지당 10-15초 소요) 실행됩니다.메모리 및 런타임 효율성이 중요한 실제 시나리오에 모델을 배포할 수 있음ScanNet [61, 62], Replica [63], 및 자가 촬영 시퀀스에서 가져온 20개의 실내(아파트 규모) 장면; 5개의 실외(도시 운전) 장면; 일반 가정용 제품이 있는 20개의 실내(테이블탑) 장면(UnCoCo); 
수백만 개의 3D 포인트를 포함하고 각 포인트에 고차원 개념 임베딩을 추가하여 대량의 메모리를 필요로 합니다.