클래스 라벨
을 사용하여 질의하거나, 텍스트 프롬프트를 사용
하여 질의할 수 있습니다.pixel-aligned open-set features
을 전통적인 SLAM 및 다중 뷰 융합 접근법을 통해 3D 맵에 융합할 수 있음을 입증합니다. 대규모 기초 모델이 제공하는 풍부한 개방형 기능
과 3D 매핑 시스템에 기대되는 의미적 추론 능력
간의 격차를 해소pixel-level foundation features
이 깊이 또는 색상 정보를 3D 맵에 융합하는 것과 동일한 표면 융합 기술을 활용하여 3D 맵에 융합될 수 있음을 입증합니다.pixel-aligned features
을 3D 맵에 융합하기 위해, 우리는 밀집 3D 매핑 커뮤니티에서 선구적인 접근법을 활용합니다. pixel-aligned features
을 3D 맵에 융합하는 것을 추가하여, 개념적으로 단순하고 계산 효율적인 방법으로 확장합니다. 픽셀(또는 영역) 정렬된 기초 기능
(LSeg [24], Detic [41], Sentence-BERT [42])을 압축 신경망에 인코딩합니다[43]. 다양한 modality 질문(요청)
을 할 수 있다!다양한 modality 질문(요청)
은 query vectors 로 표현된다.F_mode
을 이용해서, query vectors을 구함 vertex-normal maps (Vt , Nt )
와 camera pose estimates Pt
를 구함 [30, 54]. semantic context embedding
을 계산함. (뒤에 나옴)global (image-level) context
와 local (region-level) information
을 융합한, pixel-aligned feature
을 구축pixel-aligned feature
을 구할 때, global feature
과 local feature
을 적절한 비율로 섞어서 만들고 싶다.유니크
할수록, local feature
을 더 많이 반영하자는 아이디어!이미지 전체와의 유사도
+다른 물체들과의 유사도
를 더한다.유니크
하다pixel-aligned feature
은 pixel-aligned feature
가 축적될 때마다 normalized 된다.pixel-aligned embedding
이 (LSeg [24]와 OpenSeg [18]과 같은 접근법보다 더 잘) 세밀하고 롱테일 개념을 캡처한다는 것을 발견LSeg [24]와 OpenSeg [18]과 같은 접근법들
은 fusing features
를 3D 공간에 융합함으로써 얻을 수 있는 기능들3D spatial comparator(3DSC) 모듈
을 만들었음RELATION(QUERYa, QUERYb)
형태를 가지며, language queries
를 적절한 3DSC 조합
으로 parsing하기 위해language queries
는 사전 처리 없이 직접 CLIP 텍스트 인코더에 입력됩니다.Mask2Former
[60] 또는 segment anything (SAM)
[57] 모델을 사용이미지당 10-15초 소요
) 실행됩니다.메모리 및 런타임 효율성
이 중요한 실제 시나리오에 모델을 배포할 수 있음ScanNet
[61, 62], Replica
[63], 및 자가 촬영 시퀀스에서 가져온 20개의 실내(아파트 규모) 장면; 5개의 실외(도시 운전) 장면; 일반 가정용 제품이 있는 20개의 실내(테이블탑) 장면(UnCoCo); 수백만 개의 3D 포인트를 포함
하고 각 포인트에 고차원 개념 임베딩을 추가
하여 대량의 메모리를 필요로 합니다.