3D 포인트
와 텍스트
및 이미지 픽셀
을 공동 임베딩(co-embedding)하는 방식레이블이 없는 3D 데이터
로 작업하는 데 중점을 둔 내용레이블이 있는 3D 데이터셋에 의존
하여 특정 과제를 수행하도록 학습CLIP 피처 공간에서 3D 포인트를 공동 임베딩
하여 3D 장면을 이해하는 제로샷(zero-shot) 방법을 제안OpenScene은 언어 기반의 특징을 사용하기 때문에,
사용 예
3D 포인트
와 이 3D 포인트에 대응되는 이미지의 픽셀 정보
, 그리고 해당 픽셀에 대응하는 텍스트 레이블(예: "chair")
을 CLIP 모델의 피처 공간에 임베딩2D 이미지 임베딩의 평균 값을 사용해 단일 3D 포인트 피처를 생성