[camera] Embodied Understanding of Driving Scenarios

About_work·2024년 11월 18일
0

[AD] LLM / vlm

목록 보기
3/5
  • decision making 부분이 빠져있음

ELM: 자율주행 차량을 위한 새로운 언어 모델 소개

  • 자율주행 차량이 주변 환경을 정확하게 인식하고 이해하며 적절히 대응하는 능력은 현대 기술의 핵심 과제 중 하나입니다.
  • 하지만 기존의 VLM은 2D 이미지에만 집중되어 있으며, 공간적 인식과 긴 시간에 걸친 예측 능력이 부족합니다.
  • 이번 글에서는 자율주행의 핵심 요소를 재검토하고, 이를 위한 새로운 기준을 제시하고자 합니다.
  • 이를 위해 넓은 공간과 시간 범위를 다루는 주행 장면 이해를 위한 종합적인 프레임워크인 Embodied Language Model(ELM)을 소개합니다.
  • ELM은 차량이 주변 환경을 더 잘 이해할 수 있도록 공간 인식 사전 학습시간 인식 토큰 선택이라는 기술을 도입했습니다.

1. 소개

  • 체화된 이해(Embodied Understanding)란 자율주행 차량이나 로봇과 같은 지능형 에이전트가
    • 자신의 경험을 바탕으로 지시를 해석하고 주변 상황을 분석할 수 있는 능력
  • 하지만 이 중요한 과제는 아직 완전히 해결되지 않았습니다.
  • VLMs는 질문에 답하는 형식으로 이미지나 영상을 이해하고 설명하는 데 도움을 줍니다.
  • 자율주행 시나리오에서 VLM을 활용하면, 예측하지 못한 상황에서도 기존의 규칙 기반이나 데이터 기반 학습 방법보다 더 나은 성능을 보일 수 있습니다.
  • 복잡한 주행 상황을 처리하려면, 차량이 넓은 공간과 긴 시간에 걸쳐 주변 환경을 완전히 이해하는 것이 중요합니다. 이를 위해 네 가지 핵심 능력이 필요합니다:
  1. 묘사(Description):
  • 차량은 주변 환경에 대해 자세히 설명할 수 있어야 합니다.
  1. 위치 파악(Localization):
  • 단순히 대략적인 위치가 아니라, 3D 공간에서 특정 객체의 정확한 위치를 알아낼 수 있어야 합니다.
  1. 기억(Memorization):
  • 과거에 일어난 특정 사건이나 상황을 기억하고 회상할 수 있어야 합니다.
  1. 예측(Forecasting):
  • 과거 정보를 바탕으로 미래에 일어날 일을 예측할 수 있어야 합니다.

2. 문제 설정

  • 우리는 체화된 이해에 필요한 핵심 능력을 바탕으로, VLM을 평가하기 위한 새로운 벤치마크를 만들었습니다.
  • 이 벤치마크는 묘사, 위치 파악, 기억, 예측의 관점에서 차량의 능력을 평가합니다.
  • 이를 위해 nuScenes와 Ego4D라는 두 가지 데이터셋을 활용하여 열 가지 질문-답변(QA) 과제를 구성했습니다.
  • nuScenes 데이터셋을 기반으로 한 과제들은 현재의 장면을 묘사하고, 과거에 본 교통 표지판이나 차선 등을 기억하며, 미래의 상황을 예측하는 것입니다.
  • 위치 파악 과제들은 차량이 현재, 과거, 미래의 특정 지점에서 객체의 3D 위치를 알아내도록 요구합니다.
  • 또한, 차량이 주행 상황에만 국한되지 않고 일반적인 상황에서도 잘 작동하는지 확인하기 위해 Ego4D 데이터셋을 사용했습니다.
  • 이 데이터셋은 일상 생활에서의 긴 영상을 포함하고 있어, 차량이 긴 시간에 걸친 이벤트를 이해하고 예측할 수 있는지를 평가합니다.

각 과제의 예시는 다음과 같습니다:

  • 주변 묘사(Surrounding Narration): 현재 보이는 주변의 상황을 자세히 설명합니다.
  • 교통 표지 조회(Traffic Sign Inquiry): 과거 몇 초 내에 본 교통 표지판이나 차선에 대해 묻습니다.
  • 행동 및 결정(Action & Decision): 앞으로 어떻게 운전해야 할지에 대한 결정을 내립니다.
  • 박스 탐지(Box Detection): 현재 화면에서 특정 지점을 선택하면, 그 위치의 객체가 무엇인지와 3D 위치를 알려줍니다.
  • 추적(Tracking): 선택한 객체가 과거에 어떻게 움직였는지 추적합니다.
  • 박스 예측(Box Prediction): 선택한 객체가 미래에 어디로 갈지 예측합니다.
  • 자기중심적 묘사(Egocentric Narration): 차량이나 사람이 현재 무엇을 하고 있는지 설명합니다.
  • 순간 요약(Moment Recap): 과거 특정 시점에 어떤 일이 있었는지 회상합니다.
  • 이벤트 조회(Event Query): 과거와 미래의 정보를 바탕으로 특정 사건이 무엇인지 추론합니다.
  • 활동 예측(Activity Prediction): 미래에 어떤 일이 일어날지 예측합니다.

3. 방법론

3.1 전체 개요

우리는 차량이 공간적 인식을 향상시키기 위해 다양한 데이터를 활용하여 사전 학습을 진행하고, 긴 시간에 걸친 정보를 효율적으로 처리하기 위해 특별한 기술을 도입했습니다. ELM의 주요 구성 요소는 다음과 같습니다:

  • 공간 인식 사전 학습(Space-aware Pre-training): 다양한 이미지와 텍스트 쌍을 사용하여, 차량이 공간적 위치를 더 잘 이해할 수 있도록 학습합니다.
  • 인코딩(Encoding): 텍스트와 시간 정보를 인코딩하고, 각 영상 프레임을 특징 벡터로 변환합니다.
  • 시간 인식 토큰 선택(Time-aware Token Selection): 긴 영상에서 필요한 정보만 선택하여 효율적으로 처리합니다.
  • 응답 생성: 미세 조정된 언어 모델을 사용하여 질문에 대한 답변을 생성합니다.

3.2 공간 인식 사전 학습

오픈 월드 데이터 수집: 차량이 다양한 상황에서 공간적 위치를 잘 이해하도록, 여러 소스에서 데이터를 수집했습니다. 여기에는 자율주행을 위한 대표적인 데이터셋인 nuScenes와 Waymo, 다양한 유튜브 영상, 일상 생활을 담은 Ego4D 등이 포함됩니다. 총 3,000시간 이상의 영상과 900만 개 이상의 질문-답변 쌍을 확보했습니다.

자동 라벨링과 사람의 검토: 방대한 데이터를 효율적으로 처리하기 위해, 인공지능을 활용하여 자동으로 라벨을 붙이고, 사람이 이를 검토하는 과정을 거쳤습니다. GPT-4를 사용하여 다양한 질문 템플릿을 만들고, 2D 이미지와 3D 위치 정보를 연결하여 정확한 답변을 생성했습니다. 또한, 묘사에 대한 라벨도 추가하여 데이터의 다양성을 높였습니다.

토크나이저: 차량이 위치 정보를 더 잘 이해하도록, 숫자 정보를 언어로 표현하는 방식을 도입했습니다. 3D 공간을 작은 그리드로 나누고, 각 그리드에 단어를 할당하여 위치를 언어로 표현할 수 있게 했습니다.

3.3 시간 인식 토큰 선택

긴 시간에 걸친 영상을 효율적으로 처리하기 위해, 각 프레임을 중요한 특징만 포함한 토큰으로 변환했습니다. 그리고 주어진 질문에 따라 가장 관련성 높은 토큰만 선택하여 처리함으로써, 불필요한 계산을 줄이고 중요한 정보에 집중할 수 있게 했습니다.

4. 실험 결과

4.3 추가 논의 및 분석

라벨 품질 및 다양성 평가: 자동 라벨링의 정확성과 다양성을 확인하기 위해, 일부 데이터를 수동으로 라벨링하고 비교했습니다. 그 결과, 자동 라벨링의 품질이 수동 라벨링에 거의 근접하며, 데이터의 다양성도 우수하다는 것을 알 수 있었습니다.

전통적인 3D 위치 파악과의 비교: 우리의 모델이 기존의 3D 위치 파악 방법과 비교했을 때도 경쟁력 있다는 것을 확인했습니다. 이는 ELM이 복잡한 주행 상황에서 효과적으로 작동할 수 있음을 의미합니다.

새로운 과제에서의 능력 확인: ELM이 학습하지 않은 새로운 과제에서도 좋은 성능을 보이는 것을 확인했습니다. 이는 모델이 다양한 상황에 적응할 수 있는 능력을 갖추고 있음을 보여줍니다.

다양한 상황에서의 이해 능력: 새로운 시나리오와 과제에서 ELM은 뛰어난 이해 능력을 보여주었습니다. 이는 모델이 보지 못한 상황에서도 잘 작동할 수 있음을 나타냅니다.

5. 결론 및 한계

  • 우리는 자율주행 차량이 주변 환경을 더 잘 이해하고, 과거와 미래를 연결하여 사고할 수 있도록 하는 새로운 모델인 ELM을 소개했습니다. ELM은 공간 인식 사전 학습과 시간 인식 토큰 선택을 통해 넓은 공간과 긴 시간에 걸친 이해를 가능하게 했습니다.

한계 및 향후 과제:

  • 현재 ELM은 주행 상황을 이해하고 설명하는 데 초점을 맞추고 있습니다. 앞으로는 실제 주행 제어에 필요한 신호를 생성하고, 자율주행 차량의 의사 결정에 직접 활용될 수 있도록 발전시킬 예정입니다.
  • 모델의 능력을 더 다양한 상황에서 검증하기 위해 추가적인 실험이 필요합니다. 특히, 실세계에서의 적용 가능성을 확인하고, 새로운 상황에서 모델이 어떻게 반응하는지 평가할 것입니다.
  • 실생활에서의 적용을 위해, 상식적인 추론이 실제 의사 결정에 얼마나 도움이 되는지 검증하는 것이 중요합니다.

profile
새로운 것이 들어오면 이미 있는 것과 충돌을 시도하라.

0개의 댓글