[camera] OmniDrive: A Holistic LLM-Agent Framework for Autonomous Driving with 3D Perception, Reasoning and Planning

About_work·2024년 11월 18일
0

[AD] LLM / vlm

목록 보기
1/5

훑어보기: OmniDrive: LLM 기반 자율주행의 새로운 도약

  • 멀티모달 거대 언어 모델 MLLM은 강력한 추론 능력을 가지고 있지만, 기존의 MLLM은 주로 2D 이미지나 정보를 처리하도록 설계되어 있어 3D 공간에서의 복잡한 상황을 완벽히 이해하는 데 한계가 있습니다.
  • 이를 실제 운전에 적용하기 위해서는 2D를 넘어선 3D 공간에 대한 완전한 이해가 필요합니다.
  • 이번 글에서는 이러한 도전을 극복하기 위한 새로운 프레임워크인 OmniDrive에 대해 소개하고자 합니다.

고해상도 멀티뷰 비디오 처리의 도전

  • 자율주행에서는 차량 주변의 고해상도 멀티뷰 비디오 데이터를 실시간으로 처리해야 합니다.
  • 하지만 많은 2D MLLM 아키텍처는 제한된 해상도의 이미지만 처리할 수 있으며, 이를 확장하려면 막대한 계산 자원이 필요합니다.
  • 더욱이 실제 산업용 자율주행 시스템은 대부분 차량 내부에서 작동하므로 계산 자원이 제한적입니다.
  • 따라서 효율적으로 고해상도 멀티뷰 데이터를 처리할 수 있는 새로운 MLLM 아키텍처가 필요

OmniDrive의 혁신적인 접근

효율적인 3D 데이터 처리 방법

  • OmniDrive는 차량 주변의 고해상도 여러 카메라 영상 데이터를 효율적으로 처리하기 위한 새로운 방법을 도입했습니다.
  • 일반적인 인공지능 모델은 모든 시각 정보를 세세하게 처리하려다 보니 많은 계산이 필요합니다.
  • 하지만 OmniDrive는 중요한 정보만을 선택적으로 추출하여 처리합니다.
  • 마치 복잡한 문서에서 핵심 내용만 요약해서 읽는 것처럼, 영상에서 필요한 부분만 뽑아내어 빠르고 효율적으로 분석합니다.

3D 공간에서의 상황 이해

  • 이 모델은 여러 각도에서 촬영된 카메라 영상을 종합하여 주변 환경을 3D로 입체적으로 이해합니다.
  • 단순히 평면적인 이미지가 아니라, 사물들의 위치와 거리, 그리고 공간적인 관계를 파악할 수 있습니다.
  • 이는 여러 카메라로 찍은 영상을 하나의 입체적인 지도처럼 만들어서 차량이 주변 상황을 정확하게 인식할 수 있게 해줍니다.

움직이는 객체와 고정된 환경 요소의 통합 분석

  • OmniDrive는 도로 위의 움직이는 대상들, 예를 들어 다른 차량이나 보행자뿐만 아니라 도로의 차선, 신호등, 표지판과 같은 고정된 요소들도 함께 분석합니다.
  • 이처럼 주변의 모든 요소를 한꺼번에 고려함으로써, 차량은 더 안전하고 정확한 운행 계획을 세울 수 있습니다.

OmniDrive-nuScenes: 새로운 벤치마크

  • OmniDrive는 모델뿐만 아니라 이를 평가하기 위한 새로운 벤치마크인 OmniDrive-nuScenes도 제안합니다.

다양한 비주얼 질문 응답(VQA) 태스크

  • 이 벤치마크는 장면 설명, 교통 규칙 이해, 3D 위치 파악, 반사적 추론, 의사결정 및 계획 수립 등 다양한 VQA 태스크를 포함
  • 이는 모델이 3D 공간에서의 복잡한 상황을 얼마나 잘 이해하고 추론할 수 있는지를 종합적으로 평가

반사적 추론과 폐쇄 루프 평가

  • 기존의 오픈 루프 평가 방식은 차량의 상태에 대한 편향이나 단순한 계획 시나리오 등 한계가 있었습니다.
  • OmniDrive-nuScenes는 시뮬레이션된 결정과 궤적을 활용하여 모델이 잠재적인 결과를 추론하고, 더 현실적인 평가를 가능하게 합니다.

상황에서 모델의 성능을 종합적으로 평가합니다.

한계 및 향후 과제

  • OmniDrive는 큰 발전을 이루었지만, 아직 해결해야 할 과제들이 있습니다:
  • 더 큰 데이터셋에서의 검증 필요: 현재는 제한된 데이터셋에서 검증되었으며, nuPlan과 같은 더 큰 규모의 데이터셋에서 추가 검증이 필요합니다.
  • 다른 에이전트의 반응 고려 부족: 반사적 결과의 시뮬레이션이 다른 도로 사용자들의 반응을 고려하지 못하고 있습니다. 이는 폐쇄 루프 설정으로 발전시켜 현실적인 상호작용을 반영해야 합니다.
profile
새로운 것이 들어오면 이미 있는 것과 충돌을 시도하라.

0개의 댓글