멀티모달 거대 언어 모델 MLLM은 강력한 추론 능력을 가지고 있지만, 기존의 MLLM은 주로 2D 이미지나 정보를 처리하도록 설계되어 있어 3D 공간에서의 복잡한 상황을 완벽히 이해하는 데 한계가 있습니다.이를 실제 운전에 적용하기 위해서는 2D를 넘어선 3D 공간에
최근 자율주행 분야에서, 카메라와 같은 비전 센서를 이용하여 직접 주행 계획을 생성하는 방법이 큰 관심을 받고 있습니다. 하지만 기존의 대부분의 자율주행 시스템은 인지(perception), 움직임 예측(motion prediction), 그리고 계획(planning)
decision making 부분이 빠져있음자율주행 차량이 주변 환경을 정확하게 인식하고 이해하며 적절히 대응하는 능력은 현대 기술의 핵심 과제 중 하나입니다. 하지만 기존의 VLM은 2D 이미지에만 집중되어 있으며, 공간적 인식과 긴 시간에 걸친 예측 능력이 부족합니
2023, 10, 112회 인용https://wayve.ai/wp-content/uploads/2024/04/2310.01957.pdfhttps://github.com/wayveai/Driving-with-LLMs448 star2023 7, 118회
https://arxiv.org/pdf/2310.01957자율주행 분야에서 대형 언어 모델(Large Language Models, LLMs)은 일반화와 해석 가능성 측면에서 큰 가능성을 보여주고 있습니다. 이번 글에서는 운전 상황에서 맥락 이해를 향상시키기