로봇이 작동할 환경의 복잡성(사람이 무진장 많음) 때문에,
전통적인 모델 기반 프레임워크 내에서, 사람을 회피하는 명확한 규칙을 설계하기 여렵기 때문에
감독 학습 기법을 적용하기에 충분히 대표적인 교육 데이터를 수집하기 어려운 것 때문에
원시 센서 데이터에서 고급 표현을 수작업으로 만들어 새로운 환경에 대한 일반화를 향상
제안된 제어 정책이 충돌 회피와 속도 사이에서 더 나은 균형
+다양한 군중 크기와 새로운 보지 못한 환경에서 기존 접근 방식보다 더 잘 일반화
새로운 시나리오로 일반화하고 구현하기 어려움
센서 데이터를 처리하기 위해 다단계 절차를 사용해야함.
종종 실무자들이 모델 매개변수를 신중하게 수동 조정해야함.
글로벌 및 로컬 플래너 모두에 인간 안전성 및 가시성 코스트맵을 추가
(볼만 함) 2D 라이다 데이터
의 다양한 상태 표현을 조사하고 -> PPO 훈련 알고리즘을 사용하여 인간 인식 항법 정책을 훈련원시 라이다 데이터
를 입력으로 사용하여 -> 실내 항법 정책을 훈련하는 다중 레이아웃 훈련 체제를 제시원시 라이다 데이터
와 원시 카메라 이미지 데이터를 융합
하는 다중 모달 후기 융합 네트워크를 구축.보행자 운동(위치/속도 등)에 대한 정보를 활용
하는 에이전트 수준 접근법원시 센서 데이터만 사용하는 한계를 해결하기 위해
, 보행자 운동에 대한 정보를 활용
정적 장애물과 레이아웃의 기하학적 제약을 무시
인간-로봇 및 인간-인간 상호 작용을 self attention 메커니즘으로 함께 모델링하는 데 중점
로봇-인간 상호 작용을 추론하고 그들의 궤적을 예측하기 위해 관계형 그래프 학습 네트워크를 제안
[34]. -> 로봇-인간 상호작용 모델링 + 보행자 궤적 예측[35]은 그래프 컨볼루션 네트워크(GCN)로 군중 상태를 인코딩하고 인간의 주의를 예측
분산 구조적 순환 신경망(RNN)
을 사용 -> 로봇-인간 상호작용 모델링정적 장애물과 레이아웃 고려
보행자의 존재/부재를 처리하기 위해 두 개의 병렬 네트워크 모델이 필요
-> 로봇-인간 상호작용 모델링보행자 궤적 예측과 원시 라이다 데이터를 결합하는 후기 융합 네트워크
를 사용 -> 보행자 궤적 예측미래 라이다 잠재 상태를 예측하고 재구성
하기 위해 unsupervised 학습 아키텍처를 사용정적 장애물과 레이아웃 고려
+ 보상 함수 설계 고려
원시 센서 데이터 < 사전 처리된 데이터 표현
이라는 것을 입증다른 강화 학습 기반 작업 [33]–[38]에서 사용되는 복잡한 보행자 예측 또는 상호작용보다 훨씬 간단하고 해석하기 쉽다는 것
로봇이 장애물을 적극적으로 피하도록 유도하는 직접적이고 효과적인 보상 신호를 제공하지 않음.
보행자(및 기타 객체)의 상대적 움직임이 더 중요하다!
로봇은 목표를 향해 진행하면서 보행자 군중을 적극적으로 피하기 위해 지속적으로 향방을 조정
충돌 회피의 책임을 전적으로 ego 로봇에게만 부여
이는 충돌 회피의 전체 부담을 로봇에게 전가
우리는 직접 인간 행동을 모델링하거나 제어할 수 없기 때문
로봇이 잠재적인 미래 로봇-인간 충돌을 피하면서 목표를 향해 적극적으로 가는 것을 장려하는 반면
, 그들의 접근법은 충돌 예상 시간(TTC)으로 판단된 잠재적인 로봇-로봇 충돌에만
초점을 맞추고 목표를 무시보행자 운동학에 대한 완벽한 정보를 가질 필요가 없습니다.
20m * 20m
(80 * 80
Grid)0초 ~ 과거 0.5초
의 데이터를 봅니다.현재 local coordinate 기준 목표 각도 찾기
현재 local coordinate 기준 목표 각도
의 절댓값이 0에 가까울수록 보상을 크게 줌PEDSIM은 사회적 힘 모델 [16], [58]을 사용하여 개별 보행자의 움직임을 안내하는 미시적 보행자 군중 시뮬레이션 라이브러리