로봇이 작동할 환경의 복잡성(사람이 무진장 많음) 때문에, 전통적인 모델 기반 프레임워크 내에서, 사람을 회피하는 명확한 규칙을 설계하기 여렵기 때문에감독 학습 기법을 적용하기에 충분히 대표적인 교육 데이터를 수집하기 어려운 것 때문에원시 센서 데이터에서 고급 표현을 수작업으로 만들어 새로운 환경에 대한 일반화를 향상제안된 제어 정책이 충돌 회피와 속도 사이에서 더 나은 균형 +다양한 군중 크기와 새로운 보지 못한 환경에서 기존 접근 방식보다 더 잘 일반화새로운 시나리오로 일반화하고 구현하기 어려움센서 데이터를 처리하기 위해 다단계 절차를 사용해야함.종종 실무자들이 모델 매개변수를 신중하게 수동 조정해야함.글로벌 및 로컬 플래너 모두에 인간 안전성 및 가시성 코스트맵을 추가 (볼만 함) 2D 라이다 데이터의 다양한 상태 표현을 조사하고 -> PPO 훈련 알고리즘을 사용하여 인간 인식 항법 정책을 훈련원시 라이다 데이터를 입력으로 사용하여 -> 실내 항법 정책을 훈련하는 다중 레이아웃 훈련 체제를 제시원시 라이다 데이터와 원시 카메라 이미지 데이터를 융합하는 다중 모달 후기 융합 네트워크를 구축.보행자 운동(위치/속도 등)에 대한 정보를 활용 하는 에이전트 수준 접근법원시 센서 데이터만 사용하는 한계를 해결하기 위해, 보행자 운동에 대한 정보를 활용 정적 장애물과 레이아웃의 기하학적 제약을 무시인간-로봇 및 인간-인간 상호 작용을 self attention 메커니즘으로 함께 모델링하는 데 중점로봇-인간 상호 작용을 추론하고 그들의 궤적을 예측하기 위해 관계형 그래프 학습 네트워크를 제안[34]. -> 로봇-인간 상호작용 모델링 + 보행자 궤적 예측[35]은 그래프 컨볼루션 네트워크(GCN)로 군중 상태를 인코딩하고 인간의 주의를 예측분산 구조적 순환 신경망(RNN)을 사용 -> 로봇-인간 상호작용 모델링정적 장애물과 레이아웃 고려보행자의 존재/부재를 처리하기 위해 두 개의 병렬 네트워크 모델이 필요 -> 로봇-인간 상호작용 모델링보행자 궤적 예측과 원시 라이다 데이터를 결합하는 후기 융합 네트워크를 사용 -> 보행자 궤적 예측미래 라이다 잠재 상태를 예측하고 재구성하기 위해 unsupervised 학습 아키텍처를 사용정적 장애물과 레이아웃 고려 + 보상 함수 설계 고려원시 센서 데이터 < 사전 처리된 데이터 표현 이라는 것을 입증다른 강화 학습 기반 작업 [33]–[38]에서 사용되는 복잡한 보행자 예측 또는 상호작용보다 훨씬 간단하고 해석하기 쉽다는 것 로봇이 장애물을 적극적으로 피하도록 유도하는 직접적이고 효과적인 보상 신호를 제공하지 않음. 보행자(및 기타 객체)의 상대적 움직임이 더 중요하다!로봇은 목표를 향해 진행하면서 보행자 군중을 적극적으로 피하기 위해 지속적으로 향방을 조정충돌 회피의 책임을 전적으로 ego 로봇에게만 부여이는 충돌 회피의 전체 부담을 로봇에게 전가우리는 직접 인간 행동을 모델링하거나 제어할 수 없기 때문 로봇이 잠재적인 미래 로봇-인간 충돌을 피하면서 목표를 향해 적극적으로 가는 것을 장려하는 반면, 그들의 접근법은 충돌 예상 시간(TTC)으로 판단된 잠재적인 로봇-로봇 충돌에만 초점을 맞추고 목표를 무시보행자 운동학에 대한 완벽한 정보를 가질 필요가 없습니다. 
20m * 20m (80 * 80 Grid)0초 ~ 과거 0.5초의 데이터를 봅니다.
현재 local coordinate 기준 목표 각도 찾기현재 local coordinate 기준 목표 각도 의 절댓값이 0에 가까울수록 보상을 크게 줌
PEDSIM은 사회적 힘 모델 [16], [58]을 사용하여 개별 보행자의 움직임을 안내하는 미시적 보행자 군중 시뮬레이션 라이브러리