풀고자 하는 문제
로봇 분야에서는 sim2real이 큰 문제임. 특히나 환경이 조금 바뀌어도 크게 영향을 받는 민감한 task들에 대해서 성공적으로 simulation에서 학습된 강화 알고리즘을 실제 환경에 적용시키기 위해 reality gap을 해결해야 한다. 이 논문은 로봇 하키를 위한 강화학습 알고리즘에 기반하여 쓰여졌는데, 여기서 다양한 환경이란 puck과 지면 사이의 마찰력을 의미한다.(unknown parameter values)
Main contributions
수식 자체를 이해하면 MAML을 쉽게 이해할 수 있음. 1) Meta policy 에다가 각 task 1,2,3에 대해 gradient update를 수행한 , , 가 있다. 2) 그 각 adapted policy의 loss 총합이 작아지는 방향으로 meta policy를 학습한다. 그리하여 각 task에 가장 적합하도록 학습하는 것이 아니라, 미래 한번 gradient update가 최상의 결과를 불러올 수 있도록, adaptation을 젤 잘하도록 학습을 시키는 것이다.방법론



코드: 없음
참고자료
https://www.youtube.com/watch?v=Xd4f2SJTAQ4&t=1699s
논문 읽었을 때 잘 이해 안가던 부분들도 영상에서 명확하게 집어주고 강조해주셔서 좋았음. 이 논문을 이해하고 싶다면 시청하는 것 추천!