gym library 사용법

이두현·2022년 3월 15일

gym library를 사용하는 방법 기록

gym.make('시뮬레이션 이름') 으로 environment 객체를 생성한다.

env = gym.make('...')
에피소드 시작을 위해 객체를 초기화 시켜준다.
env에 environment의 state 정보가 담기게 된다.

env = env.reset()

보통은 episode 횟수를 나타내는 outer-loop 와 step 진행을 의미하는 inter-loop 이중 for-문으로 나타낸다.
한 step 진행은 env 객체에 대해 step 함수를 불러 가능하며 parameter로는 action을 넘겨줘야 한다.
이 때 output 상태는 아래와 같다.

observation, reward, done, info = env.step(action)
위의 output 중 done 결과는 한 episode의 종료를 나타내며 이를 통해 다음 episode로의 진행이 가능하다.
cartpole의 위치는 아래와 같은 변수를 통해 확인가능하다.

env.state0 : 이 변수는 cartpole의 위치를 나타내고
env.state1 : 이 변수는 cartpole의 속도를 나타낸다.

0100101