logit이 25개 output을 출력하도록 변경하고 학습해보기.
copy 말고, moving average로 학습해보자.
popart 다시 확인해보기
popart 빼고 돌려보기
temperature loss를 빼고 학습해보기
learning_rate 1/10으로 해서 돌려보기.
copy 대신, moving average로 돌려보기
policy network를 25개로 바꿔서 돌려보기
tensorboard 받아오기