# ReinforcementLearning

19개의 포스트
post-thumbnail

논문분석: Playing Atari with Deep Reinforcement Learning

요즘 아주 Hot한 강화학습을 리뷰하기 위해 가장 기본이 되는 논문을 읽어보았다.강화학습을 사용해 학습하는 최초의 모델 제시.Q-Learning의 변형으로 만든 convolutional neural network Input은 Pixel이지만 output은 미래의 rew

2023년 1월 31일
·
0개의 댓글
·

WSL2 Docker Install

전체 installation 과정은 아래의 사이트 참조함https://gyunseo.com/devlog/wsl2%EC%97%90-docker-%EC%84%A4%EC%B9%98%ED%95%98%EB%8A%94-%EB%B0%A9%EB%B2%95/sudo docke

2022년 4월 11일
·
0개의 댓글
·

gym library 사용법

gym library를 사용하는 방법 기록gym.make('시뮬레이션 이름') 으로 environment 객체를 생성한다.env = gym.make('...')에피소드 시작을 위해 객체를 초기화 시켜준다. env = env.reset()보통은 episode 횟수를 나타

2022년 3월 15일
·
0개의 댓글
·

WSL2 display settings

openAI gym library를 사용하면서 WSL2 터미널로는 gui를 불러올 수 없기 때문에 window의 x server를 이용해 실험결과를 확인할 수 있도록 세팅하였다. 참고한 블로그는 아래 사이트와 같다. https://evandde.github.i

2022년 3월 14일
·
0개의 댓글
·
post-thumbnail

ROMA - MARL with emergent roles

Intro role based MARL 의 등장배경 기존의 centralised Q or value function을 통해 모든 agent들이 policy를 학습하는 방식은 복잡한 task를 처리하는데 한계가 있다. 그렇다고 모든 agent들에 각각의 policy ne

2022년 3월 14일
·
0개의 댓글
·
post-thumbnail

G2ANET

Intro agent 사이의 관계를 그래프로 매핑하여 GNN을 통과한 결과를 MARL 학습하는 방식 소개 contribution agent간 연결관계를 표현한 graph를 만들어내는 two-stage attention network 제시 - G2ANET G2aNET에

2022년 3월 10일
·
0개의 댓글
·
post-thumbnail

MAAC - Multi Actor Attention Critic

앞선 QMIX를 읽고 actor 모듈에 LSTM 혹은 GRU가 쓰인 것을 보고 actor에 attention 방식을 적용해보는 것을 졸업 논문 주제로 생각해 보았지만 이미 관련 논문이 있어 읽고 정리해 보았다. IQL 에 대한 한계는 지금까지 읽어왔던 모든 Mutli

2022년 3월 7일
·
0개의 댓글
·
post-thumbnail

QMIX

state 가 hypernetwork 지나는 이유Q1 ~ Qn 에 대해 monotonic 하게 Q_tot 가 비례하는 것은 맞으므로 W 원소들이 양수인 것은 맞지만 state가 이 과정에 관여하는 과정에서는 monotonic 할 필요는 없으므로 hyperparamete

2022년 3월 6일
·
0개의 댓글
·
post-thumbnail

COMA - counterfactual multi-agent

기존 single Agent RL의 한계 multi-agent system에서 action space가 joint 되면 agent 수에 따라 exp하게 증가하므로 기존 방식으로 parameterised 하여 표현할 수 없음 또한 partial observability와

2022년 3월 5일
·
0개의 댓글
·

DQN vs DDQN

DQN과 DDQN 차이는 target action value를 정하는데 있다. DQN경우 target value y는 $r+\\gamma max_aQ(s',a';\\theta_t)$ 이다. 이를 DDQN과 비교하기 위해 동치인 식으로 표현하면 $r+\\gamma Q(s

2022년 3월 3일
·
0개의 댓글
·
post-thumbnail

Double DQN paper

기존에 제시된 DQN 방식은 overestimation으로 인한 문제를 겪고 있는데 이를 해소한 것이 이 논문의 주 요지이다. Overestimation이 진짜 문제가 되는지는 논란의 여지가 있는 open problem인데 전체적으로 value function 이 커진

2022년 2월 23일
·
0개의 댓글
·
post-thumbnail

DQN paper

supervised learning 관점에서 RL 이 갖는 문제점1\. labelled data 가 아닌 scalar reward로부터 학습해야 함그런데 이 데이터가 input과 output 사이에 긴 timestep이 있을수도 있음deep learning에서는 tra

2022년 2월 22일
·
0개의 댓글
·
post-thumbnail

7. Integrating Learning and Planning

전전장: experience 를 통해 value function을 배움전장: experience를 통해 policy를 배움이번 장: experience를 통해 model을 배움(Lecture 5 까지 ; experience로부터 value function을 학습Letu

2022년 2월 21일
·
0개의 댓글
·
post-thumbnail

6. Policy Gradient

지난 강의에서는 value function에 parameter 추가 -> 여기서 $\\epsilon-greedy$ 한 방식으로 policy 탐색이번 강의에서는 policy를 직접 parameterise 하는 방식 사용$\\pi\_\\theta(s,a)=Pa|s,\\th

2022년 2월 21일
·
0개의 댓글
·
post-thumbnail

5. Value Function Approximation

Value Function Appproximation 개념 이전까지 우리가 value, action-value function 값을 불러온 방식은 각각 s와 (s,a)를 entry로 하는 lookup table 방식이었다. 하지만 큰 model에 대해서는 각 state

2022년 2월 20일
·
0개의 댓글
·
post-thumbnail

4. Model-Free Control

이번 강의 목표 Model-free Control Control : MDP를 모르는 상황에서 value function optimize 하는 것 On-policy and Off-policy Learning On-policy: experience sample의 근원과

2022년 2월 15일
·
0개의 댓글
·
post-thumbnail

2. Dynamic Programming

Prediction 이란 model 에 대한 정보 (MDP나 MRP)와 policy $\\pi$가 주어졌을 때 value function을 구하는 과정을 의미한다.Control이란 MDP가 주어졌을 때 optimal value function과 optimal polic

2022년 2월 11일
·
0개의 댓글
·
post-thumbnail

1. MDP - Markov Decision Process

environment가 fully observable 하다Machine의 state는 markov property 를 갖는다$PS\_{t+1}|S_t=PS\_{t+1}|S_1,...,S_t$ 즉, 이전 state에 상관없이 바로 직전 state에만 영향을 받는다.Mar

2022년 2월 9일
·
0개의 댓글
·
post-thumbnail

[CS234] - Lecture 2 - Given a Model of the World

Model: dynamics과 reward의 수학적 모델Policy: 주어진 state에서 action을 결정하는 함수Value function: 특정 policy를 따를 때 state 및 / 또는 action으로 인한 향후 보상Markov ProcessesMarkov

2020년 12월 27일
·
0개의 댓글
·