# RL

122개의 포스트

강화학습 - 정책 기반 에이전트(2)

Reinforce 알고리즘 이제 policy gradient를 이용해 어떻게 학습할 수 있는지 알아보겠습니다. reinforce알고리즘은 policy gradient에 속하는 간단한 알고리즘입니다. 이론적 배경 학습에 사용되는 수식입니다. policy gradient

어제
·
0개의 댓글
·

강화학습 - 정책 기반 에이전트(1)

가치 기반 에이전트는 가치 함수만 가지고 액션을 선택하기 때문에 명시적인 정책 함수가 존재하지 않았습니다. 이번에는 정책 함수를 가지고 액션을 선택하는 정책 기반 에이전트에 대해서 알아보겠습니다. Policy Gradient

3일 전
·
0개의 댓글
·
post-thumbnail

강화학습 - 가치 기반 에이전트

책에서 딥러닝 파트도 간결하게 정리가 정말 잘 되어있습니다. 딥러닝 관련 내용이므로 넘어가고 가치 기반 에이전트에 대해 알아보겠습니다. 여전히 model free상황이고 상태 공간과 액션 공간이 너무 커서 밸류를 일일이 테이블에 담지 못하는 상황에서의 해결책을 다룹니

5일 전
·
0개의 댓글
·

강화학습 - TD control

MC 컨트롤에 이어 TD를 사용하는 방법에 대해 알아볼 차례입니다.TD를 이용해 $q(s, a)$를 구하는 방법은 SRASA라는 이름으로 불립니다.상태 s에서 액션 a를 하고 보상 r를 받고 상태 s'에 도착해 다음액션 a'을 합니다. 이 알파벳을 연결해 SRASA가

2023년 5월 23일
·
0개의 댓글
·

강화학습 - Model Free(4)

이전까지 MDP를 모를 때 value를 평가하는 방법(MC, TD)을 봤습니다(Prediction). 이제 정책을 찾는 방법을 알아볼 차례입니다.(Control) 몬테카를로 컨트롤 MDP를 알고있을 때에는 정책 이터레이션을 사용해 밸류를 계산하고 그 값에서 그리디하게

2023년 5월 23일
·
0개의 댓글
·

강화학습 - Model Free(3)

앞서 배운 MC, TD중 어떤 것이 더 좋다라고 말하기는 어렵습니다. 각 방법에 대해 장점이 존재하기 때문에 여러 측면에서 살펴보겠습니다. MC는 에피소드가 끝나고 리턴이 정해져야 되돌아가면서 학습을 진행하고 TD는 한 스텝마다 바로바로 값을 업데이트 합니다.

2023년 5월 22일
·
0개의 댓글
·

강화학습 - Model Free(2)

Model Free(1)에서는 MC(Monte Carlo)학습을 알아보았는데 이번엔 TD(Temporal Difference)학습에 대해서 알아보겠습니다.MC의 경우에는 업데이트를 하기위해 에피소드가 끝나야 한다는 문제가 있습니다. 다시말해 반드시 종료하는 MDP이어야

2023년 5월 22일
·
0개의 댓글
·

강화학습 - Model Free(1)

이제 MDP를 모르는 상황에서의 강화학습을 배워볼 차례입니다. 보상함수$r^{a}{s}$와 전이 확률 $P^{a}{ss'}$을 모르는 상황을 model-free라고 부릅니다.간단하게 하나만 보고 넘어가겠습니다. model은 강화학습에서 환경의 모델(model of en

2023년 5월 21일
·
0개의 댓글
·
post-thumbnail

강화학습 - Planning

이번 챕터에서는 MDP를 알고 있을 때의 플래닝에 대해서 알아봅시다.

2023년 5월 20일
·
0개의 댓글
·

강화학습 - Bellman 방정식

이번 장에서는 value를 구하는 방법에 대해 나옵니다. 벨만 기대 방정식 수식을 차근차근 살펴보겠습니다. $$ v{\pi}(s{t})=\mathbb{E{\pi}}[G{t}] $$ $$ =\mathbb{E{\pi}}[r{t+1}+\gamma r{t+2}+\gamma

2023년 5월 17일
·
0개의 댓글
·

강화학습 - MDP(2)

MDP(Markov Decision Process) 이제 필요한 내용은 모두 봤으니 MDP를 설명할 차례입니다. MP나 MRP로는 순차적 의사결정 문제를 모델링할 수 없지만 MDP에서 의사를 가지고 행동하는 주체인 Agent가 등장하면서 가능해집니다. 에피소드 sa

2023년 5월 17일
·
0개의 댓글
·

강화학습 - MDP(1)

강화학습? 보상을 최대화 하기위한 행동을 시도하면서 보상을 최대로하는 행동을 찾는 과정이라고 생각할 수 있습니다. 책에서는 아래와 같이 소개하네요 > 순차적 의사결정 문제에서 누적 보상을 최대화 하기 위해 시행착오를 통해 행동을 교정하는 학습 과정 순차적 의사결정 간

2023년 5월 16일
·
0개의 댓글
·
post-thumbnail

[강화학습] 1편

Game Tree, Minimax Algorithm, Alpha-Beta pruning, Value Function에 대한 설명

2023년 4월 28일
·
0개의 댓글
·
post-thumbnail

# 14681

사분면 고르기

2023년 3월 29일
·
0개의 댓글
·

#9498

시험성적

2023년 3월 28일
·
0개의 댓글
·
post-thumbnail

이진 탐색 트리 (Binary Search Tree)

이진 트리와 이진 탐색 트리(BST)의 차이 이진 트리(Binary Tree)와 이진 탐색 트리(Binary Search Tree, BST)는 트리(Tree) 자료구조의 일종으로, 노드(Node)들이 서로 연결된 구조를 가지고 있다. 이 둘은 매우 비슷한 구조를 가지고

2023년 3월 22일
·
0개의 댓글
·
post-thumbnail

[강화학습] 상태 가치 함수 vs 행동 가치 함수

현재 상태가 얻을 Return의 기댓값 -> 현재 State에 대한 가치를 내놓는 함수 가치(value) = 어떤 상태가 얼마나 좋은 상태인지= Agent가 state s에서 탐험을 시작할 경우, 평균적으로 v(s)만큼의 감가율이 적용된 reward를 받을 것이다\->

2023년 1월 9일
·
0개의 댓글
·

[Project] 강화학습을 활용한 트레이딩 봇

강화학습을 사용한 선물거래 봇 생성 프로젝트

2023년 1월 7일
·
0개의 댓글
·
post-thumbnail

[강화학습] 1. Markov Decision Process (MDP)

State에서 action을 해서 그에 대한 reward를 받고 새로운 state로 나아간다S - A - R - S' 가 계속 반복된다 / S0 A0 R1 S1 A1 R2 S2 A2 ....Agent : MDP에서 문제를 학습하고 행동을 결정하는 주체Environmen

2023년 1월 6일
·
0개의 댓글
·
post-thumbnail

[강화학습] 0. Introduction, 용어 정리

강화학습은 discrete time 에서 stochastic 하게 agent를 control하는 문제이다.Agent는 Policy에 따라 행동을 결정한다Agent의 행동에 따라 상태가 전이된다전이된 상태에서의 Reward를 Agent에게 준다Agent는 Reward에

2023년 1월 1일
·
0개의 댓글
·