강화학습(reinforcement learning)

조현근·2023년 4월 22일
0

AI Studty

목록 보기
3/7

⚡ 정답을 모를 때는 강화학습!

  • 정답을 모를 때 처음 떠올려야 하는것은 강화학습(Reinforcement Learning)
  • 아이가 걸음을 배울때, 자전거 배울때, 자율주행, 게임, 바둑

⚡ 지도학습 vs 강화학습!

  • 정답을 알고 있다면, 고민하지 말고 지도학습(Supervised Learning)을 써야 한다.
  • 강화학습은 두뇌와 손발까지 만들어야 한다.
  • 강화학습은 액션과 리워드의 프로세스로 학습, 사람의 정답을 뛰어넘는 답을 찾을 수 있다.

⚡ 강화학습 깊게 파악하기

  • 바둑도 강화학습의 일종
  • 강화학습에서 중요한 3가지 요소
    1. 입력 : state(환경 정보)
    1. 출력 : action(행동)
    2. 보상 : reward
  • 강화학습의 프로세스
    - agent가 action 했을때 reward를 받는다. agent는 그 reward를 보고 다음 statd에서 더 많은 reward를 받을 수 있는 action을 하도록 학습

⚡ 강화학습의 요소

🔥 1. 슈퍼마리오로 파악

  • agent : 마리오
  • state : 화면 전체 또는 연속된 여러 개의 프레임
  • action : 조이스틱(앞,뒤,오,왼,버튼2개)
  • reward : 코인먹기, 버섯돌이 밟기, 꽃먹기 등(스코어)
  • 좋은 설계를 할수록 똑똑한 마리오가 나온다.

🔥 2. 자율주행 자동차로 파악

  • agent : 자동차
  • state : 차의 위치, 주변 차량의 위치, 내차의속도, 다른차의 속도, 다른 차의 색깔
  • action : 핸들, 액셀, 브레이크
  • reward : 충돌 - / 원하는목적지 +

🔥 3. 양궁로봇으로 파악

  • agent : 양궁로봇
  • state : 바람, 거리
  • action : 활쏘기
  • reward : 10점+ / 1점 -

⚡ 강화학습의 활용

  • 썸네일 셀렉션
  • 광고 레이아웃 결정

0개의 댓글