강화학습(reinforcement learning)
⚡ 정답을 모를 때는 강화학습!
- 정답을 모를 때 처음 떠올려야 하는것은 강화학습(Reinforcement Learning)
- 아이가 걸음을 배울때, 자전거 배울때, 자율주행, 게임, 바둑
⚡ 지도학습 vs 강화학습!
- 정답을 알고 있다면, 고민하지 말고 지도학습(Supervised Learning)을 써야 한다.
- 강화학습은 두뇌와 손발까지 만들어야 한다.
- 강화학습은 액션과 리워드의 프로세스로 학습, 사람의 정답을 뛰어넘는 답을 찾을 수 있다.
⚡ 강화학습 깊게 파악하기
- 바둑도 강화학습의 일종
- 강화학습에서 중요한 3가지 요소
1. 입력 : state(환경 정보)
- 출력 : action(행동)
- 보상 : reward
- 강화학습의 프로세스
- agent가 action 했을때 reward를 받는다. agent는 그 reward를 보고 다음 statd에서 더 많은 reward를 받을 수 있는 action을 하도록 학습
⚡ 강화학습의 요소
🔥 1. 슈퍼마리오로 파악
- agent : 마리오
- state : 화면 전체 또는 연속된 여러 개의 프레임
- action : 조이스틱(앞,뒤,오,왼,버튼2개)
- reward : 코인먹기, 버섯돌이 밟기, 꽃먹기 등(스코어)
- 좋은 설계를 할수록 똑똑한 마리오가 나온다.
🔥 2. 자율주행 자동차로 파악
- agent : 자동차
- state : 차의 위치, 주변 차량의 위치, 내차의속도, 다른차의 속도, 다른 차의 색깔
- action : 핸들, 액셀, 브레이크
- reward : 충돌 - / 원하는목적지 +
🔥 3. 양궁로봇으로 파악
- agent : 양궁로봇
- state : 바람, 거리
- action : 활쏘기
- reward : 10점+ / 1점 -
⚡ 강화학습의 활용