정보관리기술사/AI
강화학습
기술기술
2024. 1. 9. 16:54
1. 정의
- 어떤 환경 안에서 정의된 에이전트가 현재의 상태를 인식하여, 선택 가능한 행동들 중 보상을 최대화
하는 행동 혹은 행동 순서를 선택하는 방법 - 목적 ) 강화학습의 목적은 에이전트를 보상이 가장 높은 행위로 이끄는 것이다
- 특징 ) 보상함수, 평가지표 적용
2. 개념도 및 구성요소
가. 개념도 - 에행환리상
나. 구성요소
3. 강화학습 종류 - 브몬마 큐다디
- Brute force(모든 경우의 수 계산)
- Monte Carlo methods(샘플 평균, 결정값 Gt)
- MDP(Markov Decision Processes)-( Agent, Enviroment, Markov property)
- Q-Learning
- Dynamic Programming(동적 계획법)
- DQN