-
그리드월드와 큐러닝Keras 2017. 10. 31. 17:31
1. Monte-Carlo Prediction
다이나믹 프로그래밍에서 강화학습으로 넘어가는 가장 기본적인 아이디어는 몬테카를로 예측입니다. 몬테카를로 예측은 기댓값을 샘플링을 통한 평균으로 대체하는 기법입니다. 몬테카를로 예측에서는 에피소드를 하나 진행하고 에피소드 동안 지나온 상태의 반환값을 구합니다. 이 반환값은 하나의 샘플이 되어서 각 상태의 가치함수를 업데이트합니다.
2. Temporal-Difference Control
시간차 예측에서는 몬테카를로 예측과는 달리 타임스템마다 큐함수를 업데이트합니다. 시간차 예측에서는 벨만 기대 방정식을 이용해 큐함수를 업데이트합니다.3. SARSA
강화학습 제어에서 행동을 선택할 때 e-탐욕 정책을 사용하는데, 가치함수를 사용하면 환경의 모델을 알아야 하기 때문에 제어에서 큐함수를 사용합니다. 큐함수를 사용할 때 시간차 제어에서는 하나의 샘플로 (S, A, R, S', A')이 필요합니다. 따라서 시간차 제처를 살사라고 합니다.4. Q-Learning
살사는 On-Policy 강화학습입니다. On-Policy의 단점을 개선하는 것이 Off-Policy이며, 큐러닝이 대표적입니다. 큐러닝은 행동 선택에서는 e-탐욕 정책을 사용하고 큐함수의 업데이트에는 벨만 최적 방정식을 이용합니다.[출처] 파이썬과 케라스로 배우는 강화학습, 이웅원, 양혁렬, 김건우, 이영무, 이의령 지음, 위키북스, p150~151
'Keras' 카테고리의 다른 글
텐서보드와 연동하기 (0) 2017.12.23 히스토리 기능 사용하기 (0) 2017.12.23 그리드월드와 다이나믹 프로그래밍 (0) 2017.10.31 피마족 인디언 당뇨병 발병 데이터를 이용한 다층 퍼셉트론 모델 만들어보기 (0) 2017.09.18 윈도우즈에서 케라스(Keras) 설치하기 (0) 2017.09.16