Keras

그리드월드와 큐러닝

이부일 2017. 10. 31. 17:31

1. Monte-Carlo Prediction

다이나믹 프로그래밍에서 강화학습으로 넘어가는 가장 기본적인 아이디어는 몬테카를로 예측입니다. 몬테카를로 예측은 기댓값을 샘플링을 통한 평균으로 대체하는 기법입니다. 몬테카를로 예측에서는 에피소드를 하나 진행하고 에피소드 동안 지나온 상태의 반환값을 구합니다. 이 반환값은 하나의 샘플이 되어서 각 상태의 가치함수를 업데이트합니다.


2. Temporal-Difference Control
시간차 예측에서는 몬테카를로 예측과는 달리 타임스템마다 큐함수를 업데이트합니다. 시간차 예측에서는 벨만 기대 방정식을 이용해 큐함수를 업데이트합니다.


3. SARSA
강화학습 제어에서 행동을 선택할 때 e-탐욕 정책을 사용하는데, 가치함수를 사용하면 환경의 모델을 알아야 하기 때문에 제어에서 큐함수를 사용합니다. 큐함수를 사용할 때 시간차 제어에서는 하나의 샘플로 (S, A, R, S', A')이 필요합니다. 따라서 시간차 제처를 살사라고 합니다.


4. Q-Learning
살사는 On-Policy 강화학습입니다. On-Policy의 단점을 개선하는 것이 Off-Policy이며, 큐러닝이 대표적입니다. 큐러닝은 행동 선택에서는 e-탐욕 정책을 사용하고 큐함수의 업데이트에는 벨만 최적 방정식을 이용합니다.


[출처] 파이썬과 케라스로 배우는 강화학습, 이웅원, 양혁렬, 김건우, 이영무, 이의령 지음, 위키북스, p150~151