-
그리드월드와 다이나믹 프로그래밍Keras 2017. 10. 31. 09:32
1. 다이나믹 프로그래밍과 그리드월드
순차적 행동 결정 문제를 벨만 방정식을 통해 푸는 것이 다이나믹 프로그래밍입니다. 벨만 기대방정식을 이용한 것은 정책 이터레이션이며, 벨만 최적 방정식을 이용한 것이 가치 이터레이션입니다.
2. 정책 이터레이션
정책 이터레이션은 현재 정책에 대한 참 가치함수를 구하는 정책 평가와 평가한 내용을 가지고 정책을 업데이트하는 정책 발전으로 이루어져 있습니다. 정책을 평가할 때 벨만 기대 방정식을 이용하여 정책을 발전할 때는 구한 가치함수를 토대로 최대의 보상을 얻게 하는 행동을 선택하는 탐욕 정책 발전을 이용합니다.3. 가치 이터레이션
가치 이터레이션은 최적 정책을 가정하고 벨만 최적 방정식을 이용해 순차적 행동 결정 문제에 접근합니다. 정책 이터레이션에서와 달리 정책이 직접적으로 주어지지 않으며 행동의 선택은 가치함수를 통해 이루어집니다.4. 다이나믹 프로그래밍의 한계와 강화학습
다아나믹 프로그래밍은 계산 복잡도, 차원의 저주, 환경에 대한 완벽한 정보가 필요하다는 문제점이 있습니다. 이러한 문제를 극복하고자 모델 없이 학습하는 강화학습에 대한 연구가 진행되었습니다.[출처] 파이썬과 케라스로 배우는 강화학습, 이웅원, 양혁렬, 김건우, 이영무, 이의령 지음, 위키북스, p108~
109'Keras' 카테고리의 다른 글
히스토리 기능 사용하기 (0) 2017.12.23 그리드월드와 큐러닝 (0) 2017.10.31 피마족 인디언 당뇨병 발병 데이터를 이용한 다층 퍼셉트론 모델 만들어보기 (0) 2017.09.18 윈도우즈에서 케라스(Keras) 설치하기 (0) 2017.09.16 Keras 레퍼런스 (0) 2017.09.15