분류 전체보기
-
-
R GraphicsR 2017. 11. 5. 18:36
1. R Graphic DevicesWindows : Window()Mac OS : QuartzUnix/Linux : x11, X11 2. Graphic Filepdfpostscriptxfigbitmappictexcairo_pdfcairo_pssvgpngjpegbmptff 3. Low level plotspoints()lines()rect()polygon()text()title()regend()axis()etc 4. High level plotsbarplot()pie()hist()boxplot()plot()pairs()ggplot2, lattice packageetc 5. External application interfacesGoogle EarthArcGISetc 6. External graphic d..
-
그리드월드와 큐러닝Keras 2017. 10. 31. 17:31
1. Monte-Carlo Prediction다이나믹 프로그래밍에서 강화학습으로 넘어가는 가장 기본적인 아이디어는 몬테카를로 예측입니다. 몬테카를로 예측은 기댓값을 샘플링을 통한 평균으로 대체하는 기법입니다. 몬테카를로 예측에서는 에피소드를 하나 진행하고 에피소드 동안 지나온 상태의 반환값을 구합니다. 이 반환값은 하나의 샘플이 되어서 각 상태의 가치함수를 업데이트합니다. 2. Temporal-Difference Control 시간차 예측에서는 몬테카를로 예측과는 달리 타임스템마다 큐함수를 업데이트합니다. 시간차 예측에서는 벨만 기대 방정식을 이용해 큐함수를 업데이트합니다. 3. SARSA 강화학습 제어에서 행동을 선택할 때 e-탐욕 정책을 사용하는데, 가치함수를 사용하면 환경의 모델을 알아야 하기 때문..
-
최신 논문으로 시작하는 딥러닝카테고리 없음 2017. 10. 31. 11:58
http://www.edwith.org/deeplearningchoi/joinLectures/10979
-
그리드월드와 다이나믹 프로그래밍Keras 2017. 10. 31. 09:32
1. 다이나믹 프로그래밍과 그리드월드순차적 행동 결정 문제를 벨만 방정식을 통해 푸는 것이 다이나믹 프로그래밍입니다. 벨만 기대방정식을 이용한 것은 정책 이터레이션이며, 벨만 최적 방정식을 이용한 것이 가치 이터레이션입니다. 2. 정책 이터레이션 정책 이터레이션은 현재 정책에 대한 참 가치함수를 구하는 정책 평가와 평가한 내용을 가지고 정책을 업데이트하는 정책 발전으로 이루어져 있습니다. 정책을 평가할 때 벨만 기대 방정식을 이용하여 정책을 발전할 때는 구한 가치함수를 토대로 최대의 보상을 얻게 하는 행동을 선택하는 탐욕 정책 발전을 이용합니다. 3. 가치 이터레이션 가치 이터레이션은 최적 정책을 가정하고 벨만 최적 방정식을 이용해 순차적 행동 결정 문제에 접근합니다. 정책 이터레이션에서와 달리 정책이 ..