Chapter 4 - Dynamic Programming | 浩爾筆記Howard's note

Chapter 4 - Dynamic Programming

Dynamic Programming

Introduction

Dynamic programming (DP) refers to a collection of algorithms that can be used to compute optimal policies given a perfect model of the environment as a MDP

動態編程（DP）是指算法的集合，可在給定環境完美模型（如MDP）的情況下用於計算最佳策略

Consider the environment as a finite MDP, and its dynamics are given by a set of probability p(s’, r|s, a) for all s ∈ 𝒮, a ∈𝒜(𝑠), r ∈ ℛ, and s’ ∈ 𝒮+

將環境視為有限的MDP，其動態性由一組概率給出

The key idea of DP is the use of value functions to organize and structure the search for good policies.

DP的關鍵思想是使用value functions(價值功能)來組織和建構對良好(policies)策略的搜索。

We can easily obtain optimal policies once we have found the optimal value functions which satisfy the Bellman optimality equations

一旦找到滿足Bellman最優性方程的最優值函數，就可以輕鬆獲得最優策略。

4.1 Policy Evaluation(Prediction)

這個網誌中的熱門文章

Supervised Hebbian Learning-監督式赫布學習

Hebbian Learning 赫布理論（英語：Hebbian theory）是一個神經科學理論，解釋了在學習的過程中腦中的神經元所發生的變化。赫布理論描述了突觸可塑性的基本原理，即突觸前神經元向突觸後神經元的持續重複的刺激，可以導致突觸傳遞效能的增加。因此又稱為赫布定律（Hebb's rule）、赫布假說（Hebb's postulate）、細胞結集理論（cell assembly theory）等。 Hebb規則是最早的神經網絡學習定律之一。它是由Donald Hebb在1949年提出的，它是大腦中突觸修飾的一種可能機制，此後一直用於訓練人工神經網絡。 When an axon of cell A is near enough to excite a cell B and repeatedly or persistently takes part in firing it, some growth process or metabolic change takes place in one or both cells such that A’s efficiency, as one of the cells firing B, is increased. 當細胞A的軸突足夠靠近以激發細胞B並反复或持續參與激發它時，一個或兩個細胞中都會發生某些生長過程或代謝變化，從而使A的效率（其中一個激發B）成為可能，增加。 Linear Associator 輸出的向量為 a = Wp 或是主要可以構成下圖所示: 公式整理

閱讀完整內容

什麼是強化學習? 你必須知道的幾件事-Chapter 1 - Intoduction

Introduction 人類與環境進行互動，學習環境如何響應我們的行為，並試圖通過自身行為影響將來發生的事，這就是一種互動式的學習方式，是人類獲取知識的主要來源，同時也是幾乎所有學習和智慧化理論的基本思想。強化學習正是一種從互動中學習的計算方法，它更側重於從互動中進行目標導向的學習方式，而不是其他的機器學習方式。 1.1 Reinforcement Learning 強化學習特徵強化學習就是學習該做什麼，如何將情境對映到動作從而最大化獎勵訊號。試錯搜尋（trial-and-error search）和延遲獎勵（delayed reward）是強化學習兩個最重要的顯著特徵，另一個重要特徵是強化學習並不侷限於孤立的子問題，即： · 學習者不會被告知需要採取哪些行動，而是必須通過嘗試來發現哪些行動可以產生最大的回報； · 當前行動不僅影響即時獎勵，還會影響下一個state，以及後續獎勵； · 明確考慮了目標導向的agent與不確定環境互動的整個問題。強化學習與其他人工智慧技術的區別監督學習：是從一組有標記的訓練集中進行學習，目的是讓系統歸納與推斷其響應，使其在訓練集中不存在的樣例下也能正確做出相應action。監督學習是一種重要的學習方式，但其不足以從互動中學習。在互動問題中獲取正確而又代表所有情況的所期望行為的樣例是不切實際的。在未知領域，agent必須能夠從自身經驗中學習才能習得最有益的action。非監督學習：通常是尋找隱藏在未標記資料集合中的某種結構。雖然強化學習也不需要帶有正確標記的例子，但它的目標是最大化獎勵訊號，而不是試圖找到隱藏的結構。當然，找到agent學習經驗中的隱藏結構也是有用的，但這並不是最終目標。強化學習的挑戰探索與開發的權衡（trade-off between exploration and exploitation）。為了獲得大量獎勵，agent必須更傾向於過去嘗試過的行為，並且發現他們能夠有效地產生獎勵。但是要發現這樣的行為，agent必須嘗試以前沒有嘗試過的行為，它必須利用它已經經歷的經驗來獲得獎勵，但也必須進行探索，以便在將來做出更好的選擇。困難在於，任何探索和開發都有可能會失敗，agent必須嘗試各種操作，並逐漸傾向於那些看起來最好的操作。在隨機任務中，必須多次嘗試每一個action以獲得...

閱讀完整內容

浩爾筆記Howard's note

搜尋此網誌