跳到主要內容

發表文章

目前顯示的是有「Reinforcement Learning」標籤的文章

什麼是強化學習? 你必須知道的幾件事-Chapter 1 - Intoduction

Introduction 人類與環境進行互動,學習環境如何響應我們的行為,並試圖通過自身行為影響將來發生的事,這就是一種互動式的學習方式,是人類獲取知識的主要來源,同時也是幾乎所有學習和智慧化理論的基本思想。強化學習正是一種從互動中學習的計算方法,它更側重於從互動中進行目標導向的學習方式,而不是其他的機器學習方式。 1.1 Reinforcement Learning 強化學習特徵 強化學習就是學習該做什麼,如何將情境對映到動作從而最大化獎勵訊號。試錯搜尋(trial-and-error search)和延遲獎勵(delayed reward)是強化學習兩個最重要的顯著特徵,另一個重要特徵是強化學習並不侷限於孤立的子問題,即: · 學習者不會被告知需要採取哪些行動,而是必須通過嘗試來發現哪些行動可以產生最大的回報; · 當前行動不僅影響即時獎勵,還會影響下一個state,以及後續獎勵; · 明確考慮了目標導向的agent與不確定環境互動的整個問題。 強化學習與其他人工智慧技術的區別 監督學習:是從一組有標記的訓練集中進行學習,目的是讓系統歸納與推斷其響應,使其在訓練集中不存在的樣例下也能正確做出相應action。監督學習是一種重要的學習方式,但其不足以從互動中學習。在互動問題中獲取正確而又代表所有情況的所期望行為的樣例是不切實際的。在未知領域,agent必須能夠從自身經驗中學習才能習得最有益的action。 非監督學習:通常是尋找隱藏在未標記資料集合中的某種結構。雖然強化學習也不需要帶有正確標記的例子,但它的目標是最大化獎勵訊號,而不是試圖找到隱藏的結構。當然,找到agent學習經驗中的隱藏結構也是有用的,但這並不是最終目標。 強化學習的挑戰 探索與開發的權衡(trade-off between exploration and exploitation)。為了獲得大量獎勵,agent必須更傾向於過去嘗試過的行為,並且發現他們能夠有效地產生獎勵。但是要發現這樣的行為,agent必須嘗試以前沒有嘗試過的行為,它必須利用它已經經歷的經驗來獲得獎勵,但也必須進行探索,以便在將來做出更好的選擇。困難在於,任何探索和開發都有可能會失敗,agent必須嘗試各種操作,並逐漸傾向於那些看起來最好的操作。在隨機任務中,必須多次嘗試每一個action以獲得...