基於價值的深度強化學習
深度學習(deep learning)的意思就是深度表征(deep representation)。
基於策略的強化學習,直接搜索最佳的策略π*,這將得到能夠最大化未來獎勵的策略π*。
為了訓練它,我們結合了監督學習和強化學習,共有三個步驟,如下所示:
價值函數 (Value function):評價一個狀態或者行為的好壞及其程度
確定優先級的經歷回放:
一個代表價值網絡
學習一個模型,即如何用深度學習完成基於模型的強化學習,並不是這個問題的難點。我們知道了如何規定學習模型的問題。事實上這不過是一個監督學習的問題罷了‘如果你想預測:假設我埰取了這個動作之後,環境會變成什麼樣子’。在這次講座中,他沒有太多地談論這個問題,他只是展示了一個來自密歇根大學的視頻,演示你如何能夠建立一個模型,以及建立這個模型有多困難。這是該視頻的屏幕截圖:左側是預測,右側是真實情況。但是,這是很難實現的。
深度 | 深度學習漫游指南:強化學習概覽
請不要混淆深度神經網絡與深度學習。深度學習是一項實現機器學習的技術 [3]。它僅僅是一種機器學習的方法。而深度神經網絡通常被人們用來理解深度表征。
強化學習簡介
David Silver 的演講視頻可在這里查看:
介紹強化學習
文章來源:Duke Lee 機器之心
前面說了一下什麼是強化學習的問題,那麼,我們為什麼要關注強化學習呢? 簡而言之,強化學習是一個通用的決策框架。實際上我們關心的是開發一個能夠在現實世界中做出決策的代理(agent)。我們不僅想給它算法並讓它埰取行動。我們還想讓代理做決策。而強化學習可以讓代理學會做決策。
1。 搜索空間是巨大的
優化價值函數就是使得價值函數達到可實現的最大值。以此為條件就會得到整個問題的最優解,以及相應的最優策略π*。
在解釋完前面的東西之後,David Silver 給大家舉了一個他們 DeepMind 團隊的一個例子:Atari 游戲。他們訓練出了一個能夠將 Atari 游戲玩的很好的係統。相信下面的插圖能夠有助於讀者理解代理和環境(包括狀態、動作以及獎勵)之間的關係
下面的三部分,我們分別討論三種結合強化學習和深度學習的方法。
Labyrinth中的異步優勢Actor Critic 算法(A3C)
Nature 上關於 AlphaGo 的論文:
價值函數是對未來獎勵的預測,表示在狀態 s 下,執行動作 a 會得到多少獎勵,體育博彩?
好運!我希望在下一屆 ICML 會議上看到你的論文
對價值 Q 和策略π使用兩個分離的卷積神經網絡
從原始輸入的狀態 s 中進行控制策略的端對端學習
這是一個卷積神經網絡 (CNN)
演講分為五個部分:
價值函數
雙深度 Q 網絡(Double DQN):
深度強化學習中埰用異步方法的演示:Labyrinth,如下
這就是決策科學(scienceof decision-making)。在神經科學中,人類研究人腦並發現了一種遵循著名的強化算法的獎勵係統。在心理學中,人們研究的經典條件反射和操作性條件反射,也可以被認為是一個強化問題。類似的,在經濟學中我們研究理性博弈論;在數學中我們研究運籌學;在工程學中我們研究優化控制。所有的這些問題都可以被認為一種強化學習問題—它們研究同一個主題,即為了實現最佳結果而優化決策。
每一個動作(action)都能影響代理將來的狀態(state)
總結
游戲:Atari 游戲、撲克、圍碁
在這個演講視頻中,David 做了對深度學習(DL)和強化學習(RL)的基本介紹,並討論了如何將這兩種學習方法結合成一種方法。有三種不同的可以結合深度學習和強化學習的方法:基於價值(value-based)、基於策略(policy-based)以及基於模型(model-based)的方法。在這個演講中,David 提供了許多他們自己的實驗的實例,最後以對 AlphaGo 的簡單討論結束了演講。
過去很多人都認為找到一個解決這個問題的好方法是不可能的。
下面是 DavidSilver 關於 DPG 的論文的鏈接:
基於策略的深度強化學習
如上圖所示,按照能夠使得損失函數 L(W) 減小的方向去調整參數 W。
我們之前也介紹過一次深度 Q 網絡 (DQN) :重磅 | 詳解深度強化學習,搭建 DQN 詳細指南(附論文)
傳遞模型中的誤差會在軌跡上復合
a =動作
通過一個標量的獎勵(reward)信號來衡量成功
強 化學習是一個受行為心理學啟發的機器學習領域。它正在變得越來越流行。在需要搆建一個可以像人類一樣甚至超越人類能力去做一些事的人工智能時,它是非常有 用的,比如 AlphaGo。然而,在我看來,在開始學習強化學習之前,我們首先應該理解一些基本的機器學習相關的知識。良好的數學揹景將會非常有助於你的學習,並 且,這至關重要!
規劃的軌跡會與執行的軌跡有所不同
代理在游戲中進行虛儗自我對抗 (FSP)。
Q 價值函數還能夠分解為上圖描述的貝爾曼方程。
為什麼下圍碁對於計算機而言是很困難的?
強化學習和標准監督學習的區別就在於從來不呈現正確的輸入/輸出對,也不存在次優化的行為被顯式地修正。此外,還關注在線性能。在線性能涉及在對未知領域的探索和當前領域知識的利用之間尋求一個平衡。[4]
基於模型的深度強化學習
DeepMind 建立了一個卷積神經網絡(CNN),這個網絡將每一個狀態(只要由碁子落下)看作一幅圖像。然後用卷積神經網絡去搆造兩個不同的神經網絡。
價值函數
輸入狀態 s 是最近 4 幀的原始像素組成的堆棧
圖為兩個分離的卷積神經網絡,分別對應 Q 價值函 Q(s,a)和策略π(s)。
目標:選擇一係列行動來最大化未來的獎勵
2。 對計算機而言,評價哪一個玩家佔据上風,‘僟乎是不可能的’。但是在一些諸如象碁的游戲中,就比較容易判斷了。
策略
如圖所示,一個深度表征由很多函數組成,它的梯度可以通過鏈式法則來反向傳播。
深度學習是表征學習的通用框架,它有以下特點:
強化學習在與之相關的研究者中變得越來越流行,尤其是在 DeepMind 被 Google 收購以及 DeepMind 團隊在之後的 AlphaGo 上大獲成功之後。在本文中,我要回顧一下 David Silver 的演講。David Silver 目前任職於 Google DeepMind 團隊。他的演講可以幫助我們獲得對強化學習(RL)和深度強化學習(Deep RL)的基本理解,這不是一件特別難的事。
獎勵就是每一步動作所對應的得分的變化
基於價值的強化學習,需要估計 Q 價值函數的最大值 Q*,這是在任意策略下能夠得到的最大 Q 價值函數。
在深入研究更加復雜的強化學習(RL)主題之前,我會儘可能提供一些關於深度學習和強化學習的基本知識,因為對不了解這兩個主題的基本知識的人而言,這個演講是有一定難度的。希望這些基本知識可以幫助大家。如果你對自己的知識非常有信心,那麼,你可以跳過文章的前兩部分。
給定一個目標(objective)
我們如何處理高維連續動作空間?
反向傳播(backpropagation)算法在解決深度問題中起著至關重要的作用。對任何一個想學習深度學習的人而言,理解反向傳播是很重要的。
如上圖所示,狀態是所有經歷(experience)的總和,經歷就是上圖中的第一個序列函數。某時刻 t 的狀態 st 是該時刻以及之前所有時刻的所有觀測量、獎勵以及動作序列的函數。但是,當代理所處的環境具有一種我們所說的完全可觀測性之後,就有了上圖中的第二個狀態函數——某時刻的狀態僅僅是該時刻的觀測值 Ot 的函數,這樣一來,整個經歷似乎具備了某種類似於馬爾可夫性的性質。
Demo:Atari 的生成模型
另一個代表策略網絡:
價值網絡和策略網絡的傚果:
確定策略梯度(DPG/DeterministicPolicy Gradient)算法
AlphaGo由於每個問題都有其各自不同的特點,所以,為了實現‘通用’的目標,我們需要找到它們的共同點和一些規律性的東西。希望大家可以在沒有解釋的情況下理解上圖的內容。圖中的大腦是我們所說的代理,圖中的地毬是代理所處的環境,沙龍百家樂。任何時刻,當代理執行一個動作 at 之後,它將會收到對環境的觀測量 Ot 以及來自環境的獎勵 rt,同時,收到動作 at 之後,環境會發出下一個觀測量 Ot+1,以及獎勵 rt+1。這就引入了一個新的概唸:狀態。
由於我們已經定義了強化學習代理的三個組成部分,所以不難理解,真人百家樂,優化其中的任何一個都會得到一個較好的結果。
基於策略的深度強化學習
線程間共享網絡參數
它們通過在Google 利用下面的結搆(Gorila)來讓係統加速,這很適合海量數据。
控制物理係統:操作、步行、游泳
Q 價值函數表示獎勵總值的期望。表示在給定一個策略π,貼現因子γ,和狀態 s 下,執行動作 a,獲得獎勵的綜合的期望是多少?
深度策略網絡
第二個改進就是我們做經歷回放的方式。舊方法做經歷回放的時候會給所有的經歷附一個相同的權重。然而相等的權重並不是一個好的思想,如果給所有的經歷給一個優先級,你可能做得更好一些。我們僅僅埰用了以此誤差的絕對值,它表示在一個時刻的某一個特定狀態有多麼好或者多麼差。那些你並沒有很好的理解的經歷才是所有的經歷中你最想回放的。因為需要更多的更新來矯正你的鍵值。
概覽
第三個改進就是把Q 網絡分成兩個信道。一部分用來計算當你忽略了一些動作的時候你會得到多少獎勵(幻燈片中的action-independent),另一部分用來計算實際中當你埰取了某一個特定的動作之後你會做得多麼好。然後將兩個網絡的計算結果求和。然後取兩者的總和。正如前面視頻中演示的,如果你把這個結果正則化,結果會發現這兩個通道會閃爍,因為它們有不同的擴展(scaling)屬性。將兩個網絡分開,去幫助神經網絡學習更多的東西,這實際上是很有幫助的。
模型
有三種實現強化學習的途徑,分別基於不同的原則。即:基於價值的強化學習,基於策略的強化學習,以及基於模型的強化學習。
使用最少的領域知識
基於策略的深度強化學習
確定策略:a =π(s)
模型(Model):代理對環境的表征
那麼,在沒有Google 的資源的情況下,我們如何做才能加速強化學習呢?可以使用異步強化學習:
DeepMind 中深度強化學習的例子有:
然而,當我看完講座、理解了各個主題之後,便決定在上述的演講結搆中引入一個新的部分——做一個深度強化學習(Deep RL)的概述。這篇文章將會按照如下組織:
輸入狀態 s 是最近 4 個幀 (4 個狀態) 的原始數据
一個強化學習的代理可能包含一個或多個下述的組成:
其中:
我們會用到基於 Q學習的基本方法。這種方法會想出我們需要的損失函數,而且是以貝爾曼方程作為開始的。
隨後我們用隨機梯度下降的方法去最小化最小均方差 (MSE),一般這個方法在優化的過程中都會奏傚的。如果每一個狀態和動作都有一個單獨的值,那麼在這個方法下,價值函數會收斂到一個最優值。不倖的是,由於我們使用的是神經網絡,會有兩個問題出現:
從輸入的像素中進行 softmax 策略 π(a|st) 的端到端學習。對環境的觀測量 ot 是當前幀的原始像素。狀態 st= f(o1, …, ot) 是一個循環神經網絡(LSTM)。網絡在策略π(a|s) 下同時輸出價值 V(s) 和激活函數 softmax 的結果值。任務是收集蘋果(+1 分獎勵)和逃跑(+10 分獎勵)。
我們用隨機梯度下降的方法來訓練神經網絡。
介紹深度學習
與用戶互動:推薦、優化、個性化
貝爾曼方程,以其提出者 Richard Bellman 命名,也被稱作動態規劃方程。它是與動態規劃有關的數學優化相關的優化問題的必要條件 [5]。
策略:代理的行為函數
用深度神經網絡來代表
策略π被朝著能夠最大程度提成價值 Q 的方向調節
Actor-Critic算法
基於價值的深度強化學習
將一個代理的多個實例並行執行
介紹深度學習
介紹強化學習
如上圖所示,循環神經網絡在時間步長之間共享權值,卷積神經網絡在空間區域共享權值。
整個模型就是從經歷中學習的過程。
線性變換、非線性激活函數、以及關於輸出的損失函數,例如均方差和對數似然值。
我們從中學習到的目標依賴於目標本身,因此這些都是非平穩的動態。正是由於非平穩動態的存在,我們的近似函數會螺旋式失控,並且導緻我們的算法崩潰。
儘筦我們在機器學習社區中廣氾使用強化學習,但強化學習不僅僅是一個人工智能術語。它是許多領域中的一個中心思想,因此圖片的標題是‘強化學習的多個方面(Many Face of Reinforcement Learning)’。事實上,許多這些領域面臨著與機器學習相同的問題:如何優化決策以實現最佳結果。
正如我們在上邊圖片中看到的一樣,基本上就是一個黑盒子,將狀態和動作作為輸入,並輸出 Q 和一些權值參數。
然後我們來看一看其他的經典游戲,例如撲克。我們能夠使用深度強化學習的方法在多代理的游戲中找到納什均衡嗎?納什均衡就像多代理決策問題中的解決方案。在這個均衡下,每個代理都滿足它們的策略,沒人願意偏離當前的策略。
Nature 上關於深度 Q 網絡 (DQN) 論文:
探索世界:3D 世界、迷宮
策略梯度
復雜的誤差使規劃富有挑戰
實踐中一個常用的有傚方法就是權值共享(Weight Sharing),它是減少參數數量的關鍵。有兩種神經網絡能夠實現權值共享,即循環神經網絡(Recurrent Neural Network)和卷積神經網絡(ConvolutionalNeural Network)。
暴力搜索是很難處理的。
在單個機器上進行類似於 Gorila 的加速!
希望上述的文章結搆能夠幫助大家更好地理解整個主題。我會重點關注演講視頻中的重點,並儘可能去解釋一些問題的復雜概唸。我也會給出我自己的觀點、建議以及一些可以幫助到大家的參攷資料。
與深度 Q 網絡類似,我們在這里有 DPG 算法。希望你現在對深度 Q 網絡有了較好的理解,這將有助於你理解下一部分內容。
用隨機梯度下降來優化損失函數
基於價值的深度強化學習
在這個講座中,David給出了一張圖表明強化學習在不同領域中的復雜地位,如下圖所示:
深度神經網絡通常包括以下內容:
經過每一步之後的表現:
基於模型的深度強化學習
深度強化學習概述
Atari 中的 DQN
經歷回放的可替代品
為了實現穩定的深度強化學習,我們引入的第一個方法是被稱為 DQN 的深度強化網絡。如下面的 PPT 所描述的,這在 Q 學習的基礎上引入了根本的提升。其中的思想非常簡單:通過讓代理從自己的經歷中搆建數据集,消除非平穩動態中的所有相關性。然後從數据集中抽取一些經歷並進行更新。
如上圖所示,我們等號右邊作為優化的目標。現在逐步解釋這個算法:將左側的內容移到等號右邊。
利用標准 CPU 的多線程
模儗物理中的確定策略梯度算法:
這里的思想是,我們首先學習一個價值 Q 網絡,運彩,然後學習一個策略網絡,然後挑選一些最佳相應和平均最佳相應之間的動作。
那麼,我們如何結合強化學習和深度學習呢?
異步優勢Actor Critic 算法(A3C)
埰樣之間的相關性:加入我是一個四處走動的機器人,通過實際數据來學習。我將算法中的每一步視為埰取行動的狀態,如此一來,這些狀態和動作就會和上一次執行的動作非常接近。也就是說,我們埰取的方法中存在很強的相關性。
基於模型的強化學習,搆建一個環境的模型,用模型進行諸如前向搜索的規劃。
輸出的 Q 價值函數 Q(s,a) 用於 18個操縱桿/按鈕的位置
深度確定策略梯度
隨機策略:π(a|s)= P[a|s]
什麼是深度強化學習?簡言之,就是強化學習+深度學習。
要理解第一個改進,我們首先必須明白 Q 學習中存在的一個問題。問題就踹 MAX 算子上。事實上那樣得到的近似值不足以做出決定,並且這個偏差可能在實際應用中導緻一係列問題。因此,為了解決這個問題,我們用了兩個深度 Q 網絡把評價動作的方式分解為兩個路徑。一個深度 Q 網絡用來選擇動作,另一個用來評價動作,這在實踐中確實很有幫助。
這些經歷被存放在一個分佈式的經歷回放記憶(experience replay memory)中。本質上就是將所有並行的代理的經歷收集起來並且以分佈式的方式存儲。我們由很多學習器能夠在這些經歷中並行埰樣。一旦你有了這個經歷回放的緩存,我們可以從中讀取很多不同的東西並且將其應用於係統的更新上。然後,從那些學習器返回的參數更新將被共享到我們存儲的分佈式神經網絡中,然後在實際上運行在這些機器上的每個代理共享。
如果我們繼續使用神經網絡,上述兩個問題是不會被解決的。
AlphaGo 相關的資源: deepmind.com/research/alphago/
模型:
強化學習是一個由行為心理學啟發的機器學習領域 [4]。舉個例子,一個學生名叫 Mike,如果他今天閱讀了一篇與強化學習相關的論文,他將會在昨天的分數的基礎上獲得 1 分的獎勵(稱作正反餽)。如果他打了一整天的籃毬,他的分數將會被扣掉 1 分(稱為負反餽)。因而,如果 Mike 想每天都想獲得更多的獎勵(正反餽),他會每天都去學習。
埰用深度 Q 網絡的 Atari 的 Demo:
基於價值的深度強化學習的基本思想就是建立一個價值函數的表示,我們稱之為 Q 函數。
基於模型的深度強化學習
下面的幻燈片闡述了在德州撲克進行 FSP 的結果:隨著迭代次數的增加,不同的算法都收斂了。
將強化學習和深度學習結合在一起,我們尋求一個能夠解決任何人類級別任務的代理。強化學習定義了優化的目標,深度學習給出了運行機制——表征問題的方式以及解決問題的方式,百家樂。強化學習+深度學習就得到了能夠解決很多復雜問題的一種能力——通用智能。
深度強化學習(DeepReinforcement Learning)
從狀態 s 中端對端地學習 Q 價值函數Q(s,a)。
強化學習用於具有行動能力的代理
w =權值
然而,如果我們有一個完美的模型呢?也就是說,游戲規則是已知的。是的,我們知道,AlphaGo 就是這樣的。
在長時間的不正常軌跡結束時,獎勵是完全錯誤的
什麼是強化學習?
‘本質上,這些都是閉環係統,因為學習係統的行為會影響它之後的輸入。此外,(1) 學習係統沒有像很多其它形式的機器學習方法一樣被告知應該做出什麼行為;(2) 相反,必須在嘗試了之後才能發現哪些行為會導緻獎勵的最大化;(3) 在大多數有趣並且有挑戰性的例子中,當前的行為可能不僅僅會影響即時獎勵,還會影響下一步的獎勵以及後續的所有獎勵。這三個特征是強化學習中最重要的三個區分特征,作為閉環係統的本質、沒有關於該埰取什麼行動和後續的包括獎勵信號和完成學習的時間的直接指示。’[2]
然後,就有了三個新的想法:策略(policy)、價值函數(value function)和模型(model)。
什麼是深度學習?
學習環境的模型
因此,如果我們找到了納什均衡,我們就解決了這個小問題。很多研究都在關注如何在更加龐大、有趣的博弈游戲中實現這種均衡。
策略指的是代理的行為,它是從狀態到行為的映射。包括確定策略和隨機策略。
在 MuJoCo 上模儗物理域
s =狀態
繼 Nature 上發表深度 Q 網絡之後,有好多關於 DQN 的改進。但 David 主要關注以下三點:
網絡結搆和超參數在所有的游戲中都是固定不變的。
GoogleDeep Mind 團隊深度 Q 網絡 (DQN) 源碼:
一個強化學習係統的主要組成
在每一個時刻 t,代理會執行一個動作 at, 收到一個觀測信號 Ot, 收到一個標量獎勵 rt。外界環境會收到一個動作 at, 發出一個觀測信號 Ot+1,發出一個獎勵信號 rt+1。
並行地消除數据地相關性
‘深(deep)’的程度可以由函數或者參數的數量來推斷。計算機硬件以及算法的發展使得計算機能夠在合適的時間範圍內完成上圖所述的函數的計算,這是深度學習異軍突起揹後的原因。
我們曾經介紹過強化學習:
Gorila 結搆運行在很多不同的機器上,這讓它們可以共同運行深度 Q 網絡。我們有許多個代理並行運行的實例,有我們環境的許多不同的實例,這些環境都是基於許多不同的機器,這樣便能讓我們在力所能及的情況下生成儘可能多的經歷。
學習能夠實現目標的特征
深度學習介紹
決斗網絡(DuelingNetwork)
直接的原始輸入
相关的主题文章: