深度強化學習的演化:從價值函數到世界模型與模仿學習
導論
深度強化學習(Deep Reinforcement Learning, DRL)是人工智慧領域中最具突破性的分支之一,它將深度學習的感知與表徵能力與強化學習的決策制定框架相結合,賦予了智能體(agent)在複雜、高維度環境中從零開始學習最佳策略的能力 。從在雅達利(Atari)遊戲中超越人類專家水平 ,到在圍棋等策略遊戲中達到巔峰,DRL 的發展歷程不僅是一系列演算法的迭代,更是一場關於如何有效學習、穩定訓練以及在不同資訊條件下做出決策的思想演化。
本報告旨在深入剖析深度強化學習從其 foundational breakthrough 到當前前沿研究的演化路徑。我們將追溯這條從基礎的 Deep Q-Learning(DQN)開始,途經策略梯度方法(Policy Gradient Methods)的成熟代表 Proximal Policy Optimization(PPO),再到引入環境內部模型的 World Models,最終探討在缺乏明確獎勵訊號下如何學習的模仿學習(Imitation Learning)範式。此分析將不僅僅是演算法的羅列,而是著重於揭示每一次演進背後的動機:前代演算法遇到了何種瓶頸?新的思想和機制如何解決這些問題?以及這些創新如何共同塑造了我們今天所知的 DRL 領域。
為了給讀者提供一個清晰的宏觀視角,下表概述了本報告將要探討的主要 DRL 範式及其核心特徵。
表 1:主要深度強化學習範式對比分析
範式 (Paradigm) | 關鍵演算法 (Key Algorithms) | 核心原理 (Core Principle) | 樣本效率 (Sample Efficiency) | 穩定性 (Stability) | 連續動作空間處理 (Continuous Actions) | 獎勵函數需求 (Reward Function) |
價值基礎 (Value-Based) | DQN, Double DQN, Dueling DQN | 學習一個價值函數(Q-function)來評估在特定狀態下採取每個動作的好壞,策略是隱含地選擇價值最高的動作。 | 較低(Off-policy 特性有助於重用數據) | 中等(易受不穩定性影響,需特殊機制) | 困難(需要對動作空間進行離散化) | 必要 |
策略基礎 (Policy-Based) | REINFORCE, TRPO, PPO | 直接學習一個參數化的策略(Policy),該策略將狀態映射到動作(或動作的機率分佈)。 | 低(On-policy 特性通常導致樣本效率低下) | 較低(梯度估計變異數高) | 良好(直接輸出動作分佈) | 必要 |
行動者-評論家 (Actor-Critic) | A2C, A3C, DDPG, SAC | 結合價值基礎和策略基礎方法。行動者(Actor)負責決策,評論家(Critic)負責評估行動者的決策,以降低梯度變異數。 | 中等 | 中高(Critic 降低了變異數) | 良好 | 必要 |
模型基礎 (Model-Based) | World Models, Dreamer | 學習一個環境的動態模型,並利用該模型進行規劃或生成模擬經驗來訓練策略。 | 高(可透過模型生成大量模擬數據) | 取決於模型準確性 | 良好 | 必要 |
模仿學習 (Imitation Learning) | Behavior Cloning, DAgger, IRL, GAIL | 在沒有獎勵函數的情況下,從專家示範中學習策略。 | 高(直接利用專家數據) | 中等(面臨共變數偏移等問題) | 取決於具體演算法 | 不需要(從示範中推斷) |
匯出到試算表
本報告將依循這條演化脈絡,深入每一個範式的內部,揭示其機制、優勢與挑戰,最終描繪出一幅深度強化學習發展的完整圖景。
第一部分:深度強化學習的黎明 – 價值基礎方法
本部分將奠定深度強化學習的基礎性突破——深度 Q 網路(Deep Q-Networks, DQN),它成功地將傳統的 Q-learning 原理與深度神經網路的強大功能結合起來。我們將剖析它解決的核心問題、引入的新挑戰,以及隨後湧現的、旨在完善其性能的眾多創新。
1.1 典範轉移:從表格式 Q-Learning 到深度 Q-網路 (DQN)
在深度學習革命之前,強化學習領域主要由表格式方法主導,其中 Q-learning 是最具代表性的演算法之一。其核心思想是,智能體透過與環境互動,學習並維護一個稱為 Q-table 的表格,該表格儲存了在每個可能狀態(state)下採取每個可能動作(action)所能獲得的預期累積回報(Q-value)。然而,這種方法的應用範圍受到了其根本性限制的嚴重束縛,即「維度災難」(curse of dimensionality)。
對於狀態空間或動作空間龐大或連續的問題,Q-table 的規模會呈指數級增長,使其在計算上和記憶體上都變得不可行 。例如,一個擁有數千個狀態和每個狀態數千個動作的遊戲,就需要一個包含數百萬個單元格的 Q-table 。更重要的是,表格式方法無法將從已見狀態中學到的知識推廣到未見過的相似狀態,智能體必須親身經歷每一個狀態-動作對才能學習其價值,這極大地限制了其學習效率和泛化能力 。
2013 年,DeepMind 發表了一篇開創性的論文,標誌著深度強化學習時代的到來 。他們提出的深度 Q-網路(DQN)首次成功地讓一個深度學習模型直接從高維度的感官輸入(如原始像素)中學習控制策略。其核心創新在於用一個**深度神經網路作為函數逼近器(function approximator)**來取代巨大的 Q-table 。這個網路的輸入是環境的狀態(例如,經過預處理的連續幾幀遊戲畫面),輸出則是一個向量,其中每個元素對應一個可能動作的 Q-value 。
這種函數逼近的方法賦予了智能體強大的泛化能力,從而克服了維度災難。神經網路,特別是卷積神經網路(CNN),能夠自動從高維輸入中提取有意義的特徵(例如,從遊戲畫面中識別出球、擋板或敵人)。這使得智能體能夠將從某些狀態中學到的經驗應用於從未見過但特徵相似的新狀態 。這就像人類學習下棋一樣,不是去記憶每一個可能的棋盤佈局,而是學習通用的策略和原則 。DQN 的出現,證明了將深度學習的表徵能力與強化學習的決策框架相結合是可行的,為解決 ранее 棘手的複雜問題開闢了全新的道路。
1.2 馴服不穩定性:經驗重播與目標網路的核心機制
儘管用神經網路取代 Q-table 解決了維度問題,但這種結合並非一帆風順。簡單地將兩者結合會導致訓練過程極度不穩定。這種不穩定性源於強化學習與深度學習基本假設之間的衝突,特別是所謂的「死亡三元組」(Deadly Triad)問題的體現:
- 樣本相關性:在強化學習中,智能體收集的經驗是一個時間上連續的序列,相鄰的樣本之間具有高度相關性。這嚴重違反了深度學習中梯度下降法通常所依賴的「獨立同分佈」(I.I.D.)的數據假設 。在這種相關數據上訓練神經網路,容易導致模型陷入局部最優或發散。
- 目標值非定常性:Q-learning 的更新目標(target)本身就依賴於 Q-value 的估計。當使用一個神經網路來估計 Q-value 時,網路的權重在每一步訓練後都會更新。這意味著,用於計算目標值的網路也在不斷變化,導致學習目標本身處於不穩定的移動狀態,這被稱為「移動目標問題」(moving target problem)。智能體就像在追逐一個不斷移動的靶子,難以收斂。
為了馴服這種不穩定性,DQN 的設計者引入了兩個至關重要的工程解決方案:經驗重播(Experience Replay)和目標網路(Target Networks)。
經驗重播 (Experience Replay) 這是一個受生物學啟發的機制,其核心思想是建立一個大型的記憶體緩衝區(replay buffer),用來儲存智能體在與環境互動過程中經歷的轉換元組 (s, a, r, s')
,即(狀態、動作、獎勵、下一狀態)。在訓練階段,演算法不是使用最新產生的單一樣本,而是從這個緩衝區中隨機採樣一個小批量(mini-batch)的經驗來更新神經網路。這個簡單的過程達成了兩個關鍵目標:
- 打破時間相關性:透過隨機採樣,來自不同時間、不同軌跡的經驗被混合在一起,有效地打破了樣本之間的順序相關性。這使得訓練數據更接近 I.I.D. 假設,從而使神經網路的訓練更加穩定和高效 。
- 提高樣本效率:每個經驗樣本都被儲存在緩衝區中,可以在後續的訓練中被多次重複使用。這避免了傳統線上學習中「用後即棄」的數據浪費,極大地提高了數據利用率,讓智能體能從每一次與環境的互動中學到更多 。
目標網路 (Target Networks) 為了解決「移動目標問題」,DQN 引入了一個結構相同但參數獨立的第二個神經網路,稱為目標網路 。在計算 Q-learning 的目標值
$y_i = r + \gamma \max_{a'} Q(s', a'; \theta^{-})$
時,最大化未來 Q-value 的操作是在這個目標網路上進行的,其參數為 $\theta^{-}$
。而正在被訓練的網路,我們稱之為「線上網路」(online network),其參數為 $\theta$
。
目標網路的參數 $\theta^{-}$
並不隨每一步梯度下降而更新。相反,它們被「凍結」一段時間,然後定期地(例如,每隔 C 個訓練步驟)從線上網路中完整複製參數 $\theta$
過來。這種延遲更新的機制,為線上網路的學習過程提供了一個穩定、一致的目標。這就好比在優化過程中設定一個固定的參考點,可以有效防止震盪和發散,從而穩定學習過程 。
總結來說,DQN 的成功並不僅僅在於使用了神經網路,更關鍵的是它透過經驗重播和目標網路這兩個巧妙的設計,成功地解決了將函數逼近與自舉(bootstrapping)結合時產生的內在不穩定性。這是一次穩定化一個本質上不穩定學習動態的工程勝利。
1.3 DQN 動物園:一個持續改進的生態系統
最初的 DQN 演算法為深度強化學習奠定了堅實的基礎,但它也存在一些固有的問題,這激發了研究界開發一系列改進版本,形成了一個被戲稱為「DQN 動物園」(DQN Zoo)的演算法生態系統。這些改進旨在從不同角度提升 DQN 的性能、穩定性和效率。
雙重 DQN (Double DQN, DDQN) 標準 DQN 的一個主要問題是Q-value 的過度估計(overestimation)。這個問題源於目標計算中的
$\max$
操作。由於估計誤差的存在,$\max_{a'} Q(s', a')$
傾向於選擇那些被偶然高估了價值的動作,導致計算出的目標值系統性地偏高。這種正向偏差會隨著學習過程不斷累積,損害策略的性能 。
為了解決這個問題,Hado van Hasselt 等人提出了雙重 DQN(Double DQN)。其核心思想是將
動作選擇與動作評估這兩個步驟解耦 。具體來說,在計算目標值時,DDQN 使用當前的線上網路(參數
$\theta$
)來選擇在下一狀態 s'
中價值最高的動作 a*
,即 $a^* = \arg\max_{a'} Q(s', a'; \theta)$
。然後,它使用穩定的目標網路(參數 $\theta^{-}$
)來評估這個被選中動作的價值,即 $y_i = r + \gamma Q(s', a^*; \theta^{-})$
。透過這種方式,DDQN 避免了在同一個(可能存在高估偏差的)價值估計集合中同時進行選擇和評估,從而得到了更準確的價值估計,並在許多遊戲中取得了比原始 DQN 更好的性能 。
決鬥網路架構 (Dueling Network Architectures) 另一項重要的創新是決鬥網路架構。它將 Q-network 的輸出層分解為兩個獨立的分支(streams):一個分支用於估計狀態本身的價值函數(state-value function)$V(s)$
,另一個分支用於估計在該狀態下每個動作相對於平均動作的優勢函數(advantage function)$A(s, a)$
。最後,這兩個分支的輸出被結合起來,形成最終的 Q-value 估計。這種架構的優勢在於,它能夠在不需要評估每個動作影響的情況下,學習哪些狀態是有價值的。這在許多動作的價值相近的場景中尤其有效,因為網路可以更專注於評估狀態的價值,從而實現更穩健的策略評估。
優先經驗重播 (Prioritized Experience Replay, PER) PER 是對標準經驗重播機制的重大改進,旨在進一步提升樣本效率 。標準的經驗重播是從緩衝區中均勻隨機地採樣,這意味著無論一個經驗多麼「有啟發性」,它被選中的機率都是一樣的。PER 的核心思想是,智能體應該更頻繁地從那些它能學到最多的經驗中學習。
它透過非均勻採樣來實現這一點,優先選擇那些具有較大時序差分誤差(TD-error)的轉換樣本。較大的 TD-error 通常意味著智能體對該狀態價值的預測與實際觀測到的回報之間存在較大差異,即這個經驗對智能體來說是「令人驚訝」或信息量豐富的。透過優先重播這些樣本,PER 使得學習過程能更集中地修正錯誤的預測,從而加速收斂並提升整體性能。
從示範中進行深度 Q 學習 (Deep Q-learning from Demonstrations, DQfD) DQfD 是一個重要的變體,它為解決強化學習早期訓練階段效率低下和數據需求量大的問題提供了思路,同時也構建了通往第四部分模仿學習的橋樑 。標準的 DRL 演算法通常需要大量的試錯才能學到合理的策略,這在模擬器中尚可接受,但在現實世界任務中可能代價高昂甚至不可行。DQfD 透過利用少量的專家示範數據來極大地加速學習過程。它在訓練開始前,先用專家數據對網路進行預訓練。在隨後的互動學習階段,它將標準的 TD 損失與一個監督損失相結合,後者鼓勵智能體的 Q-value 能夠使專家採取的動作具有比其他動作更高的價值。這種混合方法使得智能體能夠從一個更好的起點開始學習,在訓練初期就表現出遠超標準 DQN 的性能,並能更快地達到甚至超越專家的水平 。
這些 DQN 的變體共同構成了一個豐富的工具箱,它們從減少估計偏差、改進網路架構、優化數據採樣策略以及融合專家知識等多個維度,系統性地提升了價值基礎 DRL 方法的穩定性與效率。
第二部分:直接策略優化 – 策略梯度方法的興起
第一部分探討的價值基礎方法,透過學習一個精確的價值函數來間接指導決策,取得了巨大成功。然而,這種間接性也帶來了固有的局限性。本部分將闡述為何需要從學習價值轉向直接學習策略,並追蹤策略梯度方法從基礎概念演化到當今被廣泛使用的 PPO 演算法的完整路徑。
2.1 價值基礎學習的局限與向策略梯度的轉變
儘管 DQN 及其變體在處理高維狀態空間方面表現出色,但它們在某些類型的問題上卻顯得力不從心。這些局限性促使研究者們探索一種更直接的策略學習方法 。
價值基礎方法的主要瓶頸包括:
- 連續動作空間的挑戰:DQN 的核心操作之一是在所有可能的動作中選出 Q-value 最高的動作(
$\arg\max_a Q(s,a)$
)。當動作空間是離散且有限時,這是一個簡單的比較操作。然而,在連續或高維度的動作空間中(例如,機器人手臂關節的角度或油門的力度),執行這個$\max$
操作本身就是一個複雜的、難以處理的優化問題 。 - 無法學習隨機策略:價值基礎方法通常會收斂到一個確定性策略(deterministic policy),即在每個狀態下總是選擇價值最高的動作。即使是
$\epsilon$
-greedy 策略,也只是在確定性策略的基礎上增加了隨機探索,其本質上是準確定性的。然而,在某些環境中,最優策略本身就是隨機的(stochastic)。例如,在「剪刀、石頭、布」遊戲中,任何確定性策略都很容易被對手預測和利用。此外,當環境中存在狀態混淆(aliased states,即不同的真實狀態在智能體看來是相同的)時,隨機策略也可能是必要的 。 - 策略的不穩定性:在價值基礎方法中,策略是隱含地由價值函數決定的。這意味著,Q-value 估計的一個微小變化,可能會導致
$\arg\max$
的結果發生突變,從而引起策略的劇烈、非連續性變化。例如,某個動作的 Q-value 從 0.22 輕微增加到 0.23,就可能使其成為新的最優動作,導致策略從主要選擇「左」突然變為主要選擇「右」。這種不連續的變化給學習過程帶來了不穩定性 。
為了解決這些問題,策略梯度(Policy Gradient, PG)方法應運而生。其核心思想是放棄間接的價值學習,轉而直接對策略本身進行參數化和優化。具體來說,我們用一個帶有參數 $\theta$
的神經網路來表示策略 $\pi_\theta(a|s)$
,這個網路直接輸出在狀態 s
下採取動作 a
的機率(或對於連續動作,輸出一個機率分佈的參數,如高斯分佈的均值和標準差)。學習的目標是找到一組最優參數 $\theta^*$
,使得預期累積回報 $J(\theta)$
最大化。這個優化過程是透過在 $J(\theta)$
的梯度方向上進行梯度上升來實現的 。
根據由 Sutton 和 Barto 等人證明的策略梯度定理(Policy Gradient Theorem),目標函數的梯度可以表示為一個期望的形式,這使得我們可以透過採樣來估計梯度並更新策略 。這種直接優化策略的方式,天然地支持連續動作空間和隨機策略,並且策略的更新過程更加平滑,從而為解決價值基礎方法的固有難題提供了根本性的途徑。
2.2 行動者-評論家框架:一種混合方法
儘管策略梯度方法在理論上具有吸引力,但最基礎的 PG 演算法(如 REINFORCE)在實踐中卻面臨一個嚴峻的挑戰:梯度估計的高變異數(high variance)。REINFORCE 這類演算法通常依賴於完整的蒙地卡羅(Monte Carlo)軌跡來估計回報(return),即從某個時間步開始直到整個回合結束的累積獎勵。由於環境的隨機性和策略的隨機性,即使在同一個狀態下,執行一個回合所得到的最終回報也可能會有巨大的波動。這種高噪聲的回報估計導致計算出的策略梯度也具有很高的變異數,使得學習過程非常緩慢且不穩定 。
為了應對這一挑戰,**行動者-評論家(Actor-Critic, AC)**框架被提出,它巧妙地融合了策略基礎和價值基礎方法的優點 。AC 框架將智能體分解為兩個協同工作的組件:
- 行動者(Actor):這是一個策略網路,其參數為
$\theta$
,即$\pi_\theta(a|s)$
。它的職責是根據當前狀態s
選擇一個動作a
,直接控制智能體的行為。這部分繼承了策略梯度方法的優點 。 - 評論家(Critic):這是一個價值網路,其參數為
$\phi$
。它的職責是評估「行動者」所選擇的動作的好壞。它學習一個價值函數,如狀態價值函數$V_\phi(s)$
或狀態-動作價值函數$Q_\phi(s,a)$
。
這兩個組件的協作流程如下:行動者根據其策略執行一個動作,評論家則觀察這個動作產生的結果,並給出一個評分。這個評分被用來指導行動者的策略更新。與其使用充滿噪聲的蒙地卡羅回報,AC 方法使用評論家的價值估計來計算一個更穩定的學習訊號。
這個學習訊號通常以**優勢函數(Advantage Function)**的形式出現,定義為 $A(s,a) = Q(s,a) - V(s)$
。優勢函數的直觀意義是:在狀態
s
下,採取動作 a
比平均情況下(即遵循當前策略)要好多少。如果 $A(s,a) > 0$
,說明動作 a
是一個比平均更好的選擇,策略更新就會增加選擇 a
的機率;反之,如果 $A(s,a) < 0$
,則會降低選擇 a
的機率。
透過使用評論家提供的、基於自舉(bootstrapping)的價值估計來計算優勢函數,AC 方法有效地用一個偏差較小、變異數低得多的學習訊號取代了高變異數的蒙地卡羅回報。這極大地穩定和加速了策略的學習過程,使得 AC 框架成為現代策略梯度方法的主流架構。
2.3 透過平行化擴展:A2C 與 A3C
隨著行動者-評論家(AC)框架的確立,下一個挑戰是如何有效地將其擴展到大規模問題中,以利用現代計算硬體的平行處理能力。在這一背景下,DeepMind 於 2016 年提出的**異步優勢行動者-評論家(Asynchronous Advantage Actor-Critic, A3C)**演算法成為了一個里程碑 。
A3C 的核心思想是利用多個 CPU 核心進行平行計算。它創建了多個「工作者」(worker)智能體,每個工作者都有自己獨立的網路參數副本和環境副本 。這些工作者在各自的環境中獨立地、平行地收集經驗數據並計算策略梯度。然後,它們將計算出的梯度
異步地(asynchronously)應用於一個中央的、全域的網路模型上 。完成更新後,工作者會將自己的本地網路參數與更新後的全域參數同步,然後繼續下一輪的數據收集。
這種異步更新的機制被認為是 A3C 成功的一個關鍵因素。因為每個工作者都在探索環境的不同部分,它們產生的經驗數據流具有很高的多樣性。將這些多樣化的梯度流持續不斷地、異步地應用於全域模型,起到了一種類似於經驗重播的去相關作用,打破了數據的時間相關性,從而穩定化了訓練過程 。A3C 的設計使其能夠高效利用多核 CPU,而無需依賴昂貴的 GPU 或大型經驗重播緩衝區 。
然而,後續的研究發現,A3C 成功的關鍵可能並非「異步更新」本身,而是「平行數據收集」所帶來的數據多樣性。這催生了優勢行動者-評論家(Advantage Actor-Critic, A2C)的出現,它本質上是 A3C 的一個同步(synchronous)、確定性版本 。
在 A2C 中,同樣存在多個平行工作的智能體。但與 A3C 不同的是,A2C 引入了一個中央協調器。協調器會等待所有的工作者都完成了一定數量的環境互動步驟後,將它們收集到的所有經驗或計算出的所有梯度聚合起來 。然後,協調器計算一個平均梯度,並用這個梯度對全域網路進行一次性的、大批量的更新 。
這種同步更新的方式使得 A2C 能夠更有效地利用 GPU 的平行計算能力,因為 GPU 在處理大批量數據時效率最高 。實踐證明,A2C 不僅實現起來比 A3C 更簡單,而且在性能上也常常能與 A3C 匹敵甚至超越後者。這一結果表明,A3C 的性能提升主要歸功於使用平行環境來穩定學習過程,而不是異步更新所帶來的噪聲正則化效應 。A2C 的出現,為後來的 PPO 等更先進的演算法奠定了基礎,確立了基於平行環境收集數據、進行大批量同步更新的訓練範式。
2.4 近端策略優化 (PPO):現代的黃金標準
儘管 A2C/A3C 等行動者-評論家方法在穩定性上取得了顯著進步,但標準的策略梯度更新仍然存在一個根本性的風險:更新步長(step size)的選擇極其敏感。如果學習率設置得過大,一次糟糕的更新就可能導致策略性能的災難性崩潰,這種「破壞性的大幅度策略更新」會讓智能體之前的學習成果毀於一旦,且難以恢復 。
為了解決這個問題,研究者們提出了信任區域策略優化(Trust Region Policy Optimization, TRPO)。TRPO 透過在每次更新時施加一個約束,確保新策略與舊策略之間的差異(通常用 KL 散度衡量)不超過一個小的「信任區域」,從而保證了策略的單調改進。然而,TRPO 的約束是一個二階優化問題,計算複雜且難以與現代深度學習框架中常用的隨機梯度下降(SGD)及其變體(如 Adam)兼容 。
**近端策略優化(Proximal Policy Optimization, PPO)**應運而生,其目標是在不犧牲 TRPO 穩定性的前提下,提供一種實現更簡單、計算效率更高的一階優化演算法 。PPO 憑藉其出色的性能和易用性,迅速成為了深度強化學習領域的「黃金標準」之一。
PPO 的核心創新在於其獨特的裁剪代理目標函數(Clipped Surrogate Objective Function)。這個目標函數的設計巧妙地在目標函數內部實現了類似於信任區域的約束效果。讓我們詳細分解其構成:
- 機率比率(Probability Ratio):PPO 首先計算新策略
$\pi_\theta(a_t|s_t)$
與產生數據的舊策略$\pi_{\theta_{old}}(a_t|s_t)$
之間對同一個動作的機率比:$$r_t(\theta) = \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}$$
這個比率$r_t(\theta)$
衡量了策略更新的幅度。如果$r_t > 1$
,表示新策略更傾向於採取該動作;如果$r_t < 1$
,則表示傾向性降低 。 - 代理目標(Surrogate Objective):標準的策略梯度目標被替換為
$L(\theta) = r_t(\theta) \cdot \hat{A}_t$
,其中$\hat{A}_t$
是在時間步t
的優勢函數估計。 - 裁剪機制(Clipping Mechanism):這是 PPO 的精髓所在。為了防止
$r_t(\theta)$
變得過大或過小(這會導致劇烈的策略更新),PPO 引入了一個裁剪操作。它將$r_t(\theta)$
的值限制在一個小的區間$[1-\epsilon, 1+\epsilon]$
內,其中$\epsilon$
是一個超參數(通常取 0.1 或 0.2)。這產生了目標函數的第二個部分:$\text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) \cdot \hat{A}_t$
。 - 最終目標函數:PPO 最終的目標函數是取上述兩個部分中的最小值:
$$L^{CLIP}(\theta) = \mathbb{E}_t \left[ \min\left( r_t(\theta)\hat{A}_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon)\hat{A}_t \right) \right]$$
這個$\min$
操作是關鍵。當優勢$\hat{A}_t$
為正時(即動作優於平均),目標函數變為$\min(r_t(\theta)\hat{A}_t, (1+\epsilon)\hat{A}_t)$
。這意味著即使$r_t(\theta)$
變得很大,策略更新的幅度也會被$(1+\epsilon)$
所限制,從而阻止了過於激進的更新。當優勢為負時,同理也會限制更新的幅度。
這種設計創建了一個對策略改進的「悲觀下界」(pessimistic lower bound),有效地懲罰了那些試圖偏離舊策略太遠的更新,確保了訓練的穩定性 。PPO 這種簡單而優雅的裁剪機制,使其能夠在同一批數據上安全地進行多輪(epochs)的小批量(minibatch)更新,這極大地提高了樣本複雜度(sample complexity),使其在性能、實現簡單性和穩定性之間達到了絕佳的平衡 。
從 DQN 到 PPO 的演化,反映了 DRL 領域在馴服不穩定性方面的持續進步:首先是穩定價值函數本身(DQN),然後是穩定高變異數的策略梯度(AC),最終是穩定策略更新的步長(PPO)。
第三部分:學習內部世界 – 模型基礎的前沿
前面探討的價值基礎和策略基礎方法都屬於「無模型」(model-free)強化學習的範疇,它們直接從與環境的互動經驗中學習價值函數或策略,而無需理解環境的內部運作機制。本部分將探索強化學習演化樹的另一個重要分支:「模型基礎」(model-based)RL。這些方法不直接學習如何行動,而是首先學習一個環境本身的動態模型,這一策略上的轉變,為解決樣本效率問題帶來了巨大的潛力。
3.1 模型基礎與無模型的二分法
在強化學習中,根據智能體是否學習環境的動態模型,可以將演算法分為兩大類 。
- 無模型強化學習 (Model-Free RL):如前述的 DQN 和 PPO,這類演算法的智能體將環境視為一個「黑盒子」。它不試圖去理解狀態是如何轉換的,或者獎勵是如何生成的。相反,它完全透過試錯(trial-and-error)的方式,直接從經驗元組
$(s, a, r, s')$
中學習一個價值函數或一個策略 。其學習的核心是回答「在狀態s
做什麼動作a
好?」這個問題。 - 模型基礎強化學習 (Model-Based RL):這類演算法的智能體則採取一種更間接的方式。它首先致力於學習一個環境的模型,這個模型通常用來預測在給定當前狀態
s
和動作a
的情況下,下一個狀態s'
和獎勵r
的機率分佈,即$p(s', r | s, a)$
。一旦學到了這個模型,智能體就可以利用它來進行「規劃」(planning)。例如,它可以在內部「想像」或「模擬」執行一系列動作後可能產生的後果,而無需與真實環境進行互動,從而找到一個最優的行動計劃 。其學習的核心是回答「如果我在狀態s
做動作a
,世界會變成什麼樣?」這個問題。
這兩種範式之間存在一個核心的權衡,主要體現在樣本效率和漸進性能上:
- 樣本效率 (Sample Efficiency):模型基礎方法通常具有顯著更高的樣本效率 。原因在於,一旦學會了環境模型,智能體就可以利用這個模型生成大量的模擬數據或「想像的經驗」(imagined experience),從而極大地減少了與真實世界互動的需求 。這在那些真實世界樣本收集成本高昂(如金融交易)、耗時長(如藥物研發)或存在危險(如機器人控制、自動駕駛)的領域中至關重要 。
- 漸進性能 (Asymptotic Performance) 與模型偏差 (Model Bias):儘管樣本效率高,但模型基礎方法的最終性能上限卻受制於其所學模型的準確性。如果學習到的模型與真實環境存在偏差(即「模型偏差」),那麼基於這個有缺陷的模型規劃出的策略也將是次優的 。相比之下,無模型方法直接從真實環境中學習,不受模型偏差的限制,因此在有足夠多的數據進行訓練時,它們往往能達到更高的最終(漸進)性能 。
這種二分法代表了強化學習中兩種截然不同的學習哲學:是直接學習「怎麼做」(無模型),還是先學習「世界如何運作」然後再決定「怎麼做」(模型基礎)。
3.2 世界模型:在潛在空間中學習做夢
模型基礎強化學習的理念雖然誘人,但長期以來面臨一個巨大挑戰:為複雜的高維環境(如從像素輸入的遊戲世界)學習一個準確的動態模型極其困難。直接預測下一幀圖像中的每一個像素不僅計算量巨大,而且微小的預測誤差會隨著時間迅速累積,導致模擬出的軌跡很快與現實脫節。
2018 年,David Ha 和 Jürgen Schmidhuber 提出的「世界模型」(World Models)論文為這一難題提供了一個革命性的解決方案 。其核心思想深受人類認知系統的啟發:我們並不在大腦中對世界的每一個細節進行模擬,而是建立一個抽象的、壓縮的內部心智模型,並基於這個模型進行預測和決策 。世界模型的目標正是將複雜的
感知/建模問題與相對簡單的控制問題分離開來 。
世界模型架構由三個核心組件構成,分別是 V、M 和 C :
- 視覺模型 (Vision Model, V):這是一個變分自動編碼器(Variational Autoencoder, VAE)。它的任務是在無監督的情況下,將從環境中觀測到的高維原始輸入(如
64x64x3
的像素圖像)壓縮成一個低維的潛在向量(latent vector)$z$
。這個潛在向量$z$
捕捉了觀測圖像的空間精華,形成了一個關於世界的壓縮空間表徵。例如,它可以將複雜的賽道畫面壓縮成一個僅 32 維的向量 。 - 記憶模型 (Memory Model, M):這是一個循環神經網路(Recurrent Neural Network, RNN),通常與混合密度網路(Mixture Density Network, MDN)結合使用。V 模型負責壓縮空間資訊,而 M 模型則負責學習和壓縮時間動態。它在低維的潛在空間中運作,其目標是學習預測下一個潛在狀態
$z_{t+1}$
的機率分佈,即$p(z_{t+1} | z_t, a_t, h_t)$
,其中$a_t$
是當前動作,$h_t$
是 RNN 的隱藏狀態 。由於環境可能是隨機的,M 模型輸出的是一個機率分佈(通常是高斯混合模型),而不是一個確定的預測。這個 M 模型構成了世界模型的預測核心。 - 控制器 (Controller, C):這是一個極其小巧和簡單的策略網路,例如,可以只是一個單層的線性模型。它的輸入是當前的潛在狀態
$z_t$
和記憶模型的隱藏狀態$h_t$
,輸出則是動作$a_t$
。控制器的極簡設計是世界模型理念的關鍵:將智能體的絕大部分複雜性(數百萬甚至更多的參數)都放在了 V 和 M 模型中,而控制問題則在一個參數極少(可能只有幾百個)的空間中解決 。
世界模型的精妙之處在於,它沒有試圖在像素級別上預測未來,而是首先透過無監督學習(VAE)創建了一個更簡單、更抽象的「遊樂場」(即潛在空間),然後在這個遊樂場裡學習動態模型(MDN-RNN)。這使得學習一個有用的預測模型變得更加可行和高效。
3.3 在幻覺現實中訓練:想像的力量
世界模型最引人注目的特點之一是其新穎的兩階段訓練流程,特別是控制器(C)的訓練方式,即完全在其由 M 模型生成的「夢境」或「幻覺現實」中進行 。
訓練流程詳解
- 第一階段:學習世界模型(無監督) 首先,智能體透過在真實環境中執行隨機策略來收集大量的原始觀測數據(例如,數千次遊戲的畫面序列)。然後,利用這些數據,在完全無監督的方式下訓練 V 模型和 M 模型。V 模型(VAE)學習如何將每一幀圖像壓縮成潛在向量
$z$
,而 M 模型(MDN-RNN)則學習在給定當前潛在狀態$z_t$
和動作$a_t$
的情況下,如何預測下一個潛在狀態$z_{t+1}$
的機率分佈 。這個階段結束後,我們就得到了一個可以模擬潛在空間動態的「世界模型」。 - 第二階段:在「夢境」中訓練控制器 一旦世界模型訓練完成,控制器的訓練就可以完全脫離真實環境進行。整個過程發生在由 M 模型創造的虛擬環境中 。
- 夢境的運作方式:M 模型此時扮演了一個完整的模擬器角色。控制器 C 接收一個初始的潛在狀態
$z_t$
和隱藏狀態$h_t$
,輸出一動作$a_t$
。這個動作與$z_t, h_t$
一同被送入 M 模型,M 模型則從其預測的機率分佈中採樣出下一個潛在狀態$z_{t+1}$
。這個過程可以不斷重複,從而在潛在空間中生成一條完整的「幻覺」軌跡。 - 優化控制器:在這個虛擬的、基於潛在空間的環境中,控制器 C 的目標是最大化累積獎勵。由於控制器 C 的參數非常少,可以使用對梯度不敏感的演化策略(Evolution Strategies),如協方差矩陣自適應演化策略(CMA-ES),來進行高效的優化。CMA-ES 只需要每條軌跡的最終總回報,而不需要梯度信息,非常適合這種黑箱優化問題 。
- 夢境的運作方式:M 模型此時扮演了一個完整的模擬器角色。控制器 C 接收一個初始的潛在狀態
優勢與策略轉移 這種「在夢中訓練」的模式帶來了巨大的好處:
- 極高的計算效率:在低維的潛在空間中進行模擬,遠比運行一個完整的物理引擎或圖形渲染器來生成真實環境的下一幀要快得多。這使得智能體可以在極短的時間內「想像」並評估數百萬種可能的未來,從而實現了模型基礎 RL 的樣本效率優勢,同時避免了像素級預測的困難 。
- 策略的直接轉移:由於控制器 C 學習到的策略是基於由 V 和 M 模型生成的壓縮表徵
$z_t$
和$h_t$
,而這兩個模型在真實環境和夢境環境中都以同樣的方式運作,因此,在夢境中訓練好的控制器可以被直接部署回真實環境中,與 V 和 M 模型結合,控制智能體與真實世界互動 。
世界模型的範式轉變——將感知/預測與控制解耦——為模型基礎強化學習開闢了新的道路,並啟發了後續一系列成功的模型基礎智能體,如 Dreamer 系列 。
第四部分:向專家學習 – 模仿學習範式
前面的部分都基於一個共同的假設:環境能夠提供一個明確的獎勵函數(reward function),以指導智能體的學習。然而,在許多現實世界的應用中,設計一個能夠準確、無歧義地描述任務目標的獎勵函數本身就是一個巨大的挑戰。本部分將探討一個完全不同的學習範式——模仿學習(Imitation Learning),它解決了一個更根本的問題:當沒有獎勵函數時,智能體如何學習?我們將追蹤其從簡單但有缺陷的行為克隆,演化到更穩健、更強大的對抗性方法的歷程。
4.1 獎勵工程的挑戰與模仿的承諾
標準強化學習框架的核心是最大化累積獎勵。然而,這個框架的有效性嚴重依賴於一個精心設計的獎勵函數。在許多複雜的現實任務中,例如自動駕駛、機器人操作或對話系統,用數學語言精確定義期望的行為是非常困難的 。
一個設計不當的獎勵函數很容易導致「獎勵駭客」(reward hacking)現象:智能體會找到獎勵函數的漏洞或捷徑,以最大化其數值獎勵,但其行為卻與設計者的初衷大相徑庭 。例如,一個被獎勵「收集垃圾」的清潔機器人,可能會學會將垃圾扔到地上再撿起來,以此循環來刷分。
模仿學習(Imitation Learning, IL),也被稱為從示範中學習(Learning from Demonstrations, LfD),為這個難題提供了另一種解決方案。其核心思想是,與其讓工程師費盡心機地設計獎勵函數,不如讓智能體直接從專家的示範中學習 。在許多情況下,讓人類專家
展示如何完成一項任務(例如,開車、疊衣服),遠比讓他們描述完成該任務的獎勵函數要容易得多 。
在模仿學習的框架下,智能體不再接收來自環境的獎勵訊號,取而代之的是一個由專家示範組成的數據集,其中包含了專家在不同狀態下所採取的動作序列。智能體的目標是學習一個策略,使其行為盡可能地接近專家的行為。這種方法將問題從「如何最大化獎勵」轉變為「如何模仿專家」,為在沒有明確獎勵訊號的場景中訓練智能體提供了可行的途徑。
4.2 行為克隆及其致命缺陷:共變數偏移問題
模仿學習中最直觀、最簡單的方法是行為克隆(Behavior Cloning, BC)。BC 將模仿問題直接轉化為一個標準的
監督式學習問題。它將專家示範數據集中的狀態(state)視為輸入特徵(X),將專家採取的動作(action)視為標籤(Y)。然後,訓練一個策略網路 $\pi(a|s)$
來學習從狀態到動作的映射,其目標是最小化網路預測的動作與專家實際採取的動作之間的差異(例如,使用均方誤差或交叉熵損失)。
行為克隆因其簡單性而被廣泛應用,例如,早期的自動駕駛系統 ALVINN 就是透過模仿人類駕駛員的轉向操作來學習駕駛的 。然而,這種看似簡單的方法存在一個致命的缺陷,即**共變數偏移(Covariate Shift)**問題 。
共變數偏移是指模型在訓練時的輸入數據分佈與測試(或部署)時的輸入數據分佈不一致的現象。在行為克隆的背景下,這個問題表現為:
- 訓練分佈:策略網路是在專家所經歷的狀態分佈上進行訓練的。專家由於其高超的技巧,其訪問的狀態通常局限於一條「最優」軌跡周圍。
- 測試分佈:當學習到的策略被部署到環境中時,由於函數逼近的誤差,它不可避免地會犯一些小錯誤。這些小錯誤會將智能體引導到一個稍微偏離專家軌跡的新狀態 。
- 誤差的級聯效應:由於這個新狀態從未在專家的示範數據中出現過,策略網路不知道在這種情況下應該如何正確行動,因此很可能會犯下更大的錯誤。這個更大的錯誤又會將智能體帶到一個更加陌生的狀態,如此惡性循環,導致誤差像滾雪球一樣不斷累積,最終使智能體完全偏離正常軌道,導致任務失敗 。
這個問題的根本原因在於,BC 違反了監督式學習的 I.I.D. 假設。在序列決策問題中,智能體自身的動作會影響其未來觀測到的狀態,從而改變了數據的分佈。BC 僅僅學習了在「專家會遇到的狀態」下該怎麼做,卻沒有學會如何從「自己犯錯後會遇到的狀態」中恢復過來。這種分佈不匹配導致了 BC 的泛化能力很差,使其在許多實際應用中表現得非常脆弱。
4.3 透過神諭修正路線:數據集聚合 (DAgger)
為了解決行為克隆中致命的共變數偏移問題,Stéphane Ross 和 J. Andrew Bagnell 提出了一種優雅而有效的解決方案,名為數據集聚合(Dataset Aggregation, DAgger)演算法 。與被動地學習一個靜態數據集的 BC 不同,DAgger 是一種
互動式(interactive)的演算法,它需要一個能夠在線查詢的「專家神諭」(expert oracle)。
DAgger 的核心思想是,既然問題出在訓練數據的分佈與學習者實際遇到的狀態分佈不匹配,那麼我們就應該讓學習者在自己將要遇到的狀態分佈上進行訓練。它透過一個迭代的循環過程來實現這一點 :
- 初始化:首先,使用初始的專家示範數據集訓練一個初始策略
$\pi_1$
(這一步等同於標準的行為克隆)。 - 執行與收集:在第
i
次迭代中,讓當前的策略$\pi_i$
在環境中運行,收集一條或多條新的軌跡。這條軌跡所包含的狀態,正是策略$\pi_i$
在實際執行時最有可能遇到的狀態。 - 查詢專家:對於在這條新軌跡上收集到的每一個狀態
s
,向專家神諭查詢:「在這種情況下,你(專家)會採取什麼動作?」專家會給出正確的動作標籤$\pi^*(s)$
。 - 數據集聚合:將新收集到的狀態-專家動作對
$(s, \pi^*(s))$
聚合到一個不斷增長的總數據集中。這個總數據集包含了之前所有迭代中收集到的數據。 - 重新訓練:使用這個聚合後的、規模更大、分佈更廣的數據集,重新訓練一個新的、更好的策略
$\pi_{i+1}$
。 - 重複:重複步驟 2 到 5,直到策略性能收斂。
DAgger 為何有效? DAgger 透過這種迭代式的「執行-查詢-聚合-再訓練」循環,直接地解決了共變數偏移問題。在每一次迭代中,它迫使訓練數據的分佈逐漸向學習者自身的狀態分佈靠攏 。當學習者犯錯並進入一個陌生狀態時,DAgger 會記錄下這個狀態,並從專家那裡獲得正確的應對方式。這些「糾錯」數據被加入到訓練集中,使得下一代的策略學會了如何從類似的錯誤中恢復。
從本質上講,DAgger 讓智能體在訓練過程中「看到」了自己未來可能會犯的錯誤,並提前從專家那裡學到了補救措施。這使得最終學到的策略對其自身可能引起的狀態分佈具有更強的魯棒性,從而顯著優於單純的行為克隆。
4.4 推斷意圖:逆強化學習 (IRL) 簡介
行為克隆和 DAgger 都屬於直接模仿專家行為(policy)的方法。然而,模仿學習領域還存在另一種更深層次的範式:逆強化學習(Inverse Reinforcement Learning, IRL)。IRL 的目標不是模仿專家的「做什麼」(what),而是推斷專家「為什麼這麼做」(why),即恢復專家行為背後潛在的獎勵函數 。
IRL 的基本假設是,專家是在最大化某個未知的獎勵函數。因此,透過觀察專家的行為軌跡,我們可以反向推斷出最能解釋這些行為的獎勵函數是什麼 。
一個典型的 IRL 演算法流程大致如下:
- 隨機初始化一個獎勵函數。
- 在當前的獎勵函數下,使用標準的(正向)強化學習演算法(如價值迭代或策略梯度)求解出最優策略。
- 比較求解出的策略與專家策略的差異。
- 根據差異,更新獎勵函數,使得專家策略在該獎勵函數下的價值更高。
- 重複步驟 2 到 4,直到找到一個能讓專家策略顯得最優的獎勵函數。
相對於直接策略模仿的優勢 學習獎勵函數通常被認為是一種比直接模仿策略更穩健和可泛化的方法 :
- 更簡潔的任務表示:獎勵函數通常是比策略更簡潔、更本質的任務描述。例如,「避免碰撞並盡快到達目的地」這個獎勵函數,比描述在每個路口、每種車流情況下的具體駕駛操作的策略要簡潔得多。
- 更好的泛化能力:一個學到的獎勵函數可以更好地遷移到動態環境發生變化的新場景中。例如,如果我們學會了自動駕駛的獎勵函數,即使地圖或交通規則發生了輕微變化,我們仍然可以利用這個獎勵函數在新環境中求解出新的最優策略。而一個直接模仿學來的策略在環境變化時可能就完全失效了 。
- 超越專家的潛力:一旦我們恢復了專家的獎勵函數,我們就有可能利用更強大的規劃或 RL 演算法,找到一個比專家本身更好的策略,從而實現性能上的超越 。
IRL 捕捉了專家的意圖,而不僅僅是其表面的行為。這種對任務目標的深層理解,使其在處理環境變化和追求更高性能方面具有獨特的優勢。
4.5 對抗性方法:生成對抗模仿學習 (GAIL)
儘管逆強化學習(IRL)在理論上非常強大,但傳統的 IRL 方法在實踐中面臨一個嚴重的問題:計算成本極高。其演算法的核心循環中通常包含一個完整的(正向)強化學習求解過程,即在每次更新獎勵函數後,都需要重新求解一個馬可夫決策過程(MDP)。這個「RL in the loop」的結構使得 IRL 的計算量巨大,難以擴展到複雜的問題上 。
為了解決這個問題,Jonathan Ho 和 Stefano Ermon 提出了生成對抗模仿學習(Generative Adversarial Imitation Learning, GAIL),這是一種巧妙的方法,它實現了 IRL 的穩健性,同時避免了其高昂的計算成本 。GAIL 的核心思想是將模仿學習問題重新框定為一個**生成對抗網路(Generative Adversarial Network, GAN)**問題。
在 GAIL 的框架中,模仿學習被視為一場兩個網路之間的對抗遊戲:
- 生成器(Generator):智能體的策略網路
$\pi_\theta$
扮演生成器的角色。它的目標是生成狀態-動作軌跡,使其看起來盡可能像是來自專家示範的「真實」軌跡,從而「欺騙」判別器 。 - 判別器(Discriminator):一個分類器網路
$D_w$
扮演判別器的角色。它的任務是區分輸入的狀態-動作對是來自「真實」的專家數據集,還是來自「虛假」的生成器(即當前的策略網路$\pi_\theta$
)。
訓練過程是一個交替優化的minimax遊戲:
- 訓練判別器:固定生成器(策略),從專家數據和策略生成的數據中採樣,訓練判別器
$D_w$
來最大化其分類準確率。 - 訓練生成器:固定判別器,更新策略
$\pi_\theta$
的參數,使其生成的軌跡能夠最大程度地「迷惑」判別器,即讓判別器將其判斷為「真實」的機率更高。
GAIL 最深刻的洞見在於,判別器的輸出可以被直接用作一個獎勵訊號來指導策略的學習。具體來說,策略 $\pi_\theta$
的獎勵可以被定義為 $r(s,a) = -\log(1 - D_w(s,a))$
。當策略產生的狀態-動作對越能迷惑判別器(即 $D_w(s,a)$
越接近 1,代表判別器認為它來自專家),它獲得的獎勵就越高。
透過這種方式,判別器隱式地學習了一個與專家行為一致的獎勵(或成本)函數,而策略則透過標準的策略梯度演算法(如 TRPO 或 PPO)在這個隱式獎勵函數上進行優化。這使得 GAIL 能夠直接學習一個匹配專家狀態-動作分佈的策略,完全繞過了傳統 IRL 中顯式恢復獎勵函數和內部 RL 循環的昂貴步驟 。
GAIL 代表了一種重要的思想轉變,它證明了可以透過對抗性訓練來有效地進行分佈匹配,從而實現穩健的模仿學習。這一框架不僅大大提高了模仿學習的效率和可擴展性,也為後續許多基於對抗思想的 DRL 演算法鋪平了道路。
第五部分:綜合與未來展望
5.1 演化軌跡的統一視角
回顧從 DQN 到 GAIL 的演化歷程,我們可以看到一條清晰的、由問題驅動創新的思想脈絡。這不僅僅是演算法的堆疊,而是在解決根本性挑戰過程中的邏輯遞進。幾個核心主題反覆出現,貫穿了整個發展過程:
- 從間接到直接的優化:演化的起點 DQN 是一種間接方法,它透過優化一個代理目標(價值函數)來間接改進策略。然而,這種間接性帶來了連續動作空間和隨機策略的難題。PPO 等策略梯度方法則轉向直接優化我們最終關心的目標——策略本身,這使得問題的表述更加自然和直接。
- 穩定性與效率的持續博弈:深度強化學習的歷史在很大程度上是一部關於如何馴服不穩定性的歷史。DQN 的經驗重播和目標網路是為了穩定「函數逼近+自舉」的組合;行動者-評論家框架是為了穩定高變異數的策略梯度;PPO 則是為了穩定策略更新的步長。每一次穩定性的提升,都伴隨著對樣本效率的考量,例如 PER 透過智能採樣提升效率,PPO 透過多輪更新提升效率。
- 複雜問題的解耦:一個強大的工程和科學原則是將一個複雜的大問題分解為多個更簡單的子問題。World Models 將感知/預測問題(由大型 V 和 M 模型處理)與控制問題(由小型 C 模型處理)徹底解耦。同樣,GAIL 將模仿學習問題解耦為分佈匹配(由判別器評估)和策略搜索(由生成器執行),避免了傳統 IRL 中糾纏在一起的獎勵設計和策略學習。
- 對數據分佈的日益精細的處理:演算法如何對待和利用數據,是另一個關鍵的演化維度。DQN 的經驗重播透過隨機化來打破數據相關性;DAgger 則更進一步,透過與專家的互動來主動修正訓練數據的分佈,以解決共變數偏移;GAIL 則將分佈處理提升到一個新的高度,它不試圖修正數據,而是直接設定目標為匹配專家數據的潛在分佈,並利用對抗性訓練作為強大的工具來實現這一目標。
這條演化路徑展示了該領域從最初的「可行性證明」(DQN)發展到追求「穩定與高效」(PPO),再到探索「更高層次的認知能力」(World Models 的想像與規劃)和「更靈活的學習來源」(Imitation Learning 的專家示範)的成熟過程。
5.2 新興趨勢與開放性挑戰
深度強化學習領域仍在高速發展,當前的研究前沿正致力於融合上述演化路徑中的各種思想,並應對將這些強大演算法應用於現實世界所面臨的根本性挑戰。
新興趨勢:
- 範式融合:研究人員正積極探索將不同範式結合起來。例如,將模型基礎 RL 與模仿學習結合,智能體可以先從專家示範中學習一個初步的世界模型和策略,然後在自己的「夢境」中進行微調和改進,這有望同時提升樣本效率和性能。
- 基礎模型的影響:大型語言模型(LLM)和視覺基礎模型(VFM)的成功,為 DRL 提供了新的可能性。這些預訓練模型可以作為強大的世界模型或表徵提取器,為 RL 智能體提供豐富的先驗知識,從而極大地減少從零開始學習所需的數據量。
- 離線強化學習 (Offline RL):在許多現實場景中,智能體無法自由地與環境互動探索,只能從一個固定的、預先收集好的數據集中學習。離線 RL 旨在解決這一挑戰,它需要開發出能夠在不產生分佈外(out-of-distribution)動作的情況下,安全地從靜態數據中提取有效策略的演算法。
開放性挑戰:
- 泛化與適應性:儘管 DRL 在特定任務上取得了成功,但讓智能體將學到的技能泛化到一個與訓練環境有細微差別的新環境中,仍然是一個巨大的挑戰。如何學習到真正魯棒且可遷移的策略是該領域的核心問題之一 。
- 樣本效率:儘管模型基礎方法有所改善,但對於大多數 DRL 演算法而言,達到高性能所需的互動樣本數量仍然是驚人的。對於現實世界的應用(如機器人),這依然是一個主要的瓶頸 。
- 安全與可靠性:在將 DRL 應用於自動駕駛、醫療或金融等高風險領域之前,必須確保智能體的行為是安全、可預測和可靠的。如何為複雜的深度學習策略提供行為保證,以及如何避免災難性的失敗,是至關重要的研究方向 。
- 獎勵設計:儘管模仿學習提供了一條繞過獎勵設計的途徑,但在許多需要探索和創新的任務中,獎勵仍然是必要的。如何設計能夠準確引導複雜行為且不易被「駭客」的獎勵函數,仍然是一門藝術而非科學 。
總而言之,深度強化學習的演化之旅遠未結束。從價值函數的穩定估計,到策略的直接安全優化,再到對世界模型的內部構建和對專家意圖的深刻理解,這條路徑展示了人工智慧在追求通用決策能力方面的持續探索。未來的突破將可能來自於對這些不同思想的更深層次的融合,以及對解決現實世界應用中根本性挑戰的不懈努力。
明天將會推出互動式網站敬請期待