強化學習(RL)演進之路
本報告將帶您走過強化學習的演化歷程,從經典的價值學習到先進的策略梯度與世界模型,最終探討如何在沒有明確獎勵的環境下,透過模仿專家來進行學習。
第一章:與環境互動學習 (Model-Free)
這是強化學習最經典的範式。智慧體(Agent)直接與環境互動,透過試錯(Trial-and-Error)來學習一個能最大化累積獎勵的策略,而不需要去理解環境的完整動態模型。這個領域主要分為兩大派別:基於價值(Value-based)和基於策略(Policy-based)的方法。
Deep Q-Learning (DQN): 價值學習的里程碑
DQN 結合了 Q-Learning 和深度神經網絡,解決了處理高維度輸入(如:遊戲畫面)的問題。它學習一個 “Q-value” 函數,用來評估在特定狀態下採取某個動作的好壞。
核心思想: 使用神經網絡來近似 Q-value 函數 $Q(s, a)$。輸入是狀態 $s$,輸出是每個可能動作 $a$ 的 Q-value。
兩大創新:
- 經驗回放 (Experience Replay): 將智慧體的經驗 (state, action, reward, next_state) 存儲起來,訓練時隨機抽樣,打破了數據間的相關性,使訓練更穩定。
- 目標網絡 (Target Network): 使用一個獨立的、更新較慢的網絡來計算目標 Q-value,減少了自舉(bootstrapping)時的目標不穩定問題。
優點: 樣本效率(Sample efficiency)相對較高,因為它可以重複利用過去的經驗。
缺點: 無法處理連續動作空間,且對於隨機策略的學習效果不佳。
Policy Gradients & PPO: 策略學習的崛起
與其學習價值,策略梯度方法直接學習一個策略(Policy) – 一個從狀態到動作的映射。它直接優化我們想要的目標:最大化獎勵。PPO 是目前最流行和穩健的策略梯度算法之一。
Actor-Critic (A2C/A3C) 作為橋樑: 在純粹的策略梯度和 PPO 之間,出現了 Actor-Critic 方法。它結合了價值學習和策略學習:
Actor (演員)
負責學習和執行策略,決定在特定狀態下該做什麼動作。
Critic (評論家)
負責評估 Actor 的動作好壞,提供價值判斷,指導 Actor 的學習方向。
PPO (Proximal Policy Optimization) 核心思想: 策略梯度的主要問題是更新步長難以選擇,太大會導致策略崩潰,太小則學習太慢。PPO 透過一個 “裁剪(Clipping)” 機制來限制每次策略更新的幅度,確保學習過程的穩定性。
優點: 穩定性高,易於實現,能處理連續和離散動作空間。
缺點: 樣本效率通常低於 DQN 等 off-policy 方法。
第二章:學習環境模型 (Model-Based)
相對於直接在真實環境中學習策略,Model-Based RL 試圖先學習一個環境的 “世界模型(World Model)”。一旦擁有了這個模型,智慧體就可以在 “腦中” 或 “夢境中” 進行模擬和規劃,極大地提高了學習效率。
World Models: 在夢境中學習
World Models 是一個代表性的 Model-Based 方法。它不直接從高維觀察(如像素)學習,而是先將其壓縮成一個低維的潛在表示(Latent Representation)。
三大核心組件:
V (Variational Autoencoder – VAE):
負責將高維度的觀測(如遊戲畫面)壓縮成一個緊湊的潛在向量 $z$。這是對世界的 “感知”。
M (MDN-RNN – Mixture Density Network with Recurrent Neural Network):
這是核心的 “世界模型”。它學習預測在給定當前潛在狀態和動作後,下一個潛在狀態會是什麼。它捕捉了世界的時間動態。
C (Controller):
一個非常簡單的線性模型,負責在 M 創造的 “夢境” 中學習如何行動以最大化獎勵。由於它在低維的潛在空間中學習,所以效率極高。
優點: 極高的樣本效率,因為大部分學習都在模型內部進行。能夠解決需要長期規劃的任務。
缺點: 實現複雜,且模型可能會與真實世界存在偏差(Model bias)。
演算法比較
不同的演算法在不同方面各有優劣。下方的雷達圖比較了我們討論過的主要方法在幾個關鍵指標上的表現。您可以透過下方的按鈕來切換顯示的演算法,以便更清楚地進行比較。
第三章:無環境互動學習 (Imitation Learning)
在許多現實場景中(如自動駕駛、機器人手術),讓智慧體自由探索的成本太高或太危險。在這些情況下,我們希望智慧體能從人類專家提供的範例中學習。這個領域被稱為模仿學習。
Behavior Cloning & DAgger: 從觀察到互動
這是模仿學習最直接的方法。它將學習問題簡化為一個監督學習問題:給定專家在某狀態下的動作,模型學習去預測這個動作。
行為克隆 (Behavior Cloning – BC):
- 方法: 收集一組專家的 (state, action) 數據對,然後訓練一個分類或回歸模型。
- 問題: 共變異數偏移 (Covariate Shift)。如果智慧體遇到一個專家從未見過的狀態,它的行為可能是災難性的,並且這個錯誤會被累積,導致離專家的軌跡越來越遠。
數據集聚合 (DAgger – Dataset Aggregation):
- 方法: 一種互動式的改進。首先用專家數據訓練一個初始策略。然後,用這個策略去運行,記錄下智慧體訪問的狀態。接著,請專家標註在這些新狀態下應該採取的動作。將這些新數據加入訓練集,重複此過程。
- 優點: 透過讓專家 “糾正” 智慧體的錯誤,有效地緩解了共變異數偏移問題。
Inverse Reinforcement Learning (IRL): 推斷意圖
IRL 更進一步,它不只是模仿專家的行為,而是試圖從專家的行為中 “反向推斷” 出專家背後的獎勵函數(Reward Function)。一旦學到了獎勵函數,就可以用任何標準的 RL 算法來找到最優策略。
核心思想: 專家的行為之所以 “好”,是因為它在某個我們不知道的獎勵函數下是最優的。IRL 的目標就是找到這個獎勵函數。
與 GAN 的聯繫 (Generative Adversarial Imitation Learning – GAIL):
GAIL 將 IRL 問題巧妙地轉化為一個生成對抗網絡 (GAN) 問題。
生成器 (Generator)
對應於 RL 中的策略 (Policy)。它生成一系列的 (state, action) 軌跡,試圖讓這些軌跡看起來像是專家生成的。
判別器 (Discriminator)
對應於 RL 中的獎勵函數/價值函數。它學習去區分 “生成器生成的軌跡” 和 “真實專家軌跡”。判別器的輸出可以被當作一個獎勵信號來訓練生成器。
優點: 比 BC 更具泛化能力。學到的獎勵函數可能比專家本身更優化,從而可能學到超越專家的策略。
缺點: 計算成本高,且通常需要大量的專家數據。
總結
強化學習的演進展現了從依賴大量環境互動和明確獎勵,到追求更高樣本效率和從隱含目標中學習的趨勢。
- 從價值到策略: 從 DQN 的價值評估,到 PPO 的直接策略優化,我們看到了對更穩定、更通用學習算法的追求。
- 從無模型到有模型: World Models 代表了 RL 的一個重要方向——透過學習環境模型來進行內部規劃,這在樣本稀缺的場景下極具潛力。
- 從獎勵到模仿: 當獎勵難以定義時,模仿學習 (BC, DAgger, IRL) 提供了一條強大的路徑,使智慧體能夠從專家示範中學習複雜的行為。
未來的研究可能會更深入地融合這些方法,例如將世界模型與模仿學習結合,或開發出更高效、更安全的探索機制,推動 AI 在更複雜的現實世界任務中取得突破。