深入淺出 Kimi AttnRes：注意力殘差機制的數學與直覺

打破深層網路的注意力瓶頸：
AttnRes 殘差機制解析

如果你已經熟悉 Transformer 的 QKV 機制，你一定知道在極深層的網路中，Attention 矩陣容易趨於平滑（Attention Collapse），導致梯度消失。Kimi 團隊（及近代大模型研究）提出的 AttnRes (Attention Residuals) 正是為了解決這個數學痛點。

傳統 Attention 的致命傷：Softmax 的貪婪

在標準架構中，第 $l$ 層的注意力分數計算為：

$$A^{(l)} = \text{Softmax}\left(\frac{Q^{(l)} (K^{(l)})^T}{\sqrt{d_k}}\right)$$

1. 梯度消失 (Gradient Vanishing)

Softmax 函數在輸入值差異較大時，輸出會極度趨近於 0 或 1（One-hot 分佈）。這導致在反向傳播時，Softmax 的 Jacobian 矩陣趨近於零矩陣，梯度無法有效傳遞到淺層的 Q 和 K 權重。

2. 注意力崩塌 (Attention Collapse)

隨著層數增加（例如 > 64 層），不同層的 Attention 矩陣會逐漸同質化，所有 Token 的注意力分佈變得一模一樣，失去了捕捉多樣化特徵的能力，形同網路退化。

架構直覺：讓 Attention 矩陣「記住」過去

本區塊比較傳統 Attention 與 AttnRes 的架構差異。與其讓每一層從頭計算 Q 和 K 的相似度，AttnRes 將上一層的注意力分數（或 Logits）作為殘差（Residual）直接加到當前層中。 這樣不僅保留了前一層的特徵，更為梯度提供了一條「高速公路」。

Layer $(l-1)$
隱藏狀態 $X^{(l-1)}$

⬇

$Q^{(l)}$

$K^{(l)}$

⬇

矩陣乘法 & 縮放
$\frac{Q \cdot K^T}{\sqrt{d}}$

⬇

Softmax $(A^{(l)})$

⬇

輸出至下層 $X^{(l)}$

核心差異：傳統殘差加在 $X$ (Feed Forward 輸出)，而 AttnRes 將殘差機制直接做進 Attention 的 Logits (Softmax 之前) 裡面。

數學推導：為什麼它能打通梯度？

本區塊將以互動方式拆解 AttnRes 的數學公式。點擊下方步驟，深入了解 Attention Logits 的殘差如何改變反向傳播的命運。

重新定義 Attention Logits

令 $M^{(l)}$ 為第 $l$ 層的 Attention Logits（即 Softmax 前的矩陣）。在標準 Transformer 中：

$$M^{(l)}_{std} = \frac{Q^{(l)} (K^{(l)})^T}{\sqrt{d_k}}$$

引入 AttnRes 後，我們將上一層的 Logits $M^{(l-1)}$ 以權重 $\alpha$ (通常設為可學習參數或常數) 加到當前層：

$$M^{(l)} = \frac{Q^{(l)} (K^{(l)})^T}{\sqrt{d_k}} + \alpha M^{(l-1)}$$

最終的注意力矩陣依然是： $A^{(l)} = \text{Softmax}(M^{(l)})$。這小小的改變，卻在求導時發生了質變。

反向傳播：解析偏微分

假設損失函數為 $L$。當我們要計算梯度 $\frac{\partial L}{\partial M^{(l-1)}}$ 時，根據微積分的鏈鎖律 (Chain Rule)：

$$\frac{\partial L}{\partial M^{(l-1)}} = \frac{\partial L}{\partial M^{(l)}} \cdot \frac{\partial M^{(l)}}{\partial M^{(l-1)}}$$

因為 $M^{(l)} = \frac{Q^{(l)}K^{(l)T}}{\sqrt{d}} + \alpha M^{(l-1)}$，我們可以輕易算出其對 $M^{(l-1)}$ 的偏導：

$$\frac{\partial M^{(l)}}{\partial M^{(l-1)}} = \alpha \cdot \mathbf{I}$$

這裡的 $\mathbf{I}$ 是單位矩陣。這意味著梯度可以直接乘上 $\alpha$ 無損地流向上一層！

結論：梯度高速公路建立

將 Step 2 的結果代回，完整的梯度傳遞公式變成：

$$\frac{\partial L}{\partial M^{(l-1)}} = \frac{\partial L}{\partial M^{(l)}} \cdot \alpha + (\text{來自 } Q, K \text{ 路徑的複雜梯度})$$

❌

傳統架構： 只有後面那項「複雜梯度」，它必須經過 Softmax 的微分。當 Softmax 飽和時，該項趨近於 0，梯度徹底消失。

✅

AttnRes 架構： 多出了 $\frac{\partial L}{\partial M^{(l)}} \cdot \alpha$ 這條直接通道。即使 Softmax 飽和，梯度依然能穩穩地以比例 $\alpha$ 穿透回淺層。

這就是為什麼加入 AttnRes 後，模型可以輕易訓練到上百層，且在處理超長文本 (Long Context) 時注意力機制不會崩塌的數學本質。

效能實證：資料會說話

透過視覺化圖表，觀察加入了 AttnRes 機制後，對模型訓練收斂速度以及深層網路梯度的保護作用。（此為基於理論預期的模擬數據分析）

極深層網路 (100+ Layers) 訓練 Loss 比較

AttnRes 有效緩解梯度消失，使深層網路能在更少的 Step 內收斂。

反向傳播梯度範數 (Gradient Norm) 衰減情形

從第 100 層反傳至第 1 層時，傳統 Attention 的梯度幾乎歸零，而 AttnRes 保持健康水準。

Kimi Attnres

打破深層網路的注意力瓶頸：
AttnRes 殘差機制解析

傳統 Attention 的致命傷：Softmax 的貪婪

1. 梯度消失 (Gradient Vanishing)

2. 注意力崩塌 (Attention Collapse)

架構直覺：讓 Attention 矩陣「記住」過去

數學推導：為什麼它能打通梯度？

重新定義 Attention Logits

反向傳播：解析偏微分

結論：梯度高速公路建立

效能實證：資料會說話

極深層網路 (100+ Layers) 訓練 Loss 比較

反向傳播梯度範數 (Gradient Norm) 衰減情形

發佈留言取消回覆

Recent Posts

Recent Comments

Archives

Categories

Kimi Attnres

傳統 Attention 的致命傷：Softmax 的貪婪

1. 梯度消失 (Gradient Vanishing)

2. 注意力崩塌 (Attention Collapse)

架構直覺：讓 Attention 矩陣「記住」過去

數學推導：為什麼它能打通梯度？

重新定義 Attention Logits

反向傳播：解析偏微分

結論：梯度高速公路建立

極深層網路 (100+ Layers) 訓練 Loss 比較

反向傳播梯度範數 (Gradient Norm) 衰減情形

發佈留言 取消回覆

Recent Posts

Recent Comments

發佈留言取消回覆