打破深層網路的注意力瓶頸:
AttnRes 殘差機制解析
如果你已經熟悉 Transformer 的 QKV 機制,你一定知道在極深層的網路中,Attention 矩陣容易趨於平滑(Attention Collapse),導致梯度消失。Kimi 團隊(及近代大模型研究)提出的 AttnRes (Attention Residuals) 正是為了解決這個數學痛點。
傳統 Attention 的致命傷:Softmax 的貪婪
在標準架構中,第 $l$ 層的注意力分數計算為:
1. 梯度消失 (Gradient Vanishing)
Softmax 函數在輸入值差異較大時,輸出會極度趨近於 0 或 1(One-hot 分佈)。這導致在反向傳播時,Softmax 的 Jacobian 矩陣趨近於零矩陣,梯度無法有效傳遞到淺層的 Q 和 K 權重。
2. 注意力崩塌 (Attention Collapse)
隨著層數增加(例如 > 64 層),不同層的 Attention 矩陣會逐漸同質化,所有 Token 的注意力分佈變得一模一樣,失去了捕捉多樣化特徵的能力,形同網路退化。
架構直覺:讓 Attention 矩陣「記住」過去
本區塊比較傳統 Attention 與 AttnRes 的架構差異。與其讓每一層從頭計算 Q 和 K 的相似度,AttnRes 將上一層的注意力分數(或 Logits)作為殘差(Residual)直接加到當前層中。 這樣不僅保留了前一層的特徵,更為梯度提供了一條「高速公路」。
隱藏狀態 $X^{(l-1)}$
$\frac{Q \cdot K^T}{\sqrt{d}}$
狀態 $X^{(l-1)}$
$M^{(l-1)}$
數學推導:為什麼它能打通梯度?
本區塊將以互動方式拆解 AttnRes 的數學公式。點擊下方步驟,深入了解 Attention Logits 的殘差如何改變反向傳播的命運。
重新定義 Attention Logits
令 $M^{(l)}$ 為第 $l$ 層的 Attention Logits(即 Softmax 前的矩陣)。在標準 Transformer 中:
引入 AttnRes 後,我們將上一層的 Logits $M^{(l-1)}$ 以權重 $\alpha$ (通常設為可學習參數或常數) 加到當前層:
最終的注意力矩陣依然是: $A^{(l)} = \text{Softmax}(M^{(l)})$。這小小的改變,卻在求導時發生了質變。
反向傳播:解析偏微分
假設損失函數為 $L$。當我們要計算梯度 $\frac{\partial L}{\partial M^{(l-1)}}$ 時,根據微積分的鏈鎖律 (Chain Rule):
因為 $M^{(l)} = \frac{Q^{(l)}K^{(l)T}}{\sqrt{d}} + \alpha M^{(l-1)}$,我們可以輕易算出其對 $M^{(l-1)}$ 的偏導:
這裡的 $\mathbf{I}$ 是單位矩陣。這意味著梯度可以直接乘上 $\alpha$ 無損地流向上一層!
結論:梯度高速公路建立
將 Step 2 的結果代回,完整的梯度傳遞公式變成:
傳統架構: 只有後面那項「複雜梯度」,它必須經過 Softmax 的微分。當 Softmax 飽和時,該項趨近於 0,梯度徹底消失。
AttnRes 架構: 多出了 $\frac{\partial L}{\partial M^{(l)}} \cdot \alpha$ 這條直接通道。即使 Softmax 飽和,梯度依然能穩穩地以比例 $\alpha$ 穿透回淺層。
這就是為什麼加入 AttnRes 後,模型可以輕易訓練到上百層,且在處理超長文本 (Long Context) 時注意力機制不會崩塌的數學本質。
效能實證:資料會說話
透過視覺化圖表,觀察加入了 AttnRes 機制後,對模型訓練收斂速度以及深層網路梯度的保護作用。(此為基於理論預期的模擬數據分析)
極深層網路 (100+ Layers) 訓練 Loss 比較
AttnRes 有效緩解梯度消失,使深層網路能在更少的 Step 內收斂。
反向傳播梯度範數 (Gradient Norm) 衰減情形
從第 100 層反傳至第 1 層時,傳統 Attention 的梯度幾乎歸零,而 AttnRes 保持健康水準。