encoder/decoder/encoder-decoder only? 1

導論:新紀元的黎明與偉大的分歧

Transformer之前的世界:記憶與並行化的危機

在2017年之前,自然語言處理(NLP)領域由遞歸神經網絡(Recurrent Neural Networks, RNNs)及其更複雜的變體,如長短期記憶(Long Short-Term Memory, LSTM)網絡所主導 。這些架構在設計上是為了處理序列數據,它們一次處理一個元素,並通過一個內部狀態(或「記憶」)將信息從序列的一個時間步傳遞到下一個時間步 。這種序列化的處理方式在理論上使其非常適合語言,因為語言本身就是一個有序的序列。然而,這種設計也帶來了兩個根本性的、難以克服的限制,為一場即將到來的革命埋下了伏筆。  

第一個限制是其固有的序列化特性。RNNs和LSTMs必須按順序處理輸入,一個時間步的計算依賴於前一個時間步的結果。這種依賴性使得它們無法有效利用現代GPU和TPU等大規模並行計算硬件的優勢 。當面對動輒數十億詞彙的龐大數據集時,這種無法並行化的瓶頸極大地限制了模型的訓練速度和可擴展性,成為了該領域發展的一道無形壁壘。  

第二個,也是更為根本的限制,是它們難以捕捉長距離依賴關係(long-range dependencies)。理論上,LSTM通過其門控機制(gating mechanism)旨在緩解RNN中的梯度消失問題(vanishing gradient problem),但實際上,當序列非常長時,來自序列早期部分的信息在傳遞過程中仍然會逐漸衰減或失真 。這意味著模型很難將句子末尾的一個詞與句子開頭的一個詞建立有意義的聯繫,這對於理解複雜的語法結構和語義關係至關重要。  

因此,在2017年,NLP領域正處於一個十字路口:一方面,數據和計算資源呈指數級增長;另一方面,主流的序列處理架構在根本上無法充分利用這些資源來解決語言理解的核心挑戰。整個領域迫切需要一種新的範式,一種能夠擺脫遞歸束縛、擁抱並行計算,並能平等地看待序列中所有元素之間關係的架構。這場危機為Transformer的誕生創造了完美的歷史條件。

「Attention Is All You Need」的奇點時刻

2017年,在神經信息處理系統大會(NeurIPS)上,來自Google的研究人員發表了一篇名為《Attention Is All You Need》的開創性論文,徹底改變了NLP乃至整個人工智能領域的格局 。這篇論文不僅僅是一次漸進式的改進,而是一場徹底的革命。它提出了一種全新的、完全拋棄了遞歸和卷積的網絡架構——Transformer 。這篇論文的標題本身就是一個大膽的宣言,它宣稱,僅憑「注意力機制」(attention mechanism)就足以構建出強大的序列處理模型。  

Transformer架構被視為現代所有大型語言模型的共同祖先,是三大架構王朝的起源。它的設計初衷是為了解決機器翻譯任務,但其核心組件的通用性和強大能力使其迅速擴展到幾乎所有NLP任務中。

原始Transformer的核心組件

原始的Transformer模型是一個完整的編碼器-解碼器(Encoder-Decoder)架構,其設計精巧,為後來的架構分歧提供了所有必要的基因 。  

  • 編碼器與解碼器堆疊(The Encoder and Decoder Stacks):原始模型由N=6個相同的編碼器層堆疊而成,以及N=6個相同的解碼器層堆疊而成。每個編碼器層包含兩個子層:一個多頭自註意力機制和一個簡單的位置全連接前饋網絡。每個解碼器層則在編碼器層的基礎上,插入了第三個子層,用於對編碼器的輸出執行多頭注意力 。這種堆疊結構允許模型逐步構建更複雜、更抽象的數據表示。  
  • 自註意力機制(Self-Attention / Intra-Attention):這是Transformer架構的基石,也是其擺脫遞歸束縛的關鍵 。自註意力機制允許模型在處理一個序列時,同時權衡序列中所有其他詞的重要性。它通過將每個輸入詞轉換為三個不同的向量來實現這一點:查詢(Query, Q)、鍵(Key, K)和值(Value, V)。模型通過計算一個特定詞的Q向量與所有其他詞的K向量之間的點積來確定注意力分數,這個分數決定了在生成該詞的新表示時,應該給予其他詞的V向量多少權重 。其核心計算公式為:   Attention(Q,K,V)=softmax(dk​​QKT​)V其中dk​是鍵向量的維度,用於縮放點積,防止梯度過小 。由於這種機制直接計算序列中任意兩個位置之間的關係,因此它對距離不敏感,完美地解決了RNN的長距離依賴問題。  
  • 多頭注意力機制(Multi-Head Attention):為了增強自註意力的能力,Transformer並行地運行多個注意力計算,即「多頭」。它不是只進行一次單一的注意力計算,而是將Q、K、V向量線性投影到不同的子空間中,並在每個子空間中並行執行注意力函數。然後,將所有頭的輸出拼接起來並再次進行線性投影。這使得模型能夠同時關注來自不同表示子空間的信息,從而捕捉到更豐富、更多樣的語義關係 。  
  • 位置編碼(Positional Encoding):由於自註意力機制本身是位置無關的(position-agnostic),它將輸入視為一個無序的集合。為了讓模型能夠利用序列的順序信息,研究人員在輸入嵌入中加入了「位置編碼」。這些編碼是根據詞在序列中的絕對或相對位置計算出的向量,它們被加到詞嵌入上,為模型提供了關於詞序的關鍵信息 。  
  • 並行化(Parallelization):通過完全拋棄遞歸,Transformer的計算可以在序列維度上大規模並行化。在處理一個序列時,所有位置的Q、K、V向量以及它們之間的注意力分數都可以同時計算。這與RNN的序列化處理形成了鮮明對比,極大地提高了訓練效率,使得在當時前所未有的大規模數據集上訓練巨型模型成為可能 。  

偉大的分歧:架構道路上的岔口

Transformer論文的發表,如同在語言模型領域投下了一顆奇點炸彈,其能量釋放後並未形成單一的發展路徑,而是迅速引發了一場「偉大的分歧」(The Great Divergence)。原始的Transformer是一個用於機器翻譯的完整編碼器-解碼器系統,但研究界很快意識到,其編碼器和解碼器部分可以被拆分開來,用於解決不同類型的問題。這場分歧並非偶然的工程決策,而是一場深刻的哲學分野,源於不同研究團隊對人工智能未來發展路徑的不同願景。

一方面,以Google的研究人員為代表的陣營,其核心目標是提升對語言的深度理解,以服務於搜索、信息檢索等任務 。對於這些應用而言,最關鍵的能力是能夠對輸入文本(例如一個搜索查詢)進行全面、雙向的語境理解。這驅使他們保留並強化了Transformer的編碼器部分,因為編碼器的雙向自註意力機制正是為此而生。他們拋棄了解碼器,專注於打造能夠生成最豐富、最精確文本表示的「理解引擎」。這條路徑催生了第一個偉大的王朝——  

編碼器-Only王朝

另一方面,以OpenAI為代表的陣營,其目標則更為宏大,他們致力於探索通用人工智能(AGI)的路徑,而強大的生成能力被視為其中的關鍵一步 。他們認為,一個能夠根據任意提示連貫地、創造性地生成文本的模型,是通往更高層次智能的基礎。為此,他們選擇了Transformer的解碼器部分,因為其自回歸(auto-regressive)和因果注意力(causal attention)的特性天然適合於生成任務。他們拋棄了編碼器,全力打造一個純粹的「生成引擎」。這條路徑則開創了第二個偉大的王朝——  

解碼器-Only王朝

最初的編碼器-解碼器架構並未就此消亡。在兩大專精王朝各自發展的同時,一些研究者試圖重新整合兩者的優勢,打造出既能深度理解輸入又能靈活生成輸出的通用框架。這代表了一種「再融合」的趨勢,形成了第三股力量,即編碼器-解碼器文藝復興

這三大王朝的興衰、演變與競爭,共同譜寫了現代大型語言模型的宏偉史詩。下表為這段歷史中的一些里程碑式模型提供了一個簡明的時間線。

表1:里程碑式Transformer模型年表

模型名稱年份主要開發者架構類型關鍵創新/貢獻
Transformer2017GoogleEncoder-Decoder首次提出完全基於注意力的架構,拋棄遞歸,實現大規模並行化  
BERT2018GoogleEncoder-Only引入雙向上下文理解和MLM預訓練任務,徹底改變NLU領域  
GPT-12018OpenAIDecoder-Only驗證了生成式預訓練在Decoder-Only架構上的有效性  
GPT-22019OpenAIDecoder-Only展示了大規模模型在零樣本(Zero-shot)設置下的強大生成能力  
RoBERTa2019Facebook AIEncoder-Only優化了BERT的訓練策略,證明BERT被嚴重訓練不足  
ALBERT2019GoogleEncoder-Only通過參數共享等技術,極大地提高了BERT的參數效率  
T52019GoogleEncoder-Decoder提出「Text-to-Text」統一框架,將所有NLP任務視為序列生成問題  
BART2019Facebook AIEncoder-Decoder結合BERT的雙向編碼器和GPT的自回歸解碼器,採用去噪自編碼器目標  
GPT-32020OpenAIDecoder-Only憑藉1750億參數的巨大規模,展現出驚人的上下文學習(In-context Learning)能力  
PaLM2022GoogleDecoder-Only將模型規模推向5400億參數,並系統性地研究了「湧現能力」  
Llama 22023Meta AIDecoder-Only發布了強大的開源模型系列,推動了社區的發展和研究  
Mixtral 8x7B2023Mistral AIDecoder-Only (MoE)採用稀疏專家混合(MoE)架構,在保持高性能的同時大幅提升推理效率  

第一章:理解的時代 – 編碼器-Only王朝

在Transformer引發的偉大分歧之後,第一個迅速崛起並確立統治地位的王朝,是專注於深度語言理解的編碼器-Only模型。這個王朝的開國君主是BERT,它的出現不僅僅是技術上的勝利,更是一種思想上的革新,它重新定義了機器如何「閱讀」和「理解」文本。

BERT的統治:上下文之王的新生

2018年,Google的研究人員推出了BERT(Bidirectional Encoder Representations from Transformers),這個模型迅速成為NLP領域無處不在的基礎設施 。BERT的架構在概念上非常簡潔:它直接採用了原始Transformer的編碼器堆疊部分 。然而,其真正的革命性在於它如何被訓練以及它因此獲得的獨特能力。  

雙向性的力量

BERT最核心的貢獻在於其雙向性。在BERT之前,語言模型(如GPT-1)通常是單向的,即從左到右處理文本,預測下一個詞。這種方法對於生成任務是自然的,但對於需要深刻理解整個句子語境的任務則存在局限。例如,在句子「The man went to the bank to withdraw money」中,要理解「bank」的含義(是銀行而非河岸),模型需要同時考慮其左邊的上下文(「went to the」)和右邊的上下文(「to withdraw money」)。單向模型在處理「bank」這個詞時,無法看到後面的信息。

BERT通過其預訓練目標,完美地解決了這個問題。它能夠在所有層中同時利用左側和右側的上下文來預訓練深度的雙向表示 。這意味著模型在為每個詞生成表示時,都已經「看過」了整個句子,從而能夠捕捉到極其豐富和精確的上下文信息。  

創新的預訓練目標

為了實現這種雙向學習,BERT的設計者們必須放棄傳統的語言建模目標,因為在雙向的設定下,「預測下一個詞」變得微不足道。取而代之,他們設計了兩個巧妙的自監督預訓練任務:

  1. 掩碼語言模型(Masked Language Model, MLM):這是BERT的靈魂所在。在訓練過程中,模型會隨機地將輸入序列中15%的詞元(token)替換為一個特殊的“標記 。模型的任務就是根據周圍未被掩蓋的上下文,來預測這些被掩蓋的原始詞元。這個過程就像是讓模型做「完形填空」。因為預測目標是句子中間的詞,模型被迫學習融合來自左右兩邊的上下文信息,從而學會了真正的雙向語境表示。  
  2. 下一句預測(Next Sentence Prediction, NSP):為了讓模型理解句子之間的關係(如蘊含、因果),BERT還引入了NSP任務。在訓練時,模型會接收一對句子A和B,並需要判斷句子B是否是句子A在原文中的下一句 。這個二元分類任務旨在捕捉長距離的句子連貫性,這對於問答(QA)和自然語言推斷(NLI)等任務至關重要。  

這種「預訓練-微調」(pre-train then fine-tune)的範式成為了BERT王朝的標誌。一個在海量無標籤文本上通過MLM和NSP預訓練好的BERT模型,可以通過在其頂部添加一個簡單的輸出層,然後在特定任務的小規模有標籤數據上進行微調,就能在各種下游任務上取得當時最先進的成果,而無需對模型架構進行大的修改 。  

繼承者與優化者:BERT學的演進

BERT的成功引發了一股研究熱潮,研究者們開始探索如何改進和優化其配方。很快,一系列重要的繼承者出現了,它們雖然沒有改變BERT的核心架構,但通過對訓練方法的精煉,進一步鞏固了編碼器-Only王朝的統治。

RoBERTa:一個被充分優化的BERT

2019年,來自Facebook AI的研究人員發布了RoBERTa(A Robustly Optimized BERT Pretraining Approach)。RoBERTa並非一個全新的架構,而是一項嚴謹的複製研究(replication study),其結論令人震驚:BERT本身被嚴重地訓練不足(undertrained)。通過一系列精心設計的訓練策略調整,RoBERTa在性能上大幅超越了BERT。其關鍵改進包括:  

  • 更大規模的訓練:RoBERTa訓練的時間更長,使用了更大的批量大小(batch size),並在更多的數據上進行訓練 。  
  • 動態掩碼(Dynamic Masking):原始BERT在數據預處理階段只進行一次靜態掩碼。而RoBERTa則在每次向模型輸入序列時動態生成新的掩碼模式,增加了數據的多樣性,使模型學習更為魯棒 。  
  • 拋棄NSP任務:RoBERTa的研究發現,原始的NSP任務不僅效果不佳,甚至可能對某些下游任務的性能產生負面影響。因此,他們果斷地移除了NSP目標,僅使用MLM進行預訓練,結果發現性能反而得到了提升 。  

ALBERT:輕量級的BERT

儘管BERT及其變體性能強大,但其巨大的模型尺寸(BERT-Large擁有3.4億參數)帶來了高昂的計算和內存成本。為了解決這個問題,Google在2019年推出了ALBERT(A Lite BERT),旨在大幅提升模型的參數效率 。ALBERT通過兩種巧妙的技術實現了這一點:  

  1. 因式分解的嵌入參數化(Factorized Embedding Parameterization):在BERT中,詞嵌入層的維度E與隱藏層的維度H是綁定的(E=H)。考慮到詞嵌入學習的是與上下文無關的表示,而隱藏層學習的是與上下文相關的表示,這種綁定是不必要的,並且會因巨大的詞彙表V而導致嵌入矩陣(V×H)參數過多。ALBERT將這個大矩陣分解為兩個較小的矩陣,將參數從$O(V \times H)$減少到$O(V \times E + E \times H)$,其中E≪H。這極大地減少了參數數量 。  
  2. 跨層參數共享(Cross-Layer Parameter Sharing):ALBERT在所有編碼器層之間共享參數。這意味著模型只需要學習一組編碼器層的參數,然後在網絡的所有深度重複使用。這種方法不僅顯著減少了總參數,還起到了一種正則化的作用,使模型訓練更穩定 。一個與BERT-Large配置相似的ALBERT模型,參數少了18倍,訓練速度卻快了1.7倍。  

此外,ALBERT也用一個更有效的**句子順序預測(Sentence-Order Prediction, SOP)**任務取代了NSP。SOP任務要求模型區分兩個連續句子的原始順序和交換後的順序,這比NSP更能集中於學習句子間的連貫性,而不是主題預測 。  

統治的證據:征服NLU基準測試

編碼器-Only王朝的統治地位並非空談,而是建立在對當時學術界公認的自然語言理解(NLU)基準測試的全面征服之上。這些基準測試,如同古代的競技場,是所有模型證明自身實力的舞台。

其中最著名的就是GLUE(General Language Understanding Evaluation)基準測試 。GLUE包含了一系列多樣化的NLU任務,如自然語言推斷(MNLI, RTE)、語義相似度(MRPC, QQP)、情感分析(SST-2)和語法可接受性(CoLA)等。BERT一經問世,就在11項NLP任務上取得了當時的最先進(SOTA)成果,包括將GLUE的平均分推高至80.5%,實現了7.7個百分點的絕對提升,這在當時是前所未有的成就 。  

隨著BERT的成功,GLUE的挑戰性逐漸降低,模型性能很快超越了人類基準 。為此,研究界推出了更具挑戰性的  

SuperGLUE基準測試 。SuperGLUE保留了GLUE中最難的任務,並加入了更複雜的任務格式,如問答和共指消解。即便如此,編碼器-Only王朝的繼承者們,如RoBERTa和後來的變體,依然在這個更困難的競技場上繼續刷新紀錄 。下表展示了BERT和RoBERTa在GLUE開發集上的一些性能數據,直觀地證明了它們在NLU任務上的統治力。  

任務 (指標)BERT-BaseRoBERTa-Base
CoLA (Matthew’s Corr)59.3964.83
MNLI-m (Accuracy)83.9287.31
MRPC (F1)91.2891.68
QNLI (Accuracy)88.5290.82
QQP (F1)87.1788.77
RTE (Accuracy)69.3173.65
SST-2 (Accuracy)92.5594.50
STS-B (Spearman)87.8889.09

匯出到試算表

數據來源:  

這一系列壓倒性的實證結果,牢固地確立了編碼器-Only架構在語言理解任務上的霸主地位。這也深刻地揭示了一個核心原理:架構的設計與其訓練目標之間存在著一種共生演化的關係。一個雙向的編碼器架構,由於其能夠「看到」整個輸入序列,因此無法使用傳統的從左到右的生成式目標進行訓練 。這種架構特性反過來  

催生了像MLM這樣的自監督任務的發明。而MLM的成功,又恰恰是賦予模型深度上下文理解能力的關鍵。後續RoBERTa對NSP的揚棄以及ALBERT用SOP對其的替代,都展示了這一共生演化過程的精煉——研究者們不斷調整訓練目標,以更好地發揮架構內在的、為「理解」而生的潛力。


第二章:生成的時代 – 解碼器-Only王朝

在編碼器-Only模型專注於深度理解的同時,另一條平行的演化路徑正在悄然積蓄力量,並最終開創了一個以生成為核心的輝煌時代。這個王朝的締造者是OpenAI,其旗下的GPT(Generative Pre-trained Transformer)系列模型,通過對Transformer解碼器部分的極致挖掘和對模型規模的無畏探索,徹底改變了人機交互的範式。

GPT的崛起:自回歸預測的力量

解碼器-Only王朝的基石是GPT模型。其架構本質上是原始Transformer的解碼器堆疊,但移除了用於與編碼器交互的交叉注意力(cross-attention)子層 。這使得它成為一個純粹的、自給自足的生成模型。  

因果語言建模(Causal Language Modeling, CLM)

與BERT的MLM目標不同,GPT系列的核心訓練目標是因果語言建模,也就是傳統的「預測下一個詞」任務 。給定一個文本序列,模型的任務是預測序列中的下一個詞元。這個過程是  

自回歸的(auto-regressive),即模型在生成第i個詞元時,會將前i−1個詞元作為輸入。

為了嚴格執行這種從左到右的生成流程,解碼器-Only架構採用了掩碼自註意力(masked self-attention)機制 。在注意力計算過程中,一個位於位置  

i的詞元只能關注(attend to)位置j≤i的詞元,而來自未來的詞元(j>i)則被掩蓋掉。這種機制確保了模型在訓練和生成時不會「偷看」答案,從而學會了如何連貫地、一步一步地構建文本。

早期的君主:GPT-1與GPT-2

GPT王朝的開端可以追溯到2018年的GPT-1 。它成功地證明了在解碼器-Only架構上進行大規模生成式預訓練,然後針對下游任務進行微調的範式是可行的。  

然而,真正讓世界矚目的是2019年發布的GPT-2 。GPT-2的參數規模達到了15億,遠超當時的同類模型。更重要的是,它展示了驚人的**零樣本(zero-shot)**生成能力 。在沒有任何特定任務微調的情況下,僅僅通過給予一個提示(prompt),GPT-2就能夠生成連貫、有邏輯甚至頗具文采的段落,涵蓋新聞、故事、詩歌等多種風格。GPT-2的強大能力甚至讓OpenAI最初出於對其潛在濫用的擔憂,而選擇不完全公開模型 。GPT-2的成功,首次向世人揭示了「規模」本身可能就是通往更強大通用智能的關鍵。  

GPT-3的範式轉移:當規模成為一種本質

如果說GPT-2是黎明前的曙光,那麼2020年發布的GPT-3則標誌著一個全新時代的到來 。GPT-3不僅僅是GPT-2的放大版,它在質上改變了人們與AI交互的方式,引發了一場深刻的範式轉移。  

前所未有的規模

GPT-3擁有1750億個參數,比之前任何非稀疏語言模型的規模都大出一個數量級 。這種巨大的規模並非僅僅帶來了量的積累,而是引發了質的飛躍,催生了全新的能力。  

上下文學習(In-Context Learning)

GPT-3最重大的貢獻是證明了上下文學習的驚人潛力 。與BERT所建立的「預訓練-微調」範式截然不同,GPT-3可以在不進行任何梯度更新或微調的情況下執行新任務。它通過在提示中給出任務的描述和幾個示例(demonstrations)來「學習」任務。根據提供示例的數量,這種學習方式分為:  

  • 少樣本學習(Few-shot):在提示中提供幾個示例。
  • 單樣本學習(One-shot):在提示中提供一個示例。
  • 零樣本學習(Zero-shot):在提示中只提供任務描述,不提供任何示例。

GPT-3在許多NLP數據集上,僅通過少樣本學習就達到了與經過專門微調的SOTA模型相媲美甚至超越的性能 。這一發現具有革命性意義。它意味著與模型的交互方式從需要專業知識的「模型訓練」轉變為更直觀、更自然的「對話式指令」。這種範式的轉變極大地降低了使用強大AI的門檻,為後來ChatGPT等應用的爆發鋪平了道路。它將「編程」模型的重心從調整模型權重轉移到了設計有效的提示上,催生了「提示工程」(prompt engineering)這一全新領域。  

縮放定律與湧現能力

GPT-3的成功也讓研究界開始系統性地關注縮放定律(Scaling Laws)。研究發現,隨著模型規模、數據集大小和計算量的增加,模型的性能會以一種可預測的方式(通常是冪律)平滑提升 。  

然而,更有趣的發現在於,某些能力並非隨著規模的增加而平滑出現。相反,它們似乎在模型達到某個臨界規模後突然湧現(emerge)出來。這些湧現能力(emergent abilities)在小模型上完全不存在(表現為隨機猜測),但在大模型上卻表現出色 。例如,多步算術、理解比喻等複雜推理能力,都是在模型規模達到數百億甚至千億參數後才顯現出來的。  

關於湧現能力的本質,學術界存在一些爭議。一些研究認為,這些能力是模型達到足夠複雜度後真正的質變 。而另一些研究則指出,所謂的「湧現」可能只是研究者選擇的評估指標(如要求完全匹配的準確率)所導致的假象;如果換用更連續的指標(如交叉熵損失),性能的提升其實是平滑和可預測的 。儘管存在爭議,但湧現能力的概念極大地激發了對超大規模模型潛力的想象。  

開源力量的崛起:Llama、PaLM與權力的民主化

在GPT-3確立了大規模解碼器-Only模型的統治地位後,這股力量開始從少數頂級實驗室向更廣泛的社區擴散。

  • Google的PaLM:Google在2022年發布了PaLM(Pathways Language Model),將模型規模進一步推向了5400億參數的驚人水平 。PaLM在眾多基準測試上取得了SOTA成績,並為湧現能力的存在提供了更多有力的證據,特別是在多步推理任務上展現了突破性的性能 。  
  • Meta的Llama系列:Meta AI在2023年發布的Llama系列,特別是Llama 2,成為了開源社區的一個里程碑事件 。Llama 2不僅性能強大,可與閉源模型相媲美,而且其權重對研究和商業用途開放(有一定限制)。這極大地推動了LLM研究的民主化,使得更廣泛的研究者和開發者能夠在此基礎上進行創新。Llama 2的架構採用了當時最先進的組件,如RMSNorm預歸一化、SwiGLU激活函數和旋轉位置嵌入(RoPE),其對話版本Llama 2-Chat更是通過監督微調(SFT)和帶有人類反饋的強化學習(RLHF)進行了精心的對齊 。  

統治的證據:知識與生成的雙重制霸

解碼器-Only王朝的強大實力體現在其對知識密集型任務和開放式生成任務的雙重掌控上。

  • MMLU基準測試:如果說GLUE/SuperGLUE是衡量NLU能力的試金石,那麼MMLU(Massive Multitask Language Understanding)就是檢驗模型通用知識廣度和深度的權威標準 。MMLU涵蓋了從初等數學到美國歷史、從計算機科學到專業醫學等57個不同學科的專業級問題。大規模解碼器-Only模型,如GPT-4、PaLM和Llama,在MMLU上的卓越表現(通常在少樣本設置下進行評估)證明了它們從海量訓練數據中學到了豐富的世界知識 。例如,根據HELM v0.3.0的數據,GPT-3 (davinci)的5-shot MMLU準確率為42.2%,而更強大的模型如Llama 2 (70B)則達到了58.2% 。  
  • 生成能力的展現:雖然生成質量難以用單一指標量化,但解碼器-Only模型的生成能力是有目共睹的。從ChatGPT(基於GPT-3.5和GPT-4)引發的全球熱潮,到在代碼生成領域的廣泛應用(如GitHub Copilot),再到各種創意寫作和內容創作工具,都證明了這一架構在生成任務上的絕對統治力 。  

第三章:綜合的時代 – 編碼器-解碼器文藝復興

在編碼器-Only和解碼器-Only兩大王朝各自走向專精化的同時,一股試圖「再融合」的力量也在悄然興起。這股力量回溯到原始Transformer的設計,旨在打造出既具備編碼器深度理解能力,又擁有解碼器靈活生成能力的通用模型。這場「文藝復興」的代表作是T5和BART,它們通過創新的框架和預訓練目標,為序列到序列(Sequence-to-Sequence)任務樹立了新的標杆。

T5的統一戰線:「Text-to-Text」框架涵蓋一切

2019年,Google的研究人員推出了T5(Text-to-Text Transfer Transformer),其核心思想極具顛覆性:將所有NLP任務都統一到一個單一的「文本到文本」框架中 。  

核心哲學

T5的哲學是,無論是翻譯、分類、問答還是摘要,所有任務都可以被重新表述為一個模型接收一段文本輸入,並生成一段新的文本輸出的過程 。例如:  

  • 翻譯:輸入translate English to German: That is good.,模型應輸出Das ist gut.
  • 分類(情感分析):輸入sentiment: This movie is fantastic!,模型應輸出positive
  • 摘要:輸入summarize: [long article text]...,模型應輸出[short summary text]

這種統一的框架帶來了巨大的好處:研究人員可以使用完全相同的模型架構、損失函數、超參數和解碼過程來處理極其多樣化的任務,極大地簡化了實驗和部署流程 。  

架構與預訓練目標

T5採用了標準的Transformer編碼器-解碼器架構 。其主要的預訓練目標被稱為  

跨度損壞(Span Corruption),這是一種更接近真實世界噪聲的MLM變體 。T5不是掩蓋單個詞元,而是隨機地從輸入文本中移除連續的文本跨度(span),並用一個單一的特殊哨兵詞元(sentinel token)替換它們。模型的任務則是預測出所有被移除的原始文本跨度,並用相應的哨兵詞元進行分隔。這種目標迫使模型不僅要填補缺失的內容,還要學會處理長度和結構都有變化的輸入和輸出。  

C4數據集

為了支持大規模的預訓練,T5團隊還創建並開源了**C4(Colossal Clean Crawled Corpus)**數據集 。C4是對Common Crawl網絡爬取數據進行大量清洗和過濾後得到的,旨在提供一個高質量的、通用的大規模文本語料庫,這也成為了T5項目對社區的重大貢獻之一。  

BART的哲學:為泛化而生的去噪

幾乎在同一時間,Facebook AI的研究人員提出了BART(Bidirectional and Auto-Regressive Transformer),這是另一個強大的綜合模型 。BART的設計理念是明確地將BERT和GPT的優點結合起來。  

結合兩大王朝的優勢

BART的架構可以被視為對BERT和GPT的直接概括 。它使用了一個  

雙向的編碼器(類似BERT)來處理被損壞的輸入文本,使其能夠充分理解輸入的全局上下文。然後,它使用一個從左到右的自回歸解碼器(類似GPT)來逐步重建原始的、未損壞的文本 。這種設計使得BART在需要對源文本有深刻理解的生成任務上(如摘要)具有天然的優勢。  

去噪自編碼器預訓練目標

BART的預訓練過程被定義為一個去噪自編碼器(denoising autoencoder)。其核心思想是,首先用任意的噪聲函數「損壞」原始文本,然後訓練模型來恢復原始文本 。這種靈活的框架允許研究人員嘗試各種各樣的文本損壞策略,遠比BERT的MLM更為豐富:  

  1. 詞元掩碼(Token Masking):與BERT相同。
  2. 詞元刪除(Token Deletion):隨機刪除詞元,模型需要學會在哪裡插入缺失的內容。
  3. 文本填充(Text Infilling):將一個或多個文本跨度替換為單一的“詞元。模型需要預測出被替換的內容以及其長度。
  4. 句子排列(Sentence Permutation):隨機打亂文檔中句子的順序,模型需要恢復原始順序。
  5. 文檔旋轉(Document Rotation):隨機選擇一個詞元作為文檔的開頭,模型需要識別出原始的文檔起點。

BART的論文發現,將文本填充句子排列這兩種損壞策略結合使用時,模型在下游任務上表現最好 。  

統治的證據:序列到序列任務的SOTA表現

編碼器-解碼器文藝復興的成果,最直接地體現在那些需要同時進行深度理解和複雜生成的序列到序列任務上。在這些領域,T5和BART都取得了當時的SOTA成績。

  • 摘要(CNN/DailyMail & XSum):抽象式摘要是編碼器-解碼器架構的經典應用場景。模型需要「閱讀」一篇長文(由編碼器處理),然後「寫」出一段簡潔的摘要(由解碼器生成)。T5和BART在這個任務上表現出色,其性能通常使用ROUGE(Recall-Oriented Understudy for Gisting Evaluation)分數來衡量,該指標計算生成摘要與參考摘要之間的n-gram重疊度 。BART在其論文中報告,在摘要、對話和問答等一系列生成任務上取得了高達3.5 ROUGE的提升 。T5-11B在CNN/DailyMail上的ROUGE-L分數達到了40.69,是當時的頂級水平 。  
  • 機器翻譯(WMT):機器翻譯是原始Transformer的誕生之地,也是編碼器-解碼器架構的傳統強項。T5和BART證明,通過大規模預訓練和微調,這一架構在翻譯任務上依然極具競爭力。其性能通常使用BLEU(Bilingual Evaluation Understudy)分數來評估,該指標衡量機器翻譯與專業人工翻譯之間的相似度 。BART在其發布時,僅通過目標語言的預訓練,就在機器翻譯任務上比一個強大的反向翻譯(back-translation)系統高出1.1 BLEU 。原始Transformer在WMT 2014英德翻譯任務上的BLEU分數為28.4,而T5和BART的變體則在此基礎上進一步提升了性能 。  

這些實證結果清晰地表明,儘管專精化的編碼器-Only和解碼器-Only模型在各自的領域稱霸,但綜合性的編碼器-解碼器架構在那些需要兩者能力結合的複雜轉換任務中,找到了自己不可替代的生態位。

這場文藝復興也揭示了AI架構設計中的「沒有免費的午餐」(No Free Lunch)原則。T5和BART是出色的多面手和序列到序列任務的大師,但它們的通用性也意味著在某些極端專精的任務上,可能會被特化模型超越。例如,在SuperGLUE這樣的純NLU基準測試中,一個精心優化的編碼器-Only模型(如RoBERTa)通常表現更佳 ;而在需要極致創造力和零樣本泛化能力的開放式生成任務上,一個規模巨大的解碼器-Only模型(如GPT-3)則無可匹敵 。這凸顯了在LLM架構設計中,專精化與泛化能力之間永恆的權衡。  


第四章:架構深度剖析:三方對比

在回顧了三大王朝各自的興衰史後,本章將對這三種核心架構進行一次直接的、技術層面的深度比較,從信息流、注意力機制和預訓練目標三個維度,揭示它們的本質差異和由此產生的能力分野。

信息流與注意力機制

模型如何處理和傳遞信息,是其架構的根本。三大王朝在這方面有著截然不同的設計哲學。

  • 編碼器-Only(雙向信息流):在BERT及其後繼者中,信息流是完全雙向的(bidirectional)。在其核心的自註意力層中,序列中的每一個詞元都可以關注到序列中的所有其他詞元,無論是在其之前還是之後。這就好像在閱讀一個句子時,可以反覆通讀全文,直到對每個詞在完整語境中的含義都有了深刻的理解。這種無限制的信息流動,使得模型能夠構建出對輸入文本極其豐富和深入的上下文表示。例如,要區分「river bank」(河岸)和「money bank」(銀行)中的「bank」,模型可以同時利用「river」和「money」這兩個關鍵詞,無論它們出現在句子的哪個位置。
  • 解碼器-Only(因果/自回歸信息流):在GPT系列模型中,信息流是嚴格單向的(unidirectional)或因果的(causal)。其自註意力機制被施加了掩碼,使得一個位於位置i的詞元只能關注到其自身以及之前的所有詞元(位置1到i)。它對未來的詞元是「盲」的 。這種設計強制模型遵循從左到右的自回歸生成過程,即根據已經生成的內容來預測下一個內容。這就像一個作家在寫作時,只能基於已經寫下的文字來構思下一句話,而不能預知未來的情節。這種信息流對於生成連貫、流暢的文本至關重要。  
  • 編碼器-解碼器(混合信息流):這種架構擁有最複雜的信息流,融合了前兩者的特點,並引入了第三種交互方式。
    1. 編碼器中的雙向自註意力:編碼器部分與BERT一樣,對輸入的源序列(source sequence)進行雙向處理,以形成一個完整的上下文表示。
    2. 解碼器中的因果自註意力:解碼器部分與GPT一樣,對其自身已經生成的目標序列(target sequence)進行因果自註意力計算,以確保生成的連貫性。
    3. 交叉注意力(Cross-Attention):這是連接編碼器和解碼器的橋樑,也是該架構的關鍵所在 。在解碼器的每一層,除了因果自註意力,還有一個交叉注意力子層。在這個子層中,解碼器生成的查詢(Q)向量會去關注編碼器最終輸出的鍵(K)和值(V)向量。這允許解碼器在生成每一個新詞元時,都能「回看」並借鑒源序列中的所有信息。這對於翻譯(將目標詞與源詞對齊)和摘要(確保摘要內容忠實於原文)等任務是不可或缺的。  

預訓練目標:機器的靈魂

如果說架構是模型的骨架,那麼預訓練目標就是注入其靈魂的儀式。不同的目標塑造了模型截然不同的「世界觀」和核心能力。

  • MLM(掩碼語言建模):這是編碼器-Only模型的專屬目標。其根本目的不是生成,而是理解表示。它通過「完形填空」的方式,訓練模型去推斷缺失的信息,從而迫使模型學習詞與詞之間深層次的語義和語法關係。MLM訓練出的模型,其最終輸出是一個高質量的上下文嵌入向量,非常適合用於分類、實體識別等判別性任務。
  • CLM(因果語言建模):這是解碼器-Only模型的標準目標。其目的非常純粹:生成。通過不斷地預測下一個詞,模型學會了語言的概率分布,掌握了語法、風格和事實知識。CLM訓練出的模型天然就是一個文本生成器,擅長開放式的、創造性的任務。
  • 去噪/跨度損壞(Denoising / Span Corruption):這是編碼器-解碼器模型的混合目標。它結合了理解和生成的雙重挑戰。模型首先需要通過編碼器理解一個被「損壞」或不完整的輸入,然後通過解碼器生成一個「乾淨」的、完整的輸出。這種**轉換(transformation)編輯(editing)**的訓練範式,使得模型非常擅長那些輸入和輸出序列之間存在緊密映射關係的任務。

任務專精矩陣與實證支持

綜合以上分析,我們可以構建一個清晰的任務專精矩陣,並用前幾章提到的基準測試結果作為實證支持。

表2:三大架構與任務性能對比

特性編碼器-Only (例如, BERT, RoBERTa)解碼器-Only (例如, GPT-3, Llama 2)編碼器-解碼器 (例如, T5, BART)
核心原則雙向上下文理解自回歸生成序列到序列轉換
信息流無限制雙向自註意力因果(單向)自註意力編碼器: 雙向自註意力 解碼器: 因果自註意力 + 交叉注意力
主要預訓練目標掩碼語言建模 (MLM)因果語言建模 (CLM)去噪 / 跨度損壞
擅長任務自然語言理解 (NLU): – 文本分類 – 情感分析 – 命名實體識別 (NER)開放式生成: – 對話系統/聊天機器人 – 創意寫作 – 代碼生成 – 上下文學習序列到序列任務: – 抽象式摘要 – 機器翻譯 – 問答 – 文本風格遷移
主要實證 (基準 & 指標)GLUE/SuperGLUE (平均分): – BERT-Large (GLUE): 82.1  – RoBERTa在多項任務上超越BERT  MMLU (準確率): – GPT-3 (davinci, 5-shot): 42.2%  – Llama 2 (70B, 5-shot): 58.2%  WMT En-De (BLEU): – Transformer: 28.4  – BART: 較強基線提升1.1  CNN/DM (ROUGE-L): – T5-11B: 40.69  – BART: 較強基線提升顯著  
核心弱點不天然適用於生成任務;需要為下游任務添加特定的「頭」部結構。在需要深度雙向理解的任務上可能表現不佳;容易產生幻覺(hallucination)。對於非序列到序列任務,其架構比專精模型更複雜,計算成本更高。

這張表格清晰地展示了三大架構之間的分工與權衡。

  • 證據表明,當任務的核心是理解輸入文本並從中提取信息或對其進行分類時,編碼器-Only模型無疑是王者。它們在GLUE和SuperGLUE等NLU基準上的統治地位就是最好的證明 。  
  • 證據表明,當任務的核心是生成連貫、多樣且與上下文相關的文本時,大規模的解碼器-Only模型處於領先地位。它們在MMLU等知識密集型基準上的高分,以及在ChatGPT等實際應用中的成功,都體現了它們的強大能力 。  
  • 證據表明,當任務需要對一個完整的輸入序列進行理解,並基於此生成一個全新的、相關的輸出序列時,編碼器-解碼器模型則表現最佳。它們在摘要(ROUGE分數)和翻譯(BLEU分數)等經典Seq2Seq任務上的SOTA表現,驗證了其架構設計的有效性 。  

第五章:下一個王朝 – LLM架構的未來

三大王朝的演義譜寫了大型語言模型發展的第一個黃金時代。然而,正如歷史的車輪滾滾向前,技術的演進也永不停歇。推動解碼器-Only王朝走向巔峰的縮放定律,本身也預示了其局限性。一個新的架構範式正在崛起,它試圖解決密集模型的內在矛盾,預示著下一個王朝的到來。

縮放定律的雙刃劍:計算之牆

縮放定律揭示了一個簡單而強大的真理:更大的模型、更多的數據、更強的計算力,會帶來更好、更可預測的性能 。這一規律是GPT-3等密集(dense)模型取得成功的核心驅動力。在密集模型中,每一個輸入詞元都會激活並利用模型的所有參數來進行計算。然而,這種「多多益善」的策略是一把雙刃劍。  

隨著模型參數從數十億擴展到數千億,甚至萬億,其訓練和推理的成本也呈指數級增長。訓練一個萬億參數的密集模型所需的計算資源、能源消耗和時間成本,對於絕大多數組織而言都是難以承受的。更重要的是,即使在推理階段,每次處理一個詞元都要動用全部的萬億參數,這使得模型的部署和服務成本極高,效率低下。整個領域正逐漸撞上一堵由物理和經濟規律築成的「計算之牆」。

稀疏性的崛起:專家混合(Mixture of Experts, MoE)

為了解決這一困境,研究界將目光投向了一種更為高效的架構範式——專家混合(Mixture of Experts, MoE) 。MoE並非一個全新的概念,但在LLM時代,它被重新發掘並賦予了新的生命,成為了打破縮放瓶頸的關鍵。  

核心概念

MoE的核心思想是從「所有參數共同工作」轉變為「專業分工,協同工作」。它對標準Transformer架構中的前饋網絡(FFN)層進行了改造 。  

  • 專家網絡(Experts):在一個MoE層中,單一的、巨大的FFN被替換為多個(例如8個、64個)規模較小、功能獨立的「專家」網絡。每個專家本身就是一個標準的前饋網絡 。  
  • 門控網絡/路由器(Gating Network/Router):在MoE層的前端,有一個小型的、輕量級的神經網絡,被稱為「路由器」。路由器的作用是根據當前的輸入詞元,動態地、智能地決定應該將這個詞元發送給哪些專家進行處理 。  
  • 稀疏激活(Sparse Activation):對於每一個輸入的詞元,路由器並不會激活所有的專家,而是只選擇一個稀疏的子集(例如,從8個專家中選擇2個)。然後,該詞元的最終輸出是這幾個被選中專家的輸出結果的加權和 。  

MoE的優勢

這種設計帶來了革命性的好處:它成功地解耦了模型的總參數數量單次推理的計算量。一個MoE模型的總參數可以輕易地擴展到萬億級別,因為它只是增加了專家的數量。然而,在處理任何一個詞元時,實際參與計算的只有被路由器選中的那一小部分專家。這意味著,模型的規模可以持續擴大,而其訓練和推理的計算成本(以FLOPs衡量)卻可以保持在一個相對較低的水平 。  

新王者的雛形:Mixtral 8x7B

如果說MoE是未來王朝的理論基礎,那麼由Mistral AI在2023年發布的Mixtral 8x7B就是這一理論的有力實踐者和新王者的雛形 。  

Mixtral 8x7B是一個基於解碼器-Only架構的稀疏專家混合模型。其名稱中的「8x7B」意味著,在其Transformer的每個MoE層中,都包含8個專家,每個專家的參數規模約為70億。然而,對於每個詞元,其路由器只會選擇2個專家來進行處理 。  

這使得Mixtral的總參數達到了約470億,但其單次推理的有效計算參數僅約為130億 。其結果是,Mixtral的推理速度與一個130億參數的密集模型相當,但其性能卻在多個基準測試中超越了規模更大的密集模型,如Llama 2 70B,甚至在某些方面可以與GPT-3.5相媲美 。Mixtral的成功,特別是其開源的特性,有力地證明了MoE是通往更強大、更高效LLM的可行路徑,也預示著未來架構的主流趨勢。關於GPT-4也採用了MoE架構的傳言,雖然未經官方證實,但進一步強化了這一趨勢的可信度 。  

結論:不朽的遺產與融合的未來

回顧大型語言模型從2017年至今的演化歷程,三大王朝各自留下了不朽的遺產,並共同指向一個融合的未來。

  • 編碼器-Only王朝留下了深度上下文理解的遺產。它所開創的MLM預訓練目標和「預訓練-微調」範式,至今仍在NLU領域發揮著重要作用。它教會了我們,一個真正理解語言的模型需要具備雙向審視文本的能力。
  • 解碼器-Only王朝留下了強大生成能力規模效應的遺產。它通過上下文學習徹底改變了人機交互的方式,並揭示了當模型規模達到一定程度後,會湧現出令人驚訝的智能。它將LLM從實驗室推向了數十億普通用戶。
  • 編碼器-解碼器王朝留下了靈活性序列轉換的遺產。它展示了如何通過一個統一的框架來解決多樣化的NLP問題,並在需要精確映射輸入與輸出的任務上定義了SOTA。

展望未來,模型的架構設計將不再是教條式地選擇三者之一。相反,我們將看到更深層次的融合。未來的架構很可能會在解碼器-Only的基礎上,融入更多理解能力,或者在編碼器-解碼器的框架下,探索更高效的交互方式。而像**稀疏性(MoE)**這樣的原則,將成為構建這一切的基礎層。從密集到稀疏的轉變,並非對過去的否定,而是對縮放定律成功所引發的挑戰的必然回應。這是一次向著更高效率、更強模塊化和更可持續擴展方向的演進。三大王朝的遺產將被繼承,並在一個更為高效和強大的新架構範式中得到統一,繼續推動著通用人工智能的邊界。

分類: Uncategorized。這篇內容的永久連結

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *