大型語言模型架構演進史

一場改變世界的架構革命

從理解到生成，大型語言模型的演進是一部精彩的史詩。這場革命始於 2017 年一篇名為《Attention Is All You Need》的論文，它提出的 Transformer 架構，如同一塊創世基石，衍生出三大家族：Encoder-Decoder、Decoder-Only 與 Encoder-Only。本篇將帶您穿越時空，見證每個時代王者的崛起，並深入剖析三種架構的奧秘與天賦。

時代的開端：Encoder-Decoder 架構

這是故事的起點。原始的 Transformer 模型採用 Encoder-Decoder 架構，如同一個精通雙語的翻譯官。Encoder 負責深入「閱讀」並理解輸入的全文，將其精髓壓縮成一個富含語義的向量；Decoder 則基於這個向量，逐字「寫」出目標輸出。這個「先理解，後生成」的模式，為機器翻譯等序列到序列（Seq2Seq）任務帶來了革命性的突破。

輸入序列

→

Encoder (理解)

→

語義向量

→

Decoder (生成)

→

輸出序列

巨人的興盛：Decoder-Only 架構

當人們意識到只需要 Transformer 的「生成」部分就能創造驚人的語言能力時，一個新時代來臨了。Decoder-Only 架構放棄了獨立的 Encoder，專注於一件事：根據已有的上文，預測下一個最可能的詞。這種自回歸（Auto-regressive）的特性讓它成為天生的「作家」與「對話者」，GPT 系列的巨大成功，正是這個架構力量的最好證明，也開啟了生成式 AI 的黃金時代。

輸入提示 (Prompt)

→

Decoder (自回歸生成)

↻

逐字預測並輸出

理解的專精：Encoder-Only 架構

與此同時，另一條進化路線也在蓬勃發展。Encoder-Only 架構拋棄了 Decoder，將 Transformer 的「理解」能力發揮到極致。它的訓練方式如同做「克漏字填空」，通過預測句子中被遮蓋（Masked）的詞語，迫使模型學習到雙向、深度的上下文語義。這使得 BERT 及其後繼者成為語義理解、文本分類和情感分析等任務的王者，徹底改變了自然語言理解（NLU）的格局。

帶有 [MASK] 的句子

→

Encoder (雙向理解)

→

預測 [MASK] 的詞

終局之戰：三強鼎立

三大架構各有專長，共同構建了今日的 AI 版圖。它們不是取代關係，而是針對不同任務的最佳選擇。在這裡，我們將它們並列比較，讓您一目了然地看清它們的本質差異與各自的王國。使用下方的按鈕來切換比較維度。

Decoder-Only

Encoder-Decoder

Encoder-Only

能力象限視覺化

此圖表為三大架構在「生成能力」與「理解深度」兩個維度上的概念性比較，幫助您快速建立直觀印象。

大型語言模型架構演進史

一場改變世界的架構革命

時代的開端：Encoder-Decoder 架構

巨人的興盛：Decoder-Only 架構

理解的專精：Encoder-Only 架構

終局之戰：三強鼎立

Decoder-Only

Encoder-Decoder

Encoder-Only

能力象限視覺化

發佈留言取消回覆

Recent Posts

Recent Comments

Archives

Categories

大型語言模型架構演進史

一場改變世界的架構革命

Decoder-Only

Encoder-Decoder

Encoder-Only

能力象限視覺化

發佈留言 取消回覆

Recent Posts

Recent Comments

發佈留言取消回覆