大型語言模型架構演進史

大型語言模型架構演進史

一場改變世界的架構革命

從理解到生成,大型語言模型的演進是一部精彩的史詩。這場革命始於 2017 年一篇名為《Attention Is All You Need》的論文,它提出的 Transformer 架構,如同一塊創世基石,衍生出三大家族:Encoder-Decoder、Decoder-Only 與 Encoder-Only。本篇將帶您穿越時空,見證每個時代王者的崛起,並深入剖析三種架構的奧秘與天賦。

時代的開端:Encoder-Decoder 架構

這是故事的起點。原始的 Transformer 模型採用 Encoder-Decoder 架構,如同一個精通雙語的翻譯官。Encoder 負責深入「閱讀」並理解輸入的全文,將其精髓壓縮成一個富含語義的向量;Decoder 則基於這個向量,逐字「寫」出目標輸出。這個「先理解,後生成」的模式,為機器翻譯等序列到序列(Seq2Seq)任務帶來了革命性的突破。

輸入序列
Encoder (理解)
語義向量
Decoder (生成)
輸出序列

巨人的興盛:Decoder-Only 架構

當人們意識到只需要 Transformer 的「生成」部分就能創造驚人的語言能力時,一個新時代來臨了。Decoder-Only 架構放棄了獨立的 Encoder,專注於一件事:根據已有的上文,預測下一個最可能的詞。這種自回歸(Auto-regressive)的特性讓它成為天生的「作家」與「對話者」,GPT 系列的巨大成功,正是這個架構力量的最好證明,也開啟了生成式 AI 的黃金時代。

輸入提示 (Prompt)
Decoder (自回歸生成)
逐字預測並輸出

理解的專精:Encoder-Only 架構

與此同時,另一條進化路線也在蓬勃發展。Encoder-Only 架構拋棄了 Decoder,將 Transformer 的「理解」能力發揮到極致。它的訓練方式如同做「克漏字填空」,通過預測句子中被遮蓋(Masked)的詞語,迫使模型學習到雙向、深度的上下文語義。這使得 BERT 及其後繼者成為語義理解、文本分類和情感分析等任務的王者,徹底改變了自然語言理解(NLU)的格局。

帶有 [MASK] 的句子
Encoder (雙向理解)
預測 [MASK] 的詞

終局之戰:三強鼎立

三大架構各有專長,共同構建了今日的 AI 版圖。它們不是取代關係,而是針對不同任務的最佳選擇。在這裡,我們將它們並列比較,讓您一目了然地看清它們的本質差異與各自的王國。使用下方的按鈕來切換比較維度。

Decoder-Only

Encoder-Decoder

Encoder-Only

能力象限視覺化

此圖表為三大架構在「生成能力」與「理解深度」兩個維度上的概念性比較,幫助您快速建立直觀印象。

© 2025 大型語言模型架構演進史. All Rights Reserved.

此為一個基於公開資訊建構的互動式教育頁面。

分類: Uncategorized。這篇內容的永久連結

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *