一場改變世界的架構革命
從理解到生成,大型語言模型的演進是一部精彩的史詩。這場革命始於 2017 年一篇名為《Attention Is All You Need》的論文,它提出的 Transformer 架構,如同一塊創世基石,衍生出三大家族:Encoder-Decoder、Decoder-Only 與 Encoder-Only。本篇將帶您穿越時空,見證每個時代王者的崛起,並深入剖析三種架構的奧秘與天賦。
時代的開端:Encoder-Decoder 架構
這是故事的起點。原始的 Transformer 模型採用 Encoder-Decoder 架構,如同一個精通雙語的翻譯官。Encoder 負責深入「閱讀」並理解輸入的全文,將其精髓壓縮成一個富含語義的向量;Decoder 則基於這個向量,逐字「寫」出目標輸出。這個「先理解,後生成」的模式,為機器翻譯等序列到序列(Seq2Seq)任務帶來了革命性的突破。
巨人的興盛:Decoder-Only 架構
當人們意識到只需要 Transformer 的「生成」部分就能創造驚人的語言能力時,一個新時代來臨了。Decoder-Only 架構放棄了獨立的 Encoder,專注於一件事:根據已有的上文,預測下一個最可能的詞。這種自回歸(Auto-regressive)的特性讓它成為天生的「作家」與「對話者」,GPT 系列的巨大成功,正是這個架構力量的最好證明,也開啟了生成式 AI 的黃金時代。
理解的專精:Encoder-Only 架構
與此同時,另一條進化路線也在蓬勃發展。Encoder-Only 架構拋棄了 Decoder,將 Transformer 的「理解」能力發揮到極致。它的訓練方式如同做「克漏字填空」,通過預測句子中被遮蓋(Masked)的詞語,迫使模型學習到雙向、深度的上下文語義。這使得 BERT 及其後繼者成為語義理解、文本分類和情感分析等任務的王者,徹底改變了自然語言理解(NLU)的格局。
終局之戰:三強鼎立
三大架構各有專長,共同構建了今日的 AI 版圖。它們不是取代關係,而是針對不同任務的最佳選擇。在這裡,我們將它們並列比較,讓您一目了然地看清它們的本質差異與各自的王國。使用下方的按鈕來切換比較維度。
Decoder-Only
Encoder-Decoder
Encoder-Only
能力象限視覺化
此圖表為三大架構在「生成能力」與「理解深度」兩個維度上的概念性比較,幫助您快速建立直觀印象。