互動分析：Mixture-of-Recursions vs. Transformer

深入探索：MoR vs. Transformer

歡迎來到 Mixture-of-Recursions (MoR) 與 Transformer 的互動指南。本頁面將透過視覺化圖表和互動式元件，幫助您輕鬆理解這兩種強大 AI 架構的核心差異、運作機制與性能表現。

兩大主角介紹

在我們深入比較之前，讓我們先分別認識一下這兩個模型。Transformer 以其強大的「注意力機制」聞名，而 MoR 則提出了一種新穎的「遞迴混合」方法。本節將簡要介紹它們各自的核心思想。

🌐

Transformer 的核心是「自注意力機制」（Self-Attention）。它在處理序列中的每個元素（例如一個詞）時，會計算該元素與序列中所有其他元素的關聯性分數。這使得模型能夠捕捉長距離的依賴關係，實現了高度的平行化計算，成為當代大型語言模型的基石。

🌿

MoR 提出了一種替代方案。它不使用全局注意力，而是採用一種動態的、依賴於輸入的遞迴混合專家模型。對於序列中的每個位置，MoR 會透過一個「路由器」選擇一個或多個專門的遞迴「專家」來進行處理。這種方法旨在提高計算效率，並可能在特定任務上實現更好的性能。

這是兩者最根本的區別所在。Transformer 對序列中的所有元素進行全局性的、密集的計算，而 MoR 則進行選擇性的、稀疏的計算。點擊下方按鈕，切換觀看兩種機制的動態資訊流示意圖，親身體驗它們的運作方式。

計算效率是 MoR 架構提出的一個關鍵優勢。對於長序列的處理，Transformer 的二次方複雜度會成為瓶頸，而 MoR 則有望將其降低。下方的圖表直觀地展示了這一差異。將滑鼠懸停在長條上可以查看具體的複雜度公式。

經過前面的介紹和互動探索，現在讓我們用一個清晰的表格來總結 Transformer 和 MoR 在各個維度上的核心差異。這將幫助您快速回顧和鞏固對這兩種架構的理解。