從靜態增強到動態代理
大型語言模型(LLM)的挑戰在於如何連接外部世界的動態知識。本報告將帶您探索兩種關鍵技術的演進:從開創性的檢索增強生成(RAG),到為了解決複雜推理任務而生的LLM搜尋代理,以及使其能夠規模化部署的關鍵框架 SearchAgent-X。
兩種範式:核心比較
RAG 旨在增強答案的「事實性」,而 SearchAgent-X 旨在優化代理的「執行效率」。
傳統 RAG
一個線性的「先檢索、後生成」管線,將 LLM 視為被動的資訊綜合者。
- ➔核心範式:靜態增強。在生成前,用檢索到的知識增強提示。
- ➔LLM 角色:被動生成器。從給定的上下文中合成最終答案。
- ➔主要目標:提升回應品質(事實性、相關性),解決幻覺。
- ➔處理複雜查詢:固有弱點。無狀態、非迭代的架構難以處理多步推理。
SearchAgent-X 框架
一個動態的「交錯式推理與檢索」迴圈,將 LLM 視為主動的流程控制器。
- ➔核心範式:動態代理。LLM 主動規劃並執行一系列推理與檢索步驟。
- ➔LLM 角色:主動控制器(大腦)。指導整個工作流程,決定何時、搜尋什麼。
- ➔主要目標:提升系統性能(吞吐量、延遲),解決代理的效率瓶頸。
- ➔處理複雜查詢:原生能力。其迭代迴圈專為問題分解而設計。
互動式工作流程解析
點擊「開始演示」按鈕,逐步觀察兩種架構如何處理查詢。
RAG:線性流程
1. 查詢
使用者提出問題
↓
2. 檢索
在向量資料庫中尋找`Top-K`相關區塊
↓
3. 生成
LLM 根據查詢+區塊生成答案
搜尋代理:循環流程
1. 查詢 & 推理
“誰創造了’Curious’香水?”
2. 搜尋
返回 “Britney Spears”
3. 整合 & 推理
“Britney Spears在哪出生?”
4. 搜尋
返回 “McComb, Mississippi”
↓
5. 綜合答案
解決效率瓶頸:SearchAgent-X 的創新
代理模式雖然強大,但執行緩慢。SearchAgent-X 透過系統級優化解決了這些問題。
瓶頸:KV 快取抖動
在多用戶環境中,長請求(A)的快取容易被新來的短請求(B)擠掉,導致昂貴的重新計算。
請求 A
(長歷史)
(長歷史)
請求 B
(新)
(新)
解決方案:優先級感知排程
動態調整佇列,優先處理有長歷史的請求,最大化快取重用。
請求 A
(優先)
(優先)
請求 B
(等待)
(等待)
影響:KV 快取命中率大幅提升
智慧排程將 KV 快取命中率從幾乎為零提升至 65%,顯著提高系統吞吐量。
何時使用哪種技術?
將問題的複雜性與架構的複雜性相匹配是關鍵。
使用傳統 RAG 的場景 ✅
適用於知識密集但推理路徑直接的任務。
- 單步問答:如「法國的首都是什麼?」
- 簡單客戶支援:根據 FAQ 文件庫回答常見問題。
- 文件摘要:總結單一或少量高度相關的文件。
- 內部知識查詢:快速查找公司內部文件或政策。
使用代理框架的場景 🚀
適用於需要分解問題、動態規劃和綜合多源資訊的複雜任務。
- 複雜研究分析:綜合多篇論文、財報回答複雜問題。
- 自動化科學發現:輔助研究人員提出並驗證假設。
- 進階財務分析:生成全面的投資備忘錄。
- 動態故障排除:引導使用者完成複雜的除錯流程。
頁次: 1 2