為 AI 代理打造一顆更強健的「心臟」
SearchAgent-X 是一個高效率推論框架,它並非讓 AI 更「聰明」,而是專注於解決代理式系統的底層效能瓶頸,使其「行動」更迅速、資源利用更高效。
系統吞吐量提升
高達 3.4 倍
端到端延遲降低
高達 5 倍
挑戰:為何現有系統「水土不服」?
代理式搜尋的「思考-搜尋-思考」模式,與為連續生成而優化的傳統 LLM 系統存在根本性的「工作負載-系統不匹配」,引發了兩大效能瓶頸。
瓶頸一:KV 快取利用率低下
在傳統的「先進先出」排程下,當代理暫停去搜尋外部資訊時,它在 GPU 中的寶貴上下文快取 (KV Cache) 極易被清除。待搜尋完成後,快取需要昂貴的重算,導致這項關鍵資源的利用率低至 7%,造成巨大浪費。
瓶頸二:檢索停滯與級聯延遲
在標準流程中,LLM 的生成與外部資訊檢索是同步的。一旦需要搜尋,模型就必須「停機等待」,直到結果返回。這個等待期會引發「級聯延遲」,即檢索過程的任何延遲都會被放大,嚴重拖慢整體反應速度。
解決方案:SearchAgent-X 的兩大創新
透過兩項系統級創新,SearchAgent-X 從根本上重塑了代理的執行流程。點擊下方標籤,觀看執行流程的動畫對比。
問題重現:同步等待與資源浪費
GPU 執行緒
系統日誌
優先權感知排程
動態調整任務優先權,讓剛完成搜尋的請求能立即返回GPU,最大化其KV快取的重用率。
非停滯檢索
將LLM的計算與檢索的I/O操作解耦,讓兩者並行工作,有效「遮罩」檢索延遲。
效能影響:量化的飛躍
實驗數據證明,SearchAgent-X 在不犧牲生成品質的前提下,實現了壓倒性的效能提升。這一切的根源在於對核心資源利用率的巨大改善。
系統吞吐量對比
端到端延遲對比
KV 快取利用率
宏觀意義:超越搜尋
SearchAgent-X 的貢獻不僅是優化搜尋,它為更廣泛的 AI 代理研究和應用奠定了堅實的效能基礎。
心智與軀體的互補
如果說增強代理規劃能力的研究是鍛鍊「心智」,那麼 SearchAgent-X 就是在打造一個強健的「軀體」,讓智慧的規劃能被高效執行。
賦能複雜多代理系統
其低延遲、高吞吐的能力,為需要頻繁溝通和協作的多代理系統提供了效能保障,使其在現實世界中的應用更為可行。
通用工具使用的潛力
其核心優化原則可推廣到所有需要與外部 API、資料庫或程式碼互動的「通用工具使用代理」,而不僅限於搜尋。