五月婷视频,伊人久久久久久久久久久,欧美视频一二三区,欧美一区,二区,国产噜噜噜噜噜久久久久久久久,av一级在线观看,欧美三级在线不卡,中文字幕av影院

智東西 13小時前

剛剛，華為 AI 推理大招開源，時延降 90%，吞吐提 22 倍，上下文 10 倍級擴展

智東西

作者 | 云鵬

編輯 | 李水青

智東西 11 月 5 日消息，剛剛，華為正式開源了 UCM（Unified Cache Manager）推理記憶數據管理，這是一項針對 AI 推理加速的關鍵技術。

GitCode 項目頁面

今年 8 月 12 日，華為正式發布了 UCM 技術，發布會上華為公布，經大量測試驗證，UCM 可將首 Token 時延最高降低 90%，系統吞吐最大提升 22 倍，實現 10 倍級上下文窗口擴展，AI 推理性能顯著提升。

8 月 12 日 UCM 技術發布，圖源：智東西

時隔近 3 個月，這一技術正式開源，比發布會上預計的 9 月稍晚。目前 UCM 在 ModelEngine 社區開放了基礎框架和工具鏈，開發者可以在社區獲取 UCM 源代碼和技術文檔。

Github 項目頁面

GitCode 開源地址：

https://gitcode.com/ModelEngine/unified-cache-management

Github 開源地址：

https://github.com/ModelEngine-Group/unified-cache-management

總體來看，UCM 是以 KV Cache 和記憶管理為中心的推理加速套件，可以提供全場景系列化推理加速方案，通過推理框架、算力、存儲三層協同，優化 Tokens 在各業務環節中流轉的效率，破解長序列推理效率低、成本高的難題，以實現 AI 推理的更優體驗、更低成本。其主要服務對象是企業用戶。

Agentic AI 時代，AI 推理的 KV Cache 容量增長已超出 HBM 的承載能力。通過一系列算法，UCM 可根據記憶熱度在 HBM、DRAM、SSD 等存儲介質中自動分級緩存，提升整個系統的效率，一定程度上降低對 HBM 的需求。

UCM 融合了多類型緩存加速算法工具，可分級管理在推理過程中產生的 KV Cache 記憶數據。

UCM 架構包含多個協同工作的關鍵功能模塊，具體如下：

· UCM 稀疏化模塊（UcmSparseBase）：兼容多種稀疏算法的統一基類，負責稀疏 KV Cache Block 的卸載、加載與計算，實現 " 零感知 " 插拔式稀疏化。在不影響整體推理流程的前提下，能夠靈活適配不同稀疏算法以提升推理效率。

· 稀疏化 KV 管理器（SparseKVManager）：面向算法級定制的 KV Cache Block 分配總控器，各稀疏算法以多態子類形式將自身分配邏輯注入框架，實現不同稀疏算法策略與推理引擎解耦，滿足差異化推理場景需求。

· KV Cache 存儲組件（UcmKVStoreBase）：負責提供與外部存儲通信的通用接口。該組件支持稀疏算法與存儲后端解耦，可無縫對接任意存儲系統，同時支持前綴緩存，為數據存儲提供了靈活多樣的選擇。

· UCM 連接器（UC Connector）：橋接 KV Cache 存儲組件與推理引擎，保障數據在不同組件之間的高效傳輸，實現高可靠的前綴緩存能力。

UCM 產品架構

圖中所有灰色框代表 vLLM 0.9.2 版本中的現有類，綠色框則代表 UCM 新增組件。淺綠色框展示了基于此框架未來規劃擴展的子類。

基于以上架構，UCM 目前具備四個關鍵能力：稀疏注意力、前綴緩存、預填充卸載、異構 PD 解耦。

做 UCM 的動機是什么？

根據 GitCode 官方信息，當前隨著模型尺寸的不斷增長，KV 緩存也變得越來越大，且越來越稀疏，對于長序列請求來說尤為明顯。為了減小 GPU 顯存的使用，主流的方向是將全量的 KV 數據卸載到外部存儲中，而在 GPU 顯存中只保留部分或者被壓縮的 KV 數據。這同時可以減小 GPU 的運算量，在解碼時增加最大生成序列長度和批大小。

有許多種不同的稀疏 KV 緩存的實現。最新的論文指出，能夠最好地適配所有場景和所有模型的方法是不存在的。因此，更好的做法是搭建一套公共的框架，并在此之上接入不同的稀疏化算法，就像 KV 連接器和 PC 一樣。

根據 GitCode 官方信息，UCM 的核心原理是持久化 LLM 的 KVCache，并通過多種檢索機制替代冗余計算。UCM 支持前綴緩存（prefix cache,PC），同時提供了多種無需訓練的稀疏注意力檢索方法，在處理極長序列推理任務時達到更高性能；此外，UCM 基于存算分離架構提供了 PD 分離方案，使得異構計算資源的管理更簡單靈活。

結語：應對性能挑戰，緩解資源瓶頸，UCM 開源或加速 AI 推理落地

隨著邊緣和端側 AI 的快速發展，AI 推理需求快速增長，在 Agentic AI 時代，AI 推理任務愈發復雜，對算力、內存訪問效率等方面都提出了更多挑戰。

UCM 的開源，可以進一步緩解 AI 推理復雜任務產生的資源瓶頸和性能挑戰，給行業提供新的技術路徑，加速優秀商用 AI 推理方案的落地。

查看原文

宙世代

ZAKER旗下Web3.0元宇宙平臺

一起剪

ZAKER旗下免費視頻剪輯工具

相關標簽

ai 華為 gpu 智東西

2599元起！一加雙機齊發，性能Ultra開辟旗艦手機新方向

雷科技 10-28

智東西

覺得文章不錯，微信掃描分享好友

熱門推薦

Blockchain News

宙世代元宇宙

元宇宙黨建解決方案

元宇宙文旅解決方案

元宇宙展廳解決方案

元宇宙行業峰會解決方案

元宇宙營銷解決方案

元宇宙會展解決方案

元宇宙演藝節目解決方案

元宇宙博物館解決方案

元宇宙圖書館解決方案

元宇宙校園解決方案

元宇宙企業展廳解決方案

元宇宙藝術展解決方案

元宇宙電商解決方案

融媒體解決方案

ZAKER智慧云

媒體解決方案

黨建解決方案

公檢法解決方案

智慧交通解決方案

高校解決方案

AI視頻

AI視頻剪輯

視頻定制服務

AI智能客服

我的訂閱

剛剛，華為 AI 推理大招開源，時延降 90%，吞吐提 22 倍，上下文 10 倍級擴展

宙世代

一起剪

相關閱讀

2599元起！一加雙機齊發，性能Ultra開辟旗艦手機新方向

最新評論

智東西

熱門推薦

宙世代元宇宙

元宇宙黨建解決方案

元宇宙文旅解決方案

元宇宙展廳解決方案

元宇宙行業峰會解決方案

元宇宙營銷解決方案

元宇宙會展解決方案

元宇宙演藝節目解決方案

元宇宙博物館解決方案

元宇宙圖書館解決方案

元宇宙校園解決方案

元宇宙企業展廳解決方案

元宇宙藝術展解決方案

元宇宙電商解決方案

融媒體解決方案

ZAKER智慧云

媒體解決方案

黨建解決方案

公檢法解決方案

智慧交通解決方案

高校解決方案

AI視頻

AI視頻剪輯

視頻定制服務

AI智能客服

我的訂閱

剛剛，華為 AI 推理大招開源，時延降 90%，吞吐提 22 倍，上下文 10 倍級擴展

宙世代

一起剪

相關閱讀

2599元起！一加雙機齊發，性能Ultra開辟旗艦手機新方向

最新評論

智東西

熱門推薦

剛剛，華為 AI 推理大招開源，時延降 90%，吞吐提 22 倍，上下文 10 倍級擴展

2599元起！一加雙機齊發，性能Ultra開辟旗艦手機新方向