五月婷视频,伊人久久久久久久久久久,欧美视频一二三区,欧美一区,二区,国产噜噜噜噜噜久久久久久久久,av一级在线观看,欧美三级在线不卡,中文字幕av影院
關于ZAKER 合作
智東西 13小時前

剛剛,華為 AI 推理大招開源,時延降 90%,吞吐提 22 倍,上下文 10 倍級擴展

智東西

作者 | 云鵬

編輯 | 李水青

智東西 11 月 5 日消息,剛剛,華為正式開源了 UCM(Unified Cache Manager)推理記憶數據管理,這是一項針對 AI 推理加速的關鍵技術。

GitCode 項目頁面

今年 8 月 12 日,華為正式發布了 UCM 技術,發布會上華為公布,經大量測試驗證,UCM 可將首 Token 時延最高降低 90%,系統吞吐最大提升 22 倍,實現 10 倍級上下文窗口擴展,AI 推理性能顯著提升。

8 月 12 日 UCM 技術發布,圖源:智東西

時隔近 3 個月,這一技術正式開源,比發布會上預計的 9 月稍晚。目前 UCM 在 ModelEngine 社區開放了基礎框架和工具鏈,開發者可以在社區獲取 UCM 源代碼和技術文檔。

Github 項目頁面

GitCode 開源地址:

https://gitcode.com/ModelEngine/unified-cache-management

Github 開源地址:

https://github.com/ModelEngine-Group/unified-cache-management

總體來看,UCM 是以 KV Cache 和記憶管理為中心的推理加速套件,可以提供全場景系列化推理加速方案,通過推理框架、算力、存儲三層協同,優化 Tokens 在各業務環節中流轉的效率,破解長序列推理效率低、成本高的難題,以實現 AI 推理的更優體驗、更低成本。其主要服務對象是企業用戶。

Agentic AI 時代,AI 推理的 KV Cache 容量增長已超出 HBM 的承載能力。通過一系列算法,UCM 可根據記憶熱度在 HBM、DRAM、SSD 等存儲介質中自動分級緩存,提升整個系統的效率,一定程度上降低對 HBM 的需求。

UCM 融合了多類型緩存加速算法工具,可分級管理在推理過程中產生的 KV Cache 記憶數據。

UCM 架構包含多個協同工作的關鍵功能模塊,具體如下:

· UCM 稀疏化模塊 (UcmSparseBase):兼容多種稀疏算法的統一基類,負責稀疏 KV Cache Block 的卸載、加載與計算,實現 " 零感知 " 插拔式稀疏化。在不影響整體推理流程的前提下,能夠靈活適配不同稀疏算法以提升推理效率。

· 稀疏化 KV 管理器 (SparseKVManager):面向算法級定制的 KV Cache Block 分配總控器,各稀疏算法以多態子類形式將自身分配邏輯注入框架,實現不同稀疏算法策略與推理引擎解耦,滿足差異化推理場景需求。

· KV Cache 存儲組件 (UcmKVStoreBase):負責提供與外部存儲通信的通用接口。該組件支持稀疏算法與存儲后端解耦,可無縫對接任意存儲系統,同時支持前綴緩存,為數據存儲提供了靈活多樣的選擇。

· UCM 連接器(UC Connector):橋接 KV Cache 存儲組件與推理引擎,保障數據在不同組件之間的高效傳輸,實現高可靠的前綴緩存能力。

UCM 產品架構

圖中所有灰色框代表 vLLM 0.9.2 版本中的現有類,綠色框則代表 UCM 新增組件。淺綠色框展示了基于此框架未來規劃擴展的子類。

基于以上架構,UCM 目前具備四個關鍵能力:稀疏注意力、前綴緩存、預填充卸載、異構 PD 解耦。

做 UCM 的動機是什么?

根據 GitCode 官方信息,當前隨著模型尺寸的不斷增長,KV 緩存也變得越來越大,且越來越稀疏,對于長序列請求來說尤為明顯。為了減小 GPU 顯存的使用,主流的方向是將全量的 KV 數據卸載到外部存儲中,而在 GPU 顯存中只保留部分或者被壓縮的 KV 數據。這同時可以減小 GPU 的運算量,在解碼時增加最大生成序列長度和批大小。

有許多種不同的稀疏 KV 緩存的實現。最新的論文指出,能夠最好地適配所有場景和所有模型的方法是不存在的。因此,更好的做法是搭建一套公共的框架,并在此之上接入不同的稀疏化算法,就像 KV 連接器和 PC 一樣。

根據 GitCode 官方信息,UCM 的核心原理是持久化 LLM 的 KVCache,并通過多種檢索機制替代冗余計算。UCM 支持前綴緩存(prefix cache,PC),同時提供了多種無需訓練的稀疏注意力檢索方法,在處理極長序列推理任務時達到更高性能;此外,UCM 基于存算分離架構提供了 PD 分離方案,使得異構計算資源的管理更簡單靈活。

結語:應對性能挑戰,緩解資源瓶頸,UCM 開源或加速 AI 推理落地

隨著邊緣和端側 AI 的快速發展,AI 推理需求快速增長,在 Agentic AI 時代,AI 推理任務愈發復雜,對算力、內存訪問效率等方面都提出了更多挑戰。

UCM 的開源,可以進一步緩解 AI 推理復雜任務產生的資源瓶頸和性能挑戰,給行業提供新的技術路徑,加速優秀商用 AI 推理方案的落地。

相關標簽
主站蜘蛛池模板: 国产真实一区二区三区| 日日狠狠久久8888偷色| 综合久久色| 国产大片黄在线观看私人影院| 国产专区一区二区| 在线精品视频一区| 99久久国产综合精品尤物酒店| 久久精品亚洲一区二区三区画质| 国产精品乱码一区二区三区四川人 | 国产精品欧美一区乱破| 中文字幕一区二区三区又粗| 欧洲在线一区| 国产精品视频久久久久久久| 首页亚洲欧美制服丝腿| 国产99视频精品免视看芒果| 午夜影院一级| 国产精品日本一区二区不卡视频 | 欧美一区二区三区艳史| 日韩精品在线一区二区三区| 色综合久久久| 亚洲国产欧美一区二区三区丁香婷| 日韩精品午夜视频| 国产理论片午午午伦夜理片2021| 亚洲国产美女精品久久久久∴| 国产69精品久久久久777| 91久久久爱一区二区三区| 国产精一区二区三区| 中文字幕制服丝袜一区二区三区| 国产一区网址| 国产一级精品在线观看| 午夜社区在线观看| 国产99小视频| 99久久免费精品视频| 四虎精品寂寞少妇在线观看 | 国产伦理精品一区二区三区观看体验 | 欧美日韩精品在线一区二区| 久久午夜无玛鲁丝片午夜精品| 久久精品爱爱视频| 欧美一区二区三区久久精品视| 欧美一区二区久久| 日本一区二区三区免费在线| 国产精品1234区| 国产理论片午午午伦夜理片2021 | 亚洲神马久久| 国产精品白浆一区二区| 午夜wwww| 日本少妇一区二区三区| 国产一区二区免费在线| 欧美精品日韩精品| 狠狠插狠狠爱| 色婷婷精品久久二区二区我来| 欧美日韩国产区| 欧美一区二区激情三区| 国产91高清| 日韩av在线电影网| 国产精品v一区二区三区| 久久综合二区| 国产丝袜一区二区三区免费视频| 国产九九影院| 99久久精品一区二区| 欧美一区二区三区久久| 91精品综合在线观看| 国产一区二区片| 久久99精品国产麻豆宅宅| 国产精品9区| 97人人模人人爽人人喊0| 色综合久久久| 久久久久国产亚洲日本| 国产无套精品久久久久久| 国产在线观看二区| 国产天堂第一区| 国产视频一区二区视频| 亚洲五码在线| 国产区图片区一区二区三区| 日韩欧美一区二区在线视频| 中文字幕制服丝袜一区二区三区| 女女百合互慰av| 日本一区午夜艳熟免费| 一区二区三区电影在线观看| 国产日韩欧美视频| 国产精品自产拍在线观看桃花| 国产jizz18女人高潮|