華為發(fā)布AI推理創(chuàng)新技術UCM:實現(xiàn)高吞吐、低時延推理體驗,降低每Token推理成本

新浪科技訊 8月12日下午消息,發(fā)布在2025金融AI推理應用落地與發(fā)展論壇上,推理吞吐n推華為聯(lián)合中國銀聯(lián)共同發(fā)布AI推理創(chuàng)新技術UCM(推理記憶數(shù)據(jù)管理器),創(chuàng)新實現(xiàn)高吞吐、技術低時延的現(xiàn)高推理體驗。
在當今數(shù)字化時代,低時低AI發(fā)展日新月異。延推驗降大模型訓練的理體理成熱潮尚未消退,AI推理體驗卻已悄然成為AI應用的發(fā)布關鍵。中信建投在2025WAIC期間發(fā)布的推理吞吐n推白皮書指出,AI正從訓練向推理的創(chuàng)新結構性轉變而快速增長。在這樣的技術大背景下,AI推理體驗的現(xiàn)高重要性愈發(fā)凸顯。
推理體驗直接關系到用戶與AI交互時的低時低感受,包括回答問題的延推驗降時延、答案的準確度以及復雜上下文的推理能力等方面。資料顯示,國外主流模型的單用戶輸出速度已進入200 Tokens/s區(qū)間(時延5ms),而我國普遍小于60Tokens/s(時延50 - 100ms),如何解決推理效率與用戶體驗的難題迫在眉睫。
據(jù)介紹,華為此次發(fā)布的AI推理創(chuàng)新技術UCM(推理記憶數(shù)據(jù)管理器),作為一款以KV Cache為中心的推理加速套件,其融合了多類型緩存加速算法工具,分級管理推理過程中產(chǎn)生的KV Cache記憶數(shù)據(jù),擴大推理上下文窗口,以實現(xiàn)高吞吐、低時延的推理體驗,降低每Token推理成本。

責任編輯:郭栩彤
相關文章
- 9月22日消息,國家電影局主辦的2025國慶檔電影片單發(fā)布會,今日在北京中國電影博物館舉行。片單發(fā)布會上還宣布,國慶檔上映的電影將于9月23日9時集中開啟預售。其中,《志愿軍》三部曲的收官之作《志愿軍2025-09-23
索尼經(jīng)典精神續(xù)作!《啦嗒鐺》國區(qū)EA定價92元!
被譽為索尼節(jié)奏游戲經(jīng)典《啪嗒砰》的精神續(xù)作,音樂動作游戲新作 《Ratatan啦嗒鐺)》 今日正式公布了搶先體驗版本的售價與全球各地區(qū)的具體上線時間。搶先體驗定價美元USD): $24.99日元JPY2025-09-23- 9月15日消息,TCL舉辦主題為“不顛覆不發(fā)布”的秋季新品發(fā)布會,SQD-Mini LED正式登場,全球首款采用這一技術的機皇X11L SQD-Mini LED電視以及標桿級R2025-09-23
年輕人不必強上AMG!全新吉利帝豪官圖發(fā)布:顏值不輸
9月15日消息,吉利汽車發(fā)布了第五代帝豪的官圖,新車采用吉利4.0家族設計語言,中網(wǎng)、大燈、線條均有調(diào)整,相比現(xiàn)款車型具有顛覆性的進步。新車使用了全新造型的中網(wǎng),內(nèi)置12根縱向立柱點綴,兩側是三段式L2025-09-23- 9月23日,據(jù)深圳市防汛防旱防風指揮部消息,深圳9月23日下午在全市范圍內(nèi)實行“五停”,其中14時起停工、停業(yè)、停市,20時起停運,22日晚已開始停課。除搶險人員和民生保障人員2025-09-23
- 友情提示:本文配圖或引發(fā)不適,情謹慎觀看?。?!9月15日消息,近日有網(wǎng)友在社交平臺發(fā)帖稱,自己的母親本月9日在店鋪后山散步時不小心踩爛了一個老化了的容器,當場就無法行走。后雖然被緊急送醫(yī),但因為太嚴重2025-09-23