AI重磅!华为“黑科技”来了
- 2025-09-02 18:42:00
- aiadmin 原创
- 11
8月12日下昼,华为正式宣告AI推理“黑科技”UCM(推理回顾数据管制器),助力治理AI推理效力与用户体验的困难。
AI推理是AI家当鄙人一阶段的成长重心。AI家当已从“探索模子才华极限”转向“探索推理体验最优化”,推理体验直接相合用户写意度、贸易可行性等中心需求,成为权衡AI模子代价的黄金标尺。
据悉,华为设计正在9月开源UCM。届时,华为将正在魔擎社区首发,后续渐渐功绩给业界主流推理引擎社区,并共享给全盘Share Everything(共享架构)的存储厂商和生态伙伴。
UCM是一款以KV Cache(键值缓存)为中央的推理加快套件,调和众类型缓存加快算法用具,可能分级管制推理历程中发生的KV Cache回顾数据,扩张推理上下文窗口,以告竣高含糊、低时延的推理体验,从而低落每个Token(词元)的推理本钱。
KV Cache是一种用于优化预备效力、裁汰反复运算的症结时间,然则需求占用GPU(图形照料器)的显存存储史册KV(键值)向量,天生的文本越长,缓存的数据量越大。
跟着AI家当的成长迈入代劳式人工智能期间,模子领域化扩张、长序列需求激增,以及推理职责并发量伸长,导致AI推理的KV Cache容量伸长,逾越了显存的承载才华。
目前,外洋领先芯片厂商通过从硬件迭代到软件优化,再到生态绑定,修建起AI推理期间的“铁三角”,短期内难以被取代。中邦企业正在单点硬件时间上有所打破,但邦产软件及生态适配仍有较大差异。
跟着音讯时间运用改进家当的邦产化改制提速,各行业渐渐认识到需求加快构开邦产推理生态。UCM的中心代价正在于供给更速的推理呼应、更长的推理序列等。
以供给更长的推理序列为例,UCM通过动态KV逐层卸载、地方编码扩展等组适时间,将超长序列的Cache(缓存)分层卸载至外置专业存储,应用算法打破模子和资源范围,告竣10倍级推理上下文窗口扩展。
据悉,UCM可依据回顾热度正在HBM、DRAM、SSD等存储介质中告竣按需滚动,同时调和众种稀少当心力算法告竣存算深度协同,使长序列场景下TPS(每秒照料token数)擢升2至22倍,从而低落每个Token的推理本钱。
Token是AI模子中的基础数据单元。正在演练历程中,AI大模子会进修记号Token之间的合联,从而实践推理并天生精确、相干的输出。
数据显示,外洋主流AI大模子的单用户输出速率已进入200 Tokens/s区间(时延5ms),而我邦主流AI大模子的单用户输出速率一般小于60 Tokens/s(时延50至100ms)。
同时,跟着AI运用向种种本质场景深度浸透,用户领域和乞请量快速攀升,模子了解和天生的Token数体现指数级伸长态势。
浩大的Token照料量意味着清脆的运营本钱,蕴涵任事器庇护、电力消费陆续攀升等,而保险通畅推理体验需求加大算力加入。
最大化的单Token智能承载力和优化本钱,成为繁众厂商的中心倾向,而且Token经济期间光降,演练、推理效力与体验量纲都以Token为外征。
目前,华为AI推理加快计划集合UCM与华为AI存储(OceanStor A系列)时间,与中邦银联发展灵巧金融AI推理加快运用试点,三大落地营业场景折柳是客户之声、营销谋划、办公助手。
以办公助手场景为例,通过运用华为AI推理加快计划,可扶助用户输入跨越17万Tokens的超长序列推理,避免超长序列模子推不动的题目。
联系人: | 王先生 |
---|---|
电话: | 15640228768 |
微信: | 1735252255 |
地址: | 沈阳市铁西区兴华南街58-6号 |
-
思陌产品
深度学习系统产品介绍 -
使用帮助
使用手册 -
关于我们
公司简介 -
资讯反馈
交流论坛 -
联系我们
Tel 15640228768 QQ/WX技术支持 1735252255