AI重磅！华为“黑科技”来了

8月12日下昼，华为正式宣告AI推理“黑科技”UCM（推理回顾数据管制器），助力治理AI推理效力与用户体验的困难。

AI推理是AI家当鄙人一阶段的成长重心。AI家当已从“探索模子才华极限”转向“探索推理体验最优化”，推理体验直接相合用户写意度、贸易可行性等中心需求，成为权衡AI模子代价的黄金标尺。

据悉，华为设计正在9月开源UCM。届时，华为将正在魔擎社区首发，后续渐渐功绩给业界主流推理引擎社区，并共享给全盘Share Everything（共享架构）的存储厂商和生态伙伴。

UCM是一款以KV Cache（键值缓存）为中央的推理加快套件，调和众类型缓存加快算法用具，可能分级管制推理历程中发生的KV Cache回顾数据，扩张推理上下文窗口，以告竣高含糊、低时延的推理体验，从而低落每个Token（词元）的推理本钱。

KV Cache是一种用于优化预备效力、裁汰反复运算的症结时间，然则需求占用GPU（图形照料器）的显存存储史册KV（键值）向量，天生的文本越长，缓存的数据量越大。

跟着AI家当的成长迈入代劳式人工智能期间，模子领域化扩张、长序列需求激增，以及推理职责并发量伸长，导致AI推理的KV Cache容量伸长，逾越了显存的承载才华。

目前，外洋领先芯片厂商通过从硬件迭代到软件优化，再到生态绑定，修建起AI推理期间的“铁三角”，短期内难以被取代。中邦企业正在单点硬件时间上有所打破，但邦产软件及生态适配仍有较大差异。

跟着音讯时间运用改进家当的邦产化改制提速，各行业渐渐认识到需求加快构开邦产推理生态。UCM的中心代价正在于供给更速的推理呼应、更长的推理序列等。

以供给更长的推理序列为例，UCM通过动态KV逐层卸载、地方编码扩展等组适时间，将超长序列的Cache（缓存）分层卸载至外置专业存储，应用算法打破模子和资源范围，告竣10倍级推理上下文窗口扩展。

据悉，UCM可依据回顾热度正在HBM、DRAM、SSD等存储介质中告竣按需滚动，同时调和众种稀少当心力算法告竣存算深度协同，使长序列场景下TPS（每秒照料token数）擢升2至22倍，从而低落每个Token的推理本钱。

Token是AI模子中的基础数据单元。正在演练历程中，AI大模子会进修记号Token之间的合联，从而实践推理并天生精确、相干的输出。

数据显示，外洋主流AI大模子的单用户输出速率已进入200 Tokens/s区间（时延5ms），而我邦主流AI大模子的单用户输出速率一般小于60 Tokens/s（时延50至100ms）。

同时，跟着AI运用向种种本质场景深度浸透，用户领域和乞请量快速攀升，模子了解和天生的Token数体现指数级伸长态势。

浩大的Token照料量意味着清脆的运营本钱，蕴涵任事器庇护、电力消费陆续攀升等，而保险通畅推理体验需求加大算力加入。

最大化的单Token智能承载力和优化本钱，成为繁众厂商的中心倾向，而且Token经济期间光降，演练、推理效力与体验量纲都以Token为外征。

目前，华为AI推理加快计划集合UCM与华为AI存储（OceanStor A系列）时间，与中邦银联发展灵巧金融AI推理加快运用试点，三大落地营业场景折柳是客户之声、营销谋划、办公助手。

以办公助手场景为例，通过运用华为AI推理加快计划，可扶助用户输入跨越17万Tokens的超长序列推理，避免超长序列模子推不动的题目。