英特尔AutoRound算法正式落地 支持多硬件平台并提升低比特量化大模型性能

2025-12-26 10:49:00
aiadmin
原创
12

英特尔告示将AutoRound算法集成到LLM Compressor,以晋升低比特量化大模子的职能与结果。该算法可正在维系模子正确度的条件下,完成更疾、更轻量的推理,同时兼容网罗英特尔自家GPU与英伟达CUDA正在内的众硬件平台。

英特尔改日推出的“Crescent Island”系列数据核心GPU将原生扶助FP8/MXFP8/MXFP4等格局,使量化模子不妨直接诈欺这些数据类型带来的硬件加快上风。AutoRound是面向大道话模子(LLM)与视觉道话模子(VLM)的前辈后操练量化(PTQ)算法,通过为每个量化张量引入三个可操练参数(v、α、β),配合逐层处罚和符号梯度降低设施,完成更精准的舍入和裁剪优化。

AutoRound的要紧上风网罗:正在低比特量化条款下支撑较高正确度;扶助众种数据类型;可举行搀杂比特与按层精度查找;零特殊推理开销;合用于LLM与VLM的量化场景。该算法天生的量化模子可正在众个英特尔硬件平台上加快推理,网罗Xeon处罚器、Gaudi加快器、英特尔数据核心GPU、Arc B系列显卡,以及CUDA生态的GPU。

目今AutoRound已扶助Llama、Qwen等主流稠密LLM,并供应轻量的调优流程。英特尔暗示,改日将连续扩展更大量化计划、自愿搀杂比特查找、更众模子族,并增强与LLM Compressor其他压缩算法的协同。

联系我们
联系人: 王先生
电话: 15640228768
微信: 1735252255
地址: 沈阳市铁西区兴华南街58-6号