英伟达推出全新自动语音识别开源模型 1秒处理60分钟音频文件

2025-06-27 19:37:00
aiadmin
原创
37

英伟达即日推出了全新主动语音识别(ASR)开源模子Parakeet TDT 0.6B。该模子仅需1秒即可治理长达60分钟的音频文献,其治理速率是现有主流开源ASR模子的50倍。同时,正在Hugging Face的Open ASR Leaderboard上,Parakeet TDT 0.6B的字错率(WER)低至6.05%,正在开源模子中展现优异,为及时转录、语音阐发、呼唤中央智能化以及音频内容索引等企业级利用供应了巨大增援。

Parakeet TDT 0.6B基于优秀的Transformer架构,采用6亿参数的编码-解码机闭,并诈骗高质料转录数据实行微调。别的,该模子还针对英伟达硬件实行了优化,通过量化和调和内核时间提拔了推理效用,并增援TDT(Transducer Decoder Transformer)架构。

除了速率和精度,Parakeet TDT 0.6B还内置了众项特殊功效。该模子还增援将歌曲内容转录为歌词,这一功效正在音乐索引和媒体平台中具有渊博的利用前景。别的,该模子还增援数字和功夫戳花样化,也许明显提拔集会记载、功令转录和医疗记载的可读性。标点复兴功效的列入,则进一步巩固了下逛自然道话治理(NLP)利用的展现。

联系我们
联系人: 王先生
电话: 15640228768
微信: 1735252255
地址: 沈阳市铁西区兴华南街58-6号