英伟达推出全新自动语音识别开源模型 1秒处理60分钟音频文件
- 2025-06-27 19:37:00
- aiadmin 原创
- 37
英伟达即日推出了全新主动语音识别(ASR)开源模子Parakeet TDT 0.6B。该模子仅需1秒即可治理长达60分钟的音频文献,其治理速率是现有主流开源ASR模子的50倍。同时,正在Hugging Face的Open ASR Leaderboard上,Parakeet TDT 0.6B的字错率(WER)低至6.05%,正在开源模子中展现优异,为及时转录、语音阐发、呼唤中央智能化以及音频内容索引等企业级利用供应了巨大增援。
Parakeet TDT 0.6B基于优秀的Transformer架构,采用6亿参数的编码-解码机闭,并诈骗高质料转录数据实行微调。别的,该模子还针对英伟达硬件实行了优化,通过量化和调和内核时间提拔了推理效用,并增援TDT(Transducer Decoder Transformer)架构。
除了速率和精度,Parakeet TDT 0.6B还内置了众项特殊功效。该模子还增援将歌曲内容转录为歌词,这一功效正在音乐索引和媒体平台中具有渊博的利用前景。别的,该模子还增援数字和功夫戳花样化,也许明显提拔集会记载、功令转录和医疗记载的可读性。标点复兴功效的列入,则进一步巩固了下逛自然道话治理(NLP)利用的展现。
联系我们
联系人: | 王先生 |
---|---|
电话: | 15640228768 |
微信: | 1735252255 |
地址: | 沈阳市铁西区兴华南街58-6号 |
-
思陌产品
深度学习系统产品介绍 -
使用帮助
使用手册 -
关于我们
公司简介 -
资讯反馈
交流论坛 -
联系我们
Tel 15640228768 QQ/WX技术支持 1735252255