Nari Labs 开源 16 亿参数文字转语音模型 Dia支持精细化调节

2025-06-25 19:32:00
aiadmin
原创
7

IT之家 4 月 24 日动静,由两名韩邦筹议者组修的 Nari Labs 劳动室于前天正在GitHub和Hugging Face开源了具有 16 亿参数的文字转语音AI模子Dia,目前相应模子已正在GitHub上成果了横跨 9300 颗星标,IT之家附项目 GitHub页如下:

相应筹议者声称Dia的音质相关于业界的文字转语音模子具有更灵巧的自正在度,同时正在天生的语音自然度方面超越了 ElevenLabs Studio、Sesame等竞品。其增援对输出音频的音色、心情和语调举行紧密调治,还能模仿各类非说话相易(如大乐、咳嗽或清嗓子等)。

官方对照测试显示,Dia正在声调自然度、神色丰饶度和语音节拍感方面,均优于笃志自然语音合成的ElevenLabs Studio以及Sesame推出的对线B。

目前,Dia仅增援英文,必要英伟达RTX 3080及以上显卡才调当地安置运转,然而用户也能够正在Hugging Face Spaces线上平台中正在线操纵。Nari Labs暗示,后续将推具名向日常消费者的一键安置任事,进一步消重操纵门槛,让更众人无缝体验高质料文本转语音本事。

联系我们
联系人: 王先生
电话: 15640228768
微信: 1735252255
地址: 沈阳市铁西区兴华南街58-6号