Nari Labs 开源 16 亿参数文字转语音模型 Dia支持精细化调节

IT之家 4 月 24 日动静，由两名韩邦筹议者组修的 Nari Labs 劳动室于前天正在GitHub和Hugging Face开源了具有 16 亿参数的文字转语音AI模子Dia，目前相应模子已正在GitHub上成果了横跨 9300 颗星标，IT之家附项目 GitHub页如下：

相应筹议者声称Dia的音质相关于业界的文字转语音模子具有更灵巧的自正在度，同时正在天生的语音自然度方面超越了 ElevenLabs Studio、Sesame等竞品。其增援对输出音频的音色、心情和语调举行紧密调治，还能模仿各类非说话相易（如大乐、咳嗽或清嗓子等）。

官方对照测试显示，Dia正在声调自然度、神色丰饶度和语音节拍感方面，均优于笃志自然语音合成的ElevenLabs Studio以及Sesame推出的对线B。

目前，Dia仅增援英文，必要英伟达RTX 3080及以上显卡才调当地安置运转，然而用户也能够正在Hugging Face Spaces线上平台中正在线操纵。Nari Labs暗示，后续将推具名向日常消费者的一键安置任事，进一步消重操纵门槛，让更众人无缝体验高质料文本转语音本事。