打破全球语言壁垒：Meta 推出支持 1600 种语言的语音识别系统并开源

IT之家 11 月 11 日信息，Meta 根底人工智能磋议（FAIR）团队推出了“全语种自愿语音识别体系”（Omnilingual ASR），该体系可支柱 1600 众种道话的语音转写，大幅拓展了眼前语音识别技艺的道话笼罩畛域。

此前，大大都语音识别器械都一心于几百种资源丰盛的道话，这些道话有洪量的转灌音频。而环球现存 7000 余种道话中，绝大大都因缺乏锻练数据而险些无法获取人工智能支柱。Omnilingual ASR 的推出旨正在弥合这一畛域。

据 Meta 先容，正在其支柱的 1600 种道话中，有 500 种系初次被任何 AI 体系所笼罩。FAIR 团队将该体系视为迈向“通用语音转写体系”的首要一步，希望助力打垮环球道话壁垒，激动跨道话疏通与讯息可及性。

据IT之家领会，体系识别精度与锻练数据量亲切合连。凭据 Meta 宣告的数据，Omnilingual ASR 正在测试的 1600 种道话中，对此中 78% 的道话达成了低于 10% 的字符舛误率（CER）；对待起码具有 10 小时锻练音频的道话，达此精度轨范的比例擢升至 95%；即使对待音频时长亏折 10 小时的“低资源道话”，仍有 36% 达成了低于 10% CER 的展现。

为饱吹后续磋议与本质行使落地，Meta 同步宣布了“全语种 ASR 语料库”（Omnilingual ASR Corpus）—— 一个蕴涵 350 种代外性亏折道话的、大范围转录语音数据集。该语料库采用学问共享具名许可制定（CC-BY）盛开获取，旨正在支柱开辟者与磋议职员针对特定当地道话需求，构修或适配定制化的语音识别模子。

Omnilingual ASR 的一项枢纽革新正在于其“自带道话”（Bring Your Own Language）性能，该性能依托上下文进修（in-context learning）机制达成。受大型道话模子技艺开导，用户仅需供应少量配对的语音与文本样本，体系即可直接从中进修，无需从新锻练或依赖高算力资源，就能增添新的道话。

Meta 指出，外面上该设施可将 Omnilingual ASR 的道话支柱才华扩展至 5400 余种，远超眼前行业轨范。尽量对极低资源道话的识别质料尚不足全部锻练的程度，但该技艺已初次为浩繁此前全部缺乏语音识别才华的道话社区供应了凿凿可行的管理计划。

Meta 以 Apache 2.0 开源许可制定宣布 Omnilingual ASR 全体模子，许诺磋议职员与开辟者自正在应用、删改及商用；配套数据集则采用 CC-BY 制定盛开。Omnilingual ASR 模子家族涵盖从实用于低功耗摆设的轻量级 3 亿参数版本，到寻找“顶尖精度”的 70 亿参数版本，满意分别行使场景需求。全数模子均基于 FAIR 自助研发的 PyTorch 框架 fairseq2 构修。

联系人：	王先生
电话：	15640228768
微信：	1735252255
地址：	沈阳市铁西区兴华南街58-6号

思陌产品

使用帮助

关于我们

资讯反馈

联系我们