微软已经开发了一个新的 人工智能 (AI)显然令人信服的语音生成器不能向公众发布 。
VALL-E 2是一种文本到语音(TTS)发电机,可以使用几秒钟的音频来重现人类说话的声音。
微软研究人员说 ,VALL-E 2能够在6月17日在Pre Print Server上发表的一篇论文中发出“以原始演讲者的确切声音,可与人类绩效相提并论的准确,自然语音” arxiv。换句话说 ,新的AI语音生成器令人信服地被误认为是一个真实的人—至少根据其创作者的说法 。
研究人员在本文中写道:“ VALL-E 2是神经编解码器语言模型的最新进步,它标志着零击文本到语音综合(TTS)中的里程碑,这是第一次实现人类奇偶校验。 ”“此外,Vall-E 2始终综合出高质量的演讲 ,即使是由于传统上由于其复杂性或重复性短语而具有挑战性的句子。”
有关的: 新的AI算法标志以98%精度—比现在任何其他工具都要好
在这种情况下,人类的奇偶校验意味着,Vall-E 2产生的语音匹配或超过了Microsoft使用的基准测试中人类语音的质量。
鉴于包含两个关键功能 ,AI引擎能够做到这一点:“重复意识到采样”和“分组的代码建模 ” 。
重复意识到的抽样通过解决“令牌”的重复来改善AI将文本转换为语音的方式。语言的小单元,例如单词或单词的一部分—在解码过程中防止无限的声音或短语循环。换句话说,此功能有助于改变Vall-E 2的语音模式 ,使其听起来更加流畅和自然 。
同时,分组的代码建模通过降低序列长度&mdash来提高效率;或模型以单个输入序列处理的单个令牌数量。这加快了VALL-E 2产生语音的速度,并有助于处理处理长声音的困难。
研究人员使用语音库中的音频样本和VCTK来评估VALL-E 2匹配的人类录音 。他们还使用了Ella-V&Mdash;一个评估框架 ,旨在衡量产生的语音的准确性和质量;确定如何有效地处理更复杂的语音生成任务。
研究人员写道:“我们在LibrisPeech和VCTK数据集上进行的实验表明,VALL-E 2在语音鲁棒性,自然性和说话者的相似性方面超过了先前的零摄影TTS系统。”“这是第一个在这些基准上达到人类平价的同类产品 。”
研究人员在论文中指出 ,Vall-E 2&Rsquo的输出的质量取决于语音提示的长度和质量。以及背景噪声等环境因素。
尽管具有能力,但由于潜在的滥用风险,Microsoft不会向公众发布Vall-E 2 。这与对语音克隆和深击技术的关注不断增加。像OpenAI这样的其他AI公司对其语音技术施加了类似的限制。
研究人员在A中写道:“ VALL-E 2纯粹是一个研究项目。目前,我们没有计划将Vall-E 2纳入产品或扩大公众的访问权限 。 ” 博客文章。“它可能会在滥用模型时承担潜在的风险 ,例如欺骗语音识别或模仿特定的说话者。”
也就是说,他们确实建议AI语音技术将来可以看到实际应用 。研究人员补充说:“ VALL-E 2可以综合说话者身份的语音,并可以用于教育学习 ,娱乐,新闻,自行撰写的内容 ,可访问性功能,交互式语音响应系统,翻译 ,聊天机器人等。”
他们继续说:“如果该模型在现实世界中被普遍看不见说话者,则应包括一项协议,以确保说话者批准使用其声音和合成的语音检测模型。 ”