正文

人工智能言语生成器“达到人类平价”＆mdash;但是科学家说，这太危险了。

admin V管理员 /昨天/0评论

0614

文章最后更新时间2025年06月14日，若文章内容或图片失效，请留言反馈！

微软已经开发了一个新的人工智能（AI）显然令人信服的语音生成器不能向公众发布。

VALL-E 2是一种文本到语音（TTS）发电机，可以使用几秒钟的音频来重现人类说话的声音。

微软研究人员说，VALL-E 2能够在6月17日在Pre Print Server上发表的一篇论文中发出“以原始演讲者的确切声音，可与人类绩效相提并论的准确，自然语音” arxiv。换句话说，新的AI语音生成器令人信服地被误认为是一个真实的人＆mdash;至少根据其创作者的说法。

研究人员在本文中写道：“ VALL-E 2是神经编解码器语言模型的最新进步，它标志着零击文本到语音综合（TTS）中的里程碑，这是第一次实现人类奇偶校验。 ”“此外，Vall-E 2始终综合出高质量的演讲，即使是由于传统上由于其复杂性或重复性短语而具有挑战性的句子。”

有关的： 新的AI算法标志以98％精度＆mdash;比现在任何其他工具都要好

在这种情况下，人类的奇偶校验意味着，Vall-E 2产生的语音匹配或超过了Microsoft使用的基准测试中人类语音的质量。

鉴于包含两个关键功能，AI引擎能够做到这一点：“重复意识到采样”和“分组的代码建模 ” 。

重复意识到的抽样通过解决“令牌”的重复来改善AI将文本转换为语音的方式。语言的小单元，例如单词或单词的一部分＆mdash;在解码过程中防止无限的声音或短语循环。换句话说，此功能有助于改变Vall-E 2的语音模式，使其听起来更加流畅和自然。

同时，分组的代码建模通过降低序列长度＆mdash来提高效率；或模型以单个输入序列处理的单个令牌数量。这加快了VALL-E 2产生语音的速度，并有助于处理处理长声音的困难。

研究人员使用语音库中的音频样本和VCTK来评估VALL-E 2匹配的人类录音。他们还使用了Ella-V＆Mdash;一个评估框架，旨在衡量产生的语音的准确性和质量；确定如何有效地处理更复杂的语音生成任务。

研究人员写道：“我们在LibrisPeech和VCTK数据集上进行的实验表明，VALL-E 2在语音鲁棒性，自然性和说话者的相似性方面超过了先前的零摄影TTS系统。”“这是第一个在这些基准上达到人类平价的同类产品。”

研究人员在论文中指出，Vall-E 2＆Rsquo的输出的质量取决于语音提示的长度和质量。以及背景噪声等环境因素。

尽管具有能力，但由于潜在的滥用风险，Microsoft不会向公众发布Vall-E 2 。这与对语音克隆和深击技术的关注不断增加。像OpenAI这样的其他AI公司对其语音技术施加了类似的限制。

研究人员在A中写道：“ VALL-E 2纯粹是一个研究项目。目前，我们没有计划将Vall-E 2纳入产品或扩大公众的访问权限。 ” 博客文章。“它可能会在滥用模型时承担潜在的风险，例如欺骗语音识别或模仿特定的说话者。”

也就是说，他们确实建议AI语音技术将来可以看到实际应用。研究人员补充说：“ VALL-E 2可以综合说话者身份的语音，并可以用于教育学习，娱乐，新闻，自行撰写的内容，可访问性功能，交互式语音响应系统，翻译，聊天机器人等。”

他们继续说：“如果该模型在现实世界中被普遍看不见说话者，则应包括一项协议，以确保说话者批准使用其声音和合成的语音检测模型。 ”

-- 展开阅读全文 --

相关阅读

目录[+]