谷歌用机器学习技术优化语音助手 听起来更自然更口语化

2023-05-10 14:56:27

腾讯数码讯(米可)谷歌刚刚发布了一款全新的人工智能语音合成器,它属于谷歌机器学习云工具套件中的一部分。这项名为“Cloud Text-to-Speech”的服务面向的是任何需要语音合成服务的开发者或企业,无论是应用、网页还是虚拟助理均可。这项服务的特别之处在于,云文本内容到语音功能的转换,通过WaveNet驱动,该软件是由谷歌旗下英国人工智能子公司DeepMind负责开发。

这项服务之所以很特别,主要有两个原因。首先自从谷歌在2014年收购DeepMind以来,该公司一直探索将谷歌的人工智能转化为有形产品。这就意味着利用DeepMind的算法,能够将谷歌中心的冷却成本降低40%,同时DeepMind还可以进军医疗保健行业。不过,如果直接将WaveNet整合到云服务中,可能会更有意义。尤其是在谷歌试图从微软和亚马逊手中争夺云业务的同时,将其作为人工智能技术差异化的主要手段。


其次,DeepMind的人工智能语音合成技术是目前行业最先进、最可实现的技术之一。大多数的语音合成器(包括苹果Siri)都使用了所谓的“连接合成”技术,在这个过程中,程序会储存单个音节,然后再将其组合到一起,形成单词和句子。虽然这种方法最近几年在不断进步,但是听起来语调还是非常呆板生硬。

相比之下,WaveNet使用了机器学习来从头开始生成语音,实际上它分析了一个巨大的人类语音数据库的波形,并且以每秒2.4万个样本的速度对其重新创建。最终的结果我们能够感受到一些微妙的变化,包括口音和唇音等。当谷歌在2016年首次推出WaveNet的时候,当时的研究环境计算量太大,目前该技术已经被大幅精简,可以更好的进行下一步研究。

WaveNet在去年10月首次被整合到谷歌Google Assistant中(尽管只支持英文和日文),但现在已经可以在云文本到语音等多种方式选择。谷歌表示,新的服务可以提供32种不同的声音,支持12种语言,用户可以定制高音和语速等细节。所以现在我们可以准备好迎接一轮更真实、跟贴近生活的语音助手了。未来她甚至可以代替你和自己的老板通电话。

来源:The Verge

如有侵权,私信秒删

友情链接

Copyright © 2023 All Rights Reserved 版权所有 广西壮歌分享交流群