仅三个月百度发布全新Deep Voice 2 能掌握数百种口音

发布: 2017-05-27 09:16 | 作者: | 来源: 飞象网 | 字体: 小中大

相关专题：人工智能中国联通

近日，美国科技媒体The Verge发表署名文章，对百度刚刚推出的语音合成系统Deep Voice2进行高度评价，这一新技术可以通过短短半小时就学会新的口音，该文作者认为，这一产品的技术水平已经超过了苹果的Siri。

最近几年来，随着人工智能的发展，研究人员利用深度学习制造出能识别物体、理解口语，甚至模拟人类声音的系统，人工智能能够实现的功能越来越多，而且完成任务的质量也越来越高。

三个月前，百度展示了语音合成系统Deep Voice，可以实时合成出与真实人声区别很小的语音，不过这一系统一次只能学习一种音色，也就是说，如果需要合成不同语音特征的声音，需要重复进行长时间大量语料的训练。而此次百度推出的Deep Voice 2，则可以在短短半个小时内就学会一个特定说话人的口音，在这个基础上，系统还可以自动学习成百上千种口音，也就是能模仿数百个人讲话。

该文作者以苹果Siri与百度Deep Voice 2进行了比较。Siri每个新的语音都需要记录一个真人数千小时的发音语料，然后再进行长时间的训练并由工程师进行调整，从而让Siri说话。而Deep Voice 2则采用了不同的技术路径，通过学习数百个人的发音语料建立起人类发音模型，然后通过调整这一共同模型的不同参数来模拟不同人的发音，这整个过程都不需要人工干预，效率显然远高于Siri。

对此百度硅谷AI实验室Deep Voice项目的科研专家安德鲁吉本斯基（Andrew Gibiansky）介绍说，“给出正确的数据，它就可以自己找到语音中的重要特点并进行自我学习。”

语音识别技术的应用场景和商业机会已是公认的广阔，而合成技术未来的机会亦是空间无限。Deep Voice 2可以用于大多数的人机交互场景，为我们的数字助理创建各种自定义角色。例如百度与中国联通就签署了合作协议组建智能客服，这样用户与智能客服的沟通就会出现不同的声音。此外，这项技术还可以应用在电子书阅读器的朗读功能，让电子书内容里的每一个角色都有属于自己的声音和相应的情绪、语气，听起来会生动很多。另外，Deep Voice 2可以用于其他需要语音交互的场景下，例如个性化的语音导航、智能家电等，都可以使用这一功能学习个性化的语音，比如自己喜欢的明星或是自己的男（女）朋友的声音，而无需再依赖导航产品官方发布的语音包。经历了键盘鼠标、触摸式的人机交互之后，语音作为第三代人机交互方式的浪潮已经到来。