仅三个月百度发布全新Deep Voice 2 能掌握数百种口音

相关专题: 人工智能 中国联通

近日,美国科技媒体The Verge发表署名文章,对百度刚刚推出的语音合成系统Deep Voice2进行高度评价,这一新技术可以通过短短半小时就学会新的口音,该文作者认为,这一产品的技术水平已经超过了苹果的Siri。

最近几年来,随着人工智能的发展,研究人员利用深度学习制造出能识别物体、理解口语,甚至模拟人类声音的系统,人工智能能够实现的功能越来越多,而且完成任务的质量也越来越高。

三个月前,百度展示了语音合成系统Deep Voice,可以实时合成出与真实人声区别很小的语音,不过这一系统一次只能学习一种音色,也就是说,如果需要合成不同语音特征的声音,需要重复进行长时间大量语料的训练。而此次百度推出的Deep Voice 2,则可以在短短半个小时内就学会一个特定说话人的口音,在这个基础上,系统还可以自动学习成百上千种口音,也就是能模仿数百个人讲话。

该文作者以苹果Siri与百度Deep Voice 2进行了比较。Siri每个新的语音都需要记录一个真人数千小时的发音语料,然后再进行长时间的训练并由工程师进行调整,从而让Siri说话。而Deep Voice 2则采用了不同的技术路径,通过学习数百个人的发音语料建立起人类发音模型,然后通过调整这一共同模型的不同参数来模拟不同人的发音,这整个过程都不需要人工干预,效率显然远高于Siri。

对此百度硅谷AI实验室Deep Voice项目的科研专家安德鲁 吉本斯基(Andrew Gibiansky)介绍说,“给出正确的数据,它就可以自己找到语音中的重要特点并进行自我学习。”

语音识别技术的应用场景和商业机会已是公认的广阔,而合成技术未来的机会亦是空间无限。Deep Voice 2可以用于大多数的人机交互场景,为我们的数字助理创建各种自定义角色。例如百度与中国联通就签署了合作协议组建智能客服,这样用户与智能客服的沟通就会出现不同的声音。此外,这项技术还可以应用在电子书阅读器的朗读功能,让电子书内容里的每一个角色都有属于自己的声音和相应的情绪、语气,听起来会生动很多。另外,Deep Voice 2可以用于其他需要语音交互的场景下,例如个性化的语音导航、智能家电等,都可以使用这一功能学习个性化的语音,比如自己喜欢的明星或是自己的男(女)朋友的声音,而无需再依赖导航产品官方发布的语音包。经历了键盘鼠标、触摸式的人机交互之后,语音作为第三代人机交互方式的浪潮已经到来。



微信扫描分享本文到朋友圈
扫码关注5G通信官方公众号,免费领取以下5G精品资料
  • 1、回复“LTBPS”免费领取《《中国联通5G终端白皮书》
  • 2、回复“ZGDX”免费领取《中国电信5GNTN技术白皮书
  • 3、回复“TXSB”免费领取《通信设备安装工程施工工艺图解
  • 4、回复“YDSL”免费领取《中国移动算力并网白皮书
  • 5、回复“5GX3”免费领取《R1623501-g605G的系统架构1
  • 7、回复“6G31”免费领取《基于云网融合的6G关键技术白皮书
  • 8、回复“IM6G”免费领取《6G典型场景和关键能力白皮书
  • 本周热点本月热点

     

      最热通信招聘

      最新招聘信息

    最新技术文章

    最新论坛贴子