实现通过网络获得远程语音服务

发布: 2013-04-17 12:02 | 作者: 赛迪网-中国电子报 | 来源: 赛迪网-中国电子报 | 字体: 小中大

相关专题：云计算

【移动通信网讯】电子信息产业发展基金设立了“大规模分布式语音智能处理软件研发及产业化”项目，对“百项共性关键技术”中的面向云计算环境的语音处理技术进行支持，旨在通过本项目的实施，研发云计算环境下的大规模分布式语音合成技术、语音识别技术、语音交互工程技术等；开发具有语音合成、语音识别、声纹识别等处理能力的大规模分布式智能语音处理软件，使得各种设备可以通过网络方便地获得远程语音服务，提升产业竞争力。共安排国拨资金800万元，总投资2570万元，组织了科大讯飞、赛迪牵头的2个团队进行联合技术攻关和产品研发。

突破关键技术

围绕大规模分布式语音智能处理技术，完成了一系列关键技术突破，具体包括：

分布式语音合成技术。研发完成了适合大规模分布式计算的语音合成模型训练、语音生成算法，构建完成了与语种无关的语音合成系统，为3G及移动互联网下分布式的语音应用和服务提供语音合成技术的核心支撑。

分布式语音识别技术研究。本项目从大规模分布式语音应用出发，提出了特征模型域综合噪声补偿的抗噪方法、多流特征的区分性模型训练方法、支持百亿量级超大规模语言模型的实时解码算法，解决了3G及移动互联网下语音识别领域环境噪声鲁棒性、口音适应性、说话内容普适性等技术难题，语音识别系统在实际移动终端应用中准确率达到实用要求并大规模应用推广。

智能语音计算处理工程技术研究。完成了面向网络的分布式环境下进行并行计算、网络计算和高效计算等运算模式等智能语音计算处理工程技术研究，并基于服务器集群的大规模海量数据处理能力对语音合成与识别系统核心模型效果进行了优化。

通过关键技术的攻克，团队开发出了具有高自然度语音合成、高准确度的语音识别及声纹识别等处理能力的大规模分布式智能语音处理软件，具备高稳定性、高效率的语音合成及识别引擎，支持Windows、Linux、UNIX、Android、iOS等不同平台的操作系统，能够提供高效、稳定、易于管理维护的大规模语音服务，并为开发者提供统一的调用界面和应用支撑。支持大规模语音应用环境下的高效率协同，实现高扩展性的网络语音应用接口。该项技术共申请并受理发明专利15项，获得软件著作权4项。