

人机交互作为智能语音的核心技术,通过相互理解的交流与通信让机器理解人类语言,从而可以让机器听从人类的安排。机器“能听会说”的技术重点主要依靠两方面:一是语音识别(能听)和语音合成(能说)引擎开发的技术成熟度,二是用于训练引擎的训练语料的规模和品质,其中包含语音和文本语料两大类。

合成语音的自然度和流利度,包括同一句话里的自然停顿,语气正常起伏等能直接感知的指标,与引擎算法设计和语料库,有同等重要的关系。因此,在语料设计方面,就需要考虑到性别年龄口音音色说话速度方言口音等多方面的因素。同时,考虑到成本和计算机运算能力的限制,要用尽可能少的数量覆盖尽可能多的语言现象和发音特点, 这对语料设计者的语言学和语意学的研究积累,也是一个很大的挑战。
海天瑞声已建成中国最大智能语音数据资源平台——天籁数据中心,面向全球科研用户,提供免费或极低收费的高品质科研数据,支持智能语音及相关人工智能领域,如自然语音理解,机器翻译等人机交互技术的科研,测试和模型训练的需要。