2016-04-06 兴富资本
  第41届声学语音与信号处理国际会议(ICASSP 2016)日前在上海成功举办,这是电气电子工程师学会(IEEE)组织的信号处理领域最权威的国际会议。
  来自国内外3000多名优秀的业内从业者参与了本次大会,苹果、微软、阿里、谷歌、思必驰、科大讯飞等多家语音公司在本次大会上展示了他们的前沿技术。海天瑞声,作为国内规模最大的智能技术基础数据及数据服务供应商,也参加了本次会议。
微信图片_20170711103941 
  “海天瑞声”展示了多语种、跨领域的人机交互数据资源及相关的数据服务。尤其是在智能语音技术领域,以其多达110多种语言、覆盖70多个国家和地区的商业和科研语音数据资源积累,以及强大的数据服务能力、一站式数据服务解决方案,给参观者留下了深刻的印象。目前,“海天瑞声”拥有的各类多语种语音训练语料已经达到近8万个小时,也是国内唯一有能力制作多语种发音词典的数据服务提供商。
微信图片_20170711103944
  本届会议的主题是语音识别、图像识别和声音信号处理等技术。在模式识别领域,语音识别和图像识别,在近几年中不断取得重大的技术突破,也催生出一些极具魅力的成功应用,如智能客服、聊天机器人和服务机器人等。
  “海天瑞声”展示了在语音识别技术和多种实际应用所取得的成功背后,大规模语音基础数据资源所发挥的关键作用。在用KALDI搭建的测试系统中,“海天瑞声”的中文普通话识别库(King-ASR-216), 美国英语识别库(King-ASR-066),西班牙英语识别库(King-ASR-142),墨西哥西班牙语识别库(King-ASR-179)等几个数据库,识别准确率达到90%-95%。在实际应用场景中,语音识别的准确率和识别速度,是影响客户体验的最重要的两个因素。而数据库本身的数据量、数据库设计和制作水平,极大的影响着语音识别引擎训练的结果。同时,“海天瑞声”也推出了专注于垂直应用场景的语音基础数据,如多语种的车载语音识别数据库等。
  “海天瑞声”也演示了在处理大规模连续语音数据方面的能力。“海天瑞声”自主研发的语音处理平台,可对70多种语言、任意时长连续语音进行转写和标注。每月的数据处理量能达到6000多个小时。并提供在线转写和标注工具,可使工作人员在异地,通过远程登录进行工作。如何保护用户数据的安全和用户隐私,是实时在线数据拥有者们一直以来最大的顾虑之一。这套系统,集成了“海天瑞声”多年的数据处理经验,极大提高了数据的安全性,将用户数据泄露的风险降到了最低。
  “海天瑞声”还展示了其在图像采集、图像标注等领域的产品和服务,如人脸表情数据库(King-IM-001)其中包含了12万多张精标注的亚洲人脸表情、嘴部动作、眼珠追踪和眉毛动作的图片。以及物体识别、行人轨迹分析、交通工具识别、车牌号识别、人群流量分析等图像标注业务。这些经过精准标注的图像数据和数据标注服务,将推动图像识别等机器学习领域的技术进步,并将推动人脸识别、智能交通流量控制、智能视频监控等领域的应用。
fwsgbdnhfdmg
  本届ICASSP是首次在中国举办,给了中国语音企业一个很好的对接国际交流的平台。随着国内外智能语音相关企业的合作与交流不断深入,以及越来越多的产品“智能化”、“国际化”、“中国化”,智能数据资源的提供和服务将更加不可或缺,也将迎来更加广阔的发展空间。