语音已实现文字转录 距离人机交流还有多远

timg

如今的语音识别能力,早已在2016年底的实现了较高的准确率(均达97%)。据某科技媒体的作者称:“一旦语音识别的准确率达到99%,那将直接进入产业爆发的黎明”。

备受看好的语音识别

自引入神经网络的方法之后,语音到文字的转换,语音研究领域成为了重要的课题,苹果Siri、亚马逊、科大讯飞等产品,也都受其影响。近期微软便发布了公文,不仅展示有最新的文字转录技术,增强了对话题和局部上下文的适应能力,还表示达到人类的水准已不是梦想。

与此同时,科大讯飞在人工智能领域的贡献也得到了业界内的认可,掌握着足够的话语权。迄今为止,讯飞开放平台的用户、终端数已超过10亿,第三方的创业团队也已突破30万,国内80%以上的硬件创业团队,使用了其核心技术。

人工智能的时代,中国已经开始超越美国。在近些年的语音研发道路上,能够理解语音命令的游戏控制台,可以实时翻译对话的应用,以及能够提供附近比披萨店电话号码的虚拟助手,都已经从虚构变成了现实。

也因技术的不断发展,科大讯飞产业投资董事长徐景明认为,语言是人工智能的助推器,无论是APP、应用或者是各种设备,只要具备有简单自然能听会说以及理解、会思考能力的的智能,就会有助于降低企业的应用门槛。可以说语音识别已成为目前最受关注的领域之一。

不过李开复在2017年3月份的主题演讲中,却谈到语音识别的技术有99%几率死掉。以当下趋势来看,语音识别技术的不断深入发展,已成为一些公司主营业务,然而就目前的程度水平来看,李开复当时提出的问题,在如今也没能有好的解决。

路漫漫兮其修远

李开复从两方面提及到语音识别为什么会有这么大的几率死亡,首先对于一些语音公司高识别率的吹捧,降噪问题一棒子便使其哑口无言,在李开复看来,语音识别未来的出路是如何处理降噪。到了真实的语音交互环境下,没有较好的降噪技术,会因复杂的声场环境中,直接歇菜,而目前的高识别能力,还停留在“近场景语音别”的阶段中。

语音识别降噪是根本,最为进一步的提升,是语音识别的理解能力。就目前的语音识别水平来看,当下的技术能力,还只是停留在类似人类听觉系统内的一个神经单元,具体来说,就是我们常说的语音转化成文字。而其真正技术的突破,在解决降噪的问题基础上,要如何进行语言理解。

从技术角度出发,NLP的研究一直在不断的发展,逐渐成为一门独立的学科,无论是科技巨头还是创业公司,都在这个领域投入有巨大的资源。可是NLP的进展还没有理想的突破口,显示的技术难点还是语义的复杂性,包含因果关系和逻辑推理,虽然基于大数据、并行计算的深度学习带给了NLP长足的进步,但是若想达到人类的这种理解层次,还需要很长的路要走。

总结:

如今的语音识别技术,不论媒体和资本如何夸大造势,真正的对话交互场景里我们还有很远。李开复提出的99%死亡率,其实也是有一定的参考,因为语音识别本质是语声学结合,没有好的耳朵显然是不可行的,毕竟科学无法绕过物理科学的壁垒。

但就目前的技术来看,语音识别已可以与多样化的智能终端形成相辅相成,对于人们的日常处理操作已无大碍。而且技术的发展速度带来了十足的希望,未来真正的人际交流也可能会成现实,并且辅佐着每一位个人或者企业。