当谷歌开发最新版的Android移动操作系统时,这家网络巨头对这个操作系统解读用户语音命令的方式作出了一些重大的改变。当时谷歌基于所谓的“神经网络”安装了一个语音识别系统,这个“神经网络”是一种计算机化的学习系统,在很大程度上能像人脑那样运作。
负责开发这个项目的谷歌研究科学家文森特·凡毫克(Vincent Vanhoucke)称,对许多用户来说,谷歌作出的这种改变所带来的影响非常大。“这个项目在某种程度上让我们感到惊喜,表明我们只需要改变下模式就能取得相当大的改善。”他说道。
凡毫克表示,与此前版本的Android系统相比,最新Jelly Bean语音识别系统的误差率要低25%左右,而且能让用户更加愿意使用语音命令。他表示,目前用户在使用智能手机语音服务时倾向于使用更加人类化的语言;也就是说,用户越来越不像是跟机器人对话。“这个语音识别系统正在改变人们的行为方式。”凡毫克说道。
“神经网络”给凡毫克等研究人员带来了一种分析海量模式——在Jelly Bean的例子中是用户语言的频谱——的方式,然后预测一种全新的模式可能代表着什么。“神经网络”这个比喻来自于生物学,神经元会与生物体中的其他细胞构成网络,允许其以专业的方式处理信号。在Jelly Bean所使用的“神经网络”中,谷歌可能通过分析庞大的现实世界数据的方式构建了多个语言运作的模式——比如说英语语音搜索请求的模式等。
“人们在很长时间里都相信——之所以会有这种想法,一部分原因是基于我们在人脑中看到的东西——想要获得一个良好的感知系统,那么你就必须使用多层功能。”多伦多大学的计算机科学教授杰弗里·辛顿(Geoffrey Hinton)说道。“但问题在于,你能如何以有效的方式来学习这些东西。”
Android系统接收语音命令,然后谷歌使用“神经网络”模式来对其进行处理,来判断用户的语音内容。谷歌的软件首先会尝试挑选出用户语音中的各个部分,也就是组成单词的不同类型的元音和辅音,这是“神经网络”的一个层面;然后谷歌软件会使用这些信息来作出更加复杂的猜测,每一层都会推动其更加接近于弄明白用户说的是什么。
时至今日,“神经网络”算法不仅正开始进入语音识别和成像软件领域,而且辛顿认为,这种算法将被用于人们需要作出预测的任何领域。在去年11月份,多伦多大学的一个团队曾使用“神经网络”来预测药物分子在现实世界里会如何运动。
迪恩表示,谷歌目前正在多种产品中使用“神经网络”算法——有些是实验性的,有些不是——但没有哪种产品像Jelly Bean语音识别软件那样如此深入地使用这种算法。“这种算法与图像搜索之间也存在着明显的联系。”他说道。“你将可利用图像像素来鉴别目标物体是什么。”谷歌街景服务能使用“神经网络”算法来判断这项服务所拍下来的各种物体之间的区别——举例来说,一座房子与车牌之间的区别。
去年,包括迪恩在内的谷歌研究人员开发了一个“神经网络”程序,能自我学习如何在YouTube上识别猫咪。
“这个领域中还有很多工作要做。”他说道。“但这项技术是非常有前途的。我们希望,在未来几年时间里,我们将可打破人们之间的语言障碍。就个人来说,我认为这会创造出一个更好的世界。”