本文系网易智能工作室(公众号 smartman 163)出品。聚焦AI,读懂下一个大时代!
研究人员经常把2017年称为“中国人机对话年”。借助最近语音识别和自然语言处理方面的进步,电子商务巨头阿里巴巴和搜索巨头百度都在开发技术来破解基于语音的通信,来自百度和阿里巴巴技术的声控产品将登陆中国市场。
Tmall Genie拥有阿里巴巴的语音助手,与亚马逊Echo类似。它可以在线订购,查看天气,播放你最喜欢的音乐,通过语音指令控制家里的其他智能设备。
百度的DuerOS对话平台已被作为家庭助理机器人、电视机顶盒和HTC智能手机等产品的一项功能添加进来。该产品的功能类似于AliGenie和其他语音助手,可以进行随机聊天的基本功能。百度表示,它已经收到了大量订购DuerOS开发包的订单。
百度旗下Duer业务部门总经理Kun Jing预计今年将有更多的公司进入该领域。这在一定程度上是由于美国市场的Echo等产品的成功而引发的。这一产品激起了中国科技投资者的兴趣。
研究调查公司IDC预测,到2020年,51%的智能驾驶行业和68%的手机和可穿戴设备行业将会有一个以对话为基础的人工智能系统。他说,就像触摸屏幕使得与移动设备的互动变得如此简单,对话界面将使互动更自然,并吸引更多的人进入互联世界。
基于语音的计算对于中国来说是个不错的选择。如今,在一个标准的标准键盘上输入中文的时候,根据汉字的发音,需要使用一种叫做“拼音”的系统,但由于汉语中有四种声调,而且每一种都有不同的含义,用户在输入发音后,必须从下拉菜单中费力地寻找合适的字符。一个普通的音节,比如“yi”,可以对应60个或更多常用的汉字。一些输入方法可以根据上下文对最有可能的字符进行排序,但它们并不总是准确的。
在今天的中国,语音助理技术的工作原理是将用户的语音指令转换成文本,并根据文本的含义生成相应的响应。这个过程对于基于任务的命令来说非常有效——检查天气或者查找某个中文单词的英文翻译——但它无法维持对多个主题的反复讨论。
解决会话计算需要克服中国语言中一些具有挑战性的复杂问题。例如,在中文中,以不同的顺序排列的相同字符代表不同的东西,即使按照相同的顺序排列,它们也可以根据之前或之后的不同而有不同的含义。此外,书面中文并没有像英语那样自然分隔单词。因此,中国的自然语言处理研究人员必须教他们的算法在哪里插入空格,以便确定特定组合字符的正确含义。汉语动词时态的缺失——对过去、现在或未来没有独特的形式——也使机器难以破译序列的时间轴。
中国的自然语言处理研究人员也在应对其他挑战:大量的方言存在,其中一些是相互理解的,在不同的语境下,同样的表达也可以表达不同的意思。
清华大学副教授、研究自然语言理解的副教授Zhiyong Wu说,要让计算机真正理解人类演讲者的意图并适当地沟通,他们将不得不挑选一些微妙的线索,比如语调和压力。研究社会情感计算的清华大学副教授Jia Jia指出,他们还必须理解情感,因为人类的决策并不完全基于逻辑。
为了让自己的系统更智能,百度今年在其平台上推出了“培训师”模式,允许软件开发人员通过内置的注释器机器人实时贡献语言数据。机器人会收到开发者的反馈(比如第一次系统无法理解的问题的解释),从中学习,然后修正系统。
中国研究人员试图解决这些问题的一个优势是大量的数据。支撑当今计算机语言理解的神经网络需要大量的数据来进行训练。公司拥有的数据越多,它的神经网络就会变得越智能,百度和阿里巴巴等公司也能从庞大的用户群中受益。截至2016年底,百度的月活跃用户达到了6.65亿,截至今年3月,阿里巴巴拥有5.07亿移动月活跃用户。
但阿里巴巴人工智能实验室的科学家Gang Wang表示,研究人员必须设计出不需要大量数据的神经网络,从而提高学习语言的效率。他指出,在现实世界中,人们用不同的方式表达相同的意思,然而不可能去教计算机每种可能的表达方式。在他之前作为一个学术研究者的过程中,他和他的同事们想出了一个方法,在几乎没有数据可用的情况下,教计算机理解一个学科:使用相关学科的数据。例如,要训练神经网络来理解运动医学中的文本,你可以从运动和医学数据中获取数据。
“归根结底,让语音助理在中国取得成功的因素是其内容和服务,”Ainemo公司的创始人Chenfeng Song说。该公司生产一款名为“小鱼”的语音激活家庭助理机器人,于6月上市。Song正计划逐步将教育和医疗保健项目纳入他公司的家庭助理。“小鱼”用的是DuerOS的对话平台。Song指出,语音是一种向无法通过台式电脑和智能手机上网的人传递内容的一种方式,尤其是老年人和儿童。
来源:MIT Technology 作者:YiTing Sun
编译:网易见外智能编译机器人 审校:田俊宏
点击阅读原文,观看更多精彩内容