在这篇文章中,我们选取了四个中高频生活场景和市面上常见的五款语音助手进行测评,看看它们在这些场景中到底能做哪些事情,哪些方面还没有做好。
曾几何时,人们与手机、汽车交互的方式从选择指令变成了自然对话,这种方式让人们享受了方便,因为技术不断发展,AI 助手能为我们做的事情也越来越多。
前段时间,丹麦的「合成党」(The Synthetic Party)成为了热门新闻,这个新组织曾希望在 11 月的大选中获得议会席位,其公众形象和名义领袖是 AI 聊天机器人「拉尔斯」(Leader Lars)。
根据该党的创始人、艺术家和研究员 Asker Staunæs 的说法,如果该党进入议会,人工智能将决定政策和议程(比如建立每月 13799 美元的全民基本收入,是丹麦平均工资的两倍以上),而人类将充当该计划的解释者。不过最终,支持合成党的签名未能达到选举所要求的 2 万个,合成党 AI 党魁也就失去了机会。
虽然 AI 制定政策看起来还是一个遥不可及的尝试,但与人交流、推荐和购物已是当今人工智能的「基本能力」了——很多品牌的手机上、智能音箱里都内置有这样的智能助手,其功能我们每天都可以接触到。
但和面向研究和技术展示的聊天机器人不同,人们在使用语音助手订机票、点外卖时带有明确的目的,如何在连续对话中获取信息、正确理解用户意图并完成特定任务,是相关 AI 算法面临的重要挑战,现有的语音助手在不同场景中的表现也参差不齐。
在这篇文章中,我们选取了四个中高频生活场景和市面上常见的五款语音助手进行测评,看看它们在这些场景中到底能做哪些事情,哪些方面还没有做好。
四个高频场景包括
点外卖、选餐厅、订电影票和订酒店
。参与评测的语音助手包括
天猫精灵(天猫精灵 IN 糖)、玩秘(独立 APP)、小度(小度智能屏 1S)、晓悟(独立 APP)和 Siri(搭载于苹果手机)
。
评测过程中,我们先在这些语音助手上尝试了各个场景,然后根据体验的情况选出了这些产品各自擅长的领域进行进一步评测。最终,
每款语音助手只参与一个场景的详细测评,每场测评包含 100 句(50 轮)对话
。
在菜品的划分上,天猫精灵基本能够按照用户需求找到对应的菜品,比如「大闸蟹」、「炸鸡」、「小龙虾」,并主动播报店名,询问用户是否购买。此外,它也可以帮你寻找附近的美食,并告诉你距离多远、有什么特色菜等信息,有时候甚至能提供一些百科知识,比如大闸蟹的吃法。这使得其前两轮的对话往往进行得比较顺利。
不过,在后续的对话中,天猫精灵非常容易「跑题」,点外卖过程中会突然跳转到购物、歌曲播放、百科知识等不相关的场景。比如,用户说「换个别的」,天猫精灵会误以为用户想要点歌,然后就开始播放歌曲,让用户摸不着头脑。
另外,对于菜品的细粒度信息,天猫精灵似乎掌握比较有限,比如不能区分菜系。而且在用户不满意当前推荐的时候,天猫精灵可能会就此结束对话(而不是继续推荐)。此时,用户就不得不重启新一轮的对话。
另一个参与外卖场景测评的是轮子科技出品的玩秘 APP
(华为、荣耀等品牌的手机的语音助理中也搭载了玩秘。据了解,玩秘 APP 中的 NLP 模型有重大升级,因此这里选取玩秘 APP 作为测评对象)。
首先,在菜品的划分上,玩秘 APP 支持多种点单方式,你既可以说「我想喝咖啡」、「我想吃牛排」或者「我想吃 xx 饭店」,也可以说「我想吃点清淡的」、「我想吃点辣的」,这些玩秘都能听懂,首轮对话轻松过关。
如果你对推荐满意,它会帮你加入购物车,甚至还会帮你凑够起送价并提醒你填写备注。
如果你对推荐不满意,玩秘会继续推荐,而不是结束对话。值得注意的是,玩秘能够理解到很多表示拒绝的词,比如「不爱吃」、「太油了」、「太贵了」,然后在下一轮推荐中主动避雷,并把你的偏好记录下来,对话再长也不会脱离外卖场景。
不过,由于中国菜品非常复杂,而且用户的个性化需求也比较丰富,玩秘在理解过程中也会偶尔出错,比如不理解回锅肉中有肥肉,不知道茶树菇属于素菜等。
此外,和我们评测的另外几款语音助手一样,玩秘在菜品价格对比方面还不太成熟,有时候无法按照用户需求推荐更加便宜的菜品。
在首轮问答中,小度支持多种餐厅筛选方式,比如按照评分(「永旺评分最高的餐厅」)、距离(「离我最近的西餐厅」)、菜品(「想吃龙虾」)等等,这点和外卖场景的两个语音助手是类似的。在达到用户满意之后,小度会询问用户是否导航前往,还能在导航开始后切换不同的导航方式。
不过,如果你想进一步了解餐厅的详细信息,比如特色菜、是否有包厢…… 小度往往没办法提供。
而且,在没有听懂的情况下,小度的导航功能似乎非常容易误触。
此外,和外卖不同的一点是,餐厅往往会带一些社交属性,比如有些酒店可以办婚礼。小度在这方面的意图理解能力似乎还不太成熟,需要用户给出更明显的需求描述。
首先,当被要求推荐电影时,晓悟能准确地找出当前正在影院上映的电影,而不是将院线电影和网络电影混为一谈,这是一些手机语音助手容易混淆的地方。其次,它还能匹配到指定地点的电影院,并导航前往,还有自动选座等功能。
不过,美中不足的是,晓悟基本上不支持按照常用时间段(如上午场、下午场)选电影,也很难给出电影的详细信息(如电影内容、类型、票价对比)。更重要的是,对于不同的问题,晓悟有时会连续给出相同的答案,很多情况下可能答非所问。在电影场景所需要的长对话中,这会对用户的耐心形成一定的考验。
此外,在与选座相关的交互中,晓悟的自然语言理解能力也有待加强。
在酒店推荐场景中,我们选择了搭载在苹果手机上的 Siri 进行测试。
「Hey,Siri,给我定个酒店。」对于这种简单、直接的要求,Siri 应对起来似乎没有什么压力,它会推荐一个距离用户较近且评分尚可的酒店,也可以导航前往或者给酒店打电话,甚至可以帮用户寻找附近的美食等信息。
但如果你想知道更细粒度的信息,比如酒店房型、价格、是否包含早餐等,Siri 往往没有办法提供。这种情况下,它可能变身「搜索引擎」,搜出和当前话题无关的内容展示给你。
此外,与前几款语音助手相比,Siri 的交互明显更依赖屏幕,播报内容比较有限,很多时候给出的回答都是「我找到了这些结果」,而不是在用户询问「哪一个」的时候给出一个具体的推荐,或者一个明确的答案。
所以总体来看,我们基本可以依靠 Siri 获取一些酒店推荐信息,但要想依靠这些信息直接预订,信息量还远远不够,而且「下订单」这一动作也不能靠 Siri 来完成。
在 Siri 诞生之初,它的创始人就假设,语音助手应当是「执行引擎」,而不是简单的「搜索引擎」。
从测试结果来看,五款语音助手基本都实现了从简单的「搜索引擎」到复杂的「执行引擎」的跨越,可以帮我们找店、导航、下单甚至选座、凑起送费…… 但在意图理解能力和面向任务的连续对话能力方面,几款语音助手的表现还存在较大差异。
在各自经历的 100 句对话中,几款语音助手的理解率分别为:天猫精灵(44%);玩秘(82%);小度(44%);晓悟(32%);Siri(40%)。
可以看出,玩秘在测评中的表现尤其亮眼,在外卖场景中不仅能准确分辨菜品类型、口味等信息,还能理解用户通过不同措辞表达的意图,在多轮对话中成功地保持了对话场景和逻辑的一致性,这些都是强大的意图理解能力和连续对话能力的表现。据了解,这些得益于其背后的公司轮子科技自主研发的基于贝叶斯网络的 Causal Inference NLP 算法框架。该框架可以模拟人类因果认知系统,实现高理解准确度的语义解析 NLP 解决方案,因此才能如此出色地应对订外卖等语义理解难度较高的场景。
可以预见的是,随着用户对语音交互接受程度的提高,大家的期望也会越来越高,会希望语音助手能够协助我们更便捷地完成那些需要了解垂直领域才能完成的任务,而这正是玩秘等几款语音助手正在努力的方向。这些语音助手致力于提高人们生活的便利程度,体现了人工智能的社会价值和实用价值,未来将有非常广阔的发展空间。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com